Hive 中parse_url的使用

1、Hive的parse_url函数

parse_url(url, partToExtract[, key]) - extracts a part from a URL

解析URL字符串，partToExtract的选项包含[HOST,PATH,QUERY,REF,PROTOCOL,FILE,AUTHORITY,USERINFO]。

【host,path,query,ref,protocol,file,authority,userinfo】

举例：

select parse_url('http://facebook.com/path/p1.php?query=1', 'PROTOCOL') from dual; --http

select parse_url('http://facebook.com/path/p1.php?query=1',
'HOST')
from dual;---facebook.com

select parse_url('http://facebook.com/path/p1.php?query=1',
'REF') from dual;---空

select parse_url('http://facebook.com/path/p1.php?query=1',
'PATH')
from dual;---/path/p1.php

select parse_url('http://facebook.com/path/p1.php?query=1',
'QUERY')
from dual;---空

select parse_url('http://facebook.com/path/p1.php?query=1',
'FILE') from dual;---/path/p1.php?query=1

select parse_url('http://facebook.com/path/p1.php?query=1',
'AUTHORITY') from dual;---facebook.com

select parse_url('http://facebook.com/path/p1.php?query=1',
'USERINFO') from dual;---空

下面的可看可不看

===========================================================

2、URL解释

URL(Uniform Resoure Locator
统一资源定位器）是WWW网页的地址，好比一个街道在城市地图上地址。url使用数字和字母按一定顺序排列以确定一个地址。

URL的第一个部分http://表示的是要访问的文件的类型。在网上，这几乎总是使用http（意思是超文本转换协议,hypertext
transfer protocol.因为它是用来转换网页的协议.)有时也使用ftp（file
transferprotocol),意为文件传输协议,主要用来传输软件和大文件（许多做软件下载的网站就使用ftp作为下载的网址）;telenet（远程登录）,主要用于远程交谈;以及文件调用等,意思是浏览器正在阅读本地盘外的一个文件,而不是一个远程计算机.

URL从左到右由下述部分组成：

（1）Internet资源类型（scheme）：指出WWW
客户程序用来C作的工具。如“http://”表示WWW服务器，“ftp://”表示FTP服务器，“gopher://”表示Gopher服务器，而“new:”表示Newgroup新闻组。

·服务器地址（host）：指出WWW 网页所在的服务器域名。

（2）端口（port）：有时（并非总是这样），对某些资源的访问来说，需给出相应的服务器提供端口号。

（3）路径（path）：指明服务器上某资源的位置（其格式与DOS系统中的格式一样，通常有目录/子目录/文件名这样结构组成）。与端口一样，路径并非总是需要的。

URL地址格式排列为：scheme://host:port/path

例如http://www.maogoo.com/bbs 就是一个典型的URL地址。

客户程序首先看到http（超文本传送协议），便知道处理的是HTML链接。接下来的www.maogoo.com是站点地址，最后是目录/bbs

必须注意，WWW 上的服务器都是区分大小写字母的，所以，千万要注意正确的URL大小写表达形式。

3、URL解析

URL即:统一资源定位符 (Uniform Resource Locator,
URL)

完整的URL由这几个部分构成：

scheme://host:port/path?query#fragment

scheme:通信协议

常用的http,ftp,maito等

host:主机

服务器(计算机)域名系统 (DNS) 主机名或 IP 地址。

port:端口号

整数，可选，省略时使用方案的默认端口，如http的默认端口为80。

path:路径

由零或多个"/"符号隔开的字符串，一般用来表示主机上的一个目录或文件地址。

query:查询

可选，用于给动态网页（如使用CGI、ISAPI、PHP/JSP/ASP/ASP.NET等技术制作的网页）传递参数，可有多个参数，用"&"符号隔开，每个参数的名和值用"="符号隔开。

fragment:信息片断

字符串，用于指定网络资源中的片断。例如一个网页中有多个名词解释，可使用fragment直接定位到某一名词解释。(也称为锚点.)

对于这样一个URL

http://www.x2y2.com:80/fisker/post/0703/window.location.html?ver=1.0&id=6#imhere

我们可以用javascript获得其中的各个部分

1, window.location.href

整个URl字符串(在浏览器中就是完整的地址栏)

本例返回值:
http://www.x2y2.com:80/fisker/post/0703/window.location.html?ver=1.0&id=6#imhere

2,window.location.protocol

URL 的协议部分

本例返回值:http:

3,window.location.host

URL 的主机部分

本例返回值:www.x2y2.com

4,window.location.port

URL 的端口部分

如果采用默认的80端口(update:即使添加了:80)，那么返回值并不是默认的80而是空字符

本例返回值:""

5,window.location.pathname

URL 的路径部分(就是文件地址)

本例返回值:/fisker/post/0703/window.location.html

6,window.location.search

查询(参数)部分

除了给动态语言赋值以外，我们同样可以给静态页面,并使用javascript来获得相信应的参数值

本例返回值:?ver=1.0&id=6

7,window.location.hash

锚点

本例返回值:#imhere

Hive 中parse_url的使用的更多相关文章

SparkSQL读取Hive中的数据
由于我Spark采用的是Cloudera公司的CDH,并且安装的时候是在线自动安装和部署的集群.最近在学习SparkSQL,看到SparkSQL on HIVE.下面主要是介绍一下如何通过SparkS ...
hive中rcfile格式(收藏文)
首先声明,此文是属于纯粹收藏文,感觉讲的很不错. 本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在MapReduce环境下的大规模数据分析中扮 ...
hive中分析函数window子句
hive中有些分析函数功能确实很强大,在和sum,max等聚合函数结合起来能实现不少功能. 直接上代码演示吧原始数据 channel1 2016-11-10 1 channel1 2016-11-1 ...
hive中的一种假NULL现象
使用hive时,我们偶尔会遇到这样的问题,当你将结果输出到屏幕时,查出的数据往往显示为null,但是当你将结果输出到文本时,却显示为空(即未填充),这是为什么呢? 在hive中有一种假NULL,它看起 ...
hive中导入json格式的数据（hive分区表）
hive中建立外部分区表,外部数据格式是json的如何导入呢? json格式的数据表不必含有分区字段,只需要在hdfs目录结构中体现出分区就可以了 This is all according to t ...
sqoop将关系型数据库的表导入hive中
1.sqoop 将关系型数据库的数据导入hive的参数说明:
hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的 ...
hive 中窗口函数row_number,rank,dense_ran,ntile分析函数的用法
hive中一般取top n时,row_number(),rank,dense_ran()这三个函数就派上用场了, 先简单说下这三函数都是排名的,不过呢还有点细微的区别. 通过代码运行结果一看就明白了. ...
hive中grouping sets的使用
hive中grouping sets 数量较多时如何处理? 可以使用如下设置来 set hive.new.job.grouping.set.cardinality = 30; 这条设置的意义在于 ...

随机推荐

iOS开发一个用户登录注册模块需要解决的坑
最近和另外一位同事负责公司登录和用户中心模块的开发工作,开发周期计划两周,减去和产品和接口的协调时间,再减去由于原型图和接口的问题,导致强迫症纠结症状高发,情绪不稳定耗费的时间,能在两周基本完成也算是 ...
UIScrollerView遇到UINavigationController
今天在UITabBarController 的第一个Tab 页面中放入一个ScrollView, 原本以为可以正常运行. 结果却让人大跌眼镜. 每当我手动滚动或者缓慢导航到另外一个页面时,当前的 ...
Python基础知识之认识字符串
Python有一个名为“STR”与许多方便的功能(有一个名为“串”,你不应该使用旧的模块),内置的字符串类. 字符串常量可以通过双或单引号括起来,尽管单引号更常用. 反斜杠工作单,双引号内的文字通常的 ...
.net core学习笔记（3）-依赖注入
.net core 中使用了大量的依赖注入,对依赖注入一直是一知半解,总想不透,项目中用的是一个网上的开源框架,从底层到web层都是用的构造函数依赖注入. 然后了在继承ActionFilterAttr ...
深入浅出REST
不知你是否意识到,围绕着什么才是实现异构的应用到应用通信的“正确”方式,一场争论正进行的如火如荼:虽然当前主流的方式明显地集中在基于SOAP.WSDL和WS-*规范的Web Services领域,但也 ...
Xcode下的批量编辑
说明:目前为止我找到三种查找与替换功能,如果有更多的方式,请在下面留言第一种:我们常用的查找以及查找与替换功能在Windows下,使用Ctrl+f 快捷键查找.用Ctrl+h来进行查找与替换功能. ...
当C++多继承遇上类型转换[转]
1 由来客户用陈旧的VC++6.0进行项目开发,有一块功能需要我来实现.让一个早就习惯了VS2013的人去使用C++支持不太好的VC6去做开发实在是非常不爽,于是另辟蹊径,打算使用VC++201 ...
PHP 爬虫
1.爬虫的本质简单来说,就是读取页面源代码,然后用正则匹配得到想要的数据. 示例如下: private function spider_jiuyou_list($listname,$url) { ...
SAPCAR 压缩解压软件的使用方法
SAPCAR 是 SAP 公司使用的压缩解压软件,从 SAP 网站下载的补丁包和小型软件基本都是扩展名为 car 或 sar 的,它们都可以用 SAPCAR 来解压.下面是它的使用说明: 用法: 创建 ...
Javascript 事件对象进阶（一）拖拽的原理
拖拽原理鼠标和Div的相对距离不变三大事件把拖拽加到document上拖拽简单点来说就是不停的更改物体到页面左边&顶部的距离! 那么如何计算出物体到页面左端的距离呢? 当鼠标按下的时候 ...

Hive 中parse_url的使用

Hive 中parse_url的使用的更多相关文章

随机推荐

热门专题