Hive进阶(下)

Hive进阶(下) Hive进阶(下) Hive的表连接等值连接查询员工信息:员工号.姓名.月薪.部门名称 1.select e.empno,e.ename,e.sal,d.dname2.from emp e,dept d3.where e.deptno=d.deptno; 不等值连接查询员工信息:员工号.姓名.月薪.工资级别 1.select e.empno,e.ename,e.sal,s.grade2.from emp e,salgrade s3.where e.sal between…

Hive进阶(上)

Hive进阶(上) Hive进阶(上) 执行数据导入使用Load语句语法: 1.LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1,partcol2=val2 ...)] 说明: [LOCAL]:从操作系统中的一个目录中进行导入,如果不写LOCAL则为hdfs的数据导入 INPATH:为导入的路径,后面指明文件目录路径,如不指明文件名,则将目录下的所有文件…

python基础——面向对象进阶下

python基础--面向对象进阶下 1 __setitem__,__getitem,__delitem__ 把对象操作属性模拟成字典的格式想对比__getattr__(), __setattr__() 和 __deltattr__()这三个通过属性的方式的三个方法还有__getitem__(), __setitem__() 和 __delitem__()这三个函数, 是通过字典形式来处理属性字典形式使用中括号的方式获取值在实现__setitem__()的时候仍然需要使用__dict__来…

Docker入门与进阶(下)

Docker入门与进阶(下) 作者刘畅时间 2020-11-12 实验主机配置系统centos7.5 主机名 ip 配置应用 harbor-master 172.16.1.71 2核4G/60G docker.docker-compose.harbor.Grafana. Prometheus.cAdvisor harbor-backup 172.16.1.72 2核4G/60G docker.docker-compose.harbor docker-client 172.16.1.73…

Spark入门实战系列--5.Hive（下）--Hive实战

[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1.Hive操作演示 1.1 内部表 1.1.1 创建表并加载数据第一步启动HDFS.YARN和Hive,启动完毕后创建Hive数据库 hive>create database hive; hive>show databases; hive>use hive; 第二步创建内部表由于Hive使用了类似SQL的语法,所以创建内部表的语句相对SQL只增加了行和字段分隔符.…

Hive学习之六《Hive进阶— —hive jdbc》详解

接Hive学习五 http://www.cnblogs.com/invban/p/5331159.html 一.配置环境变量 hive jdbc的开发,在开发环境中,配置Java环境变量修改/etc/profile vi /etc/profile PATH=$PATH:/usr/java/jdk1..0_31/bin:/opt/litong/bin source /etc/profile 立即起效二.配置文件开发 Hive_sql Mysql_table=rpt_sale_daily mys…

通过java api统计hive库下的所有表的文件个数、文件大小

更新hadoop fs 命令实现: [ss@db csv]$ hadoop fs -count /my_rc/my_hive_db/* 18/01/14 15:40:19 INFO hdfs.PeerCache: SocketCache disabled. 3 2 0 /my_rc/my_hive_db/.hive-staging_hive_2017-08-19_16-52-39_153_7217997288202811839-170149 2 0 0 /my_rc/my_hive_db/.hi…

Hive 进阶

两种情况下不走map-reduce: 1. where ds >' ' //ds 是partition 2. select * from table //后面没有查询条件,什么都没有 1.建表 CREATE TABLE sal( id INT, name STRING, salary INT ) partitioned by (city string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE; 1.1 修…

Hive进阶_汇总

=========================================================================== 第2章 Hive数据的导入使用Load语句执行数据的导入: LOAD 导入语句到数据仓库的表当中. load data [local] inpath 'filepath' [overwrite] into table tablename [partition (partcoll=val1, partcal2=val2...)] explain:…

Hive进阶_开发Hive的自定义函数

Hive中的自定义函数简介 (1) 在类中创建自定义函数.自定义UDF需要继承'org.apache.hadoop.hive.ql.exec.UDF',实现evaluate函数,evaluate函数支持重载. (2) 将该类所在的包导出成jar包,放入linux目录下. (3) 进入hive客户端,删除旧的jar包 hive> delete jar /dir/.jar; (4) 添加新的jar包 hive> add jar /dir/.jar (5) 创建临时函数,指向jar包中的类 hive…

Hive进阶_内置函数

Hive数学函数 round : 四舍五入 ceil : 向下取整 floor : 向上取整 ),),),),); Hive字符函数 select lower('Hello World'), upper('Hello World'); select length('Hello World'),length('你好'); select concat('Hello','World'); ); ,); ,,'*'); Hive收集函数和转换函数 size cast ,,'Mary')); as big…

Python之进程进阶下

在python程序中的进程操作之前我们已经了解了很多进程相关的理论知识,了解进程是什么应该不再困难了,刚刚我们已经了解了,运行中的程序就是一个进程.所有的进程都是通过它的父进程来创建的.因此,运行起来的python程序也是一个进程,那么我们也可以在程序中再创建进程.多个进程可以实现并发效果,也就是说,当我们的程序中存在多个进程的时候,在某些时候,就会让程序的执行速度变快.以我们之前所学的知识,并不能实现创建进程这个功能,所以我们就需要借助python中强大的模块. multiprocess…

大数据学习（10）—— Hive进阶

前面提到了Hive的知识点非常零散,我不知道该怎么把这些知识点分类,跟SQL关系没那么大的就放在这一篇吧. Hive Serde 参考Hive Serde Serde是啥 Serde是序列化和反序列化的简称.为啥这么说?序列化是Serializer,反序列化是Deserializer,各取前几个字母一拼就成了.Hive里的序列化和反序列化干嘛用的?简单的说,就是在HDFS文件和表数据之间做转换. Hive使用Serde(还有文件格式化)来读写表记录. 读数据:HDFS文件->输入文件格式->键…

Hive学习之五《Hive进阶—UDF操作案例》详解

hive—UDF操作 udf的操作过程: 在HIVE会话中add 自定义函数的jar文件,然后创建function,继而使用函数. 下面就以下面课题为例: 课题:统计每个活动的PV和UV 一.Java通过正则表达式,截取标题名称. 以链接,截取标红的字符串. http://cms.yhd.com/sale/vtxqCLCzfto?tc=ad.0.0.17280-32881642.1&tp=1.1.36.9.1.LEffwdz-10-35RcM&ti=ZX8H 为例. 核心代码如下, imp…

hive 进阶笔记

-- mysql方式 create table account_channel(account_ String,channel_ String) as select a.account,b.channel from register a join `install` b on a.device = b.device -- hive方式 create table account_channel ROW FORMAT DELIMITED FIELDS TERMINATED BY '^' STORED…

hive bin下的进入beeline 命令行和hive有什么不同？

Hive 0.11中引入的HiveServer2有一个自己的CLI叫Beeline. HiveCLI现在已经过时,与Beeline相比,其缺少多用户.安全和其他与HiveServer2兼容的特性. 从Shell启动HiveServer2和Beeline的方法如下: $ $HIVE_HOME/bin/hiveserver2 $ $HIVE_HOME/bin/beeline -u jdbc:hive2://$HS2_HOST:$HS2_PORT Beeline is started with t…

Hive进阶_Hive的客户端操作

启动远程客户端 # hive --service hiveserver2获取连接-〉创建运行环境-〉执行HQL-〉处理结果-〉释放资源工具类 package demo.utils; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JD…

Hive进阶_Hive的子查询

- 集合中如果含null数据,不可使用not in, 可以使用in- hive只支持where和from子句中的子查询- 主查询和自查询可以不是同一张表 select e.ename from emp e where e.deptno in ( select d.deptno from dept d where d.dname='SALES' or d.dname='ACCOUNTING' ); select * from emp e where e.deptno not in ( select…

Hive进阶_Hive数据查询

简单查询和fetch task 简单查询: 简单查询的 fetch task 功能,从HDFS拉取,不用map reduce. 前两种配置,当前session有效.修改hive-site.xml永久有效. 查询中使用过滤在查询中使用排序排序使用别名时要开启使用别名模式:set hive.groupby.orderby.position.alias=true;…

Hive进阶_Hive数据的导入

使用Load语句执行数据的导入语法: load data [local] inpath 'filepath' [overwrite] into table tablename [partition (partcoll=val1, partcal2=val2...)] explain: local是从本地导入,无local则默认从HDFS导入,overwrite是否覆盖表中存在的数据. 本地:导入本地一个文件 load data local inpath 'localFilePath' into…

hive进阶技巧

1.日期格式转换(将yyyymmdd转换为yyyy-mm-dd) select from_unixtime(unix_timestamp('20180905','yyyymmdd'),'yyyy-mm-dd') 2..hive去掉字段中除字母和数字外的其它字符 select regexp_replace(a, '[^0-9a-zA-Z]', '') from tbl_name 3.hive解析json字段 content字段存储json {"score":"100"…

Hive进阶_Hive的表连接

等值连接 select e.empno, d.deptno from emp e, dept d where e.deptno=d.deptno; 不等值连接 select e.empno, e.ename, e.sal, s.grade from emp e, salgrade s where e.sal between s.losal and s.hisal; 外连接(取交集) select d.deptno, d.dname, count(e.empno) from emp e, dept…

Ubuntu16下Hive 安装

0.安装环境和版本 Ubuntu16,hadoop版本是2.7.2 ,选择Hive版本为 hive-2.1.17 1. Hive安装包下载地址: https://mirrors.tuna.tsinghua.edu.cn/apache/hive/ 2.上传到服务器后解压 sudo mv apache-hive-2.1.1-bin.tar.gz /usr/local sudo tar zxvf apache-hive-2.1.1-bin.tar.gz sudo mv apache-hive-2.…

macOS下Hive 2.x的安装与配置

1 简介 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的[SQL]查询功能,可以将SQL语句转换为MapReduce任务进行运行.其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析. 它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储.查询和分析存储在 Hadoop 中的大规模数据的机制.Hive 定义了简单的类 SQL 查…

Windows环境下安装Hadoop+Hive的使用案例

Hadoop安装: 首先到官方下载官网的hadoop2.7.7,链接如下 https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/ 找网盘的hadooponwindows-master.zip 链接如下 https://pan.baidu.com/s/1VdG6PBnYKM91ia0hlhIeHg 把hadoop-2.7.7.tar.gz解压后使用hadooponwindows-master的bin和etc替换hadoop2.7.7的…

HIVE安装配置

Hive简介 Hive 基本介绍 Hive 实现机制 Hive 数据模型 Hive 如何转换成MapReduce Hive 与其他数据库的区别以上详见:https://chu888chu888.gitbooks.io/hadoopstudy/content/Content/8/chapter8.html Hive 和 Hbase 的区别详见:http://www.cnblogs.com/justinzhang/p/4273470.html Hive环境模式内嵌模式将元数据保存在本地内嵌的…

[转帖]Hive 快速入门(全面)

Hive 快速入门(全面) 2018-07-30 16:11:56 琅琊山二当家阅读数 4343更多分类专栏: hadoop 大数据转载: https://www.codercto.com/a/5110.html 前言我写这篇文章的目的是尽可能全面地对Hive进行入门介绍,这篇文章是基于hive-1.0.0版本介绍的,这个版本的Hive是运行在MapReduce上的,新的版本可以运行在Tez上,会有一些不同. Hive是对数据仓库进行管理和分析数据的工具.但是大家不要被“数据仓库”这…

Linux环境Hive安装配置及使用

Linux环境Hive安装配置及使用一.Hive Hive环境前提二.Hive架构原理解析三.Hive-1.2.2单机安装流程 (1) 解压apache-hive-1.2.2-bin.tar.gz安装包到目标目录下: (2) 为后续方便,重命名Hive文件夹: (3) 修改配置文件: (4) 配置环境变量: (5) 启动 (6) 退出 (7) 配置MySQL元数据库四.Hive数据类型五.Hive-DDL(Data Definition Language) (1) 查看数据库 (2)…

基于Ubuntu Hadoop的群集搭建Hive

Hive是Hadoop生态中的一个重要组成部分,主要用于数据仓库.前面的文章中我们已经搭建好了Hadoop的群集,下面我们在这个群集上再搭建Hive的群集. 1.安装MySQL 1.1安装MySQL Server 在Ubuntu下面安装MySQL的Server很简单,只需要运行: sudo apt-get install mysql-server 系统会把MySQL下载并安装好.这里我们可以把MySQL安装在master机器上. 安装后需要配置用户名密码和远程访问. 1.2配置用户名密码首先我…

深入浅出数据仓库中SQL性能优化之Hive篇

转自:http://www.csdn.net/article/2015-01-13/2823530 一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,Reduce,Spill,Shuffle,Sort等多个阶段,所以针对Hive查询的优化可以大致分为针对MR中单个步骤的优化(其中又会有细分),针对MR全局的优化,和针对整个查询(多MR Job)的优化,下文会分别阐述. 在开始之前,先把MR的流程图帖出来(摘自Hadoop权威指南),方便后面对照.另…

【Hive进阶(下)】的更多相关文章