hive 操作】的更多相关文章

Hadoop+Hive 操作mongodb数据 1.版本概述 hadoop-2.7.3.hive-2.2 下载响应的jar包:http://mvnrepository.com/,直接搜索想要的jar包,例如本次安装需要的: mongo-hadoop-core-2.0.2.jar.mongo-hadoop-hive-2.0.2.jar.mongo-java-driver-3.2.1.jar 下载自己需要的版本,版本要统一. 2.配置 将下载好的jar包分别上传到hadoop和hive的lib目录下…
hive是依赖于hdfs和yarn的一个数据仓库 数据库和数据仓库的区别: 数据库在存储数据的同时,允许实时的增删改查等操作 数据仓库在存储数据的同时还执行着计算和分析数据的工作,但是并不能实时的进行增删改等操作,如果 需要对数据进行更新则需要将数据下载下来更新之后再放入数据仓库中,是一次写入多次读取的过程 所以hive并不能取代mysql,mssql等数据库(不像hbase一样可以根据不同业务的需求取代那些传统数据 库),甚至可以将hive看成是一种数据挖掘工具,用来分析hdfs上的大数据 h…
本博文的主要内容如下: Hive文件存储格式 Hive 操作之表操作:创建外.内部表 Hive操作之表操作:表查询 Hive操作之表操作:数据加载 Hive操作之表操作:插入单表.插入多表 Hive语法结构:where 查询.all 和 distinct 选项.基于 Partition 的查询.基于 HAVING 的查询. LIMIT 限制查询. GROUP BY 分组查询. ORDER  BY 排序查询.SORT BY 查询.DISTRIBUTE BY 排序查询.CLUSTER BY 查询 H…
前言 已完成安装Apache Hive,具体安装步骤请参照,Linux基于Hadoop2.8.0集群安装配置Hive2.1.1及基础操作 补充说明 Hive中metastore(元数据存储)的三种方式: 内嵌Derby方式Local方式Remote方式 [一].内嵌Derby方式 这个是Hive默认的启动模式,一般用于单元测试,这种存储方式有一个缺点:在同一时间只能有一个进程连接使用数据库.配置文件 hive-site.xml 中jdbc URL.驱动.用户名.密码等的配置信息执行初始化命令:s…
实验目的 熟悉hive和hbase的操作 熟悉hadoop.hbase.hive.zookeeper的关系 熟练大数据环境的搭建 学会分析日志排除问题 实验原理 1.hive整合hbase原理 前面大家已经了解了Hive和Hbase,Hive是一个mapreduce的客户端,把sql语句转化为mapreduce程序执行,同时提供了数据仓库技术.Hbase是一个非关系型数据库,数据存储的时候面向列,方便横向扩展,但是不方便进行关系查询和二级索引.有时候为了方便操作,需要用hive操作hbase进行…
#创建表人信息表  person(String name,int age) hive> create table person(name STRING,age INT)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ESCAPED BY '\\' STORED AS TEXTFILE; OK Time taken: 0.541 seconds#创建表票价信息表 ticket(int age,float price) hive> create tab…
1.命令行操作 (1)打印查询头,需要显示设置: set hive.cli.print.header=true; (2)加"--",其后的都被认为是注释,但 CLI 不解析注释.带有注释的文件只能通过这种方式执行: hive -f script_name (3)-e后跟带引号的hive指令或者查询,-S去掉多余的输出: hive -S -e "select * FROM mytable LIMIT 3" > /tmp/myquery (4)遍历所有分区的查询将…
1.建表: hive> CREATE TABLE pokes (foo INT, bar STRING); hive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING); 由于很多数据在hadoop平台,当从hadoop平台的数据迁移到hive目录下时,由于hive默认的分隔符是/u0001,为了平滑迁移,需要在创建表格时指定数据的分割符号,语法如下: create table ooo(uid strin…
HQL操作1.Distribute by    distribute by col按照col列把数据分散到不同的reduce    sort    sort by col 按照col列把数据排序    select col,co2 from table_name distribute by col1 sort by col1    asc,col2 desc;    两者结合出现,确保每个reduce的输出都是有序的     应用场景:    * map输出的文件大小不均    * reduce…
http://blog.sina.com.cn/s/blog_66474b16010182yu.html这篇可以较好地理解什么是外部表external #创建表人信息表  person(String name,int age)  hive> create table person(name STRING,age INT)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ESCAPED BY '\\' STORED AS TEXTFILE;  OK  T…
hive   ddl 操作官方手册https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL hive  dml 操作官方手册https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML   1.创建库 create database test; 2.删除库 drop database test;   3.建表 完整ddl建表语法规则 CREATE…
设置属性: //设置本地执行作set hive.exec.mode.local.auto=true; //设置动态分区 set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nostrict; //设置reduce task数量set mapred.reduce.tasks=2; //对mapjoin优化设置set hive.auto.convert.join=true; 创建表: //创建内部表cr…
Hive DDL.DML操作 背景介绍 • 一.DDL操作(数据定义语言)包括:Create.Alter.Show.Drop等. • create database- 创建新数据库 • alter database - 修改数据库 • drop database - 删除数据库 • create table - 创建新表 • alter table - 变更(改变)数据库表 • drop table - 删除表 • create index - 创建索引(搜索键) • drop index -…
数据dept表的准备: --创建dept表 CREATE TABLE dept( deptno int, dname string, loc string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS textfile; 数据文件准备: vi detp.txt 10,ACCOUNTING,NEW YORK 20,RESEARCH,DALLAS 30,SALES,CHICAGO 40,OPERATIONS,BOSTON 数据表em…
Hive删除操作主要分为几大类:删除数据(保留表).删除库表.删除分区. 一.仅删除表中数据,保留表结构 hive> truncate table 表名; truncate操作用于删除指定表中的所有行,相当于delete from table where 1=1.表达的是一个意思. 注意:truncate 不能删除外部表!因为外部表里的数据并不是存放在Hive Meta store中.创建表的时候指定了EXTERNAL,外部表在删除分区后,hdfs中的数据还存在,不会被删除.因此要想删除外部表数…
1.创建hive分区表: create table invites (id int, name string) partitioned by (ds string) row format delimited fields terminated by 't' stored as textfile; 2.像hive中插入一条数据;hive仓库其实一般不建议insert,delete,update一行数据 insert into table invites partition(ds='2017-11-…
hive库清表,删除数据 insert overwrite table lorry.bigdata select * from lorry.bigdata where 1=0 hive的simple模式 hive的select如果是fetch模式(select <columnname> from [where] [limit]),是不是就没有资源管控了,此时不走map-reduce:其实通过在YARN的Resource Manager你就可以观察到,如果是select count(*)...就…
1.建完分区表之后,向表中导入数据 命令为: load data local inpath '/home/admin/Desktop/2015082818' into table db_web_data.track_log partition(data='20150828',hour='18'); 2.错误类型提醒 FAILED: SemanticException Partition spec {data=20150828, hour=18} contains non-partition co…
show databases ;use default;show tables ;create table student(id int, name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';load data local inpath '/opt/datas/student.txt'into table student ;select * from student ;select id from student ;…
spark可以通过读取hive的元数据来兼容hive,读取hive的表数据,然后在spark引擎中进行sql统计分析,从而,通过spark sql与hive结合实现数据分析将成为一种最佳实践.配置步骤如下: 1.启动hive的元数据服务 hive可以通过服务的形式对外提供元数据读写操作,通过简单的配置即可  编辑 $HIVE_HOME/conf/hive-site.xml,增加如下内容:<property><name>hive.metastore.uris</name>…
本案例使用的数据均来源于Oracle自带的emp和dept表 创建表 语法: CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED…
Hadoop版本:hadoop-2.9.2.tar.gz,Hive版本:apache-hive-2.3.6-src.tar.gz,安装Hive可查看:CentOS安装Hive 保证Hive以正确启动hiveserver2. pom.xml依赖: <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:…
用户指导 Hive 指导 Hive指导 概念 Hive是什么 Hive不是什么 获得和开始 数据单元 类型系统 内置操作符和方法 语言性能 用法和例子(在<下>里面) 概念 Hive是什么? Hive是一个以Apache Hadoop为基础的数据仓储基础设施.Hadoop为数据的存储和运行在商业机器上提供了可扩展和高容错的性能. Hive的设计目标是使得数据汇总更加简单和针对大容量数据的查询和分析.它提供SWL来使得用户可以更简单地查询.汇总和数据分析.同时,Hive的SQL为用户提供了多种地…
Hive中metastore(元数据存储)的三种方式: 内嵌Derby方式 Local方式 Remote方式 [一].内嵌Derby方式 这个是Hive默认的启动模式,一般用于单元测试,这种存储方式有一个缺点:在同一时间只能有一个进程连接使用数据库. hive-site.xml 中jdbc URL.驱动.用户名.密码等的配置信息如下:     1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29…
1.一般可以通过beeline,代理方式登录hive; 2.使用数据库abc_hive_db:use abc_hive_db; 3.查看数据库中有哪些表:show tables :有哪些特定表 show tables like '*tb_site*'; 4.查看某张表的表结构:desc tablename; 方法2:查看表的字段信息及元数据存储路径 desc extended table_name; 方法3:查看表的字段信息及元数据存储路径 desc formatted table_name;…
1.安装mysql数据库 1.1 查看本机是否安装了mysql数据库(rpm -qa | grep mysql)…
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.Hive操作演示 1.1 内部表 1.1.1 创建表并加载数据 第一步   启动HDFS.YARN和Hive,启动完毕后创建Hive数据库 hive>create database hive; hive>show databases; hive>use hive; 第二步   创建内部表 由于Hive使用了类似SQL的语法,所以创建内部表的语句相对SQL只增加了行和字段分隔符.…
http://www.aboutyun.com/thread-7548-1-1.html 这里面列出了hive几乎所有的配置项,下面问题只是说出了几种配置项目的作用.更多内容,可以查看内容问题导读:1.hive输出格式的配置项是哪个?2.hive被各种语言调用如何配置?3.hive提交作业是在hive中还是hadoop中?4.一个查询的最后一个map/reduce任务输出是否被压缩的标志,通过哪个配置项?5.当用户自定义了UDF或者SerDe,这些插件的jar都要放到这个目录下,通过那个配置项?…
Hive权限控制 Hive权限机制: Hive从0.10可以通过元数据控制权限.但是Hive的权限控制并不是完全安全的.基本的授权方案的目的是防止用户不小心做了不合适的事情. 先决条件: 为了使用Hive的授权机制,有两个参数必须在hive-site.xml中设置: <property> <name>hive.security.authorization.enabled</name> <value>true</value>  <descri…