Hive使用技巧

一起学Hive——总结常用的Hive优化技巧

今天总结本人在使用Hive过程中的一些优化技巧,希望给大家带来帮助.Hive优化最体现程序员的技术能力,面试官在面试时最喜欢问的就是Hive的优化技巧. 技巧1.控制reducer数量下面的内容是我们每次在hive命令行执行SQL时都会打印出来的内容: In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reducer=<number> In order…

hive默认查询不会显示列名, 当一个表字段比较多的时候,往往看不出值与列之间的对应关系,对日常查错及定位问题带来不便,像下面这样. hive> >select * from example_table where dt='2012-03-31-02' limit 2; OK NULL 315103 2012-12-24_month NULL 10106 2013-01-07_day NULL 15368 2013-01-14_day NULL 356742 …

[hive小技巧]使用limit查询变成抽样，而不是全盘扫描

将set hive.limit.optimize.enable=true 时,limit限制数据时就不会全盘扫,而是根据限制的数量进行抽样. 同时还有两个配置项需要注意: 1.hive.limit.row.max.size 我理解这个是控制最大的抽样数量 2. hive.limit.optimize.limit.file 我理解这个是抽样的最大文件数量…

[hive小技巧]增加hive并行度

可以通过修改set hive.exec.parallel=true来修改并行度.如果job中并行执行的阶段增多,那么集群利用率会增加.…

hive 日常技巧

--删除表中重复数据 delete from vitae a where (a.peopleId,a.seq) in (select peopleId,seq from vitae group by peopleId,seq having count(*) > 1) and rowid not in (select min(rowid) from vitae group by peopleId,seq having count(*)>1) --建表 hadoop fs -put data.tx…

hive进阶技巧

1.日期格式转换(将yyyymmdd转换为yyyy-mm-dd) select from_unixtime(unix_timestamp('20180905','yyyymmdd'),'yyyy-mm-dd') 2..hive去掉字段中除字母和数字外的其它字符 select regexp_replace(a, '[^0-9a-zA-Z]', '') from tbl_name 3.hive解析json字段 content字段存储json {"score":"100"…

[hive小技巧]同一份数据多种处理

其实就是from表时,可以插入到多个表. sql语句的模板如下: from history insert overwrite sales select * where actino='purchased' inesrt overwrite credits select * where action = 'returened';…

Hive原理总结（完整版）

目录课程大纲(HIVE增强) 3 1. Hive基本概念 4 1.1 Hive简介 4 1.1.1 什么是Hive 4 1.1.2 为什么使用Hive 4 1.1.3 Hive的特点 4 1.2 Hive架构 5 1.2.1 架构图 5 1.2.2 基本组成 5 1.2.3 各组件的基本功能 5 1.3 Hive与Hadoop的关系 6 1.4 Hive与传统数据库对比 6 1.5 Hive的数据存储 6 2. Hive基本操作 7 2.1 DDL操作 7 2.1.1 创建表 7 2.1.2…

hadoop 数据倾斜

数据倾斜是指,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完. 阿里的这篇比较实用,通俗易懂:数据倾斜总结 http://www.tbdata.org/archives/2109 有篇分析比较详细,如果需要使用可以细读:http://blo…

java 与大数据学习较好的网站

C# C#中 Thread,Task,Async/Await,IAsyncResult 的那些事儿!https://www.cnblogs.com/doforfuture/p/6293926.htmlAsp.net缓存技术(HttpRuntime.Cache)https://www.cnblogs.com/fengxuehuanlin/p/5358219.htmlCache及(HttpRuntime.Cache与HttpContext.Current.Cache)https://www.cnbl…

hive中select中DISTINCT的技巧和使用

hive中select中DISTINCT的技巧和使用单表的唯一查询用:distinct 多表的唯一查询用:group by 在使用MySQL时,有时需要查询出某个字段不重复的记录,虽然mysql提供有distinct这个关键字来过滤掉多余的重复记录只保留一条,但往往只用它来返回不重复记录的条数,而不是用它来返回不重复记录的所有值.其原因是distinct只能返回它的目标字段,而无法返回其它字段,用distinct不能解决的话,我只有用二重循环查询来解决,而这样对于一个数据量非常大的站来说,无疑…

写好Hive 程序的若干优化技巧和实际案例

使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑.但是一个”好”的Hive程序需要对Hive运行机制有深入的了解,像理解mapreduce作业一样理解Hive QL才能写出正确.高效的HQL.长期观察hadoop处理数据的过程,有几个显著的特征: 1.不怕数据多,就怕数据倾斜. 2．对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时是跑不完的.map reduce作业初始化的时间是比较长的. 3.对sum,cou…

技巧-如何通过hive开发平台上传csv文件

通过数据交换平台上传较大的文件时,经常会出现导入失败情况,换种方式通过新数据开发平台(stark)也可以轻松实现外部数据与hive的数据关联. --第一步.导入csv文件到hive --stark数据开发平台——>资源管理——>搜索栏右边+号——>上传资源(资源类型:选择普通文件) --第二步.建表并让这张表关联上上传的csv文件 drop table temp.tmp_site_oppo_did_test$tmptable; CREATE EXTERNAL TABLE temp.tmp…

hive批量执行sql命令及使用小技巧

root@hadoop-senior hive-0.13.1]$ bin/hive -helpusage: hive -d, --define <key=value> Variable subsitution to apply to hive commands. e.g. -d A=B or --define A=B --database <databasename> Specify the database to use -e <quoted-query-str…

Hbase对hive的支持没有hdfs的好的原因及hbase什么时候使用及rowkey设计技巧

hive-=mareduce 的 split 在 hbase就是 region了,,,,,,,访问region必须通过hregionserver 会造成regionser负担过大, 另外 region有可能很大,并发度不高. 1 需要大量随即读写的时候,hbdfs不支持随即读写哦. 2 大数据上高并法操作,比如每秒对pb级数据进行上千次操作. 3 读写访问非常简单,不存在一些join之类的复杂操作. 举例: 消息系统:聊天系统和邮件系统(非消息队列) 一个较小的临时数据集,经常变化一个不…

原创 Hive left join 技巧总结

根据工作中经验总结出来 left join 常用的使用注意点: A Left join B on A.id = B.id 第一种情况: 如果 A 表的 id 存在重复, B 表的 id 不存在重复, 那么 select * from A Left join B on A.id = B.id, SQL 执行的结果数据条数和 A 表保持一致: 第二种情况: 如果 A 表的 …

Linux简介及常用命令使用4--linux高级命令与技巧

top 几个磁盘fdisk -l 磁盘空间 df -lhdf -al 查看进程:ps -ef"grep java杀死进程:kill -9 进程号 more中过滤 more xxx |grep www.makaidong.com 安装linux后配置ip Vim /etc/sysconfig/network-scripts/ifcfg-eth5IPADDR=192.168.42.142NETMASK=255.255.255.0GATEWAY=192.168.42.1 启动关闭网卡Ifdown et…

使用 Hive 作为 ETL 或 ELT 工具

用来处理数据的 ETL 和 ELT 工具的概述数据集成和数据管理技术已存在很长一段时间.提取.转换和加载(ETL)数据的工具已经改变了传统的数据库和数据仓库.现在,内存中转换 ETL 工具使得提取.加载.转换(ELT)和 ETL 变得更快.对于大数据来说,是否能够使用内置的 Hadoop 工具而不是使用传统的 ETL 工具来提取.加载和转换数据呢? 大多数 ETL 软件包需要自己的服务器.处理.数据库和许可,还需要专家在该特定的工具中安装.配置和开发它们,而且这些技能并非总是可以转移的.Mic…

Hive 复习

hive分为CLI(command line)(用的比较多) JDBC/ODBC-ThriftServer hiveServer(hive -service hiveserver),JDBC访问,一个客户端连接数,需要建立pool池,内存损耗极大,容易内存溢出(数据量太大不用) web gui(基本不用) Metastore (存储字段信息和数据存储HDFS的信息) Complier(编译器):对sql查询语句进行语意分析并通过metastore中查找表和分区的元信息,生成执行计划. Optim…

Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集

(一)hadoop 相关安装部署 1.hadoop在windows cygwin下的部署: http://lib.open-open.com/view/1333428291655 http://blog.csdn.net/ruby97/article/details/7423088 http://blog.csdn.net/savechina/article/details/5656937 2.hadoop 伪分布式安装: http://www.thegeekstuff.com/2012/02/…

《OD学hive》第四周0717

一.Hive基本概念.安装部署与初步使用 1. 后续课程 Hive 项目:hadoop hive sqoop flume hbase 电商离线数据分析 CDH Storm:分布式实时计算框架 Spark: 2. 如何学习大数据技术上课时候,认真听,勤做笔记: 遇到难理解的概念,马上记录下来: 课后多动手,操作过程遇到问题,多思考: 不要遇到问题,首先就问别人: 珍惜问问题的机会: 讲究问题的技巧与方式,提出自己的大概思考思路: 多总结: 总结成文档,作为以后的参考: 归档成自己的知识库: 每个…

60分钟内从零起步驾驭Hive实战学习笔记

本博文的主要内容是: 1. Hive本质解析 2. Hive安装实战 3. 使用Hive操作搜索引擎数据实战 SparkSQL前身是Shark,Shark强烈依赖于Hive.Spark原来没有做SQL多维度数据查询工具,后来开发了Shark,Shark依赖于Hive的解释引擎,部分在Spark中运行,还有一部分在Hadoop中运行.所以讲SparkSQL必须讲Hive. 1. Hive本质解析 1. Hive是分布式数据仓库,同时又是查询引擎,所以SparkSQL取代的只是Hive的查询引擎,在…

hive 操作（转）

1.命令行操作 (1)打印查询头,需要显示设置: set hive.cli.print.header=true; (2)加"--",其后的都被认为是注释,但 CLI 不解析注释.带有注释的文件只能通过这种方式执行: hive -f script_name (3)-e后跟带引号的hive指令或者查询,-S去掉多余的输出: hive -S -e "select * FROM mytable LIMIT 3" > /tmp/myquery (4)遍历所有分区的查询将…

hive常见问题解决干货大全

本人,苦心多时,历经磨难和心血,与大家共同攻克问题难关! 问题一: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient 参考:http://blog.csdn.net/l1028…

【CSDN人物访谈】蒋守壮分享他的技术成长之路以及对Hive技术的解读与思考

结缘大数据技术 CSDN:请简单地介绍一下自己. 蒋守壮:首先非常感谢CSDN能够给我这次被专访的机会,可以让我重新审视自己的职业发展历程,也希望能够帮助一些同行的朋友们.目前就职万达网络科技集团有限公司,是一名大数据分析师和大数据平台架构师. 我是电子专业出身,但自己对软件行业非常感兴趣,所以大学里一边学习本专业课程,一边到图书馆或活跃在相关技术网站上学习计算机专业课程.虽然累点苦点,但是为自己职业生涯打下了扎实的基础. 从毕业后至今,我已经在IT圈跌打滚爬5年多了,经历了很多,有苦有乐,这些…

【转】 hive简介，安装配置常见问题和例子

原文来自: http://blog.csdn.net/zhumin726/article/details/8027802 1 HIVE概述 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,HIVE的设计,可以轻松实现数据汇总,ad-hoc查询和分析大量的数据.它提供了一种称为HIVE QL的查询语言,基于sql的语法,使用户熟悉HIVE QL的语法容易做ad-hoc查询,汇总和数据分析,同时,HIVE QL也使传统的map / reduce的程序员能够插…

Dr.Watson使用技巧摘要

Dr.Watson使用技巧摘要 For Win98/WinME the executable is DRWATSON.EXEFor WinNT/Win2000/WinXP the executable is DRWTSN32.EXE (although DRWATSON.EXE is provided for backwards compatability) DrWatson.exe (used to do dump stack information when a program crashe…