sqarkSQL hiveSql

【sqarkSQL hiveSql】的更多相关文章

查看数据库 show databases; 进入数据库 use 库名查看表 show tables: select * from 表名 hdfs传输spark sql查询 hive找到指定路径sql查询 vim gouzheng.txt 文件名字放入数据 1 赵强 22 m 山西阳泉 2 李鹏波 21 m 河北邯郸 3 薛晋 26 m 山西运城 4 孙帅 21 m 河北张家口 5 杨老师 32 m 辽宁开原 6 李宇辉 24 m 河北张家口 7 钱万丰 24 m 山东梁山 8 王小佳 26…

Etl之HiveSql调优(设置map reduce 的数量)

前言: 最近发现hivesql的执行速度特别慢,前面我们已经说明了left和union的优化,下面咱们分析一下增加或者减少reduce的数量来提升hsql的速度. 参考:http://www.cnblogs.com/liqiu/p/4873238.html 分析: and o.create_time = '2015-10-10'; 上一篇博文已经说明了,需要8个map,1个reduce,执行的速度:52秒.详细记录参考:http://www.cnblogs.com/liqiu/p/4873238…

Etl之HiveSql调优(left join where的位置)

一.前言公司实用Hadoop构建数据仓库,期间不可避免的实用HiveSql,在Etl过程中,速度成了避无可避的问题.本人有过几个数据表关联跑1个小时的经历,你可能觉得无所谓,可是多次Etl就要多个小时,非常浪费时间,所以HiveSql优化不可避免. 注:本文只是从sql层面介绍一下日常需要注意的点,不涉及Hadoop.MapReduce等层面,关于Hive的编译过程,请参考文章:http://tech.meituan.com/hive-sql-to-mapreduce.html 二.准备数据…

HiveSQL解析过程详解 | 学步园

HiveSQL解析过程详解 | 学步园 http://www.xuebuyuan.com/2210261.html…

大数据之hiveSQL

最近增加了学习java基础算法,包括几种排序算法,二叉树(前序,后序,中序),队列和栈,bmp搜索,广义搜索算法,迭代等等一些技巧(自己动手绝对比单纯的理论要强的多,多练练) HIVE是hadoop生态圈的重要一环,降低了hadoop的开发难度,将复杂冗余的代码综合成一个个简单的SQL语句.但是,很明显不如传统的MapReduce灵活,但是提高了项目的开发效率,学习成本低. 主要通过学习视频加上各种博客和其它资料,学习基础的入门SQL语句可以从菜鸟教程上面,hive语法的我主要看的是--> ht…

[Hive]HiveSQL解析原理

Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用.美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析.Hive的稳定性和性能对我们的数据分析非常关键. 在几次升级Hive的过程中,我们遇到了一些大大小小的问题.通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有了比较深入的理解.对这一过程的理解不仅帮助我们解决了一些Hive的bug,也有利于我们优化Hive S…

带limit的hivesql排序

带limit的hivesql排序 select requestdomain,count(1) as cnt from ods_cndns_real_log where dt = 20160707 group by requestdomain order by cnt desc limit 1000; 生成两个mr:第一步先group by:第二步将数据放到一个reduce上执行.如果group by后的数据量超大,不可取.任务可能会失败. select requestdomain,cou…

3、Hive-sql优化，数据倾斜处理

一.Hive-sql优化 #增加reducer任务数量(拉取数量分流) ; #在同一个sql中的不同的job是否可以同时运行,默认为false set hive.exec.parallel=true; #增加同一个sql允许并行任务的最大线程数 ; #设置reducer内存大小 ; set mapreduce.reduce.java.opts=-Xmx3584m; -- -Xmx 设置堆的最大空间大小. #mapjoin相关设置,小表加载到内存,无reduceset hive.mapjoin.s…

执行HiveSQL出现的问题

-- ::, INFO [main] org.apache.hadoop.hive.ql.exec.ReduceSinkOperator: RECORDS_OUT_INTERMEDIATE:, -- ::, FATAL [main] org.apache.hadoop.mapred.YarnChild: Error running child : java.lang.OutOfMemoryError: Java heap space at org.apache.orc.impl.DynamicB…

hivesql笔记

一.常用聚合函数 count():计数 count(distinct 字段) 去重统计 sum():求合 avg():平均 max():最大值 min():最小值二.hivesql执行顺序 from --> where --> group by --> having --> select--> order by--> limit 三.常用函数 1.毫秒时间戳转日期精确到秒 select from_unixtime(cast(1636462527000/1000 as…