Hive篇--相关概念整理一】的更多相关文章

一.前述 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行. 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析. 二.Hive相关概念 1.元数据:包括在Hdfs上的映射.除了文件内容,剩下的都是元数据信息. 2.操作符: 表HDFS的一个操作或者一道MapReduce作业. 3.内部…
一.基本概念 Hive分桶: 1.概念 分桶表是对列值取哈希值的方式,将不同数据放到不同文件中存储.对于hive中每一个表.分区都可以进一步进行分桶.(可以对列,也可以对表进行分桶)由列的哈希值除以桶的个数来决定每条数据划分在哪个桶中. 2.设置 set hive.enforce.bucketing=true;默认:false:设置为true之后,mr运行时会根据bucket的个数自动分配reduce task个数.(用户也可以通过mapred.reduce.tasks自己设置reduce任务个…
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[SQL系列]深入浅出数据仓库中SQL性能优化之Hive篇   前言部分 大家可以关注我的公众号,公众号里的排版更好,阅读更舒适. 正文部分 一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,Reduce,Spill,Shuffle,Sort等多个阶段,所以针对Hive查询的优化可以大致分为针对MR…
这两天事情比较多,没有来得及更新,现在把我这两天看的attributes相关内容进行整理. 涉及到的相关概念包括: C#中的特性概念及用法 创建自己的特性以及通过反射访问特性 C#中的特性概念以及用法: 这个特性的概念,我还是比较喜欢称之为注解属性,官网上的定义, 特性具有以下属性: 特性可向程序中添加元数据. 元数据是有关在程序中定义的类型的信息. 所有的 .NET 程序集都包含指定的一组元数据,这些元数据描述在程序集中定义的类型和类型成员. 可以添加自定义特性,以指定所需的任何附加信息. 可…
想了解Hadoop整体结构及各框架角色建议飞入这篇文章,写的很好:http://www.open-open.com/lib/view/open1385685943484.html .以下文章是本人参考各牛人文章总结出,主要是Hive的使用.参考自:http://www.blogjava.net/hengheng123456789/archive/2011/01/05/342354.html 1. Hive是什么 Hive是一个基于hadoop的数据仓库.Hive 是建立在 Hadoop 上的数据…
该笔记主要整理了<Hive编程指南>中一些常见的操作命令,大致如下(持续补充中): 1. 查看/设置/修改变量2. 执行命令3. 搜索相关内容4. 查看库表信息5. 创建表6. 分区7. 修改表(重命名.修改列.删除列.增加列)8. 找到表位置并导出至本地9. 去空格10. case...when...then句式11. 操作符12. group by...having句式13. JOIN14. order by和sort by15. 抽样查询16. 视图17. 分桶表18. 函数19. wi…
在数据仓库建设中,元数据管理是非常重要的环节之一.根据Kimball的数据仓库理论,可以将元数据分为这三类: 技术元数据,如表的存储结构结构.文件的路径 业务元数据,如血缘关系.业务的归属 过程元数据,如表每天的行数.占用HDFS空间.更新时间 而基于这3类元数据"搭建"起来的元数据系统,通常又会实现如下核心功能: 1. 血缘关系 如表级别/字段级别的血缘关系,这些主要体现在我们日常的SQL和ETL任务里. 2. 大数据集群计算资源管理 针对利用不同的计算引擎如Spark/Flink/…
转自:http://www.csdn.net/article/2015-01-13/2823530 一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,Reduce,Spill,Shuffle,Sort等多个阶段,所以针对Hive查询的优化可以大致分为针对MR中单个步骤的优化(其中又会有细分),针对MR全局的优化,和针对整个查询(多MR Job)的优化,下文会分别阐述. 在开始之前,先把MR的流程图帖出来(摘自Hadoop权威指南),方便后面对照.另…
首先要了解的 >>数据类型 Java虚拟机中,数据类型可以分为两类:基本类型和引用类型. 基本类型的变量保存原始值,即:他代表的值就是数值本身:而引用类型的变量保存引用值.“引用值”代表了某个对象的引用,而不是对象本身,对象本身存放在这个引用值所表示的地址的位置.基本类型包括:byte,short,int,long,char,float,double,Boolean,returnAddress引用类型包括:类类型,接口类型和数组. >>堆与栈 栈是运行时的单位,而堆是存储的单位.栈…
1,安装 hive的版本的选择,是选择内置的数据库保存元数据,还是用外部的mysql之类的数据库保存元数据,同时,如果使用外置的mysql,需要注意对mysql远程访问的配置. 再就是关于文件的配置了,环境变量个配置,可以在系统的/etc/profile目录下配置hive所在的目录,还可以在hive 的conf目录中的hive-env.sh里面配置,在这里,env其实就是environment的缩写.再就是配置hive-site的文件,这个主要配置的是链接mysql的参数,如地址,用户名,密码等…