概述

hive 是一个包裹着 hdfs 的壳子,hive 通过 hql,将 sql 翻译成 MR ,进行数据查询。

Hive是⼀个构建在Hadoop之上的数据仓库

hive的数据存在hdfs上,元信息放在metastore中,metastore也放在hdfs上

和传统的数据仓库⼀样,主要⽤来访问和管理数据,同样提供了类SQL查询语⾔

和传统数据仓库不⼀样,可以处理超⼤规模的数据,可扩展性和容错性⾮常强

举个直观一点的例子,一个MapReduce程序,需要写很多代码,但是我们可以在hive上使用一条sql来实现,比如

SELECT word, COUNT(*) FROM doc LATERAL VIEW explode(split(text, ' ')) lTable as word GROUP BY word;

hive会将上述sql翻译成MapReduce程序,帮我们跑,生活太美好了

Thrift是facebook开源的,支持任意语言的访问,如果你想让你的系统支持任意语言,那么就让你的系统支持Thrift的协议

sql-beeline(这个是轻量级)-hiveserver,他会和metastor交互,hiveserver进行语法解析,解析成语法树,变成查询计划,进行优化后,将查询计划交给执行引擎,默认是MR,然后翻译成mr,他会将sql发送到hiveserver上

sql-hive-metastore-mysql,这个是重量级,因为hive是在本地那里进行语法解析,翻译成mr

数据加载与插入语句,hive的load导入非常快,他不会对数据类型进行任何转换,而是在mr程序中进行校验,如果int但是值是string,则报错,如果本地load,则会把本地数据上传到hdfs上,如果load的是hdfs,则会复制一份到另一个hdfs的目录下

列式存储也可以按行读,只不过是拼接的开销大,不影响sql的编写

rc是一种非常经典的存储格式,可以查一下

支付宝的自己开发的一个系统oceanBase

OLAP的开源系统 greenplum/druid/kylin/presto(和他很像的是impala)/hive

create table table-test,的时候,不要把show create table table1的结果,复制到table-test的create语句,因为show table1里面有这个表在hdfs的地址,如果你删除table-test的时候,会删除table1,这时候就数据丢失,很严重

取整行的时候,行存储比列存储好,当你对事务要求高的时候,行存储比列存储适合

开源的etl工具,kettle,开源可视化,
ETL用hive就可以实现

我们希望日志,在flume进kafka之前就进行清洗,转换成java类对象,但这样比较难,岂不是自己写flume
可以这样做,flume先写进kafka,然后用etl工具去消费这个旧的topic,处理后,在写进kafka,用一个新的topic,然后下游就可以用了

myslq有个binlog,hbase的log是WAL Hlog

hive默认的mr并行个数是8

beeeline是官方推荐的,最好用这个,而不是hive方式

大数据方面的sort:merge sort,真是厉害

列式存储,是先按行切分,然后在block1中写入第一列的值,第二列的值

mysql中not in 比 not exists效率低,不过在hive中差不多,底层类似join

Hive典型应用场景

日志分析,统计⽹站⼀个时间段内的pv、uv,多维度数据分析,⼤部分互联⽹公司使⽤Hive进⾏⽇志分析,包括百度、淘宝等,海量结构化数据离线分析,低成本进⾏数据分析(不直接编写MR,简单的sql就直接查询不会走MR)

但是hive不是一个OLTP,也不是LOAP系统,响应时间慢,⽆法实时更新数据,对事务的⽀持很弱,表达能力弱,不⽀持迭代式计算,有些复杂运算⽤SQL不易表达

Hive的运行原理

sql发送给hive cli,从MetaStore获取一些元信息(列信息,表的位置信息,文件格式,序列化器,统计信息),然后会向yarn申请资源,去运行MapReduce,最后输出结果

Hive基本架构

⽤户接口,包括CLI,JDBC/ODBC,WebUI

元数据存储(metastore),默认存储在⾃带的数据库derby中,线上使⽤时⼀般换为MySQL

驱动器(Driver),解释器、编译器、优化器、执⾏器

Hadoop,⽤MapReduce 进⾏计算,⽤HDFS 进⾏存储

Hive CLI的内部组成

执行物理计划

可替换的执行引擎

执行引擎对比

Hive命令行访问

Hive CLI

– hive
– hive -h <host> -p <port>

Hive Beeline
– beeline -u jdbc:hive2://<host>:<port>

数据模型

database-table-partiton-file

Databases,Tables:和关系型数据库中的数据库、表⼀样

Partitions(可选):⼀些特殊的列,⽤于优化数据的存储和查询

Files:实际数据的物理存储单元

数据类型

STRUCT、MAP、ARRAY是其他数据库没有的

两种分布式Join算法

Map-side Join(Broadcast join)
• Join操作在map task中完成,因此无需启动reduce task;
• 适合一个大表,一个小表的连接操作
• 思想:小表复制到各个节点上,并加载到内存中;大表分片,与小表完
成连接操作
Reduce-side Join(shuffle join)
• Join操作在reduce task中完成;
• 适合两个大表连接操作
• 思想:map端按照连接字段进行hash,reduce 端完成连接操作

Hive2.2.1概述(待重写)的更多相关文章

  1. IIS-URL重写模块配置参考

    本文提供了URL重写模块的概述,并解释了该模块使用的配置概念. 功能概述URL重写模块将请求URL重写为显示给用户或Web应用程序的简单,用户友好和搜索引擎友好的地址.URL重写使用定义的规则进行评估 ...

  2. 【java开发】方法重写和方法重载概述

    类的继承   父类-子类 关键字 extends 新建一个父类 public class Person {     private String name;          private int ...

  3. c#基础学习(0702)之面向对象和方法重写概述

    面向对象编程(OOP==>Object-Oriented Programming) OOA:面向对象分析 OOD:面向对象设计 OOAD:面向对象分析与设计 什么是面向对象?一种分析问题的方式( ...

  4. ASP.NET Core模块概述

    原文地址:ASP.NET Core Module overview By Tom Dykstra, Rick Strahl, and Chris Ross ASP.NET Core模块(ANCM)让你 ...

  5. iOS-UI-UI控件概述

    以下列举一些在开发中可能用得上的UI控件: IBAction和IBOutlet,UIView 1 @interface ViewController : UIViewController 2 3 @p ...

  6. MVC5 网站开发实践 概述

    目录 MVC5 网站开发实践  概述 MVC5 网站开发实践  1.建立项目 MVC5 网站开发实践  2.后台管理 MVC5 网站开发实践  2.1.管理员登陆 MVC5 网站开发实践 2.2.管理 ...

  7. Apache Shiro系列之五,概述 —— 配置

    Shiro设计的初衷就是可以运行于任何环境:无论是简单的命令行应用程序还是复杂的企业集群应用.由于运行环境的多样性,所以有多种配置机制可用于配置,本节我们将介绍Shiro内核支持的这几种配置机制.   ...

  8. 转:用C++实现的一种插件体系结构-----概述

    用C++实现的一种插件体系结构-----概述 本文讨论一种简单却有效的插件体系结构,它使用C++,动态链接库,基于面向对象编程的思想.首先来看一下使用插件机制能给我们带来哪些方面的好处,从而在适当时候 ...

  9. 《java集合概述》

    JAVA集合概述: Collection: |---List有序的:通过索引就可以精确的操作集合中的元素.元素是可以重复的. List提供了增删改查的动作. 增加add(element) add(in ...

随机推荐

  1. MySQL防止重复插入唯一限制的数据 4种方法

    MySQL防止重复插入唯一限制的数据,下面我们逐一分析 : 1.insert ignore into 当插入数据时,如出现错误时,如重复数据,将不返回错误,只以警告形式返回.所以使用ignore请确保 ...

  2. 第7步:安装Grid

    7.1解压文件 注意,安装Grid时需要以grid用户身份执行,在那之前需要以root身份执行xhost+,即命令: 代码1 [root@sgdb1~]# xhost+ [root@sgdb1~]# ...

  3. Android多线程分析之中的一个:使用Thread异步下载图像

    Android多线程分析之中的一个:使用Thread异步下载图像 罗朝辉 (http://blog.csdn.net/kesalin) CC 许可.转载请注明出处 打算整理一下对 Android Fr ...

  4. Android开发:《Gradle Recipes for Android》阅读笔记(翻译)4.4——自定义代码集合

    问题: 你想要在项目中使用非标准的代码目录. 解决方案: 在gradle的build配置里面使用sourceSets属性. 讨论: Android分发的samples里面使用多个代码目录,使得通用的文 ...

  5. IE、FF脚本兼容性问题

    1.window.event IE有这个对象:FF没有,FF通过参数传递 2.获取事件源 IE:srcElement FF:target 3.添加与去除事件 IE:element.attachEven ...

  6. 导出Excel功能的3种实现

    项目中总会用到Excel的导出功能,接触过好几个项目,发现有个项目的导出实现特别值得学习.这里学习顺带总结一下. 一.三种方法 我遇到的导出目前有3种处理: 每个功能一个导出方法: 写一个通用的Exp ...

  7. Subscription

  8. 网站行为跟踪 Website Activity Tracking Log Aggregation 日志聚合 In comparison to log-centric systems like Scribe or Flume

    网站行为跟踪 Website Activity Tracking 访客信息处理 Log Aggregation   日志聚合 Apache Kafka http://kafka.apache.org/ ...

  9. window.location.href = window.location.href window.location.reload()

    w 0-会议预订提交了预订日期,预订成功后默认显示仅显示当前日期的新页面若显示预定日的信息,则可以对预定日存入cookie: http://stackoverflow.com/questions/24 ...

  10. 开机启动/etc/rc.local失效无效怎么办?解决方法

    开机启动/etc/rc.local失效问题的解决方法 第一种情况:当centOS 随机启动文件 /etc/rc.local 失效时请按如下修改1.echo /etc/rc.local >> ...