1、Impala简介

  • Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。
  • 基于Hive使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点
  • 是CDH平台首选的PB级大数据实时查询分析引擎

   官网:http://www.cloudera.com/products/apache-hadoop/impala.html

      http://www.impala.io/index.html

  下面是在基于单用户和多用户查询的时候,不同的查询分析器所使用的时间:

    

2、Impala的特点

  • 1、基于内存进行计算,能够对PB级数据进行交互式实时查询、分析
  • 2、无需转换为MR,直接读取HDFS数据
  • 3、C++编写,LLVM统一编译运行
  • 4、兼容HiveSQL
  • 5、具有数据仓库的特性,可对hive数据直接做数据分析
  • 6、支持Data Local
  • 7、支持列式存储
  • 8、支持JDBC/ODBC远程访问

    (相比于Hive,Impala不需要启动MapReduce直接同HDFS或HBase进行交互)

3、Impala 劣势

  • 1、对内存依赖大
  • 2、C++编写 开源?!
  • 3、完全依赖于hive
  • 4、实践过程中 分区超过1w 性能严重下下降
  • 5、稳定性不如hive

4、Impala安装

  • 安装方式:
    – 1、ClouderaManager
    – 2、手动安装(待续)

      

      可以使用CDH安装,方便快捷,而且管理起来更加方便,下面是CDH安装以后的CDH管理界面:

      

5、Impala核心组件 

  • Statestore Daemon
    • 实例*1 - statestored
      – 负责收集分布在集群中各个impalad进程的资源信息、各节点健康状况,同步节点信息.
      – 负责query的调度
  • Catalog Daemon
    • 实例*1 - catalogd
      – 分发表的元数据信息到各个impalad中
      – 接收来自statestore的所有请求
  • Impala Daemon
    • 实例*N – impalad
      – 接收client、hue、jdbc或者odbc请求、Query执行并返回给中心协调节点
      – 子节点上的守护进程,负责向statestore保持通信,汇报工作

6、Impala架构

    

    (1) 由Client发送一个执行SQL到任意一台Impalad的Query Planner
    (2) 由Query Planner 把SQL发向Query Coordinator 
    (3) 由Query Coordinator 来调度分配任务到Impalad的所有节点
    (4) 各个Impalad节点的Query Executor 进行执行SQL工作 
    (5) 执行SQL结束以后,将结果返回给Query Coordinator
    (6) 再由Query Coordinator 将结果返回给Client

Impala 4、Impala JDBC

摘要: • 配置: – impala.driver=org.apache.hive.jdbc.HiveDriver – impala.url=jdbc:hive2://node2:21050/;auth=noSasl – impala.username= – impala.password=• 尽量使用Pr阅读全文
posted @ 2016-03-23 22:32 Bodi 阅读(297) | 评论 (0) 编辑
 
摘要: Impala可以通过Hive外部表方式和HBase进行整合,步骤如下: • 步骤1:创建hbase 表,向表中添加数据 • 步骤2:创建hive表 • 步骤3:刷新Impala表阅读全文
posted @ 2016-03-23 22:28 Bodi 阅读(389) | 评论 (0) 编辑
 
摘要: 1、Impala 外部 Shell Impala外部Shell 就是不进入Impala内部,直接执行的ImpalaShell 例如通过外部Shell查看Impala帮助可以使用: $ impala-shell -h 这样就可以查看了; 再例如显示一个SQL语句的执行计划: $ impala-shel阅读全文
posted @ 2016-03-23 21:50 Bodi 阅读(3849) | 评论 (1) 编辑
 
摘要: • Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。 • 基于Hive使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点 • 是CDH平台首选的PB级大数据实时查询分析引擎阅读全文

Impala简介PB级大数据实时查询分析引擎的更多相关文章

  1. Druid:一个用于大数据实时处理的开源分布式系统——大数据实时查询和分析的高容错、高性能开源分布式系统

    转自:http://www.36dsj.com/archives/28590 Druid 是一个用于大数据实时查询和分析的高容错.高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分 ...

  2. 腾讯云EMR大数据实时OLAP分析案例解析

    OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值.本文基于QQ音乐海量大数据实时分析场景,通过QQ音乐与腾 ...

  3. 使用Oracle Stream Analytics 21步搭建大数据实时流分析平台

    概要: Oracle Stream Analytics(OSA)是企业级大数据流实时分析计算平台.它可以通过使用复杂的关联模式,扩充和机器学习算法来自动处理和分析大规模实时信息.流式传输的大数据可以源 ...

  4. [NewLife.XCode]分表分库(百亿级大数据存储)

    NewLife.XCode是一个有15年历史的开源数据中间件,支持netcore/net45/net40,由新生命团队(2002~2019)开发完成并维护至今,以下简称XCode. 整个系列教程会大量 ...

  5. 《深度访谈:华为开源数据格式 CarbonData 项目,实现大数据即席查询秒级响应》

    深度访谈:华为开源数据格式 CarbonData 项目,实现大数据即席查询秒级响应   Tina 阅读数:146012016 年 7 月 13 日 19:00   华为宣布开源了 CarbonData ...

  6. 给Clouderamanager集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解)

    这个很简单,在集群机器里,选择就是了,本来自带就有Impala的. 扩展博客 给Ambari集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解)

  7. 给Ambari集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解)

    不多说,直接上干货! Impala和Hive的关系(详解) 扩展博客 给Clouderamanager集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解) 参考 horton ...

  8. 大数据实时计算工程师/Hadoop工程师/数据分析师职业路线图

    http://edu.51cto.com/roadmap/view/id-29.html http://my.oschina.net/infiniteSpace/blog/308401 大数据实时计算 ...

  9. Storm 实战:构建大数据实时计算

    Storm 实战:构建大数据实时计算(阿里巴巴集团技术丛书,大数据丛书.大型互联网公司大数据实时处理干货分享!来自淘宝一线技术团队的丰富实践,快速掌握Storm技术精髓!) 阿里巴巴集团数据平台事业部 ...

随机推荐

  1. Percona-Tookit工具包之pt-show-grants

      Preface       User privileges regulation is pretty important in DBAs routine job.As we all know,it ...

  2. /etc/fstab开机自动挂载设备配置

    第一列:设备名字(路径?) 第二列:设备挂载路径(挂载到的位置) 第三列:分区格式 第四列:文件系统参数(?) 第五列:是否自动dump备份 0   不要    1   定期    2  不定期 第六 ...

  3. GIt+jenkins代码自动上线

    代码自动上线功能 企业部署代码上线是件比较麻烦的事情,还好我们有jenkins这个持续集成的软件可以帮助我们做很多的事情,现在我们就 来测试用jenkins推送代码上线. 我们这里测试的是一个html ...

  4. 【ssh服务配置】

    根据项目需求,搭建好拓扑图如下: 第一种验证方式:给予密码和用户名登录 Ssh server配置: 首先在服务器上创建一个rsa加密算法的秘钥对: 对ssh服务进行开启: 创建用户的虚拟终端登录界面: ...

  5. php 移动或重命名文件(图片)到另一目录下的方法有多种,这里只列出三种:

    php 移动或重命名文件(图片)到另一目录下的方法有多种,这里只列出三种:       方法一:使用copy函数   格式:copy(source,destination)   将文件从 source ...

  6. FireDAC内存表

    procedure TForm1.FormCreate(Sender: TObject); Var i:integer; begin // i:=; self.FDMemTable1.FieldDef ...

  7. hive自定义函数(UDF)

    首先什么是UDF,UDF的全称为user-defined function,用户定义函数,为什么有它的存在呢?有的时候 你要写的查询无法轻松地使用Hive提供的内置函数来表示,通过写UDF,Hive就 ...

  8. Pig关系型运算符例子

    1.新建两个文件A.txt与B.txt, A.txt文件的内容如下: 0,1,2 1,3,4 B.txt文件的内容如下: 0,5,2 1,7,8 将这两个文件上传到目录/zwy/soft 2.定义关系 ...

  9. Apache Tomcat 整合

    Infi-chu: http://www.cnblogs.com/Infi-chu/ 一.Apache+Tomcat整合是什么: 1.Apache默认访问端口是80,Tomcat默认访问端口是8080 ...

  10. Go语言中的HTTP

    Go中的http使用 package main import ( "fmt" "net/http" "io/ioutil" "st ...