1、Impala简介

  • Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。
  • 基于Hive使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点
  • 是CDH平台首选的PB级大数据实时查询分析引擎

   官网:http://www.cloudera.com/products/apache-hadoop/impala.html

      http://www.impala.io/index.html

  下面是在基于单用户和多用户查询的时候,不同的查询分析器所使用的时间:

    

2、Impala的特点

  • 1、基于内存进行计算,能够对PB级数据进行交互式实时查询、分析
  • 2、无需转换为MR,直接读取HDFS数据
  • 3、C++编写,LLVM统一编译运行
  • 4、兼容HiveSQL
  • 5、具有数据仓库的特性,可对hive数据直接做数据分析
  • 6、支持Data Local
  • 7、支持列式存储
  • 8、支持JDBC/ODBC远程访问

    (相比于Hive,Impala不需要启动MapReduce直接同HDFS或HBase进行交互)

3、Impala 劣势

  • 1、对内存依赖大
  • 2、C++编写 开源?!
  • 3、完全依赖于hive
  • 4、实践过程中 分区超过1w 性能严重下下降
  • 5、稳定性不如hive

4、Impala安装

  • 安装方式:
    – 1、ClouderaManager
    – 2、手动安装(待续)

      

      可以使用CDH安装,方便快捷,而且管理起来更加方便,下面是CDH安装以后的CDH管理界面:

      

5、Impala核心组件 

  • Statestore Daemon
    • 实例*1 - statestored
      – 负责收集分布在集群中各个impalad进程的资源信息、各节点健康状况,同步节点信息.
      – 负责query的调度
  • Catalog Daemon
    • 实例*1 - catalogd
      – 分发表的元数据信息到各个impalad中
      – 接收来自statestore的所有请求
  • Impala Daemon
    • 实例*N – impalad
      – 接收client、hue、jdbc或者odbc请求、Query执行并返回给中心协调节点
      – 子节点上的守护进程,负责向statestore保持通信,汇报工作

6、Impala架构

    

    (1) 由Client发送一个执行SQL到任意一台Impalad的Query Planner
    (2) 由Query Planner 把SQL发向Query Coordinator
    (3) 由Query Coordinator 来调度分配任务到Impalad的所有节点
    (4) 各个Impalad节点的Query Executor 进行执行SQL工作
    (5) 执行SQL结束以后,将结果返回给Query Coordinator
    (6) 再由Query Coordinator 将结果返回给Client

Impala 1、Impala理论的更多相关文章

  1. 怎么理解impala(impala工作原理是什么)

    下面给大家介绍怎么理解impala,impala工作原理是什么. Impala是hadoop上交互式MPP SQL引擎, 也是目前性能最好的开源SQL-on-hadoop方案. 如下图所示, impa ...

  2. Impala系列:Impala查询优化

    ==========================理解 mem_limit 参数==========================set mem_limit=-1b #取消内存限制set mem_ ...

  3. Impala系列: Impala常用的功能函数

    --=======================查看内置的函数--=======================hive 不需要进入什么内置数据库, 即可使用 show functions 命令列出 ...

  4. impala系列:impala特有的操作符

    --=======================Impala 特有的操作符--=======================ILIKE 操作符, 忽略大小写的 like 操作符.REGEXP 操作符 ...

  5. Impala学习–Impala后端代码分析

    Table of Contents 1 代码结构 2 StateStore 3 Scheduler 4 impalad启动流程 5 Coordinator 6 ExecNode 7 PlanFragm ...

  6. Impala简介PB级大数据实时查询分析引擎

    1.Impala简介 • Cloudera公司推出,提供对HDFS.Hbase数据的高性能.低延迟的交互式SQL查询功能. • 基于Hive使用内存计算,兼顾数据仓库.具有实时.批处理.多并发等优点 ...

  7. Kudu+Impala介绍

    Kudu+Impala介绍 概述 Kudu和Impala均是Cloudera贡献给Apache基金会的顶级项目.Kudu作为底层存储,在支持高并发低延迟kv查询的同时,还保持良好的Scan性能,该特性 ...

  8. 安装Impala

    1.默认安装好hadoop并且能正常启动(只需hdfs即可)2.安装如下rpm包(需要root权限 注意顺序) bigtop-utils-0.7.0+cdh5.8.2+0-1.cdh5.8.2.p0. ...

  9. Components of the Impala Server

    Components of the Impala Server The Impala server is a distributed, massively parallel processing (M ...

  10. Impala入门笔记

    From:http://tech.uc.cn/?p=817 问题背景: 初步了解Impala的应用 重点测试Impala的查询速度是否真的如传说中的比Hive快3~30倍 写作目的: 了解Impala ...

随机推荐

  1. javascript delete机制学习

    想了解delete的机制缘起一个现象,我无法解释,也无法理解. 首先看一下下面这个例子: var x = 1; delete x; //false 然后我又执行了一次: y = 2; delete y ...

  2. Hive 9、Hive 在表中添加正则匹配

    在Hive中还有一项比较好用的功能,也是非常重要的功能:在建表的时候可以不指定表的行.字段.列的分隔方式,通过给表指定一段正则表达式,让Hive自动去匹配: 1.创建表 CREATE TABLE ap ...

  3. hdu 5432 Pyramid Split(二分搜索)

    Problem Description Xiao Ming is a citizen who's good at playing,he has lot's of gold cones which ha ...

  4. 汉字与utf8相互转化

    NSString* strA = [@"%E4%B8%AD%E5%9B%BD"stringByReplacingPercentEscapesUsingEncoding:NSUTF8 ...

  5. Dom4j解析xml格式的字符串【java】

    一般我们会使用dom4j.SAX.w3c来解析xml文件,网上也大多提供此类解决方案. 但在实际项目中,也有会解析xml格式的字符串报文的. 比如,有如下字符串: String = "< ...

  6. Block内的强引用

    众所周知,当某个对象持有着一个Block的时候,如果在Block内部使用强引用反过来持有这个对象,就会导致引用循环.为了避免引用循环,可以使用__weak修饰符,苹果的官方文档在用代码演示__weak ...

  7. SQL 2008存储图片和读取图片

    用SQL Server存储文字数据非常easy实现,假设用SQL Server存储图片呢?大家有没有实现思路呢?如今我用一个Demo来为大家提供一种在SQL Server中存储图片的思路. 场景:在s ...

  8. HDU 1863:畅通project(带权值的并查集)

    畅通project Time Limit: 1000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others) Total ...

  9. Java中的编码格式

    Java中的编码 gbk编码 中文占用2个字节,英文占1个字节; utf-8编码 中文占用3个字节.,英文占用1个字节; Java是双字节编码 (utf-16be) utf -16be 中文占2个字节 ...

  10. javascript无缝流畅动画轮播,终于让我给搞出来了。

    自己一直想写一个真正能用的轮播图,以前是写过一个,但是不是无缝的轮播,感觉体验很差,这个轮播之前也搞了很多实例,看了很多代码,但是脑子总转不过弯,为什么在运动到一定距离后可以突然转回到原始位置,而没有 ...