1、Impala简介

  • Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。
  • 基于Hive使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点
  • 是CDH平台首选的PB级大数据实时查询分析引擎

   官网:http://www.cloudera.com/products/apache-hadoop/impala.html

      http://www.impala.io/index.html

  下面是在基于单用户和多用户查询的时候,不同的查询分析器所使用的时间:

    

2、Impala的特点

  • 1、基于内存进行计算,能够对PB级数据进行交互式实时查询、分析
  • 2、无需转换为MR,直接读取HDFS数据
  • 3、C++编写,LLVM统一编译运行
  • 4、兼容HiveSQL
  • 5、具有数据仓库的特性,可对hive数据直接做数据分析
  • 6、支持Data Local
  • 7、支持列式存储
  • 8、支持JDBC/ODBC远程访问

    (相比于Hive,Impala不需要启动MapReduce直接同HDFS或HBase进行交互)

3、Impala 劣势

  • 1、对内存依赖大
  • 2、C++编写 开源?!
  • 3、完全依赖于hive
  • 4、实践过程中 分区超过1w 性能严重下下降
  • 5、稳定性不如hive

4、Impala安装

  • 安装方式:
    – 1、ClouderaManager
    – 2、手动安装(待续)

      

      可以使用CDH安装,方便快捷,而且管理起来更加方便,下面是CDH安装以后的CDH管理界面:

      

5、Impala核心组件 

  • Statestore Daemon
    • 实例*1 - statestored
      – 负责收集分布在集群中各个impalad进程的资源信息、各节点健康状况,同步节点信息.
      – 负责query的调度
  • Catalog Daemon
    • 实例*1 - catalogd
      – 分发表的元数据信息到各个impalad中
      – 接收来自statestore的所有请求
  • Impala Daemon
    • 实例*N – impalad
      – 接收client、hue、jdbc或者odbc请求、Query执行并返回给中心协调节点
      – 子节点上的守护进程,负责向statestore保持通信,汇报工作

6、Impala架构

    

    (1) 由Client发送一个执行SQL到任意一台Impalad的Query Planner
    (2) 由Query Planner 把SQL发向Query Coordinator
    (3) 由Query Coordinator 来调度分配任务到Impalad的所有节点
    (4) 各个Impalad节点的Query Executor 进行执行SQL工作
    (5) 执行SQL结束以后,将结果返回给Query Coordinator
    (6) 再由Query Coordinator 将结果返回给Client

Impala 1、Impala理论的更多相关文章

  1. 怎么理解impala(impala工作原理是什么)

    下面给大家介绍怎么理解impala,impala工作原理是什么. Impala是hadoop上交互式MPP SQL引擎, 也是目前性能最好的开源SQL-on-hadoop方案. 如下图所示, impa ...

  2. Impala系列:Impala查询优化

    ==========================理解 mem_limit 参数==========================set mem_limit=-1b #取消内存限制set mem_ ...

  3. Impala系列: Impala常用的功能函数

    --=======================查看内置的函数--=======================hive 不需要进入什么内置数据库, 即可使用 show functions 命令列出 ...

  4. impala系列:impala特有的操作符

    --=======================Impala 特有的操作符--=======================ILIKE 操作符, 忽略大小写的 like 操作符.REGEXP 操作符 ...

  5. Impala学习–Impala后端代码分析

    Table of Contents 1 代码结构 2 StateStore 3 Scheduler 4 impalad启动流程 5 Coordinator 6 ExecNode 7 PlanFragm ...

  6. Impala简介PB级大数据实时查询分析引擎

    1.Impala简介 • Cloudera公司推出,提供对HDFS.Hbase数据的高性能.低延迟的交互式SQL查询功能. • 基于Hive使用内存计算,兼顾数据仓库.具有实时.批处理.多并发等优点 ...

  7. Kudu+Impala介绍

    Kudu+Impala介绍 概述 Kudu和Impala均是Cloudera贡献给Apache基金会的顶级项目.Kudu作为底层存储,在支持高并发低延迟kv查询的同时,还保持良好的Scan性能,该特性 ...

  8. 安装Impala

    1.默认安装好hadoop并且能正常启动(只需hdfs即可)2.安装如下rpm包(需要root权限 注意顺序) bigtop-utils-0.7.0+cdh5.8.2+0-1.cdh5.8.2.p0. ...

  9. Components of the Impala Server

    Components of the Impala Server The Impala server is a distributed, massively parallel processing (M ...

  10. Impala入门笔记

    From:http://tech.uc.cn/?p=817 问题背景: 初步了解Impala的应用 重点测试Impala的查询速度是否真的如传说中的比Hive快3~30倍 写作目的: 了解Impala ...

随机推荐

  1. Shell下通过echo+telnet在远端执行命令

    创建脚本cmd.sh,用于输入telnet的用户与密码,以及生成远端需要执行的命令   执行命令 MY_SIGN=/tmp/sign; (sh cmd.sh ) | (telnet localhost ...

  2. 第11讲- Android中进程及其优先级

    第11讲Android中进程及其优先级 进程与线程: 进程:操作系统结构的基础,资源分配的最小单元,一个操作系统包括多个进程: 线程:线程存在于进程当中,是操作系统调试执行的最小单元,一个进程包括多个 ...

  3. Linux Security模块

    一.Linux Security Modules Linux Security Modules (LSM) 是一种 Linux 内核子系统,旨在将内核以模块形式集成到各种安全模块中.在 2001 年的 ...

  4. Good Teacher(模拟)

    Good Teacher Time Limit:1000MS     Memory Limit:0KB     64bit IO Format:%lld & %llu Submit Statu ...

  5. [转]Laravel 4之URL生成

    Laravel 4之URL生成 http://dingjiannan.com/2013/laravel-url/ 获取当前URL 获取当前URL有两种方式,URL::current()或URL::fu ...

  6. 引用System.Runtime.Serialization.Json

    vs2012下,重新添加一次System.Runtime.Serialization的引用

  7. javascript,css3加载动画

    html代码 <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <me ...

  8. Oracle相关的知识点

    1. 如何在Oracle SQLPlus中执行SQL Script文件 以下面的格式在提示符中输入@{file name} SQL>@{file} 假设你要运行的文件的名字是script.sql ...

  9. ES6 let和const命令

    一.let定义变量 { let a = 1;} console.log(a);只在let所在的代码块有效,console的结果是a is not defined,报错. 不存在var的变量提升,即使用 ...

  10. node.js如何使用回调

    Node.js到处使用回调,尤其在有I/O(输入/输出)操作的地方. 下面是在一个Node.js中使用filesystem模块中从磁盘上读入文件内容示例一: var fs = require('fs' ...