[impala] impala 简介

【简介】

Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性。相比之下，Impala的最大特点也是最大卖点就是它的快速。

【优点】

1、Impala不需要把中间结果写入磁盘，省掉了大量的I/O开销。

2、省掉了MapReduce作业启动的开销。MapReduce启动task的速度很慢（默认每个心跳间隔是3秒钟），Impala直接通过相应的服务进程来进行作业调度，速度快了很多。
Impala完全抛弃了MapReduce这个不太适合做SQL查询的范式，而是像Dremel一样借鉴了MPP并行数据库的思想另起炉灶，因此可做更多的查询优化，从而省掉不必要的shuffle、sort等开销。

3、通过使用LLVM来统一编译运行时代码，避免了为支持通用编译而带来的不必要开销。

4、用C++实现，做了很多有针对性的硬件优化，例如使用SSE指令。

5、使用了支持Data locality的I/O调度机制，尽可能地将数据和计算分配在同一台机器上进行，减少了网络开销。

【与spark的对比】

一、总体上
Shark扩展了Apache Hive，大大加快在内存和磁盘上的查询。

而Impala是企业级数据仓库系统, 可以很好地使用Hive/ HDFS，从架构层来说，类似于传统的并行数据库。这两个系统有着很多共同的目标，但也有很大差异。

二、与现有系统的兼容性
Shark直接建立在Apache/Hive代码库上，所以它自然支持几乎所有Hive特点。它支持现有的Hive SQL语言，Hive数据格式（SerDes），用户自定义函数（UDF），调用外部脚本查询。

因为Impala使用自定义的C++运行，它不支持Hive UDF。这两个系统将会与许多BI工具整合，这一直是Impala的主要目标。Shark正在被用于一些BI工具，如Tableau，不过这并没有被探索更多。

三、内存中的数据处理
Shark允许用户显式地加载在内存中的数据，以加快查询处理，其内存使用有效率的，压缩的面向列的格式。

Impala还没有提供在内存中的存储。

四、容错
Shark被设计为支持短期和长时间运行的查询。它可以从查询故障恢复(感谢底层Spark引擎)。

Impala目前是更侧重于短查询，不容错（如果节点发生故障，查询必须重新启动，对短查询来说这无疑是可以接受的）。

五、性能
做全面的比较太早了点。Shark和Impala都报告比Hive快10-100倍，但这都依赖具体情况和系统负载。两个项目也都在未来6个月内会做重要优化。以我们的经验来看，Sharkr当前版本，如果是内存的数据一般比Hive快100倍，如果是磁盘上的数据一般快5-10倍，这取决于查询（带关联连接的查询，能比Hive快很多）。

【推荐教程】

1、impala入门基础教程：http://www.aboutyun.com/thread-8629-1-1.html

2、解析Impala架构：https://sanwen8.cn/p/169uSyN.html

3、Impala：新一代开源大数据分析引擎：http://www.csdn.net/article/2013-12-04/2817707-Impala-Big-Data-Engine

[impala] impala 简介的更多相关文章

【原创】大数据基础之Impala（1）简介、安装、使用
impala2.12 官方:http://impala.apache.org/ 一简介 Apache Impala is the open source, native analytic datab ...
Impala 架构探索-Impala 系统组成与使用调优
要好好使用 Impala 就得好好梳理一下他得结构以及他存在得一些问题或者需要注意得地方.本系列博客主要想记录一下对 Impala 架构梳理以及使用上的 workaround. Impala 简介首 ...
入门大数据---安装ClouderaManager,CDH和Impala,Hue，oozie等服务
1.要求和支持的版本 (PS:我使用的环境,都用加粗标识了.) 1.1 支持的操作系统版本操作系统版本 RHEL/CentOS/OL with RHCK kernel 7.6, 7.5, 7.4, ...
初识 Cloudera Impala
Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据.已有的Hive系统尽管也提供了SQL语义,但因为Hive底层 ...
【原创】大数据基础之Impala（2）实现细节
一架构 Impala is a massively-parallel query execution engine, which runs on hundreds of machines in ex ...
impala操作hase、hive
impala中使用复杂类型(Hive): 如果Hive中创建的表带有复杂类型(array,struct,map),且储存格式(stored as textfile)为text或者默认,那么在im ...
How-to: Do Statistical Analysis with Impala and R
sklearn实战-乳腺癌细胞数据挖掘(博客主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005269003&a ...
【impala学习之一】impala
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 CM5.4 一.ImpalaImpala是基于Hive的大数 ...
<Parquet><Physical Properties><Best practice><With impala>
Parquet Parquet is a columnar storage format for Hadoop. Parquet is designed to make the advantages ...

随机推荐

[100]find&xargs命令
打算把基础命令常用选项做个总结. find命令参数 - 命令格式 find . -type f -name '*.txt' - 命令参数 find #查找文件 -type #指定类型 f 文件 d 目 ...
css3实现画对号动画
目标:实现对号动画,慢慢画出来的感觉: 原理:外层div的背景是一个对号图片,用一个div做遮罩,让遮罩div层从左到右做运动一次即可实现动画,需要注意的是遮罩div的初始位置应该在外层div的外面: ...
python（39）：argparse的用法,从外部传入指定参数
直接上例子: # /usr/bin/env python # coding=utf8 import os import argparse import logging import sys FORMA ...
shell执行字符串中的命令
假如说你有以下代码: cmd='ls -l' 然后你想要执行将cmd的内容作为命令来执行该怎么操作呢? 答案: cmd='ls -l' ${cmd}
Linux内核分析：recv、recvfrom、recvmsg函数实现
先看一下这三个函数的声明: #include <sys/types.h> #include <sys/socket.h> ssize_t recv(int sockfd, vo ...
【自动化测试】selenium之 chromedriver与chrome版本映射表
chromedriver版本支持的Chrome版本 v2.30 v58-60 v2.29 v56-58 v2.28 v55-57 v2.27 v54-56 v2.26 v53-55 v2.25 v5 ...
Python给我的小伙伴来个微信机器人
[本文出自天外归云的博客园] 安装wxpy 首先你得去图灵机器人官网上注册个账号,登录后在机器人设置里面会有一个api_key,下文会用到! 然后说开发环境,我用的是python3环境,事先需要安装一 ...
php类库安装xml
问题报错:Call to undefined function dom_import_simplexml() yum install php-dom service restart httpd 参考 ...
struts学习笔记
------struts in action 读书笔记 1. ActionServlet:Struts 的ActionServlet控制导航流.当ActionServlet从容器接到一个请求,它使用U ...
[转]java利用AES实现URL的参数加密
原文地址:http://h5566h.iteye.com/blog/1465426 很多时候需要在URL传参,希望URL参数能够加密,这里我结合了文章http://www.2cto.com/kf/20 ...

[impala] impala 简介

[impala] impala 简介的更多相关文章

随机推荐

热门专题