安装使用Cloudera Impala
安装与使用Cloudera Impala
Cloudera Impala提供快速的、交互式的SQL查询方式,直接基于Apache Hadoop存储在HDFS或HBase中的数据进行查询。除了使用与Apache Hive相同的统一存储平台外,Impala也使用了与Hive相同的元数据、SQL语法(Hive SQL)、ODBC驱动和用户接口(Cloudera Impala查询UI使用Hue)。这样就提供了一个用于实时或批量的查询的熟悉的、统一的平台。
Cloudera Impala是一个查询大数据的工具。Impala不会取代例如hive这样基于MapReduce的批处理框架。Hive和其他的基于MapReduce的批处理框架最适合用于长时间运行的批处理作业,如执行批量的抽取、转换、载入类的作业。
Impala 优点
Impala提供了
- 数据科学家、分析人员熟悉的SQL接口
- 交互式查询Apache Hadoop中的大数据
- 可同时进行大数据处理、分析的单一系统,用户可以避免为了分析进行昂贵的建模、ETL操作
Cloudera Impala与CDH如何协同工作
下图显示了在cloudera环境中Impala的定位
Impala由以下组件组成:
- 客户端 - 包括Hue、ODBC客户端、JDBC客户端、可与Impala交互的Impala Shell。这些接口通常用于执行查询或完成管理任务,例如连接到Impala
- Hive Metastore - 存储可用于Impala数据的信息。例如,Impala通过metastore了解哪些数据库可用以及这些数据库的结构。当你使用Impala SQL语句,执行创建、删除修改schema对象、加载数据到表中、以及执行其他类似操作时,相关元数据的变化,通过Impala 1.2引入的单独的catalog服务,自动广播到所有Impala节点。
- Cloudera Impala - 本程序运行于数据节点,用于协调和执行查询。每一个Impala的实例可以获取、解析以及协调Impala客户端传来的查询。查询是被分布到各Impala节点间,这些节点作为workers,并行执行查询片段。
- HBase and HDFS - 所查询数据的存储位置
Impala执行查询的处理过程如下:
- 用户程序通过ODBC或JDBC发送SQL给Impala,其中Impala提供了标准的查询接口。用户程序可能连接到集群中任意impalad进程,这一impalad进程作为这一查询的协调器。
- Impala解析、分析这一查询,确定什么任务由集群中哪一impalad实例执行,执行计划最优。
- Impalad实例会访问本地HDFS和HBase服务,获取数据。
- 每一个impalad都返回数据给协调器impalad,并由它发送结果给客户端。
Impala主要特性
Impala提供以下支持:
- Hive查询语言(HiveQL)中最通用的SQL-92功能,包括SELECT、连接(join)、以及聚合函数
- HDFS and HBase 存储,包括:
- HDFS文件格式:Text文件, SequenceFile, RCFile, Avro文件以及Parquet。
- 压缩编解码: Snappy, GZIP, Deflate, BZIP。
- 通用Hive接口,包括:
- JDBC驱动
- ODBC驱动
- Hue Beeswax和新Cloudera Impala Query UI
- Impala命令行接口
- Kerberos认证
安装使用Cloudera Impala的更多相关文章
- Cloudera impala简单介绍及安装具体解释
一.Impala简单介绍 Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL.除了像Hive使用同样的统一存储平台,Impala也使 ...
- cloudera impala编译 安装 配置 启动
无论是采用GDB调试impala或者尝试修改impala源码,前提都是需要本地环境编译impala,这篇文章详细的分享一下impala编译方法以及编译过程遇到的棘手的问题: 前言: impala官方的 ...
- 安装Cloudera Impala
安装Cloudera Impala Cloudera Impala是Cloudera Enterprise Core的开源扩展,用于快速返回查询结果. Impala作为你环境的插件,与其他组件的安装独 ...
- impala记录-安装kudu和impala
1.配置/etc/yum.repos.d clouder-kudu.repo [cloudera-kudu]# Packages for Cloudera's Distribution for kud ...
- CDH5上安装Hive,HBase,Impala,Spark等服务
Apache Hadoop的服务的部署比較繁琐.须要手工编辑配置文件.下载依赖包等.Cloudera Manager以GUI的方式的管理CDH集群,提供向导式的安装步骤.因为须要对Hive,HBase ...
- Cloudera Impala需求
Cloudera Impala需求 为了达到预期的效果,Impala依赖于软件.硬件的可用性,以及下面章节描述的配置. 继续阅读: 支持的操作系统 支持的Hadoop发布 Hive Metastore ...
- Cloudera Impala Guide
Impala Concepts and Architecture The following sections provide background information to help you b ...
- 初识 Cloudera Impala
Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据.已有的Hive系统尽管也提供了SQL语义,但因为Hive底层 ...
- Cloudera Manager安装之Cloudera Manager安装前准备(Ubuntu14.04)(一)
其实,基本思路跟如下差不多,我就不多详细说了,贴出主要图. 博主,我是直接借鉴下面这位博主,来进行安装的!(灰常感谢他们!) 在线和离线安装Cloudera CDH 5.6.0 Cloudera M ...
随机推荐
- Android开发之assets目录下资源使用总结
预前知识: Android资源文件分类: Android资源文件大致可以分为两种: 第一种是res目录下存放的可编译的资源文件: 这种资源文件系统会在R.Java里面自动生成该资源文件的ID,所以访问 ...
- vscode 如何格式化vue(template)html代码 , 保持标签属性不换行
微软的vscode 真心强大 , electron 框架写的 , 用js写的桌面应用 , 有能力的话大家可以分析一下人家的源码 , 反正我是看不了 , 太牛掰了 在一次跟新后我发现莫名奇妙的些在组件( ...
- phpstorm 删除空行
思路: 用正则把所有空行找到,然后一键全部替换. 步骤:首先把 Regex 打上勾ctrl+f 搜索框就填写正则规则:^\nctrl+r 匹配到所有空行之后,点击[Replace all]即可
- WPF 定时器DispatcherTimer+GetCursorPos 的使用,动态查看屏幕上任一点坐标
原文:WPF 定时器DispatcherTimer+GetCursorPos 的使用,动态查看屏幕上任一点坐标 ); dTimer.Start(); ...
- 静态库、动态库,dll文件、lib文件,隐式链接、显式链接浅见
静态链接.动态链接 静态库和动态库分别应用在静态链接方式和动态链接方式中,所谓静态链接方式是指在程序执行之前完成所有的链接工作,把静态库一起打包合入,生成一个可执行的目标文件(EXE文件).所谓动态链 ...
- python 教程 第十三章、 特殊的方法
第十三章. 特殊的方法 1) 特殊的方法 __init__(self,...) 这个方法在新建对象恰好要被返回使用之前被调用. __del__(self) 恰好在对象要被删除之前调用. __st ...
- hdu 2128 Frog(简单DP)
Frog Time Limit: 3000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others) Total Submi ...
- React实现checkbox group多组选项和标签组显示的联动
实现功能:勾选checkbox项,确定后,已勾选的checkbox项以tag标签的形式展示,tag标签可快捷删除. 实现过程: 使用React. 使用Ant Design的Checkbox.Tag组件 ...
- linq to entity DistinctBy && DefaultIfEmpty
根据某属性去重 使用第三方库: https://github.com/morelinq/MoreLINQ Install-Package morelinq -Version 3.0.0 data.Di ...
- 解压压缩文件报错gzip: stdin: not in gzip format tar: Child returned status 1 tar: Error is not recoverable: exiting now
压缩包是直接weget 后面加官网上的tar包地址获取的 [root@xuegod43 ~]# tar -zxvf /home/hadoop/hadoop-2.6.5-src.tar.gz gzip ...