前面几篇随笔记录了我安装环境的一些笔记，环境ok以后，自然要看看impala到底性能如何，拿他来hive做做对比：

前面hive章节中，已经建立了一张名叫chengyeliang的table，该表的结构为

该表内导入了100000条记录。

分别用impala-shell和hive对该表进行查询：

测试一

查询记录的数量：

Select count（*）from chengyeliang；

Hive：

耗时27.197秒

Impala

耗时0.33秒

测试二

查询符合过滤条件的记录：filter

select * from chengyeliang where foo=1314;

Hive：

耗时19.967秒

Impala

耗时0.31秒

测试三

查询某一列或者某几列的值：

select foo from chengyeliang limit 2000;（前2000条）

Hive：

耗时18.71秒

Impala

耗时0.47秒

扩大数据量---上亿条记录

表的结构为：

12个字段，共有100437725（1亿多）条记录。

测试一

查询记录的数量：

select count(*) from yeliang;

Hive：

耗时111.761秒

Impala

耗时26.31秒

测试二

查询符合过滤条件的记录：filter

select * from yeliang where id=123456;

Hive：

耗时110.581秒

Impala

耗时24.50秒

测试三

查询某一列或者某几列的值：

select id from yeliang sort by id limit 500;(前500条，排序)

Hive：

耗时515.711秒

Impala

耗时28.77秒

总结

　　大数据下的查询分析工具调研了一两个月的时间了，从最初的drill开始，到impala，从框架级，原理架构级到源码分析级，感触很多，由于apache 对drill广阔的前景规划目前drill的功能还不支持真正的dfs文件数据的查询，impala相对成熟一些，该文档前面详细叙述了搭建impala的环境，以及支持impala的各组件的安装，尤其是环境ok以后，对比hive的查询分析实验，实时性返回的感觉真的很棒。

　　Google总是引领着互联网技术公司的走向，尤其在大数据领域。前段时间调研过的apache hama就是google pregel的开源实现，而如今apache drill同样是对google产品big query背后的引擎Dremel的开源实现，Cloudera在这一步上略早于apache，使得他的CDH更加的在业界具有竞争力，前段时间业界新闻，hive的发源地facebook同样也推出了自己的大数据查询分析工具----Presto http://www.csdn.net/article/2013-06-13/2815749-Facebook-Presto

　　这说明着，数据越多的公司，对数据分析有强烈需求的公司，他们对高效查询分析的需求同样会更迫切。

展望

　　总的来说，能够亲眼看到超过hive查询速度20多倍的产品，还是很吃惊的。但是，调研的过程中，尤其源码分析的阶段，类SQL大数据查询分析的门槛还是相对很高的，个人感觉，需要团队对传统数据库领域或者分布式文件系统等相关方向的积累，如果有分布式数据库的经验作为对比学习则更好。

Hive与impala的对比测试实验的更多相关文章

使用Hive或Impala执行SQL语句，对存储在HBase中的数据操作
CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,f ...
使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作(二)
CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,f ...
使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作
http://www.cnblogs.com/wgp13x/p/4934521.html 内容一样,样式好的版本. 使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据 ...
hive、impala集成ldap
1.概要 1.1 环境信息 hadoop:cdh5.10 os:centos6.7 user:root hive.impala已集成sentry 1.2 访问控制权限这里通过使用openldap来控 ...
Hive记录-Impala jdbc连接hive和kudu参考
1.配置环境Eclipse和JDK 2.加载hive jar包或者impala jar包备注:从CDH集群里面拷贝出来下载地址:https://www.cloudera.com/downloads ...
SQL数据分析概览——Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto+druid
转自infoQ! 根据 O’Reilly 2016年数据科学薪资调查显示,SQL 是数据科学领域使用最广泛的语言.大部分项目都需要一些SQL 操作,甚至有一些只需要SQL. 本文涵盖了6个开源领导者: ...
CDH5上安装Hive,HBase,Impala,Spark等服务
Apache Hadoop的服务的部署比較繁琐.须要手工编辑配置文件.下载依赖包等.Cloudera Manager以GUI的方式的管理CDH集群,提供向导式的安装步骤.因为须要对Hive,HBase ...
学习Hive和Impala必看经典解析
Hive和Impala作为数据查询工具,它们是怎样来查询数据的呢?与Impala和Hive进行交互,我们有哪些工具可以使用呢? 我们首先明确Hive和Impala分别提供了对应查询的接口: (1)命令 ...
第1节 HUE：14、15、16、hue与hdfs、yarn集群、hive、impala、mysql的整合
3.hue与其他框架的集成 3.1.hue与hadoop的HDFS以及yarn集成第一步:更改所有hadoop节点的core-site.xml配置记得更改完core-site.xml之后一定要重启 ...

随机推荐

delphi 四舍五入Round函数【百帖整理】
在最近版本的Delphi Pascal 编译器中,Round 函数是以 CPU 的 FPU (浮点部件) 处理器为基础的.这种处理器采用了所谓的 "银行家舍入法",即对中间值 (如 ...
LeetCode OJ-- Restore IP Addresses
https://oj.leetcode.com/problems/restore-ip-addresses/ string到int的ip地址格式化. 分别用 i+1,j+1,k+1,表示前三个地址段的 ...
在Eclipse中打开Hadoop工程
1. 安装虚拟机,我用的是VMware Workstation 12 Player 2. 在VM中安装Ubuntu,我用的镜像文件是ubuntu-15.10-desktop-amd64.iso 3. ...
CCCC L2-023. 图着色问题【set去重判不同种类个数/简单图论/判断两相邻点是否存在同色以及颜色个数】
L2-023. 图着色问题时间限制 300 ms 内存限制 65536 kB 代码长度限制 8000 B 判题程序 Standard 作者陈越图着色问题是一个著名的NP完全问题.给定无向图 G ...
UVALive 5135 Mining Your Own Business 双连通分量
据说这是一道Word Final的题,Orz... 原题链接:https://icpcarchive.ecs.baylor.edu/index.php?option=com_onlinejudge&a ...
Codeforces 622F The Sum of the k-th Powers
Discription There are well-known formulas: , , . Also mathematicians found similar formulas for high ...
C# 将 WebService 封装成动态库
C# 将 WebService 封装成动态库服务与服务之间的远程调用,经常会通过Web Service来实现,Web Service是支持跨语言调用的,可以是java调用c++或c#调用java等, ...
php curl xml传输和转换
<?php /** * API * User: sgfoot * Date: 2017/3/20 * Time: 18:05 */ class apiCurl { private $config ...
Android -- native关键字
native关键字说明其修饰的方法是一个原生态方法,方法对应的实现不是在当前文件,而是在用其他语言(如C和C++)实现的文件中.Java语言本身不能对操作系统底层进行访问和操作,但是可以通过JNI接口 ...
[Algorithm] Write a Depth First Search Algorithm for Graphs in JavaScript
Depth first search is a graph search algorithm that starts at one node and uses recursion to travel ...

Hive与impala的对比测试实验

测试一

测试二

测试三

扩大数据量---上亿条记录

测试一

测试二

测试三

总结

展望

Hive与impala的对比测试实验的更多相关文章

随机推荐

热门专题