1 测试集群

内存：256G
CPU：32Core （Intel(R) Xeon(R) CPU E5-2640 v3 @ 2.60GHz）
Disk（系统盘）：300G
Disk（数据盘）：1.5T*1

2 测试数据

tpcds parquet 10g
tpcds orc 10g

3 测试对象

hive-2.3.4 【set mapreduce.map.memory.mb=4096; set mapreduce.map.java.opts=-Xmx3072m;】【yarn 200g*3】
hive-2.3.4 on spark-2.4.0 【--master yarn --driver-memory 4g --num-executors 10 --executor-memory 4g】
spark-2.4.0 【--master yarn --driver-memory 4g --num-executors 10 --executor-memory 4g】
impala-2.12 【MEM_LIMIT=20gb * 3】

默认配置，未经优化；

4 测试结果

4.1 parquet

ps：0 means 执行失败

4.2 orc

ps：0 means 执行失败

可见：

hive orc相比parquet性能提升22%；
spark parquet相比orc性能提升36%；

【原创】大数据基础之Benchmark（4）TPC-DS测试结果（hive/hive on spark/spark sql/impala/presto）的更多相关文章

【原创】大数据基础之Benchmark（2）TPC-DS
tpc 官方:http://www.tpc.org/ 一简介 The TPC is a non-profit corporation founded to define transaction pr ...
【原创】大数据基础之Benchmark（1）HiBench
HiBench 7官方:https://github.com/intel-hadoop/HiBench 一简介 HiBench is a big data benchmark suite that ...
【原创】大数据基础之Zookeeper（2）源代码解析
核心枚举 public enum ServerState { LOOKING, FOLLOWING, LEADING, OBSERVING; } zookeeper服务器状态:刚启动LOOKING,f ...
大数据测试之hadoop集群配置和测试
大数据测试之hadoop集群配置和测试一.准备(所有节点都需要做):系统:Ubuntu12.04java版本:JDK1.7SSH(ubuntu自带)三台在同一ip段的机器,设置为静态IP机器分配 ...
【原创】大数据基础之词频统计Word Count
对文件进行词频统计,是一个大数据领域的hello word级别的应用,来看下实现有多简单: 1 Linux单机处理 egrep -o "\b[[:alpha:]]+\b" test ...
【原创】大数据基础之Impala（1）简介、安装、使用
impala2.12 官方:http://impala.apache.org/ 一简介 Apache Impala is the open source, native analytic datab ...
【原创】大数据基础之Hive（5）性能调优Performance Tuning
1 compress & mr hive默认的execution engine是mr hive> set hive.execution.engine;hive.execution.eng ...
【原创】大数据基础之Spark（3）Spark Thrift实现原理及代码实现
spark 2.1.1 一启动命令启动spark thrift命令 $SPARK_HOME/sbin/start-thriftserver.sh 然后会执行 org.apache.spark.de ...
大数据基础知识：分布式计算、服务器集群[zz]
大数据中的数据量非常巨大,达到了PB级别.而且这庞大的数据之中,不仅仅包括结构化数据(如数字.符号等数据),还包括非结构化数据(如文本.图像.声音.视频等数据).这使得大数据的存储,管理和处理很难利用 ...

随机推荐

IntelliJ IDEA（2017）安装和破解
IDEA 全称 IntelliJ IDEA,是Java语言开发的集成环境,IntelliJ在业界被公认为最好的java开发工具之一,尤其在智能代码助手.代码自动提示.重构.J2EE支持.各类版本工具( ...
linux_添加图标
sudo gedit /usr/share/applications/Pycharm.desktop [Desktop Entry] Type=Application Name=Pycharm Gen ...
利用C#访问注册表获取软件的安装路径
文章地址:https://blog.csdn.net/yl2isoft/article/details/17332139
Linux centos6.7网卡配置
系统安装完成后以此执行以下命令相当于自动获取IP地址 setup命令——Network configuration———Device configuration———eth0 依次保存退出实际上 ...
Scala思维导图
ORM映射和路由系统
ORM映射: OBJECT ====> 对象 RELATION ===> 联系 MODEL ===> 数据模型安装pyMysql 安装flask-sqlAchemy 导入: fro ...
python 函数指动态形参,作用域
函数的动态形参, 作用域一动态形参如果我们需要给⼀一个函数传参, ⽽而参数⼜又是不确定的. 或者我给⼀一个函数传很多参数, 我的形参就要写很多, 很⿇麻烦, 怎么办呢. 我们可以考虑使⽤用动态 ...
🌵react小记 🌵
Fresco，Glide，Picasso
1.Picasso和Glide的with后面的参数不同 Picasso.with(这里只能传入上下文) . Glide.with,后面可以传入上下文,Application实例,Activit ...
javascript/ajax和php 进阶之项目实战
1,使用异步思想做一个下拉列表,能够选择和展示数据库中对应的信息. 1,事件知识:所有的事件可参照:https://www.jb51.net/html5/459444.html 2,js中this补充 ...

【原创】大数据基础之Benchmark（4）TPC-DS测试结果（hive/hive on spark/spark sql/impala/presto）

1 测试集群

2 测试数据

3 测试对象

4 测试结果

4.1 parquet

4.2 orc

【原创】大数据基础之Benchmark（4）TPC-DS测试结果（hive/hive on spark/spark sql/impala/presto）的更多相关文章

随机推荐

热门专题