HiBench学习笔记
HiBench资源及教程:https://github.com/intel-hadoop/HiBench
介绍:
Hadoop新人
环境 linux
该笔记针对英语弱鸡&自己在使用过程用遇到的问题的记录。
步骤:
首先创建一个文件夹HiBench:mkdir HiBench
cd HiBench
git clone https://github.com/intel-hadoop/HiBench
先介绍一下我的测试集群的环境:
resourcemanager
datanode1
datanode2
datanode3
概述
HiBench是用来在速度方面评估不同的大数据框架的,它包括一系列的Hadoop,Spark,streaming工作负载,包括sort,wordcount,TeraSort, Sleep, SQL, PageRank, Nutch indexing, Bayes, Kmeans, NWeight and enhanced DFSIO,等。同样也为park Streaming, Flink, Storm and Gearpump提供工作负载。
Getting Started
- Build HiBench
- Run HadoopBench
- Run SparkBench
- Run StreamingBench (Spark streaming, Flink, Storm, Gearpump)
Build HiBench
运行mvn -Dscala=2.11 clean package 是Build All,即建立HiBench的所有模块。
可能遇到的问题:
1.bash: mvn : command not found
原因:你的系统上没有安装maven
解决方法:去官网下载
2.执行过程中出现失败
原因:可能是网络的问题吧,我也不是很清楚
解决方法:重复执行该命令,最后出现build succeed 即可。
Run HadoopBench
1.确保:
Python 2.x(>=2.6) is required.
Supported Hadoop version: Apache Hadoop 2.x, CDH5.x, HDP
Build HiBench according to build HiBench.
Start HDFS, Yarn in the cluster.
2.创建并修改配置文件hadoop.conf
在HiBench的conf下:mkdir hadoop.conf
在HiBench下: cp conf/hadoop.conf.template conf/hadoop.conf
然后修改配置文件: vim hadoop.conf
按照下图的规范:
注意:
1.hibench.hadoop.home是你本机上hadoop的安装路径
2.在配置hibench.hdfs.master的时候我傻傻地写了hdfs://localhost:8020/user/username。。。导致后来运行脚本一直不成功。
首先localhost是你的机器的IP,也可以在命令行输入hostname,用hostname来代替localhost即可。
后面的端口号也不是8020,要根据本机的端口,在命令行输入vi ~/local/hadoop-2.7.3/etc/hadoop/core-site.xml,可以观察到
hdfs://master:9000代替hdfs://localhost:8020,
username写的是你把数据存在了usr下的那个文件里
我配置完的情况是:
接下来就是在HiBench下运行脚本
bin/workloads/micro/wordcount/prepare/prepare.sh
如果前面都没有问题的话,是能正常执行的。
bin/workloads/micro/wordcount/hadoop/run.sh
执行完成以后,你可以在HiBench/report/hibench.report中查看 workload name, execution duration, data size, throughput per cluster, throughput per node等信息
数据规模也是可以设置的:修改conf/hibench.conf里面的hibench.scale.profile项。 未完待续。。。
HiBench学习笔记的更多相关文章
- js学习笔记:webpack基础入门(一)
之前听说过webpack,今天想正式的接触一下,先跟着webpack的官方用户指南走: 在这里有: 如何安装webpack 如何使用webpack 如何使用loader 如何使用webpack的开发者 ...
- PHP-自定义模板-学习笔记
1. 开始 这几天,看了李炎恢老师的<PHP第二季度视频>中的“章节7:创建TPL自定义模板”,做一个学习笔记,通过绘制架构图.UML类图和思维导图,来对加深理解. 2. 整体架构图 ...
- PHP-会员登录与注册例子解析-学习笔记
1.开始 最近开始学习李炎恢老师的<PHP第二季度视频>中的“章节5:使用OOP注册会员”,做一个学习笔记,通过绘制基本页面流程和UML类图,来对加深理解. 2.基本页面流程 3.通过UM ...
- 2014年暑假c#学习笔记目录
2014年暑假c#学习笔记 一.C#编程基础 1. c#编程基础之枚举 2. c#编程基础之函数可变参数 3. c#编程基础之字符串基础 4. c#编程基础之字符串函数 5.c#编程基础之ref.ou ...
- JAVA GUI编程学习笔记目录
2014年暑假JAVA GUI编程学习笔记目录 1.JAVA之GUI编程概述 2.JAVA之GUI编程布局 3.JAVA之GUI编程Frame窗口 4.JAVA之GUI编程事件监听机制 5.JAVA之 ...
- seaJs学习笔记2 – seaJs组建库的使用
原文地址:seaJs学习笔记2 – seaJs组建库的使用 我觉得学习新东西并不是会使用它就够了的,会使用仅仅代表你看懂了,理解了,二不代表你深入了,彻悟了它的精髓. 所以不断的学习将是源源不断. 最 ...
- CSS学习笔记
CSS学习笔记 2016年12月15日整理 CSS基础 Chapter1 在console输入escape("宋体") ENTER 就会出现unicode编码 显示"%u ...
- HTML学习笔记
HTML学习笔记 2016年12月15日整理 Chapter1 URL(scheme://host.domain:port/path/filename) scheme: 定义因特网服务的类型,常见的为 ...
- DirectX Graphics Infrastructure(DXGI):最佳范例 学习笔记
今天要学习的这篇文章写的算是比较早的了,大概在DX11时代就写好了,当时龙书11版看得很潦草,并没有注意这篇文章,现在看12,觉得是跳不过去的一篇文章,地址如下: https://msdn.micro ...
随机推荐
- Install boot2docker defaule username and password
username passowrd method docker tcuser ssh root command sudo -i
- 问题:oracle long 与 clob;结果:long类型比clob到底差在什么地方?
long类型比clob到底差在什经常看到9i以上的文档,说以后 clob会逐步取代long,一直想不出, 而我在8.1.7上也测试2个字段好像 在存储上也看不出什么区别?么地方? 差别还是很大的, 比 ...
- canvas,绘制七巧板
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
- 用JS,打印99乘法表
<!DOCTYPE html> <html> <head> <meta charset="utf-8" /> <title&g ...
- 【270】IDL处理GeoTIFF数据
参考:将原GeoTIFF数据的投影坐标信息赋值到新创建的文件上 pro tiff_projection ;启动ENVI e = ENVI(/HEADLESS) ;打开文件 file = 'D:\01- ...
- python笔记--3--函数、生成器、装饰器、函数嵌套定义、函数柯里化
函数 函数定义语法: def 函数名([参数列表]): '''注释''' 函数体 函数形参不需要声明其类型,也不需要指定函数返回值类型 即使该函数不需要接收任何参数,也必须保留一对空的圆括号 括号后面 ...
- 2018网络预选赛 徐州H 线段树+树状数组
设读入的数组是a,树状数组用来维护a数组区间和sum,线段树用来维护一个另一个数组ssum的区间和,区间每个点a[i]*(n-i+1),那么l-r的答案是l-r的ssum-(n-r)*(sum[r]- ...
- 02 mybatis环境搭建 【spring + mybatis】
1 导包 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.o ...
- 2015年阿里实习生面试Java研发工程师 小记
5月5日,广州,阿里实习生面试,Java研发工程师,完全被虐orz 几乎没有Java项目开发经验,接近零基础,去水了一发,毫无悬念的被刷了..RP也是杠杠的,准备过的题目一个都没被问到,算法题也是一条 ...
- jemalloc和内存管里
netty的buffer引入了缓冲池.该缓冲池实现使用了jemalloc的思想.为了看懂这块代码学写了内容分配的知识.这里讲的内存分配是堆的内存分配,其他内容本文不会涉及. 内存分配是面向虚拟内存的而 ...