Hadoop优化
一、影响MR程序效率的因素
1.计算机性能:
CPU、内存、磁盘、网络,
计算机的性能会影响MR程序的速度与效率
2.I/O方面
1)数据倾斜(代码优化)
2)map和reduce数量设置不合理(通过配置文件后代码中设置)
3)map运行时间过长,导致reduce等待时间过长
4)小文件过多(浪费元数据资源,CombineTextInputFormat)
5)不可分快的超大文件(不断溢写)
6)多个溢写小文件需要多次合并。
二、MR的优化方法
MR优化的六个方面:数据输入、map阶段、reduce阶段、IO传输、数据倾斜、参数调优
1.数据输入
1)合并小文件:在执行mr任务前就进行小文件合并
2)采用CombineTextInputFormat来作为输入,解决输入端大量小文件的场景
MR程序不适合处理大量小文件
2.Map阶段
1)减少溢写次数:
//修改内存大小:mapreduce.task.io.sort.mb
//修改默认溢写百分百:mapreduce.mps.sort.spill.percent
2)减少合并次数
//mapreduce.task.io.sort.factor,将merge值增大
3)在shuffle阶段不影响业务逻辑情况下使用Combiner
3.Reduce阶段
1)设置合理的map与reduce个数
//map可以通过文件切块的大小,或小文件合并改变maptask数量
//reduce通过分区partitioner,setNumReduceTasks改变reducetask数量
2)设置map/reduce共存
//即map允许到一定程度后,启动reduce减少reduce的等待时间
//mapreduce.job.reduce.slowstart.completedfmaps(参数越小reduce等待时间越少)
//合理设置reduce端的buffer:mapreduce.reduce.markreset.buffer.percent
4.数据传输
1)数据压缩
2)使用SequenceFile,它是二进制文件,使字节之间紧密度更高,提高效率。
5.数据倾斜
1)进行范围分区
2)自定义分区
3)Combiner
4)能用map join坚决不用reduce join
6.参数调优
1)CPU
//程序map阶段默认使用cpu核心数量:mapreduce.map.cpu.vcores
//程序reduce阶段more使用cpu核心数量:mapreduce.reduce.cpu.vcores
2)内存
//一个maptask可以使用的最大内存:mapreduce.map.memory.mb
//一个reducetask可以使用的最大内存:mapredcue.reduce.memory.mb
3)并行度
//reduce去map端拿数据时的并行度:mapreduce.reduce.shuffle.parallelcopies
Hadoop优化的更多相关文章
- 学习笔记:Twitter核心数据类库团队的Hadoop优化经验
一.来源 Streaming Hadoop Performance Optimization at Scale, Lessons Learned at Twitter (Data platform @ ...
- 关注云端搜索技术:elasticsearch,nutch,hadoop,nosql,mongodb,hbase,cassandra 及Hadoop优化
http://www.searchtech.pro/ Hadoop添加或调整的参数: 一.hadoop-env.sh1.hadoop的heapsize的设置,默认1000 # The maximum ...
- Hadoop优化 第一篇 : HDFS/MapReduce
比较惭愧,博客很久(半年)没更新了.最近也自己搭了个博客,wordpress玩的还不是很熟,感兴趣的朋友可以多多交流哈!地址是:http://www.leocook.org/ 另外,我建了个QQ群:3 ...
- hadoop优化之拙见
map-reduce的优化: 需要内存的地方: map/reduce任务运行时内存.存放中间数据的内存缓存区.map输出数据排序内存, 需要操作磁盘的地方: map输出数据缓冲区达到阀值的溢出写文件 ...
- Hadoop(24)-Hadoop优化
1. MapReduce 跑得慢的原因 优化方法 MapReduce优化方法主要从六个方面考虑:数据输入.Map阶段.Reduce阶段.IO传输.数据倾斜问题和常用的调优参数. 数据输入 Map阶段 ...
- Hadoop优化 操作系统优化
1.优化文件系统,修改/etc/fstab 在defaults后面添加noatime,表示不记录文件的访问时间. 修改为: 如果不想重新启动操作系统使配置生效,那么应该执行: # mount -o r ...
- Hadoop优化之数据压缩
bBHadoop数据压缩 概述 运行hadoop程序时,I/O操作.网络数据传输.shuffle和merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,这个时候,使用数据压缩可以提高效率 ...
- [大牛翻译系列]Hadoop(16)MapReduce 性能调优:优化数据序列化
6.4.6 优化数据序列化 如何存储和传输数据对性能有很大的影响.在这部分将介绍数据序列化的最佳实践,从Hadoop中榨出最大的性能. 压缩压缩是Hadoop优化的重要部分.通过压缩可以减少作业输出数 ...
- Hadoop! | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户
你正在使用过时的浏览器,Amaze UI 暂不支持. 请 升级浏览器 以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:1 ...
随机推荐
- 将图片转为base64
DEMO: <input type="file" id="file" multiple="multiple"> <div ...
- [Android] Android 使用 FragmentTabHost + Fragment 实现 微信 底部菜单
Android 使用 FragmentTabHost + Fragment 实现 微信 底部菜单 利用FragmentTabHost实现底部菜单,在该底部菜单中,包括了4个TabSpec,每个TabS ...
- [Luogu P1354]房间最短路问题
这是一道紫题,然而实际上我觉得也就蓝题难度甚至不到. and,这道题就是一道数学题,代码模拟计算过程. 求最短路嘛,肯定要考虑建图,只需要把中间的墙上每个口的边缘处的点作为图中的点就行.至于为什么,显 ...
- 12C数据库ORA-40365: The SYS user cannot be locked while the password file is in its current format
[环境介绍] 系统环境:Solaris + Oracle 12CR2 [背景描述] 基于集团数据库安全检查项,需要把sys用户锁定或者修改复杂口令整改. 在整改前已经对参数remote_login ...
- Storage 001 电商数据库设计
[大概流程 ]用户登录 > 选购商品 > 加入购物车 > 检查库存 >提交订单 > 选择在线支付 或 选择货到付款 > 发货 [用户模块]注册 登陆 [商 ...
- 一个老鸟发的公司内部整理的 Android 学习路线图
基础工具部分: 中文手册,我猜测是Maven中文手册,可是我并没有找到这样的资源,欢迎知道的朋友告诉我: Android部分有 『第三方库集合』,我没能找到资源地址: 书籍我大多是给的豆瓣链接,如果觉 ...
- jsp网页连接mysql数据库
1.在mysql数据库中建立数据表 建一张测试表test,插入几条数据: 2.设置JDBC驱动 将 mysql-connector-java-5.0.8-bin.jar 拷到WebContent/WE ...
- h5页面使用js实现保存当前图片到手机相册
很可惜,这个鬼东西微信内置浏览器不适用 页面: <!doctype html> <html> <head> <meta charset="UTF-8 ...
- 移动端,input、textarea滚动至可视区域
1.一般情况下 在移动端,点击input框之后,会弹出输入键盘.而内容input的内容也会自动滚动到可视区域内. 2.当父元素设置了overflow属性之后 在设置了overflow属性之后,点击in ...
- P5304 [GXOI/GZOI2019]旅行者
题目地址:P5304 [GXOI/GZOI2019]旅行者 这里是官方题解 一个图 \(n\) 点 \(m\) 条边,里面有 \(k\) 个特殊点,问这 \(k\) 个点之间两两最短路的最小值是多少? ...