Hadoop优化

一、影响MR程序效率的因素

　　1.计算机性能：

　　CPU、内存、磁盘、网络，

　　计算机的性能会影响MR程序的速度与效率

　　2.I/O方面

　　　1）数据倾斜（代码优化）

　　　2）map和reduce数量设置不合理(通过配置文件后代码中设置)

　　　3）map运行时间过长，导致reduce等待时间过长

　　　4）小文件过多（浪费元数据资源，CombineTextInputFormat）

　　　5）不可分快的超大文件（不断溢写）

　　　6）多个溢写小文件需要多次合并。

二、MR的优化方法

　　MR优化的六个方面：数据输入、map阶段、reduce阶段、IO传输、数据倾斜、参数调优

　　1.数据输入

　　　　1）合并小文件：在执行mr任务前就进行小文件合并

　　　　2）采用CombineTextInputFormat来作为输入，解决输入端大量小文件的场景

　　　　MR程序不适合处理大量小文件

　　2.Map阶段

　　　　1）减少溢写次数：

　　　　//修改内存大小：mapreduce.task.io.sort.mb

　　　　//修改默认溢写百分百：mapreduce.mps.sort.spill.percent

　　　　2）减少合并次数

　　　　//mapreduce.task.io.sort.factor，将merge值增大

　　　　3）在shuffle阶段不影响业务逻辑情况下使用Combiner

　　3.Reduce阶段

　　　　1）设置合理的map与reduce个数

　　　　//map可以通过文件切块的大小，或小文件合并改变maptask数量

　　　　//reduce通过分区partitioner，setNumReduceTasks改变reducetask数量

　　　　2）设置map/reduce共存

　　　//即map允许到一定程度后，启动reduce减少reduce的等待时间

　　　//mapreduce.job.reduce.slowstart.completedfmaps(参数越小reduce等待时间越少)

　　　//合理设置reduce端的buffer：mapreduce.reduce.markreset.buffer.percent

　　4.数据传输

　　　　1）数据压缩

　　　　2）使用SequenceFile，它是二进制文件，使字节之间紧密度更高，提高效率。

　　5.数据倾斜

　　　　1）进行范围分区

　　　　2）自定义分区

　　　　3）Combiner

　　　　4）能用map join坚决不用reduce join

　　6.参数调优

　　　　1）CPU

　　　　//程序map阶段默认使用cpu核心数量：mapreduce.map.cpu.vcores

　　　　　//程序reduce阶段more使用cpu核心数量：mapreduce.reduce.cpu.vcores

　　　　2）内存

　　　　//一个maptask可以使用的最大内存：mapreduce.map.memory.mb

　　　　//一个reducetask可以使用的最大内存：mapredcue.reduce.memory.mb

　　　　3）并行度

　　　　//reduce去map端拿数据时的并行度：mapreduce.reduce.shuffle.parallelcopies

Hadoop优化的更多相关文章

学习笔记：Twitter核心数据类库团队的Hadoop优化经验
一.来源 Streaming Hadoop Performance Optimization at Scale, Lessons Learned at Twitter (Data platform @ ...
关注云端搜索技术：elasticsearch，nutch，hadoop，nosql，mongodb，hbase，cassandra 及Hadoop优化
http://www.searchtech.pro/ Hadoop添加或调整的参数: 一.hadoop-env.sh1.hadoop的heapsize的设置,默认1000 # The maximum ...
Hadoop优化第一篇 : HDFS/MapReduce
比较惭愧,博客很久(半年)没更新了.最近也自己搭了个博客,wordpress玩的还不是很熟,感兴趣的朋友可以多多交流哈!地址是:http://www.leocook.org/ 另外,我建了个QQ群:3 ...
hadoop优化之拙见
map-reduce的优化: 需要内存的地方: map/reduce任务运行时内存.存放中间数据的内存缓存区.map输出数据排序内存, 需要操作磁盘的地方: map输出数据缓冲区达到阀值的溢出写文件 ...
Hadoop(24)-Hadoop优化
1. MapReduce 跑得慢的原因优化方法 MapReduce优化方法主要从六个方面考虑:数据输入.Map阶段.Reduce阶段.IO传输.数据倾斜问题和常用的调优参数. 数据输入 Map阶段 ...
Hadoop优化操作系统优化
1.优化文件系统,修改/etc/fstab 在defaults后面添加noatime,表示不记录文件的访问时间. 修改为: 如果不想重新启动操作系统使配置生效,那么应该执行: # mount -o r ...
Hadoop优化之数据压缩
bBHadoop数据压缩概述运行hadoop程序时,I/O操作.网络数据传输.shuffle和merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,这个时候,使用数据压缩可以提高效率 ...
[大牛翻译系列]Hadoop（16）MapReduce 性能调优：优化数据序列化
6.4.6 优化数据序列化如何存储和传输数据对性能有很大的影响.在这部分将介绍数据序列化的最佳实践,从Hadoop中榨出最大的性能. 压缩压缩是Hadoop优化的重要部分.通过压缩可以减少作业输出数 ...
Hadoop！ | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户
你正在使用过时的浏览器,Amaze UI 暂不支持. 请升级浏览器以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:1 ...

随机推荐

Unity 案例
Unity 案例-用Unity 开发的产品水电站管理.监控.培训系统石油加工管理系统房地产开发污水处理系统陆海空军事训练城市和社区监控,管理系统虚拟展馆家庭自动化系统石油加工管理系统 ...
【转】Redis学习笔记（五）如何用Redis实现分布式锁（2）—— 集群版
原文地址:http://bridgeforyou.cn/2018/09/02/Redis-Dsitributed-Lock-2/ 单机版实现的局限性在上一篇文章中,我们讨论了Redis分布式锁的实现 ...
Linux 文本处理工具记录
Shuffle lines of multi files 现在有 1000 个文本文件(0.txt ~ 999.txt),每个文件大概 11M,总共 11G,我想把这 1000 个文本文件的内容随机组 ...
Luogu P1082 同余方程(NOIP 2012) 题解报告
题目传送门 [题目大意] 求关于x的同余方程 ax≡1(mod b)的最小整数解. [思路分析] 由同余方程的有关知识可得,ax≡1(mod b)可以化为ax+by=1,此方程有解当且仅当gcd(a, ...
app每次更新版本时调用js代码提示用户下载更新
var url = '网络地址'; //APP升级 var wait; function update(){ //判断操作系统 var system = 'android'; if(mui.os.io ...
二、初始化superset
上一步成功安装了superset, 1.初始化数据创建命令 #创建管理员账号fabmanager create-admin --app superset#cd到superset 根目录参考路径 C: ...
vscode 插件与技巧
lit-html 下载量:3 万在 JavaScript/TypeScript 的文件中,如果有使用到 HTML 标记,lit-html 提供语法高亮和相应的补全支持. Git History 下载 ...
关于ViewPager+Fragment中的坑
1.我的情况是Activity里嵌套了Fragment_0,然后Fragment_0里面又嵌套了两个Fragment:Fragment_1.Fragment_2,然后我在其中一个Fragment,Fr ...
Timeline高级扩展
转载于http://forum.china.unity3d.com/thread-32200-1-1.html通过demo讲解了timeline更加复杂的使用方式 Timeline是创建过场动画和影片 ...
virtualenv安装及使用
环境 Windows 10 python 3.6.7 安装 virtualenv用于创建虚拟环境,用于隔离不同的python版本的运行,是容器类软件.这里在Windows下通过pip安装: pip i ...

Hadoop优化

Hadoop优化的更多相关文章

随机推荐

热门专题