MapReduce跑得慢的原因

2024-11-03

Hadoop 少量map/reduce任务执行慢问题

最近在做报表统计,跑hadoop任务. 之前也跑过map/reduce但是数据量不大,遇到某些map/reduce执行时间特别长的问题. 执行时间长有几种可能性: 1. 单个map/reduce任务处理的任务大. 需要注意每个任务的数据处理量大小不至于偏差太大.可以切割部分大文件. 2. map数量过多, reduce拉取各方数据慢这种情况,可以在中间加一轮map过程A. 即map -> mapA - > reduce,来减少reduce拉取数据的源头的个数. 3. 遇到了执行慢节点 had

MySQL跑得慢的原因分析

第一点,硬件太老硬件我们这里主要从CPU.内存.磁盘三个方面来说下,还有一些因素比如网卡,机房网络等因为文章篇幅关系,就不一一介绍了,以后还有机会可以聊. 首先我们来看下MySQL对CPU的利用特点: 5.1可以利用4个核,5.5可以利用到24个核,5.6可以利用到64个核比如MySQL5.6能用到48个CORE以上,跑得好的,64个CORE都能用到(48CORE-64CORE之间,官方公布48个CORE,我实际测试能跑到64个CORE). MySQL 5.6 可以用到48 core+ My

老版mapreduce跑streaming作业多路输出的方法

1. 继承MultipleTextOutputFormat实现自己的输出类. 2. 重写generateFileNameForKeyValue方法,返回输出的名字,可通过"/"分割表示目录路径. 3. 重写generateActualValue方法,返回真实的value. 4. 将类编译打包成jar,在运行streaming作业时设置-libjars YourJar.jar -outputformat YourPackage.YourOutputClass选项示例: package

Eclipse编译运行没问题，但执行mvn clean install跑单元测试失败的原因解析

问题描述:mvn clean install编译工程并运行单元测试出现如下错误 Tests run: 3, Failures: 0, Errors: 2, Skipped: 0, Time elapsed: 6.343 sec <<< FAILURE!selectUserInfosTest(tech.fullink.eaglehorn.test.UserInfoTest) Time elapsed: 0.003 sec <<< ERROR!org.apache.ibat

mapreduce设置setMapOutputKeyClass与setMapOutputValueClass原因

一般的mapreduce的wordcount程序如下: public class WcMapper extends Mapper<LongWritable, Text, Text, LongWritable> { @Override protected void map(LongWritable key, Text value, Context ctx) throws IOException, InterruptedException { String[] words = value.toSt

大数据技术之Hadoop（MapReduce）

第1章 MapReduce概述 1.1 MapReduce定义 1.2 MapReduce优缺点 1.2.1 优点 1.2.2 缺点 1.3 MapReduce核心思想 MapReduce核心编程思想,如图4-1所示. 图4-1 MapReduce核心编程思想 1)分布式的运算程序往往需要分成至少2个阶段. 2)第一个阶段的MapTask并发实例,完全并行运行,互不相干. 3)第二个阶段的ReduceTask并发实例互不相干,但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出. 4

Hadoop(24)-Hadoop优化

1. MapReduce 跑得慢的原因优化方法 MapReduce优化方法主要从六个方面考虑:数据输入.Map阶段.Reduce阶段.IO传输.数据倾斜问题和常用的调优参数. 数据输入 Map阶段 Reduce阶段 I/O传输数据倾斜数据倾斜现象减小数据倾斜的方法常用的调优参数资源相关以下参数是在用户自己的MR应用程序中配置就可以生效(mapred-default.xml) 配置参数参数说明 mapreduce.map.memory.mb 一个MapTask可使用的资源上限(单位

haodoop企业优化

MapReduce 跑的慢的原因 MapReduce程序效率的瓶颈在于两点计算机性能 CPU,内存,磁盘健康,网络 I/O操作优化数据倾斜 Map和Reduce数设置不合理 Map运行时间太长,导致Reduce等待过久小文件太多大量的不可且片的超大压缩文件 Spill次数过多 Merge次数过多 MapReduce优化方法 MapReduce优化方法主要从六个方面考虑:数据输入.Map阶段.Reduce阶段.IO传输.数据倾斜问题和常用的调优参数. 数据输入合并小文件: 在执行MR任务

Hadoop详解(08) - Hadoop企业优化方案.docx

Hadoop详解(08) - Hadoop企业优化方案.docx MapReduce优化 MapReduce 跑的慢的原因计算机性能:CPU.内存.磁盘健康.网络 I/O 操作优化 (1)数据倾斜 (2)Map和Reduce的Task数设置不合理 (3)Map运行时间太长,导致Reduce等待过久 (4)小文件过多 (5)大量的不可切片的超大压缩文件 (6)Spill次数过多 (7)Merge次数过多等. MapReduce优化方法 MapReduce优化方法主要可以从六个方面考虑:数据输入.

hadoop下跑mapreduce程序报错

mapreduce真的是门学问,遇到的问题逼着我把它从MRv1摸索到MRv2,从年前就牵挂在心里,连过年回家的旅途上都是心情凝重,今天终于在eclipse控制台看到了job completed successfully,当时的兴奋难以形容,都有些不敢相信自己的眼睛,压抑住激动的心情再试了一遍,特么真的跑通了,喜极而泣. 总结起来就是两处 1.报错Class not found 或者 No job jar file set 这是由于及集群中没有我们提交的jar包,所以namenode不知道怎么执行

Hadoop — MapReduce原理解析

1. 概述 Mapreduce是一个分布式运算程序的编程框架,是用户开发"基于hadoop的数据分析应用"的核心框架: Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上: 1.1 MapReduce的诞生背景背景原因:(1) 海量数据在单机上处理因为硬件资源限制,无法胜任:(2) 而一旦将单机版程序扩展到集群来分布式运行,将极大增加程序的复杂度和开发难度:(3) 引入mapreduce框架后,开发人员可

【hadoop2.2(yarn)】基于yarn成功执行分布式map-reduce，记录问题解决过程。

hadoop2.x改进了hadoop1.x的架构, 具体yarn如何工作以及改进了什么可以在网上学, 这里仅记录我个人搭建的问题和理解,希望能帮助遇到困难的朋友. 在开始前,必须了解yarn版本的mapreduce框架基础组件包括1个resourcemanager和每个slave上各1个nodemanager,其他进程均由mapreduce任务动态创建. 1,怎么简单高效的部署分布式集群? 答:先在1台机器上准备好hadoop和java环境,将java和hadoop的jar包环境变量写到.bas

mapreduce出现类似死锁情况

在往hbase表里通过bulkload导数据时,某个mapreduce跑了一个多小时还没跑,看yarn界面,发现map还有一小部分没跑完,没跑完的map全在pending,running中没有,同时reduce在copy阶段把资源全用光,导致map没资源去跑,进而导致reduce一直在copy状态等待.也就是说map需要资源去跑,reduce需要等map全部跑完才能进行下一个阶段,这样就导致相互等待,类似死锁.大约在一个半小时左右,有130多个reduce被AppMaster kill,被kil

[翻译]MapReduce: Simplified Data Processing on Large Clusters

MapReduce: Simplified Data Processing on Large Clusters MapReduce:面向大型集群的简化数据处理摘要 MapReduce既是一种编程模型,也是一种与之关联的.用于处理和产生大数据集的实现.用户要特化一个map程序去处理key/value对,并产生中间key/value对的集合,以及一个reduce程序去合并有着相同key的所有中间key/value对.本文指出,许多实际的任务都可以用这种模型来表示. 用这种函数式风格写出的程序自动就

Spark随笔（三）：straggler的产生原因

首先,介绍前辈研究的基于MapReduce框架的outlier产生原因:其次,根据这些方面来分析Spark架构中的straggler:最后,根据阅览的优化办法,谈谈自己的看法. 一.MapReduce产生outlier的原因 outlier是指MapReduce中延长job执行时间的因素,参考文献为Reining in the Outliers inMap-Reduce Clusters using Mantri. MapReduce整体系统产生outlier的原因可以分为三类: 1.硬件特性

《MapReduce: Simplified Data Processing on Large Cluster 》翻译

Abstract MapReduce是一种编程模型和一种用来处理和产生大数据集的相关实现.用户定义map函数来处理key/value键值对来产生一系列的中间的key/value键值对.还要定义一个reduce函数用来合并有着相同中间key值的中间value.许多现实世界中的任务都可以用这种模型来表达,就像下文所展示的那样. 用这个风格编写的程序可以自动并行地在集群上工作.运行时系统会自动处理例如切割输入数据,在机器之间调度程序的执行,处理机器故障以及管理必要的机器间通信等细节问题.这可以让那些对

查看语句运行时间异常的原因（SQLServer）

转载:http://www.cnblogs.com/fygh/archive/2012/01/17/2324926.html 查看语句运行时间异常的原因(SQLServer) 经常有开发同事反映如下情况:我有一条语句或者一个JOB昨天跑半个小时就完成了,今天怎么跑了两个小时还没有完成? 是不是数据库出现问题了? 数据库语句运行时间异常,其实是一个比较复杂的情况,因为数据是不断变动的,今天好好的一条语句,有可能明天运行就不在预计的时间内了,这个场景是没办法完全重溯的,即便有当时的备份数据,但

Hadoop学习笔记（四）：Yarn和MapReduce

1. 先关闭掉所有的防火墙(master和所有slave) 2. 配置yarn-site.xml文件(配置所有机器,此时没有启动hadoop服务) 3. 启Yarn,输入要命令start-yarn.sh,用jps检测,看到如下情况表示启动成功 4. 在宿主机浏览器上进行查看,输入地址master:8088,可以看到Yarn的相关情况: 5. 下面我们在Yarn上跑一个计算,由于我们需要计算的文档存放的hdfs上,因此我们首先需要启动hadoop服务.然后需要指定MapReduce跑在Yarn上,

mapreduce中文乱码，已解决

问题: mapreduce中文乱码原因: 再用Hadoop处理数据的时候,发现输出的时候,总是会出现乱码,这是因为Hadoop在设计编码的时候,是写死的.默认是UTF-8,所以当你处理的文件编码格式不是为UTF-8的时候,比如为GBK格式,那么就会输出的时候就会出现乱码. 问题解决: 解决问题非常简单,就是转码,确定数据都是以UTF-8的编码格式在运行. 在map端从文件中读取一行数据的时候,把他转为UTF-8格式.例如: 我的文件是GBK格式的则: // 把数据以GBK的格式读过来 Stri

年关将至业内警示P2P跑路风险

年关将近,P2P网贷行业的问题平台亦不断增多,“跑路潮”会否再现,业内人士讨论热烈. “从历年数据统计来看,问题平台接近线性向上的增长趋势,即时间越往后,问题平台占比就越高,而每逢年关,问题平台占比都会是每年最高的.”共富网CEO徐朝俊分析指出. 多位业内人士向<每日经济新闻>记者表示,在经济下行阶段,平台应夯实自身基础,而不是盲目扩张.另外,从目前的投资踊跃度.P2P发展增速和国家政策导向来看,部分平台“跑路”是正常的优胜劣汰:同时,也会起到教育投资者.成为监管层出台行业管理制度催化剂的作用

使用ffmepg的lib库调试，debug版本下调试无问题，但release版本会出现跑飞的现象

如题(“使用ffmepg的lib库调试,debug版本下调试无问题,但release版本会出现跑飞的现象”). 今天使用ffmpeg进行宿放和颜色格式转换,很简单的代码,却折腾了我一天,这里说来就气啊,全是一顿的蛋疼,这里记下来,防止以后再蛋疼.呵呵开始的时候,我以为是我的代码问题,然后我把我的代码很多地方都注释了,发现debug没问题,release还是不断跑飞,啥原因? 于是我从新建了一个测试工程,很简单,就调用一句话. 整个工程的代码如下: // ffmpegtest.cpp : 定义控

MapReduce跑得慢的原因

热门专题