2.1 需求 现在有一些订单的评论数据,需求,将订单的好评与差评进行区分开来,将最终的数据分开到不同的文件夹下面去,数据内容参见资料文件夹,其中数据第九个字段表示好评,中评,差评.0:好评,1:中评,2:差评 数据内容类似如下: 1 2018-03-15 22:29:06 2018-03-15 22:29:06 我想再来一个 \N 1 3 hello 来就来吧 0 2018-03-14 22:29:032 2018-03-15 22:42:08 2018-03-15 22:42:08 好的 \N…
第五天课程大纲:1.社交粉丝的数据分析:求共同好友2.倒排索引的建立3.自定义inputFormat合并小文件 4.自定义outputformat5.分组求topN6.MapReduce的其他补充 了解7.mapreduce的参数优化 理解8.yarn的资源调度管理 例子1:社交粉丝数据分析 逻辑分析 以下是qq的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的,即A的好友列表中有B,但B可能把A删除了) A:B,C,D,F,E,O B:A,C,E,K C:F,…
自定义GroupingComparator求取topN GroupingComparator是mapreduce当中reduce端的一个功能组件,主要的作用是决定哪些数据作为一组,调用一次reduce的逻辑,默认是每个不同的key,作为多个不同的组,每个组调用一次reduce逻辑,我们可以自定义GroupingComparator实现不同的key作为同一个组,调用一次reduce逻辑 3.1 需求 有如下订单数据 订单id 商品id 成交金额 Order_0000001 Pdt_01 222.8…
1.1 需求 无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案 1.2 分析 小文件的优化无非以下几种方式: 1.  在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS: 2.  在业务处理之前,在HDFS上使用mapreduce程序对小文件进行合并. 自定义inputformat,将hdfs上面已经存在的多个小文件合并成一个sequenceFile, sequenceFile也是一种文件格式:里面装的内容就…
5.1 多job串联 一个稍复杂点的处理逻辑往往需要多个mapreduce程序串联处理,多job的串联可以借助mapreduce框架的JobControl实现 示例代码: ControlledJob cJob1 = new ControlledJob(job1.getConfiguration()); ControlledJob cJob2 = new ControlledJob(job2.getConfiguration()); ControlledJob cJob3 = new Contro…
只要修改OrderReducer.java的reduce方法,修改为: int i = 0;for(NullWritable nullWritable:values){ if(i>=2) break; context.write(key,NullWritable.get()); i++;}…
倒排索引建立 需求分析 需求:有大量的文本(文档.网页),需要建立搜索索引 最终实现的结果就是哪个单词在哪个文章当中出现了多少次 思路分析: 首选将文档的内容全部读取出来,加上文档的名字作为key,文档的value为1,组织成这样的一种形式的数据 map端数据输出 hello-a.txt 1tom-a.txt 1hello-a.txt 1jerry-a.txt 1 到reduce阶段hello-a.txt <1,1> reduce端数据输出 hello-a.txt 2 tom-a.txt 1…
1.继承FileOutputFormat,复写getRecordWriter方法 /** * @Description:自定义outputFormat,输出数据到不同的文件 */ public class FilterOutputFormat extends FileOutputFormat<Text, NullWritable> { @Override public RecordWriter<Text, NullWritable> getRecordWriter(TaskAtte…
自定义U盘盘符.文件夹图标.文件夹背景 注意对于Vista和Win7的用户不支持文件夹图标和文件夹背景的更换 1.自定义盘符:在U盘根目录下新建文件 autorun.inf(可先建.txt文本文档,再重命名为autorun.inf),打开输入以下内容:[autorun]icon=*.ico其中,*.ico 为你的图标文件路径(什么,你不会制作ico图标?赶紧去看看我以前的文章吧),如果图标在根目录下,则直接输入图标文件名,如 icon=u-ico.ico ,如果图标文件不在U盘根目录下,则输入其…
@ 目录 OutputFormat接口实现类 自定义OutputFormat使用场景及步骤 使用场景 自定义OutputFormat 案例实操 OutputFormat接口实现类 OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutputFormat接口.下面介绍几种常见的OutputFormat实现类. 文本输出TextoutputFormat 默认的输出格式是TextOutputFormat,它把每条记录写为文本行.它的键和值可以是任意类型,因…