MR案例：WordCount改写

MR案例：倒排索引

1.map阶段:将单词和URI组成Key值(如“MapReduce :1.txt”),将词频作为value. 利用MR框架自带的Map端排序,将同一文档的相同单词的词频组成列表,传递给Combine过程,实现类似于WordCount的功能. Class Map<Longwritable, Text, Text, Longwritable>{ method map(){ //获取输入分片对应的文件名 String fileName=((FileSplit)context.getInputSpli…

hadoop笔记之MapReduce的应用案例(WordCount单词计数)

MapReduce的应用案例(WordCount单词计数) MapReduce的应用案例(WordCount单词计数) 1. WordCount单词计数作用: 计算文件中出现每个单词的频数输入结果按照字母顺序进行排序 Map过程 Reduce过程 WordCount的源代码 import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import…

MR案例：Reduce-Join

问题描述:两种类型输入文件:address(地址)和company(公司)进行一对多的关联查询,得到地址名(例如:Beijing)与公司名(例如:Beijing JD.Beijing Red Star)的关联信息.可参考MR案例:Map-Join 1.map阶段:对比之前的单表关联可知,reduce阶段的key必须为关联两表的key,即address.Id = company.Id.则两表经过map处理输出的key必须是Id. Class Map<LongWritable, Text, Long…

MR案例：小文件处理方案

HDFS被设计来存储大文件,而有时候会有大量的小文件生成,造成NameNode资源的浪费,同时也影响MapReduce的处理效率.有哪些方案可以合并这些小文件,或者提高处理小文件的效率呢? 1). 所有HDFS小文件数据导出到本地单个文件后,再存入HDFS [root@ncst ~]# hadoop fs -ls /test/in/small/ Found items -rw-r--r-- root supergroup -- : /test/ -rw-r--r-- root supergrou…

MR案例：WordCount改写

请参照wordcount实现一个自己的MapReduce,需求为: a. 输入文件格式: xxx,xxx,xxx,xxx,xxx,xxx,xxx b. 输出文件格式: xxx,20 xxx,30 xxx.40 c. 功能:根据命令行参数统计输入文件中指定关键字出现的次数,并展示出来例如:hadoop jar xxxxx.jar keywordcount xxx,xxx,xxx,xxx(四个关键字) p…

Hadoop Mapreduce 案例 wordcount+统计手机流量使用情况

mapreduce设计思想概念:它是一个分布式并行计算的应用框架它提供相应简单的api模型,我们只需按照这些模型规则编写程序,即可实现"分布式并行计算"的功能. 案例一:wordcount经典案例先写map方法 package com.gec.demo; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text…

MR案例：CombineFileInputFormat

CombineFileInputFormat是一个抽象类.Hadoop提供了两个实现类CombineTextInputFormat和CombineSequenceFileInputFormat. 此案例让我明白了三点:详见解读:MR多路径输入和解读:CombineFileInputFormat类对于单一输入路径情况: //指定输入格式CombineFileInputFormat job.setInputFormatClass(CombineTextInputFormat.class);…

MR案例：倒排索引 && MultipleInputs

本案例采用 MultipleInputs类实现多路径输入的倒排索引.解读:MR多路径输入 package test0820; import java.io.IOException; import java.lang.reflect.Method; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; impo…

Hadoop基础------>MR框架-->WordCount

认识Mapreduce Mapreduce编程思想 Mapreduce执行流程 java版本WordCount实例 1. 简介: Mapreduce源于Google一遍论文,是谷歌Mapreduce的克隆版,他充分借鉴了分而治之的思想,讲一个数据处理过程拆分为主要的Map(映射)和Reduce(归并)两步,只需要编写map函数和reduce函数即可. 2. Mapreduce优势: 分布式带来了三个复杂:1.程序的分布和启动 2.任务的监控和失败处理 3.中间数据的缓存和调度然后Mapredu…

MR案例：输出/输入SequenceFile

SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File).在SequenceFile文件中,每一个key-value对被看做是一条记录(Record),基于Record的压缩策略,SequenceFile文件支持三种压缩类型: NONE: 对records不进行压缩; (组合1) RECORD: 仅压缩每一个record中的value值(不包括key); (组合2) BLOCK: 将一个block中的所有records(包括ke…

MR案例：MR和Hive中使用Lzo压缩

在MapReduce中使用lzo压缩 1).首先将数据文件在本地使用lzop命令压缩.具体配置过详见配置hadoop集群的lzo压缩 //压缩lzop,解压缩lzop -d [root@ncst word]# lzop words.txt [root@ncst word]# ls words.txt words.txt.lzo 2).将lzo文件上传到hdfs [root@ncst word]# hadoop fs -put words.txt.lzo /test/in/words/[root@…

MR案例：分区和排序

现有一学生成绩数据,格式如下:<学号,姓名,学院,成绩> //<id, name, institute, grade>. 需求描述:查询成绩大于等于60分的学生数据,按学院分组,组内按成绩从小到大排序. 使用SQL描述: Select * from table group by institute order by grade; 在MR下应该怎么做? 1.map阶段选择成绩>=60分的学生. Class SelectMapper method map(LongWritabl…

MR案例：链式ChainMapper

类似于Linux管道重定向机制,前一个Map的输出直接作为下一个Map的输入,形成一个流水线.设想这样一个场景:在Map阶段,数据经过mapper01和mapper02处理:在Reduce阶段,数据经过sort和shuffle后,交给对应的reducer处理.reducer处理后并没有直接写入到Hdfs, 而是交给了另一个mapper03处理,它产生的最终结果写到hdfs输出目录中. 注意:对任意MR作业,Map和Reduce阶段可以有无限个Mapper,但reduer只能有一个. packag…

MR案例：定制Partitioner

可以继承基类Partitioner,也可以继承默认的HashPartitioner类,覆写其中的 getPartition() 方法实现自己的分区. 需求:本例是对上一个实例的改写,需求不变 package country; import java.io.IOException; import java.io.UnsupportedEncodingException; import org.apache.hadoop.conf.Configuration; import org.apache.h…

MR案例：定制InputFormat

数据输入格式 InputFormat类用于描述MR作业的输入规范,主要功能:输入规范检查(比如输入文件目录的检查).对数据文件进行输入切分和从输入分块中将数据记录逐一读取出来.并转化为Map的输入键值对.细节详见解读:标准输入/输出格式 Hadoop中最常用的数据输入格式包括:TextInputFormat 和 KeyValueInputFormat. 1). TextInputFormat 是系统默认的数据输入格式,可以将文件的每一行解析成一个键值对.其中,Key是当前行在整个文件中的字节偏移…

MR案例：基站相关01

字段解释: product_no:用户手机号: lac_id:用户所在基站: start_time:用户在此基站的开始时间: staytime:用户在此基站的逗留时间. product_no lac_id moment start_time user_id county_id staytime city_id -- :: -- :: -- :: -- :: -- :: -- :: -- :: -- :: -- :: -- :: 需求描述: 根据 lac_id 和 start_time 知道用户…

MR案例：小文件合并SequeceFile

SequeceFile是Hadoop API提供的一种二进制文件支持.这种二进制文件直接将<key, value>对序列化到文件中.可以使用这种文件对小文件合并,即将文件名作为key,文件内容作为value序列化到大文件中.这种文件格式有以下好处: 1). 支持压缩,且可定制为基于Record或Block压缩(Block级压缩性能较优)2). 本地化任务支持:因为文件可以被切分,因此MapReduce任务时数据的本地化情况应该是非常好的.3). 难度低:因为是Hadoop框架提供的API,业务…

MR案例：外连接代码实现

[外连接]是在[内连接]的基础上稍微修改即可.具体HQL语句详见Hive查询Join package join.map; import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.Lon…

MR案例：内连接代码实现

本文是对Hive中[内连接]的Java-API的实现,具体的HQL语句详见Hive查询Join package join.map; import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.i…

MR案例：Map-Join

适用场景:一张表十分小[key不可重复].一张表非常大. 用法:在Job提交时,首先将小表加载到 DistributedCache 分布式缓存中,然后从DistributeCache中读取小表解析成 key/value 保存到内存中(可以放在Hash Map等容器中).然后扫描大表中的每条记录的 key 是否能在内存中找到相同 join key 的记录,如果有则直接输出结果. package join.map; import java.io.BufferedReader; import java…

MR案例：路径过滤PathFilter

问题描述:现有一批cookie日志,按照日期进行存放,如目录 “dir/2015-08-08” 下存放2015-08-08这一天的所有cookie.而目录 “/2015-08-08/” 下又根据数据文件名称的不同存放不同项目的cookie,如 “project-flag-cookie” 文件中存放的是 flag 项目相关的cookie. 实际需求:统计出某一天属于项目A的唯一cookie数是多少?(唯一cookie是指去重) 1.自定义PathFilter类由于项目是根据文件名字来区分,所以就要…

【MR案例：WordCount改写】的更多相关文章

MR案例：倒排索引

hadoop笔记之MapReduce的应用案例(WordCount单词计数)

MR案例：Reduce-Join

MR案例：小文件处理方案

MR案例：WordCount改写

Hadoop Mapreduce 案例 wordcount+统计手机流量使用情况

MR案例：CombineFileInputFormat

MR案例：倒排索引 && MultipleInputs

Hadoop基础------>MR框架-->WordCount

MR案例：输出/输入SequenceFile

MR案例：MR和Hive中使用Lzo压缩

MR案例：分区和排序

MR案例：链式ChainMapper

MR案例：定制Partitioner

MR案例：定制InputFormat

MR案例：基站相关01

MR案例：小文件合并SequeceFile

MR案例：外连接代码实现

MR案例：内连接代码实现

MR案例：Map-Join

MR案例：路径过滤PathFilter

MR案例：单表关联查询

MR案例：多文件输出MultipleOutputs

021_在Eclipse Indigo中安装插件hadoop-eclipse-plugin-1.2.1.jar，直接运行wordcount程序

020_自己编写的wordcount程序在hadoop上面运行，不使用插件hadoop-eclipse-plugin-1.2.1.jar

hadoop wordcount

大数据学习（4）MapReduce编程Helloworld：WordCount

解读：MR多路径输入

Hadoop_15_MapRduce_案例1_Wordcount 单词统计

小记--------spark-Wordcount经典案例之对结果根据词频进行倒序排序