hadoop笔记之MapReduce的应用案例(WordCount单词计数)
MapReduce的应用案例(WordCount单词计数)
MapReduce的应用案例(WordCount单词计数)
1. WordCount单词计数
作用:
计算文件中出现每个单词的频数
输入结果按照字母顺序进行排序
Map过程
Reduce过程
WordCount的源代码
import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
public class WordCount {
public static class WordCountMap extends
Mapper<LongWritable, Text, Text, IntWritable> {
private final IntWritable one = new IntWritable(1);
private Text word = new Text();
public void map(LongWritable key, Text value, Context context)
throws IOException, InterruptedException {
String line = value.toString();
StringTokenizer token = new StringTokenizer(line);
while (token.hasMoreTokens()) {
word.set(token.nextToken());
context.write(word, one);
}
}
}
public static class WordCountReduce extends
Reducer<Text, IntWritable, Text, IntWritable> {
public void reduce(Text key, Iterable<IntWritable> values,
Context context) throws IOException, InterruptedException {
int sum = 0;
for (IntWritable val : values) {
sum += val.get();
}
context.write(key, new IntWritable(sum));
}
}
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
Job job = new Job(conf);
job.setJarByClass(WordCount.class);
job.setJobName("wordcount");
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
job.setMapperClass(WordCountMap.class);
job.setReducerClass(WordCountReduce.class);
job.setInputFormatClass(TextInputFormat.class);
job.setOutputFormatClass(TextOutputFormat.class);
FileInputFormat.addInputPath(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
job.waitForCompletion(true);
}
}
代码解析:
首先是导入各种的相应的类import
开始定义一个类WordCount
public class WordCount{}
在这个类里面包含了两个内置的类,一个叫TokenizerMapper,另一个叫IntSumReducer
public static class TokenizerMapper
public static class IntSumReducer
其中第一个设置了Mapper的输入格式分别是Object(key)和Text(value),输出类型是Text(key)和IntWritable(value)
其中
extends Mapper<Object,Text,Text,IntWritable>{}
这里的one表示单词出现过1次
private final IntWritable one = new IntWritable(1);
接下来就是map操作
public void map(Object key,Text value,Context context)
map操作做一个节段进行分词,如果发现一个词以后就进行写入一个word一个one
word.set(itr.nextToken());
context.write(word,one);
第二个类IntSumReducer,它继承于Reduce接口,设置Reducer的类型是Text和IntWritable,输出类型是Text和IntWritable
public static class IntSumReducer
extends Reducer<Text,IntWritable,Text,IntWritable>{}
Reducer做累加
sum+=val.get();
写好之后有个main函数,用于设置相应的配置文件,包括输入文件目录和输出文件目录,配置作业名字,配置作业中的各个类等等
public static void main(String[] args) throws Exception{}
WordCount单词计数步骤:
- 编写WordCount.java,包含Mapper类和Reducer类
- 编译WordCount.java,
javac -classpath
- 打包jar
-cvf WordCount.jar classes/*
- 作业提交
hadoop jar WordCount.jar WordCount input output
详细:
检查hadoop的运行情况jps
,确定NameNode、DataNode、TaskTracker、Jobtracker、SecondaryNameNode的启动情况
java程序编写
vim WordCount.java
写完之后保存,然后进行编译(因为要动用hadoop里面的一些架包,所以如果用命令行的话要用-classpath进行架包的加入,如果是一些IDE可以直接进行编译)
javac -classpath /opt/hadoop-1.2.1/hadoop-core-1.2.1.jar:/opt/hadoop-1.2.1/lib/commons-cli-1.2.jar -d word_count_class/ WordCount.java
cd word_count_class/
ls
会在word_count_class文件目录下看到三个已经编译好的文件:WordCount.class、WordCount$WordCountMap.class、WordCount$WordCountReduce.class
把编译好的文件打包
jar -cvf wordcount.jar *.class
把原始文件打开WordCount.java,有两个参数输入和输出
FileInputFormat.addInputPath(job,new Path(arg[0]));
FileOutputFormat.setOutputPath(job,new Path(args[1]));
进入输入文件目录cd input/
,在input文件目录下有两个个文件file1、file2,文件内有一些字符串,将file1和file2提交到hadoop里面去
hadoop fs -mkdir input_wordcount
hadoop fs -put input/* input_wordcount/
hadoop fs -ls input_wordcount
hadoop fs -cat input_wordcount/file1
把输入文件上传到hadoop之后就可以提交作业
hadoop jar word_count_class/wordcount.jar WordCount input_wordcount output_wordcount
输入是input_wordcount,输出是output_wordcount,如果没有output_wordcount这个文件夹,那将会新建一个
查看output文件
hadoop fs -ls output_wordcount
注意最后一个文件,例如这里是part-r-00000
hadoop fs -cat output_wordcount/part-r-00000
这就是WordCount单词计数的完整过程,用的是hadoop1.2.1版本
hadoop笔记之MapReduce的应用案例(WordCount单词计数)的更多相关文章
- hadoop笔记之MapReduce的应用案例(利用MapReduce进行排序)
MapReduce的应用案例(利用MapReduce进行排序) MapReduce的应用案例(利用MapReduce进行排序) 思路: Reduce之后直接进行结果合并 具体样例: 程序名:Sort. ...
- hadoop笔记之MapReduce的运行流程
MapReduce的运行流程 MapReduce的运行流程 基本概念: Job&Task:要完成一个作业(Job),就要分成很多个Task,Task又分为MapTask和ReduceTask ...
- hadoop笔记之MapReduce原理
MapReduce原理 MapReduce原理 简单来说就是,一个大任务分成多个小的子任务(map),并行执行后,合并结果(reduce). 例子: 100GB的网站访问日志文件,找出访问次数最多的I ...
- Hadoop WordCount单词计数原理
计算文件中出现每个单词的频数 输入结果按照字母顺序进行排序 编写WordCount.java 包含Mapper类和Reducer类 编译WordCount.java javac -classpath ...
- Spark本地环境实现wordCount单词计数
注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6814778610788860424/ 编写类似MapReduce的案例-单词统计WordCount 要统计的文件为 ...
- [spark案例学习] 单词计数
数据准备 数据下载:<莎士比亚全集> 我们先来看看原始数据:首先将数据加载到RDD,然后显示数据框的前15行. shakespeareDF = sqlContext.read.text(f ...
- 每天收获一点点------Hadoop之初始MapReduce
一.神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算.对于大数据量的计算,通常采用的处理手法就是并行计算.但对许多开发者来 ...
- Hadoop MapReduce编程入门案例
Hadoop入门例程简介 一个.有些指令 (1)Hadoop新与旧API差异 新API倾向于使用虚拟课堂(象类),而不是接口.由于这更easy扩展. 比如,能够无需改动类的实现而在虚类中加入一个方法( ...
- 【hadoop代码笔记】Mapreduce shuffle过程之Map输出过程
一.概要描述 shuffle是MapReduce的一个核心过程,因此没有在前面的MapReduce作业提交的过程中描述,而是单独拿出来比较详细的描述. 根据官方的流程图示如下: 本篇文章中只是想尝试从 ...
随机推荐
- JAVA Socket连接服务器时可能抛出的异常
1.UnknownHostException:host(非ip)无法识,就会报该异常,www.google.com.hk这个虽然也ping不通,但是不会报该错,因为他是一个确实存在的域名.他会报Con ...
- UVA 714 Copying Books
题意: 要抄N本书,编号为1,2,3...N, 每本书有1<=x<=10000000页, 把这些书分配给K个抄写员,要求分配给某个抄写员的那些书的编号必须是连续的.每个抄写员的速度是相同的 ...
- NHibernate各种数据库连接参数文件配置方法说明
//NHibernate各种数据库连接参数文件配置方法说明 //配置文件Config/Hibernate.cfg.xml内容如下所示: <?xml version="1.0" ...
- zoj1108 FatMouse's Speed
给你每个物体两个参数,求最长的链要求第一个参数递增,第二个参数递减,要求输出任意最长路径. 首先第一反应根据第二个参数排个序,然后不就是最长上升子序列的问题吗? O(nlogn)的复杂度,当然这样可以 ...
- 使用 VB.NET 开发多线程
摘要:.NET 框架提供了新的类,可以方便地创建多线程应用程序.本文介绍如何使用 Visual Basic® .NET 的多线程编程技术来开发效率更高.响应速度更快的应用程序. 目录 简介 多线程处理 ...
- hdu 1908
题意:一个人有一个代号K和一个优先等级P,一共有4种操作,0:结束,1:新建一个人,代号为K,优先等级为P,2:输出优先等级最大的人的代码,并删除该人,3:输出优先等级最小的人的代码,并删除该人. 用 ...
- VIM设置-发现VIM的美
今天在Linux上调代码,突然发现连高亮都没有.到网上找了找,发现一个大神的微博里有. 在此记录:http://www.cnblogs.com/ma6174/archive/2011/12/10/22 ...
- Constructor Prototype Pattern 原型模式(PHP示例)
当一个类大部分都是相同的只有部分是不同的时候,如果需要大量这个类的对象,每次都重复实例化那些相同的部分是开销很大的,而如果clone之前建立对象的那些相同的部分,就可以节约开销. 针对php的一种实现 ...
- C语言基础04
什么叫数组呢?我们的第一反应是很多数组合在一起就是数组,字面意思,当然不仅仅是数字,字符也是可以的. 数组属于构造类型 .指相同类型的若干变量组织起来. 类型说明符 数组名 [常量表达式] int ...
- SQL Server 移动系统数据库位置(非master)
以移动tempdb为例子: -------------------------------------------------------------------------------------- ...