hadoop worldcount小程序

首先在hadoop中建立input文件夹放几个文件，里边写点东西。比如我放了三个，分别写的是

第一个

hello hadoop

bye hadoop

第二个

hello world

bye world

第三个

hello bigdata

然后就有下边这段代码做单词统计：

 import java.io.File;

 import java.io.IOException;

 import java.net.URI;

 import java.net.URISyntaxException;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.FileSystem;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.Mapper;

 import org.apache.hadoop.mapreduce.Reducer;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 public class WorldCount {    

     static final String INPUT_PATH = "hdfs://masters:9000/user/hadoop/input";

     static final String OUTPUT_PATH = "hdfs://masters:9000/user/hadoop/output";

     public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException, URISyntaxException {

         //添加以下的代码，就可以联通，不知道咋回事

         String path = new File(".").getCanonicalPath();

         System.getProperties().put("hadoop.home.dir", path);

         new File("./bin").mkdirs();

         new File("./bin/winutils.exe").createNewFile();

         Configuration conf = new Configuration();

         Path outpath = new Path(OUTPUT_PATH);

         Job job = new Job(conf, "WorldCount");

         FileInputFormat.setInputPaths(job, INPUT_PATH);

         FileOutputFormat.setOutputPath(job, outpath);

         //检测输出路径是否存在，如果存在就删除，否则会报错

         FileSystem fileSystem = FileSystem.get(new URI(OUTPUT_PATH), conf);

         if(fileSystem.exists(outpath)){

             fileSystem.delete(outpath, true);

         }

         job.setMapperClass(MyMapper.class);

         job.setReducerClass(MyReducer.class);

         job.setOutputKeyClass(Text.class);

         job.setOutputValueClass(LongWritable.class);

         job.waitForCompletion(true);

     }

     //输入，map，即拆分过程

     static class MyMapper extends Mapper<LongWritable, Text, Text, LongWritable>{

         /*

          * 输入为（key,value）输出为（value,count数量）

          * 所以LongWritable, Text, Text, LongWritable分别代表 key(行号) value value count

          * 其中LongWritable和Text是hadoop定义的类型，分别代表long和string两种类型

          * */

         protected void map(LongWritable k1, Text v1, Context context)throws IOException, InterruptedException{

             String[] splits = v1.toString().split(" ");//按照空格拆分

             for(String str: splits){

                 System.out.println("---" + str);

                 context.write(new Text(str), new LongWritable(1));//拆分出来的形式为（“单词”，出现次数（这里默认为1））

             }

         }

     }

     //输出，reduce，汇总过程

     static class MyReducer extends Reducer<Text, LongWritable, Text, LongWritable>{

         protected void reduce(

                 Text k2, //输出的内容，即value

                 Iterable<LongWritable> v2s, //是一个longwritable类型的数组，所以用了Iterable这个迭代器，且元素为v2s

                 org.apache.hadoop.mapreduce.Reducer<Text, LongWritable, Text, LongWritable>.Context context)

                 //这里一定设置好，不然输出会变成单个单词，从而没有统计数量

                 throws IOException, InterruptedException {

             //列表求和 初始为0

             long times = 0L;

             for(LongWritable count:v2s){

                 times += count.get();

             }

             context.write(k2, new LongWritable(times));

         }

     }

 }

然后就成了，看下结果

第23行到第27行不写就会报错，我也不知道咋回事，如果哪个大牛知道咋回事，非常期待留言解答。

hadoop worldcount小程序的更多相关文章

如何利用Hadoop存储小文件
**************************************************************************************************** ...
如何在Windows下面运行hadoop的MapReduce程序
在Windows下面运行hadoop的MapReduce程序的方法: 1.下载hadoop的安装包,这里使用的是"hadoop-2.6.4.tar.gz": 2.将安装包直接解压到 ...
Hadoop Word Count程序
Hadoop Word Count程序 pom.xml文件: <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns ...
【小程序分享篇一】开发了个JAVA小程序，用于清除内存卡或者U盘里的垃圾文件非常有用
有一种场景, 手机内存卡空间被用光了,但又不知道哪个文件占用了太大,一个个文件夹去找又太麻烦,所以我开发了个小程序把手机所有文件(包括路径下所有层次子文件夹下的文件)进行一个排序,这样你就可以找出哪个 ...
微信小程序开发心得
微信小程序也已出来有一段时间了,最近写了几款微信小程序项目,今天来说说感受. 首先开发一款微信小程序,最主要的就是针对于公司来运营的,因为,在申请appid(微信小程序ID号)时候,需要填写相关的公司 ...
微信应用号（小程序）开发IDE配置（第一篇）
2016年9月22日凌晨,微信宣布“小程序”问世,当然只是开始内测了,微信公众平台对200个服务号发送了小程序内测邀请.那么什么是“小程序”呢,来看微信之父怎么说看完之后,相信大家大概都有些明白了吧 ...
TODO：小程序开发过程之体验者
TODO:小程序开发过程之体验者 1. 小程序开发过程,先下载开发者并安装开发者工具,现在腾讯开放测试了,普通用户也可以登录开发者工具,如图普通用户登录为调试类型,但是只能建立无AppID的项目如果 ...
TODO：即将开发的第一个小程序
TODO:即将开发的第一个小程序微信小程序是一种全新的连接用户与服务的方式,它可以在微信内被便捷地获取和传播,同时具有出色的使用体验.个人理解小程序是寄宿在微信平台上的一个前端框架,具有跨平台功能, ...
微信小程序体验(2)：驴妈妈景区门票即买即游
驴妈妈因为出色的运营能力,被腾讯选为首批小程序内测单位.驴妈妈的技术开发团队在很短的时间内完成了开发任务,并积极参与到张小龙团队的内测问题反馈.驴妈妈认为,移动互联网时代,微信是巨大的流量入口,也是旅 ...

随机推荐

Plupload使用API
Plupload有以下功能和特点: 1.拥有多种上传方式:HTML5.flash.silverlight以及传统的<input type=”file” />.Plupload会自动侦测当前 ...
在Windows系统上使用压缩归档文件安装MySQL流程
最近需要做个小小的验证实验,需要安装MySQL,网上一搜发现教程繁多,bug也多,所以直接把官网的流程翻译过来,注意是压缩文件,不是安装版的,解压直接能用的,下面直接把流程贴过来: 使用压缩文档安装在 ...
tomcat+nginx+keepalived的配置
tomcat+nginx+keepalived的配置 1.在官网上下载Tomcat 2.将压缩包解压,并且移动到/opt/data/的目录下. .tar.gz /opt/data/ 3.进入到Tomc ...
SHELL里执行HIVE导出文件处理成CSV文件
#!/bin/bash #用途: #.当前目录的txt文件批量转csv #.制表符转逗号分隔符 #.NULL去除 #.删除WARN警告 for i in `ls ./*.txt` do sed -e ...
Scrapy之Cookie和代理
cookie cookie: 获取百度翻译某个词条的结果一定要对start_requests方法进行重写. 两种解决方案: 1. Request()方法中给method属性赋值成post2. For ...
Scrapy进阶
当我们使用scrapy框架爬取网站的时候,我们会有一个入口的url,一个名为start_urls,我们爬取的第一个网页是从这一开始的. 需求: 现在我们有一个这样的需求,比如说我们对起始的URL有一个 ...
Java+Selenium3方法篇24-单选和多选按钮操作
Java+Selenium3方法篇24-单选和多选按钮操作本篇介绍 webdriver处理前端单选按钮的操作.单选按钮一般叫raido button,就像我们在电子版的单选答题过程一样,单选只能点击 ...
Go语言使用百度翻译api
Go语言使用百度翻译api 之前做过一个使用百度翻译api的工具,这个工具用于用户的自动翻译功能,是使用C#调用百度翻译api接口,既然在学习Go语言,那必然也是要使用Go来玩耍一番.这里我是这么安排 ...
Windows Store App下代码加载page resource和resw文件里的string
加载page resource 在page的code behind里: this.Resources["textBoxStyle"] 加载resw文件里的string: Resou ...
ansible结合SHELL搭建自己的CD持续交付系统
一. 设计出发点因公司业务面临频繁的迭代上线,一日数次.仅仅依靠手工效率过低且易出错. 考虑搭建一套可以满足现有场景的上线系统. 二 .为何采用ansible+shell方式 1.可控性(完全自主拥 ...

hadoop worldcount小程序

hadoop worldcount小程序的更多相关文章

随机推荐

热门专题