Mapreduce-实现webcount代码

参考博文：https://blog.csdn.net/qq_41035588/article/details/90514824

首先安装一个Hadoop-Eclipse-Plugin 方便来对于hdfs进行管理

参考地址：http://dblab.xmu.edu.cn/blog/hadoop-build-project-using-eclipse/

配置好Hadoop-Ecllipse-Plugin之后

建立一个txt文档，里面的内容如下：

 买家id 商品id 收藏日期

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

然后建立一个java项目

然后把所有的包都导进去，重点是mapreduce,common,yarn,hdfs的包

然后再输入代码：

 package mapreduce;

 import java.io.IOException;

 import java.util.StringTokenizer;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.Mapper;

 import org.apache.hadoop.mapreduce.Reducer;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 public class WordCount {

 public static class doMapper extends Mapper<Object, Text, Text, IntWritable>{

     //第一个object表示输入key的类型，第二个text表示输入value的类型；第三个text表示输出建的类型；

     //第四个INtWritable表示输出值的类型

 public static final IntWritable one = new IntWritable(1);

 public static Text word = new Text();

 @Override

 protected void map(Object key, Text value, Context context)

 //key value是输入的key value context是记录输入的key,value

 throws IOException, InterruptedException {

 StringTokenizer tokenizer = new StringTokenizer(value.toString(), "\t");

 //StringTokenizer是Java的工具包中的一个类，用于将字符串进行拆分

 word.set(tokenizer.nextToken());

 //返回当前位置到下一个分隔符之间的字符串

 context.write(word, one);

 //讲word存到容器中计一个数

 }

 }

 public static class doReducer extends Reducer<Text, IntWritable, Text, IntWritable>{

     //输入键类型，输入值类型 输出建类型，输出值类型

 private IntWritable result = new IntWritable();

 @Override

 protected void reduce(Text key, Iterable<IntWritable> values, Context context)

 throws IOException, InterruptedException {

 int sum = 0;

 for (IntWritable value : values) {

 sum += value.get();

 }

 result.set(sum);

 context.write(key, result);

 }

 }

 public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

 Job job = Job.getInstance();

 job.setJobName("WordCount");

 job.setJarByClass(WordCount.class);

 job.setMapperClass(doMapper.class);

 job.setReducerClass(doReducer.class);

 job.setOutputKeyClass(Text.class);

 job.setOutputValueClass(IntWritable.class);

 Path in = new Path("hdfs://localhost:9000/mymapreduce1/in/buyer_favorite1");

 Path out = new Path("hdfs://localhost:9000/mymapreduce1/out");

 FileInputFormat.addInputPath(job, in);

 FileOutputFormat.setOutputPath(job, out);

 System.exit(job.waitForCompletion(true) ? 0 : 1);

 }

 }

然后运行之后查看左边的菜单：

双击part-r-00000就有返回的值了

最重要的问题就是分隔的问题

StringTokenizer tokenizer = new StringTokenizer(value.toString(),"\t");

这个是根据tab键来进行分割，但是我们复制粘贴后就是空格所以要换成空格

Mapreduce-实现webcount代码的更多相关文章

MapReduce框架结构及代码示例
一个完整的 mapreduce 程序在分布式运行时有三类实例进程: 1.MRAppMaster:负责整个程序的过程调度及状态协调 2.MapTask:负责 map 阶段的整个数据处理流程 3.Redu ...
[大牛翻译系列]Hadoop（15）MapReduce 性能调优：优化MapReduce的用户JAVA代码
6.4.5 优化MapReduce用户JAVA代码 MapReduce执行代码的方式和普通JAVA应用不同.这是由于MapReduce框架为了能够高效地处理海量数据,需要成百万次调用map和reduc ...
使用mapreduce计算环比的实例
最近做了一个小的mapreduce程序,主要目的是计算环比值最高的前5名,本来打算使用spark计算,可是本人目前spark还只是简单看了下,因此就先改用mapreduce计算了,今天和大家分享下这个 ...
MapReduce工作流多种实现方式
学习 hadoop,必不可少的就是编写 MapReduce 程序.当然,对于简单的分析程序,我们只需一个 MapReduce 任务就能搞定,然而对于比较复杂的分析程序,我们可能需要多个Job或者多个M ...
Hadoop学习笔记—11.MapReduce中的排序和分组
一.写在之前的 1.1 回顾Map阶段四大步骤首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行: 从上图中可以清楚地看出,在Step1.4也就是第四步中,需要对不同分区中的数据进行排 ...
[大牛翻译系列]Hadoop（19）MapReduce 文件处理：基于压缩的高效存储（二）
5.2 基于压缩的高效存储(续) (仅包括技术27) 技术27 在MapReduce,Hive和Pig中使用可分块的LZOP 如果一个文本文件即使经过压缩后仍然比HDFS的块的大小要大,就需要考虑选择 ...
MapReduce链接作业
对于简单的分析程序,我们只需一个MapReduce就能搞定,然而对于比较复杂的分析程序,我们可能需要多个Job或者多个Map或者Reduce进行计算.下面我们来说说多个Job或者多个MapReduce ...
十九、Hadoop学记笔记————Hbase和MapReduce
概要: hadoop和hbase导入环境变量: 要运行Hbase中自带的MapReduce程序,需要运行如下指令,可在官网中找到: 如果遇到如下问题,则说明Hadoop的MapReduce没有权限访问 ...
从分治算法到 Hadoop MapReduce
从分治算法说起要说 Hadoop MapReduce 就不得不说分治算法,而分治算法其实说白了,就是四个字分而治之 .其实就是将一个复杂的问题分解成多组相同或类似的子问题,对这些子问题再分,然后再 ...

随机推荐

Julia 学习
Julia 1.1 中文文档 Julia 中的数据可视化 --初探一个简单的Julia教程(一) juliapro下载链接
Vivado Bit文件压缩
前言 Vivado编译生成的Bit文件太大,想要小一点该咋办呢?那么就需要给bit文件瘦身. 流程直接在约束文件xdc中添加下述语句即可: set_property BITSTREAM.GENERA ...
Xcode8 1 创建coreData的ManagedObject后，报错 linker command failed with exit code 1
Xcode8 1 创建coreData的ManagedObject后,报错使用Xcode 8.1 创建coreData的ManagedObject后,报错. duplicate symbol OBJ ...
JAVA中对象的克隆及深拷贝和浅拷贝
使用场景: 在日常的编程过程中,经常会遇到,有一个对象OA,在某一时间点OA中已经包含了一些有效值 ,此时可能会需一个和OA完全相对的新对象OB,并且要在后面的操作中对OB的任何改动都不会影响到OA ...
GNS3 介绍
什么是GNS3? GNS3是一款模拟CISCO网络设备的模拟器,和CPT(Cisco Packet Tracer)相比.GNS3运行的是真实设备的IOS,命令集更全,在如有部分有非常好的表现,交换部分 ...
rsync & inotify-tools 实时同步
1.根据之前一篇关于rsync的随笔部署好rsync服务后,可以开始inotify的部署 2.inotify的部署使用 ①.检查系统是否支持inotify [root@iZ25w1kdi5zZ ~]# ...
用js刷剑指offer(二叉树的镜像)
题目描述操作给定的二叉树,将其变换为源二叉树的镜像. 输入描述: 二叉树的镜像定义:源二叉树 8 / \ 6 10 / \ / \ 5 7 9 11 镜像二叉树 8 / \ 10 6 / \ / \ ...
Java 基础面向对象- 成员内部类/局部内部类/举例Comparable 接口的匿名内部类
笔记: package 任务135; /**类的内部类, *1.相当于说, 我们可以在类的内部再定义类, * 2.成员内部类: * a.是外部类的一个成员,4个修饰符:static, final , ...
四、vue基础--自定义组件
1.语法:Vue.component("组件名字",{data,template}),代码如下: a. data: 必须是一个函数,有一个返回值.和vue里面的使用方法一样 b. ...
java后台实体类设置默认值
private String orderPrice;//定义类的属性 /* * get set方法 * String.trim() 返回字符串的副本,忽略前导空白和尾部空白. */ public St ...

Mapreduce-实现webcount代码

Mapreduce-实现webcount代码的更多相关文章

随机推荐

热门专题