使用HDFS完成wordcount词频统计
任务需求
统计HDFS上文件的
wordcount
,并将统计结果输出到HDFS
功能拆解
- 读取HDFS文件
- 业务处理(词频统计)
- 缓存处理结果
- 将结果输出到HDFS
数据准备
- 事先往HDFS上传需要进行词频统计的文件
word.txt、word2.txt(可以是多个)...
- 假设目录是
/user/hadoop/input/...
框架搭建
先把具体的功能
框架搭建
出来,再进行细节方面
的编写。
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URI;
public class HDFSWordCountDemo{
public static void main(String[] args) throws Exception{
// 1.读取HDFS文件
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(new URI("hdfs://localhost:9000"), conf, "hadoop");
// 使用Java API取出HDFS指定目录下所有要进行词频统计的单词文件,false表示不需要递归
RemoteIterator<LocatedFileStatus> files = fs.listFiles(new Path("input"), false);
// 用于循环取出多个单词文本
while (files.hasNext()) {
LocatedFileStatus file = files.next();
FSDataInputStream in = fs.open(file.getPath());
BufferedReader reader = new BufferedReader(new InputStreamReader(in));
String line = null; // readLine每次读取一行
// 用于循环取出每个文本的每行内容
while ((line = reader.readLine()) != null) {
// 2.业务处理(词频统计)
/**
* 功能:
* 此处要进行单词的词频统计功能
* 输入:
* 每次循环读取的是一个文件,输入的是该文件的一行内容line
* 输出:
* 把每行内容line按指定分割符分割,成为一个个独立单词,进行累加统计,多个文本累计,返回结果数组
*/
}
reader.close();
in.close();
}
// 3.缓存处理结果:把统计结果写入缓存
// TODO...
// 4.将结果输出到HDFS
// 先在HDFS上创建一个空文本
FSDataOutputStream out = fs.create(new Path("output/result.txt"));
// 然后取出缓存中的内容,追加到该HDFS文本即可
// TODO...
}
}
词频统计实现
分为两步:
1)
实现上下文对象,用于保存每次的统计;2)
词频统计功能的封装调用
- 使用Map实现上下文对象
import java.util.HashMap;
import java.util.Map;
/**
* 自定义上下文对象,其实就是模仿缓存
*/
public class HDFSContext {
private Map<Object,Object> cacheMap = new HashMap<>();
// 用于从外部可以直接获取缓存
public Map<Object,Object> getCacheMap(){
return cacheMap;
}
/**
* 写数据到缓存
* @param key
* @param value
*/
public void write(Object key,Object value){
cacheMap.put(key, value);
}
/**
* 从缓存中读取数据
* @param key
* @return
*/
public Object get(Object key){
return cacheMap.get(key);
}
}
- 词频统计逻辑处理
// 自定义一个Mapper接口,封装词频统计功能
public interface HDFSMapper {
/**
* @param line 读取到的每一行数据
* @param context 上下文对象/缓存
*/
public void map(String line,HDFSContext context);
}
// 接口的功能实现
public class WordCountMapper implements HDFSMapper{
@Override
public void map(String line, HDFSContext context) {
String[] words = line.split(" "); // 按空格切割,words是一行内容的单词数组
for (String word : words) { // 遍历数组,取出每一个单词
Object value = context.get(word); // 取出缓存中的单词,
if (value == null){ // 如果value为null,则说明缓存中没有该单词
//不存在这个单词
context.write(word,1); // 第一次出现的单词,次数为1,并写入缓存
}else {
// 出现次数+1
int v = Integer.parseInt(value.toString()); // 取出单词的已经出现次数,转成int
context.write(word,v+1); // 次数+1,并写入缓存
}
}
}
}
- 调用
// 先声明类对象
HDFSContext context = new HDFSContext();
HDFSMapper mapper = new WordCountMapper();
// while里调用
while ((line = reader.readLine()) != null) {
mapper.map(line,context);
}
缓存处理结果
Map<Object,Object> contextMap = context.getCacheMap();
追加结果到HDFS
// 把Map集合转换为Set集合,进行迭代操作
Set<Map.Entry<Object, Object>> entries = contextMap.entrySet();
for (Map.Entry<Object, Object> entry : entries) {
// 取出key-value,即(word,次数),写入HDFS
out.write((entry.getKey().toString()+"\t"+entry.getValue()+"\n").getBytes());
}
System.out.println("词频统计运行成功!");
out.close();
fs.close();
完整代码
package com.hadoop.hdfs.wordcount;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URI;
import java.util.Map;
import java.util.Set;
public class HDFSWordCountDemo{
public static void main(String[] args) throws Exception{
// 1.读取HDFS文件
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(new URI("hdfs://localhost:9000"), conf, "hadoop");
HDFSContext context = new HDFSContext();
HDFSMapper mapper = new WordCountMapper();
// 使用Java API取出HDFS指定目录下所有要进行词频统计的单词文件,false表示不需要递归
RemoteIterator<LocatedFileStatus> files = fs.listFiles(new Path("input"), false);
// 用于循环取出多个单词文本
while (files.hasNext()) {
LocatedFileStatus file = files.next();
FSDataInputStream in = fs.open(file.getPath());
BufferedReader reader = new BufferedReader(new InputStreamReader(in));
String line = null; // readLine每次读取一行
// 用于循环取出每个文本的每行内容
while ((line = reader.readLine()) != null) {
mapper.map(line,context);
}
reader.close();
in.close();
}
// 3.缓存处理结果:把统计结果写入缓存
Map<Object,Object> contextMap = context.getCacheMap();
// 4.将结果输出到HDFS
// 先在HDFS上创建一个空文本
FSDataOutputStream out = fs.create(new Path("output/result.txt"));
// 然后取出缓存中的内容,追加到该HDFS文本即可
Set<Map.Entry<Object, Object>> entries = contextMap.entrySet();
for (Map.Entry<Object, Object> entry : entries) {
out.write((entry.getKey().toString()+"\t"+entry.getValue()+"\n").getBytes());
}
System.out.println("词频统计运行成功!");
out.close();
fs.close();
}
}
查看运行结果
$ hadoop fs -cat output/*
使用HDFS完成wordcount词频统计的更多相关文章
- 初学Hadoop之WordCount词频统计
1.WordCount源码 将源码文件WordCount.java放到Hadoop2.6.0文件夹中. import java.io.IOException; import java.util.Str ...
- Hadoop基础学习(一)分析、编写并执行WordCount词频统计程序
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/jiq408694711/article/details/34181439 前面已经在我的Ubuntu ...
- 词频统计小程序-WordCount.exe
一. 背景 最近顶哥为了完成学历提升学业中的小作业,做了一个词频统计的.exe小程序.因为当时做的时候网上的比较少,因此顶哥决定把自己拙略的作品发出来给需要的人提供一种思路,希望各位看官不要dis ...
- 使用SparkSQL编写wordCount的词频统计
# 使用SparkSQL编写wordCount的词频统计 ## word.txt```hello hello scala sparkjava sql html java hellojack jack ...
- Hive简单编程实践-词频统计
一.使用MapReduce的方式进行词频统计 (1)在HDFS用户目录下创建input文件夹 hdfs dfs -mkdir input 注意:林子雨老师的博客(http://dblab.xmu.ed ...
- hive进行词频统计
统计文件信息: $ /opt/cdh-5.3.6/hadoop-2.5.0/bin/hdfs dfs -text /user/hadoop/wordcount/input/wc.input hadoo ...
- Hadoop之词频统计小实验
声明: 1)本文由我原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Ubuntu操作系统,hadoop1-2-1,jdk1.8.0. 3)统计词频工作在单节点的伪分布上,至于真正实 ...
- Hadoop上的中文分词与词频统计实践 (有待学习 http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html)
解决问题的方案 Hadoop上的中文分词与词频统计实践 首先来推荐相关材料:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-c ...
- MapReduce词频统计
自定义Mapper实现 import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; impor ...
随机推荐
- Nmap小技巧——探测大网络空间中的存活主机
Nmap快速探测空间主机是否存活的技巧(来自lijiejie师傅): nmap -v -sn -PE -n --min-hostgroup --min-parallelism -oX nmap_out ...
- Web开发基础-Node.js-01
01-浏览器工作原理 1)人机交互部分(ui) 2)网络请求部分(socket) 3)javascript引擎 4)渲染引擎(解析html,css) 5)数据存储部分(cookie,本地存储等) -- ...
- 简单实现SSO
方案一:原理:基于SSO Server 端的登录情况,跳转至SOO-client的各个端. 每次返回一个 ticker 随机票据值识别. 配置服务端 执行 :git clone https://git ...
- input密码框输入后设置显示为星号或其他样式
预览效果 核心代码 <div class="text-input" :class="right?'textinput-right':''"> < ...
- React学习笔记(一)- 入门笔记
React入门指南 作者:狐狸家的鱼 本文链接:React学习笔记 GitHub:sueRimn 1.组件内部状态state的修改 修改组件的每个状态,组件的render()方法都会再次运行.这样就可 ...
- C++:普通变量C++命名规则
C++提倡使用拥有一定意义的变量名,使程序代码更有阅读性,命名是必须使用的几种简单的C++命名规则: 命名时只能使用:字母字符.数字和下划线(_); 第一个字符不能是数字: 区分大小写(C++对大小写 ...
- qt 视频播放器错误解决方法
DirectShowPlayerService::doRender: Unresolved error code 0x80040266 () 当你发布的qmlproject包含QtMultimedia ...
- 【转载】Nginx + Tomcat 实现反向代理
通常的代理服务器,只用于代理内部网络对Internet的连接请求,客户机必须指定代理服务器,并将本来要直接发送到Web服务器上的http请求发送到代理服务器中由代理服务器向Internet上的web服 ...
- 1.9 分布式协调服务-Zookeeper(一)
前言 分布式环境的特点 分布性 并发性 程序运行过程中,并发性操作是很常见的.比如同一个分布式系统中的多个节点,同时访问一个共享资源.数据库.分布式存储 无序性 进程之间的消息通信,会出现顺序不一致问 ...
- 树莓派的系统安装,并且利用网线直连 Mac 进行配置
最近单位给了我一个新的树莓派3B+让我自己玩.下面是我记录的我如何安装 Raspbian Stretch Lite 系统,然后如何成功不用独立显示屏而利用 MacBook 对其进行配置. 安装 Ras ...