解决问题的方案

Hadoop上的中文分词与词频统计实践

首先来推荐相关材料：http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-count-on-hadoop/。小虾的这个统计武侠小说人名热度的段子很有意思，照虎画猫来实践一下。

与其不同的地方有：

　　0）其使用Hadoop Streaming，这里使用MapReduce框架。

　　1）不同的中文分词方法，这里使用IKAnalyzer，主页在http://code.google.com/p/ik-analyzer/。

　　2）这里的材料为《射雕英雄传》。哈哈，总要来一些改变。

0）使用WordCount源代码，修改其Map，在Map中使用IKAnalyzer的分词功能。

import java.io.IOException;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.io.Reader;

import java.io.ByteArrayInputStream;

import org.wltea.analyzer.core.IKSegmenter;

import org.wltea.analyzer.core.Lexeme;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

public class ChineseWordCount {

      public static class TokenizerMapper

           extends Mapper<Object, Text, Text, IntWritable>{

        private final static IntWritable one = new IntWritable(1);

        private Text word = new Text();

        public void map(Object key, Text value, Context context

                        ) throws IOException, InterruptedException {

            byte[] bt = value.getBytes();

            InputStream ip = new ByteArrayInputStream(bt);

            Reader read = new InputStreamReader(ip);

            IKSegmenter iks = new IKSegmenter(read,true);

            Lexeme t;

            while ((t = iks.next()) != null)

            {

                word.set(t.getLexemeText());

                context.write(word, one);

            }

        }

      }

  public static class IntSumReducer

       extends Reducer<Text,IntWritable,Text,IntWritable> {

    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable<IntWritable> values,

                       Context context

                       ) throws IOException, InterruptedException {

      int sum = 0;

      for (IntWritable val : values) {

        sum += val.get();

      }

      result.set(sum);

      context.write(key, result);

    }

  }

  public static void main(String[] args) throws Exception {

    Configuration conf = new Configuration();

    String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

    if (otherArgs.length != 2) {

      System.err.println("Usage: wordcount <in> <out>");

      System.exit(2);

    }

    Job job = new Job(conf, "word count");

    job.setJarByClass(ChineseWordCount.class);

    job.setMapperClass(TokenizerMapper.class);

    job.setCombinerClass(IntSumReducer.class);

    job.setReducerClass(IntSumReducer.class);

    job.setOutputKeyClass(Text.class);

    job.setOutputValueClass(IntWritable.class);

    FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

    FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

    System.exit(job.waitForCompletion(true) ? 0 : 1);

  }

}

1）So，完成了，本地插件模拟环境OK。打包（带上分词包）扔到集群上。

hadoop fs -put chinese_in.txt chinese_in.txt

hadoop jar WordCount.jar chinese_in.txt out0

...mapping reducing...

hadoop fs -ls ./out0

hadoop fs -get part-r-00000 words.txt

2）数据后处理：

2.1）数据排序

head words.txt

tail words.txt

sort -k2 words.txt >0.txt

head 0.txt

tail 0.txt

sort -k2r words.txt>0.txt

head 0.txt

tail 0.txt

sort -k2rn words.txt>0.txt

head -n 50 0.txt

2.2）目标提取

awk '{if(length($1)>=2) print $0}' 0.txt >1.txt

2.3）结果呈现

head 1.txt -n 50 | sed = | sed 'N;s/\n//'

1郭靖   6427

2黄蓉   4621

3欧阳   1660

4甚么   1430

5说道   1287

6洪七公 1225

7笑道   1214

8自己   1193

9一个   1160

10师父  1080

11黄药师        1059

12心中  1046

13两人  1016

14武功  950

15咱们  925

16一声  912

17只见  827

18他们  782

19心想  780

20周伯通        771

21功夫  758

22不知  755

23欧阳克        752

24听得  741

25丘处机        732

26当下  668

27爹爹  664

28只是  657

29知道  654

30这时  639

31之中  621

32梅超风        586

33身子  552

34都是  540

35不是  534

36如此  531

37柯镇恶        528

38到了  523

39不敢  522

40裘千仞        521

41杨康  520

42你们  509

43这一  495

44却是  478

45众人  476

46二人  475

47铁木真        469

48怎么  464

49左手  452

50地下  448

在非人名词中有很多很有意思，如：5说道7笑道12心中17只见22不知30这时49左手。

Hadoop上的中文分词与词频统计实践（有待学习 http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html）的更多相关文章

Python大数据：jieba 中文分词，词频统计
# -*- coding: UTF-8 -*- import sys import numpy as np import pandas as pd import jieba import jieba. ...
【python】利用jieba中文分词进行词频统计
以下代码对鲁迅的<祝福>进行了词频统计: import io import jieba txt = io.open("zhufu.txt", "r" ...
NLP系列-中文分词（基于统计）
上文已经介绍了基于词典的中文分词,现在让我们来看一下基于统计的中文分词. 统计分词: 统计分词的主要思想是把每个词看做是由字组成的,如果相连的字在不同文本中出现的次数越多,就证明这段相连的字很有可能就 ...
在hadoop上进行编写mapreduce程序，统计关键词在text出现次数
mapreduce的处理过程分为2个阶段,map阶段,和reduce阶段.在要求统计指定文件里的全部单词的出现次数时. map阶段把每一个关键词写到一行上以逗号进行分隔.并初始化数量为1(同样的单词h ...
jieba分词及词频统计小项目
import pandas as pd import jieba import jieba.analyse from collections import Counter,OrderedDict ji ...
基于dsp_builder的算法在FPGA上的实现（转自https://www.cnblogs.com/sunev/archive/2012/11/17/2774836.html）
一.摘要结合dsp_builder.matlab.modelsim和quartus ii等软件完成算法的FPGA实现. 二.实验平台硬件平台:DIY_DE2 软件平台:quartus ii9.0 ...
中文分词实践（基于R语言）
背景:分析用户在世界杯期间讨论最多的话题. 思路:把用户关于世界杯的帖子拉下来.然后做中文分词+词频统计,最后将统计结果简单做个标签云.效果例如以下: 兴许:中文分词是中文信息处理的基础.分词之后.事 ...
【python】一篇文章里的词频统计
一.环境 1.python3.6 2.windows系统 3.安装第三方模块 pip install wordcloud #词云展示库 pip install jieba #结巴分词 pip inst ...
利用python实现简单词频统计、构建词云
1.利用jieba分词,排除停用词stopword之后,对文章中的词进行词频统计,并用matplotlib进行直方图展示 # coding: utf-8 import codecs import ma ...

随机推荐

PHP短信发送服务 youe短信企业服务
/** * 通用短信平台HTTP接口POST方式发送短信实例 * 返回字符串 * 一般情况下调用此方法 */ function postSendMessage($msgContents,$phoneL ...
一箭N雕：多任务深度学习实战
1.多任务学习导引多任务学习是机器学习中的一个分支,按1997年综述论文Multi-task Learning一文的定义:Multitask Learning (MTL) is an inducti ...
ie6的png24问题
解决IE6的PNG透明JS插件 DD_belatedPNG 引:http://www.cnblogs.com/cobby/archive/2012/05/11/2495801.html IE6的PNG ...
常用的js事件
onmouseover:鼠标放上去时触发事件 onmouseout:鼠标从上面移开时触发事件 onclick:鼠标单击事件 onfocus:获得焦点 onblur:失去焦点 onchange:下拉菜单 ...
hadoop 完全分布式
转自:http://blog.itpub.net/26613085/viewspace-1219710/ 1.JDK安装和SSH互信(略过) 2.各节点IP和hostname如下(各节点需配置) [h ...
Intent Flag实际项目 -- 超时跳转登录界面并清理前面所有activity
项目中涉及到登录超时跳转登录界面的逻辑,我以前的跳转flag为Intent.FLAG_ACTIVITY_CLEAR_TOP,但是点击返回按钮还是会回到上个界面.代码如下: ActivityUtils. ...
SSH综合练习-第1天
SSH综合练习-仓库管理系统-第一天综合练习的整体目的: 整合应用 Struts2 .Hibernate.Spring .Mysql . jQuery Ajax.java基础知识熟悉企业SSH 基 ...
第七十六节，css颜色和透明度,盒子阴影和轮廓,光标样式
css颜色和透明度,盒子阴影和轮廓,光标样式学习要点: 1.颜色和透明度 2.盒子阴影和轮廓 3.光标样式一．颜色和透明度颜色我们之前其实已经用的很多了,比如字体颜色.背景颜色.边框颜色.但除了 ...
常用JavaScript字符串方法简述
网址来源:http://www.html-js.com/article/JS-rookie-in-the-rookie-to-start-learning-to-fly-the-commonly-us ...
openwrt拦截snmp报文
SNMP使用的协议为UDP,默认端口为161和162. 使用iptables 命令如下: iptables -A INPUT -p udp -m udp --dport 161:162 -j DROP ...

Hadoop上的中文分词与词频统计实践 （有待学习 http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html）

解决问题的方案

Hadoop上的中文分词与词频统计实践

Hadoop上的中文分词与词频统计实践 （有待学习 http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html）的更多相关文章

随机推荐

热门专题

Hadoop上的中文分词与词频统计实践（有待学习 http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html）

Hadoop上的中文分词与词频统计实践（有待学习 http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html）的更多相关文章