最近特别喜欢用Pig,拥有能满足大部分需求的内置函数(built-in functions),支持自定义函数(user defined functions, UDF),能load 纯文本、avro等格式数据;illustrate看pig执行步骤的结果,describe看alias的schema;以轻量级脚本形式跑MapReduce任务,各种爽爆。

1. Word Count

较于中文,英文比较工整,可以根据空格、标点符号进行分词。

  1. A = load '/user/.*/req-temp/text.txt' as (text:chararray);
  2. B = foreach A generate flatten(TOKENIZE(text)) as word;
  3. C = group B by word;
  4. D = foreach C generate COUNT(B), group;

Pig的内置函数TOKENIZE用StringTokenizer来对英文文本进行分词(代码参看这里),继承于抽象类EvalFunc<T>,返回DataBag词组。为了能统计单个词词频,需要用函数flatten对词组进行打散。抽象类EvalFunc<T>为用于pig语句foreach .. generate ..中的基类,以实现对数据字段的转换操作,其中exec()方法在pig运行期间被调用。

  1. public class TOKENIZE extends EvalFunc<DataBag> {
  2. TupleFactory mTupleFactory = TupleFactory.getInstance();
  3. BagFactory mBagFactory = BagFactory.getInstance();
  4. @Override
  5. public DataBag exec(Tuple input) throws IOException {
  6. ...
  7. DataBag output = mBagFactory.newDefaultBag();
  8. ...
  9. String delim = " \",()*";
  10. ...
  11. StringTokenizer tok = new StringTokenizer((String)o, delim, false);
  12. while (tok.hasMoreTokens()) {
  13. output.add(mTupleFactory.newTuple(tok.nextToken()));
  14. }
  15. return output;
  16. ...
  17. }
  18. }

2. Ansj中文分词

为了写Pig的UDF,需要添加maven依赖:

  1. <dependency>
  2. <groupId>org.apache.hadoop</groupId>
  3. <artifactId>hadoop-common</artifactId>
  4. <version>${hadoop.version}</version>
  5. <scope>provided</scope>
  6. </dependency>
  7. <dependency>
  8. <groupId>org.apache.pig</groupId>
  9. <artifactId>pig</artifactId>
  10. <version>${pig.version}</version>
  11. <scope>provided</scope>
  12. </dependency>
  13. <dependency>
  14. <groupId>org.ansj</groupId>
  15. <artifactId>ansj_seg-all-in-one</artifactId>
  16. <version>3.0</version>
  17. </dependency>

输入命令hadoop version得到hadoop的版本,输入pig -i得到pig的版本。务必要保证与集群部署的pig版本一致,要不然会报错:

ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1066: Unable to open iterator for alias D

然后依葫芦画瓢,根据TOKENIZE.java修改,得到中文分词Segment.java

  1. package com.pig.udf;
  2. public class Segment extends EvalFunc<DataBag> {
  3. TupleFactory mTupleFactory = TupleFactory.getInstance();
  4. BagFactory mBagFactory = BagFactory.getInstance();
  5. @Override
  6. public DataBag exec(Tuple input) throws IOException {
  7. try {
  8. if (input==null)
  9. return null;
  10. if (input.size()==0)
  11. return null;
  12. Object o = input.get(0);
  13. if (o==null)
  14. return null;
  15. DataBag output = mBagFactory.newDefaultBag();
  16. if (!(o instanceof String)) {
  17. int errCode = 2114;
  18. String msg = "Expected input to be chararray, but" +
  19. " got " + o.getClass().getName();
  20. throw new ExecException(msg, errCode, PigException.BUG);
  21. }
  22. // filter punctuation
  23. FilterModifWord.insertStopNatures("w");
  24. List<Term> words = ToAnalysis.parse((String) o);
  25. words = FilterModifWord.modifResult(words);
  26. for(Term word: words) {
  27. output.add(mTupleFactory.newTuple(word.getName()));
  28. }
  29. return output;
  30. } catch (ExecException ee) {
  31. throw ee;
  32. }
  33. }
  34. @SuppressWarnings("deprecation")
  35. @Override
  36. public Schema outputSchema(Schema input) {
  37. ...
  38. }
  39. ...

ansj支持设置词性的停用词FilterModifWord.insertStopNatures("w");,如此可以去掉标点符号的词。将源代码打包后放在hdfs上,然后通过register jar包调用该UDF:

  1. REGISTER ../piglib/udf-0.0.1-SNAPSHOT-jar-with-dependencies.jar
  2. A = load '/user/.*/renmin.txt' as (text:chararray);
  3. B = foreach A generate flatten(com.pig.udf.Segment(text)) as word;
  4. C = group B by word;
  5. D = foreach C generate COUNT(B), group;

截取人民日报社论的一段:

树好家风,严管才是厚爱。古人说:“居官所以不能清白者,率由家人喜奢好侈使然也。”要看到,好的家风,能系好人生的“第一粒扣子”。“修身、齐家”,才能“治国、平天下”,领导干部首先要“正好家风、管好家人、处好家事”,才能看好“后院”、堵住“后门”。“父母之爱子,则为之计深远”,与其冒着风险给子女留下大笔钱财,不如给子女留下好家风、好作风,那才是让子女受益无穷的东西,才是真正的“为之计深远”。

统计词频如下:

...

(3,能)

(2,要)

(2,计)

(1,与其)

(1,作风)

(1,使然)

(1,修身)

(1,厚爱)

(1,受益)

...

可见,ansj在不加载用户自定义词表的情况下,分词效果并不理想,不能对成语等词正确地分词。

Pig + Ansj 统计中文文本词频的更多相关文章

  1. ChineseCounter.cs 统计中文文本中常用字占比

    http://www.tuicool.com/articles/qmMba2 1 using System; using System.IO; using System.Collections.Gen ...

  2. Hadoop的改进实验(中文分词词频统计及英文词频统计)(4/4)

    声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不 ...

  3. 用jieba库统计文本词频及云词图的生成

    一.安装jieba库 :\>pip install jieba #或者 pip3 install jieba 二.jieba库解析 jieba库主要提供提供分词功能,可以辅助自定义分词词典. j ...

  4. [转]python进行中文文本聚类(切词以及Kmeans聚类)

    简介 查看百度搜索中文文本聚类我失望的发现,网上竟然没有一个完整的关于Python实现的中文文本聚类(乃至搜索关键词python 中文文本聚类也是如此),网上大部分是关于文本聚类的Kmeans聚类的原 ...

  5. 『TensotFlow』RNN中文文本_下_暨研究生开学感想

    承前 接上节代码『TensotFlow』RNN中文文本_上, import numpy as np import tensorflow as tf from collections import Co ...

  6. 『TensotFlow』RNN中文文本_上

    中文文字预处理流程 文本处理 读取+去除特殊符号 按照字段长度排序 辅助数据结构生成 生成 {字符:出现次数} 字典 生成按出现次数排序好的字符list 生成 {字符:序号} 字典 生成序号list ...

  7. 自然语言处理--中文文本向量化counterVectorizer()

    1.载入文档 #!/usr/bin/python # -*- coding: utf-8 -*- import pandas as pd import re import jieba from skl ...

  8. word2vec词向量训练及中文文本类似度计算

    本文是讲述怎样使用word2vec的基础教程.文章比較基础,希望对你有所帮助! 官网C语言下载地址:http://word2vec.googlecode.com/svn/trunk/ 官网Python ...

  9. 万字总结Keras深度学习中文文本分类

    摘要:文章将详细讲解Keras实现经典的深度学习文本分类算法,包括LSTM.BiLSTM.BiLSTM+Attention和CNN.TextCNN. 本文分享自华为云社区<Keras深度学习中文 ...

随机推荐

  1. Swift不同storyboard之间的交互

    如何实现多个Storyboard之间的切换 正如大家所知道的,Main-board是·程序运行的入口,如果找不到就会抛出异常,打开plist文件可以看到关于Main-board的描述,特别的制定了其b ...

  2. Android性能优化典范第二季

      Google前几天刚发布了Android性能优化典范第2季的课程,一共20个短视频,包括的内容大致有:电量优化,网络优化,Wear上如何做优化,使用对象池来提高效率,LRU Cache,Bitma ...

  3. SQL 数据库性能问题排查

    一个项目的运行,总伴随着性能问题,系统查询过慢,如何快速查询等 下面将简单讲解一下,如何去排查及解决这些问题. 开发过程中: 1:不要绝对的三范式,适当建立冗余能够提高查询速度,不用多表关联 2:能用 ...

  4. NancyFx开发-Razor视图using外部Dll解决方案

    问题:NancyFx框架 Razor视图无法using 其他项目DLL   解决方案: Nancyfx框架Razor需要在web.config 中声明要引入的命名空间(包括system这些)   &l ...

  5. C#更改文件访问权限所有者(适用于各个Windows版本)

    前面也提到了,前段时间在做Online Judge系统,在正式上线前有几个比较老的版本,其中第一个版本使用ACL来控制权限以确保安全(但是这个版本完全建立在IIS上,所以这样做是没效果的),遇到了一些 ...

  6. Elasticsearch笔记

    资料 官网: http://www.elasticsearch.org 中文资料:http://www.learnes.net/ .Net驱动: http://nest.azurewebsites.n ...

  7. Ubuntu Desktop安装及桌面美化(修复图片)

    Ubuntu Desktop安装及桌面美化 1   开篇概述 本 系统的文章主要是讲互联网方向的开发主题.根据目前主流互联网公司的技术架构,Linux是必不可少的.对于一直习惯于在Windows下工作 ...

  8. 系统空闲时间判断&命名验证

    一.系统空闲时间判断 需要一个自动登录注销的功能,当鼠标移动和或者键盘输入的时候认为当前用户在线,否则过了设置时间就自动退出.好在前辈们留下了这样的一个类: MouseKeyBoardOperate: ...

  9. [.net 面向对象编程基础] (10) 类的成员(字段、属性、方法)

    [.net 面向对象编程基础] (10) 类的成员(字段.属性.方法) 前面定义的Person的类,里面的成员包括:字段.属性.方法.事件等,此外,前面说的嵌套类也是类的成员. a.类的成员为分:静态 ...

  10. 今天心情好,给各位免费呈上200兆SVN代码服务器一枚,不谢!

    开篇先给大家讲个我自己的故事,几个月前在网上接了个小软件开发的私活,平日上班时间也比较忙,就中午一会儿休息时间能抽出来倒腾着去做点.每天下班复制一份到U盘带回去继续摸索,没多久U盘里躺着的文件列表那叫 ...