如何用java完成一个中文词频统计程序

　　要想完成一个中文词频统计功能，首先必须使用一个中文分词器，这里使用的是中科院的。下载地址是http://ictclas.nlpir.org/downloads，由于本人电脑系统是win32位的，因此下载的是 NLPIR-JNI-发布包.zip，解压之后导入myeclipse，这里我并没有使用该项目自带的Test，而是根据该网站上提供的API进行开发。首先要做的是改写nlpir.properties中的dll_or_so_path属性，要改成项目中的NLPIR_JNI.dll的绝对路径。下面贴出我的代码：

 import java.io.IOException;

 import java.io.UnsupportedEncodingException;

 import kevin.zhang.NLPIR;

 public class WordCut {

     /**

      * @param args

      * @throws IOException

      */

     public static void main(String[] args) throws IOException {

         // TODO Auto-generated method stub

         String test = "张华平推出的NLPIR分词系统，又名ICTCLAS2013，新增新词识别、关键词提取、微博分词功能。";

         wordCut(test);

     }

     public static void wordCut(String stringInput) throws IOException{

         NLPIR nlpir = new NLPIR();

         String argu="C:\\Users\\Press-Lab\\Desktop\\20130702101845_NLPIR-JNI-发布包\\NLPIR-JNI-发布包\\NLPIR_Test\\";

         System.out.println("NLPIR init");

         if(nlpir.NLPIR_Init(argu.getBytes("GB2312"),0,"0".getBytes("GB2312")) == false){

             System.out.println("init failed");

             return;

         }

         byte nativeBytes[] = nlpir.NLPIR_ParagraphProcess(stringInput.getBytes("GB2312"), 0）;

         String nativeStr = new String(nativeBytes, 0, nativeBytes.length, "GB2312");

         System.out.println("分词结果为： " + nativeStr);

     }

 }

这里要当心地23行和25行，和官网上提供的文档略有差异，argu的路径是项目中的Data文件的上一层目录的绝对路径。29行中第二参数0代表着不需要词性标注，1表示需要。
然后这里就可以输出切分完词的字符串。下一步是对" "隔开的词统计词频，并按照降序的目录打印出来。不多说，贴代码。

import java.util.ArrayList;

import java.util.Collections;

import java.util.Comparator;

import java.util.HashMap;

import java.util.List;

import java.util.Map;

import java.util.Map.Entry;

public class WordCount {

	public static void main(String[] args){

		String wordsinput =  "张华平 推出 的 NLPIR 分词 系统 ， 又 名 ICTCLAS2013 ， 新增 新词 识别 、 的 关键词 的 提取 、 微 博 分词 功能";

		HashMap<String, Integer> wordMap = new  HashMap<String, Integer>();

		String[] words = wordsinput.split(" ");

		for(int i = 0; i < words.length ; i++){

			if(!wordMap.containsKey(words[i])){

				wordMap.put(words[i], 1);

			}else{

				int val = wordMap.get(words[i]);

				wordMap.put(words[i],val + 1);

			}

		}

		List<Map.Entry<String, Integer>> infoIds = new ArrayList<Map.Entry<String, Integer>>(

				wordMap.entrySet());

		Collections.sort(infoIds, new Comparator<Map.Entry<String, Integer>>() {

		    public int compare(Map.Entry<String, Integer> o1,

		            Map.Entry<String, Integer> o2) {

		        return ( o2.getValue()-o1.getValue());

		    }

		});

		for (int i = 0; i < infoIds.size(); i++) {

		    Entry<String,Integer> ent=infoIds.get(i);

		    System.out.println(ent.getKey()+"="+ent.getValue());  

		}

	}

}

　　这路是打印出所有的词频，可以按照自己的需求，去掉标点符号和没有的助词。

如何用java完成一个中文词频统计程序的更多相关文章

Java实现中文词频统计
昨日有个中文词频统计的需求, 百度一番后, 发现一大堆标题党文章, 讲的与内容严重不符, 这里就简单记录下自己实现的流程吧! 与英文单词的词频统计不同, 中文的难点在于如何分词, 不过好在有许多优秀的 ...
初学Hadoop之中文词频统计
1.安装eclipse 准备 eclipse-dsl-luna-SR2-linux-gtk-x86_64.tar.gz 安装 1.解压文件. 2.创建图标. ln -s /opt/eclipse/ec ...
Python中文词频统计
以下是关于小说的中文词频统计这里有三个文件,分别为novel.txt.punctuation.txt.meaningless.txt. 这三个是小说文本.特殊符号和无意义词 Python代码统计词频 ...
jieba （中文词频统计）、collections （字频统计）、WordCloud （词云）
py库: jieba (中文词频统计) .collections (字频统计).WordCloud (词云) 先来个最简单的: # 查找列表中出现次数最多的值 ls = [1, 2, 3, 4, 5, ...
py库： jieba （中文词频统计）、collections （字频统计）、WordCloud （词云）
先来个最简单的: # 查找列表中出现次数最多的值 ls = [1, 2, 3, 4, 5, 6, 1, 2, 1, 2, 1, 1] ls = ["呵呵", "呵呵&qu ...
【第二周】Java实现英语文章词频统计（改进1）
本周根据杨老师的spec对英语文章词频统计进行了改进 1.需求分析: 对英文文章中的英文单词进行词频统计并按照有大到小的顺序输出, 2.算法思想: (1)构建一个类用于存放英文单词及其出现的次数 cl ...
如何用java创建一个jdbc程序
第一个jdbc程序 JDBC简介 Java数据库连接(Java Database Connectivity,JDBC),是一种用于执行SQL语句的Java API,它由一组用Java编程语言编写的类和 ...
Hadoop基础学习（一）分析、编写并执行WordCount词频统计程序
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/jiq408694711/article/details/34181439 前面已经在我的Ubuntu ...
《用Java写一个通用的服务器程序》01 综述
最近一两年用C++写了好几个基于TCP通信类型程序,都是写一个小型的服务器,监听请求,解析自定义的协议,处理请求,返回结果.每次写新程序时都把老代码拿来,修改一下协议解析部分和业务处理部分,然后就一个 ...

随机推荐

Linux性能优化第六章性能工具：磁盘I/O
6.1 磁盘I/O介绍一般来说,Linux磁盘的每个分区要么包含一个文件系统,要么包含一个交换分区.这些分区被挂载到Linux根文件系统,该系统由/etc/fstab指定.这些被挂载的文件系统包含了 ...
用T-SQL命令附加数据库时，出现如下异常信息
用T-SQL命令附加数据库时,出现如下异常信息: 无法打开物理文件 XXX.mdf".操作系统错误 5:"5(拒绝访问.)". (Microsoft SQL Server ...
理解Solr缓存及如何设置缓存大小
文献地址:http://wangdg.com/understanding-and-tuning-solr-cache/ 理解Solr缓存及如何设置缓存大小为了得到最好的检索性能,Solr会在内存中缓 ...
admin源码解析以及仿照admin设计stark组件
---恢复内容开始--- admin源码解析一启动:每个APP下的apps.py文件中. 首先执行每个APP下的admin.py 文件. def autodiscover(): autodisco ...
centos7 jdk
查看已经自带的jdk: rpm -qa | grep jdk 卸载 sudo yum remove XXX 1.下载 jdk-8u101-linux-x64.rpm http://www.orac ...
qt tcp 通信实例
#include "mainwindow.h" #include "ui_mainwindow.h" #include <QHostAddress> ...
Java 递归详解
递归详解: 1.递归一句话通俗讲就是一个方法自动重复调用自己的过程. 2.因为是重复调用自己了,所以看起来像一个循环,所以为了避免内存溢出系统崩溃,我们需要在方法里加一个返回值判断,用于递归循环的跳出 ...
[UnityShader基础]02.深度测试 & 深度写入
参考链接: https://blog.csdn.net/v_xchen_v/article/details/79380222 前面说到了渲染队列,对于两个不透明的物体A和B,它们处于同一个渲染队列中. ...
IntelliJ IDEA 添加junit插件
一.使用idea做junit测试需要添加junit插件 1.安装插件 File-->settings-->Plguins-->Browse repositories-->输入J ...
《算法》第六章部分程序 part 5
▶ 书中第六章部分程序,包括在加上自己补充的代码,网络最大流 Ford - Fulkerson 算法,以及用到的流量边类和剩余流量网络类 ● 网络最大流 Ford - Fulkerson 算法 pac ...

如何用java完成一个中文词频统计程序

如何用java完成一个中文词频统计程序的更多相关文章

随机推荐

热门专题