Java实现中文词频统计

昨日有个中文词频统计的需求, 百度一番后, 发现一大堆标题党文章, 讲的与内容严重不符, 这里就简单记录下自己实现的流程吧!

与英文单词的词频统计不同, 中文的难点在于如何分词, 不过好在有许多优秀的现成库供调用,这里就使用了 ansj_seg 插件.

首先添加依赖:

下载jar

访问 http://maven.nlpcn.org/org/ansj/ 最好下载最新版 ansj_seg/
- 同时下载nlp-lang.jar 需要和ansj_seg 配套..配套关系可以看jar包中的maven依赖,一般最新的ansj配最新的nlp-lang不会有错。
导入到eclipse ，开始你的程序吧

maven

        <dependency>

            <groupId>org.ansj</groupId>

            <artifactId>ansj_seg</artifactId>

            <version>5.1.1</version>

        </dependency>

基本用法为:

 String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!" ;

 System.out.println(ToAnalysis.parse(str));

 欢迎/v,使用/v,ansj/en,_,seg/en,,,(,ansj/en,中文/nz,分词/n,),在/p,这里/r,如果/c,你/r,遇到/v,什么/r,问题/n,都/d,可以/v,联系/v,我/r,./m,我/r,一定/d,尽我所能/l,./m,帮助/v,大家/r,./m,ansj/en,_,seg/en,更快/d,,,更/d,准/a,,,更/d,自由/a,!

下面就贴上代码:

  public static void wordFrequency() throws IOException {

        Map<String, Integer> map = new HashMap<>();

        String article = getString();

        String result = ToAnalysis.parse(article).toStringWithOutNature();

        String[] words = result.split(",");

        for(String word: words){

            String str = word.trim();

            // 过滤空白字符

            if (str.equals(""))

                continue;

            // 过滤一些高频率的符号

            else if(str.matches("[）|（|.|，|。|+|-|“|”|：|？|\\s]"))

                continue;

            // 此处过滤长度为1的str

            else if (str.length() < 2)

                continue;

            if (!map.containsKey(word)){

                map.put(word, 1);

            } else {

                int n = map.get(word);

                map.put(word, ++n);

            }

        }

        Iterator<Map.Entry<String, Integer>> iterator = map.entrySet().iterator();

        while (iterator.hasNext()){

            Map.Entry<String, Integer> entry = iterator.next();

            System.out.println(entry.getKey() + ": " + entry.getValue());

        }
　

        List<Map.Entry<String, Integer>> list = new ArrayList<>();

        Map.Entry<String, Integer> entry;
　　　　

        while ((entry = getMax(map)) != null){

            list.add(entry);

        }

        System.out.println(Arrays.toString(list.toArray()));

    }

    /**

     * 找出map中value最大的entry, 返回此entry, 并在map删除此entry

     * @param map

     * @return

     */

    public static Map.Entry<String, Integer> getMax(Map<String, Integer> map){

        if (map.size() == 0){

            return null;

        }

        Map.Entry<String, Integer> maxEntry = null;

        boolean flag = false;

        Iterator<Map.Entry<String, Integer>> iterator = map.entrySet().iterator();

        while (iterator.hasNext()){

            Map.Entry<String, Integer> entry = iterator.next();

            if (!flag){

                maxEntry = entry;

                flag = true;

            }

            if (entry.getValue() > maxEntry.getValue()){

                maxEntry = entry;

            }

        }

        map.remove(maxEntry.getKey());

        return maxEntry;

    }

    /**

     * 从文件中读取待分割的文章素材.
　　　* 文件内容来自简书热门文章: https://www.jianshu.com/p/5b37403f6ba6

     * @return

     * @throws IOException

     */

    public static String getString() throws IOException {

        FileInputStream inputStream = new FileInputStream(new File("/home/as_/IdeaProjects/SpringMaven/article-txt"));

        BufferedReader reader = new BufferedReader(new InputStreamReader(inputStream));

        StringBuilder strBuilder = new StringBuilder();

        String line;

        while((line = reader.readLine()) != null){

            strBuilder.append(line);

        }

        reader.close();

        inputStream.close();

        return strBuilder.toString();

    }

最后依旧附上图片:

Java实现中文词频统计的更多相关文章

如何用java完成一个中文词频统计程序
要想完成一个中文词频统计功能,首先必须使用一个中文分词器,这里使用的是中科院的.下载地址是http://ictclas.nlpir.org/downloads,由于本人电脑系统是win32位的,因此下 ...
初学Hadoop之中文词频统计
1.安装eclipse 准备 eclipse-dsl-luna-SR2-linux-gtk-x86_64.tar.gz 安装 1.解压文件. 2.创建图标. ln -s /opt/eclipse/ec ...
Python中文词频统计
以下是关于小说的中文词频统计这里有三个文件,分别为novel.txt.punctuation.txt.meaningless.txt. 这三个是小说文本.特殊符号和无意义词 Python代码统计词频 ...
jieba （中文词频统计）、collections （字频统计）、WordCloud （词云）
py库: jieba (中文词频统计) .collections (字频统计).WordCloud (词云) 先来个最简单的: # 查找列表中出现次数最多的值 ls = [1, 2, 3, 4, 5, ...
py库： jieba （中文词频统计）、collections （字频统计）、WordCloud （词云）
先来个最简单的: # 查找列表中出现次数最多的值 ls = [1, 2, 3, 4, 5, 6, 1, 2, 1, 2, 1, 1] ls = ["呵呵", "呵呵&qu ...
Java实现的词频统计——Web迁移
本次将原本控制台工程迁移到了web工程上,依旧保留原本控制台的版本. 需求: 1.把程序迁移到web平台,通过用户上传TXT的方式接收文件: 2.在页面上给出链接 (如果有封皮.作者.字数.页数等信息 ...
Java实现的词频统计——功能改进
本次改进是在原有功能需求及代码基础上额外做的修改,保证了原有的基础需求之外添加了新需求的功能. 功能: 1. 小文件输入——从控制台由用户输入到文件中,再对文件进行统计: 2.支持命令行输入英文作品的 ...
Java实现的词频统计
要求: 1.读取文件: 2.记录出现的词汇及出现频率: 3.按照频率降序排列: 4.输出结果. 概要: 1.读取的文件路径是默认的,为了方便调试,将要统计的文章.段落复制到文本中即可:2.只支持英文: ...
Java实现的词频统计——单元测试
前言:本次测试过程中发现了几个未知字符,这里将其转化为十六进制码对其加以区分. 1)保存统计结果的Result文件中显示如图: 2)将其复制到eclipse环境下的切分方法StringTokenize ...

随机推荐

Java代码执行机制
一.java源码编译机制一个java文件编译为.class文件的流程图. Parse an Enter阶段: Parse:将代码字符串转换为token序列(com.sun.tools.javac.p ...
无废话MVC入门教程笔记
自学mvc,看了园子里李林峰写的李林峰写的无废话MVC入门教程笔记,现在有的平时忽略的或是不太清楚的点记下来 1,Html.DropDownList //服务端写法 @{ //下拉列表的值 List& ...
UWP_开源小程序水印添加器
前几天写了一个确定水印位置的小博客.决定要写一个添加水印的UWP程序. 目前程序技术方面已经差不多了.所以提上日程
屏幕字段不允许直接输入，只能通过SearchHelp(F4)
---恢复内容开始--- REPORT z_barry_test NO STANDARD PAGE HEADING . PARAMETERS: p_date TYPE sy-datum , ...
Educational Codeforces Round 59 (Rated for Div. 2)
熬夜爆肝,智商急剧下降坐标UTC+8晚上23:35开始晚上脑袋转的慢,非常慢 T1上来先做还花了好几分钟 T2本来是有式子的我TM写数位DP写炸了然后才发现是有公式 T3英语不好,一开始题意没读懂 ...
USACO 1.3.6 Ski Course Design[滑雪课程设计]
先说说思路: 这题比上一道坑人的wormholes简单多了!我一看到这题,“XXX设计”,还以为要用到什么dp呢,没想到是水题用两层循环,第一层循环相差17中的上界,第二层遍历所有的山峰计算答案.并 ...
处理Json接收日期格式问题
//处理Json接收日期格式问题function getNormalDate(dateNormal) { var receiveDate = new Date(parseInt(dateNormal. ...
PHPExcel类库的使用
首先下载PHPEXCEL 下载地址:https://github.com/PHPOffice/PHPExcel 一.生成Excel <?php require "PHPExcel-1. ...
C语言中一些术语的梳理_持续更新
关键字.标识符.宏.预定义.预处理.编译.替换.预处理指令. ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ 标识符: ...

Java实现中文词频统计

下载jar

maven

Java实现中文词频统计的更多相关文章

随机推荐

热门专题