基于ansj_seg和nlp-lang的简单nlp工具类

1、首先在pom中引入ansj_seg和nlp-lang的依赖包，

　　ansj_seg包的作用：

　　　　这是一个基于n-Gram+CRF+HMM的中文分词的java实现；

　　　　分词速度达到每秒钟大约200万字左右（mac air下测试），准确率能达到96%以上;

　　　　目前实现了.中文分词. 中文姓名识别 . 用户自定义词典,关键字提取，自动摘要，关键字标记等功能;

　　　　可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目;

　　nlp-lang包的作用(nlp常用工具和组件)：

　　　　工具：词语标准化、tire树结构、双数组tire树、文本断句、html标签清理、Viterbi算法增加；

　　　　组件：汉字转拼音、简繁体转换、bloomfilter、指纹去重、SimHash文章相似度计算、词贡献统计、基于内存的搜索提示、WordWeight词频统计,词idf统计,词类别相关度统计；

　　如下：

<!-- nlp-lang -->

<dependency>

    <groupId>org.nlpcn</groupId>

    <artifactId>nlp-lang</artifactId>

    <version>1.7.2</version>

</dependency>

<!-- ansj_seg -->

<dependency>

    <groupId>org.ansj</groupId>

    <artifactId>ansj_seg</artifactId>

    <version>5.1.2</version>

</dependency>

2、创建WordUtil类，如下：

package com.mengyao.nlp.util;

import java.util.ArrayList;

import java.util.Collection;

import java.util.List;

import java.util.Map;

import java.util.Map.Entry;

import org.ansj.app.keyword.KeyWordComputer;

import org.ansj.app.keyword.Keyword;

import org.ansj.app.summary.SummaryComputer;

import org.ansj.app.summary.pojo.Summary;

import org.ansj.domain.Result;

import org.ansj.domain.Term;

import org.ansj.splitWord.analysis.IndexAnalysis;

import org.ansj.splitWord.analysis.NlpAnalysis;

import org.ansj.splitWord.analysis.ToAnalysis;

import org.apache.commons.lang3.StringUtils;

import org.nlpcn.commons.lang.jianfan.JianFan;

import org.nlpcn.commons.lang.pinyin.Pinyin;

import org.nlpcn.commons.lang.util.WordAlert;

import org.nlpcn.commons.lang.util.WordWeight;


/**
 * 
 * @author mengyao
 *
 */

public class WordUtil {

    public static void main(String[] args) {

        System.out.println("2016/06/25".matches("^\\d{4}(\\-|\\/|\\.)\\d{1,2}\\1\\d{1,2}$"));

        System.out.println("20160625".matches("^\\d{8}$"));

    }

    /**

     * 文章摘要

     * @param title

     * @param content

     * @return

     */

    public static String getSummary(String title, String content) {

        SummaryComputer summaryComputer = new SummaryComputer(title, content);

        Summary summary = summaryComputer.toSummary();

        return summary.getSummary();

    }

    /**

     * 带标题的文章关键词提取

     * @param title

     * @param content

     * @return

     */

    public static List<Keyword> getKeyWord(String title, String content) {

        List<Keyword> keyWords = new ArrayList<Keyword>();

        KeyWordComputer<NlpAnalysis> kwc = new KeyWordComputer<NlpAnalysis>(20);

        Collection<Keyword> result = kwc.computeArticleTfidf(title, content);

        for (Keyword keyword : result) {

            keyWords.add(keyword);

        }

        return keyWords;

    } 

    /**

     * 不带标题的文章关键词提取

     * @param content

     * @return

     */

    public static List<Keyword> getKeyWord2(String content) {

        List<Keyword> keyWords = new ArrayList<Keyword>();

        KeyWordComputer<NlpAnalysis> kwc = new KeyWordComputer<NlpAnalysis>(20);

        Collection<Keyword> result = kwc.computeArticleTfidf(content);

        for (Keyword keyword : result) {

            keyWords.add(keyword);

        }

        return keyWords;

    } 

    /**

     * 标准分词

     * @param text

     * @return

     */

    public static List<Term> getToSeg(String text) {

        List<Term> words = new ArrayList<Term>();

        Result parse = ToAnalysis.parse(text);

        for (Term term : parse) {

            if (null!=term.getName()&&!term.getName().trim().isEmpty()) {

                words.add(term);

            }

        }

        return words;

    }

    /**

     * NLP分词

     * @param text

     * @return

     */

    public static List<Term> getNlpSeg(String text) {

        List<Term> words = new ArrayList<Term>();

        Result parse = NlpAnalysis.parse(text);

        for (Term term : parse) {

            if (null!=term.getName()&&!term.getName().trim().isEmpty()) {

                words.add(term);

            }

        }

        return words;

    }

    /**

     * Index分词

     * @param text

     * @return

     */

    public static List<Term> getIndexSeg(String text) {

        List<Term> words = new ArrayList<Term>();

        Result parse = IndexAnalysis.parse(text);

        for (Term term : parse) {

            if (null!=term.getName()&&!term.getName().trim().isEmpty()) {

                words.add(term);

            }

        }

        return words;

    }

    /**

     * 简体转繁体

     * @param word

     * @return

     */

    public static String jian2fan(String text) {

        return JianFan.j2f(text);

    }

    /**

     * 繁体转简体

     * @param word

     * @return

     */

    public static String fan2jian(String text) {

        return JianFan.f2j(text);

    }

    /**

     * 拼音(不带音标)

     * @param word

     * @return

     */

    public static String pinyin(String text) {

        StringBuilder builder = new StringBuilder();

        List<String> pinyins = Pinyin.pinyin(text);

        for (String pinyin : pinyins) {

            if (null != pinyin) {

                builder.append(pinyin+" ");

            }

        }

        return builder.toString();

    }

    /**

     * 拼音(不带音标，首字母大写)

     * @param word

     * @return

     */

    public static String pinyinUp(String text) {

        StringBuilder builder = new StringBuilder();

        List<String> pinyins = Pinyin.pinyin(text);

        for (String pinyin : pinyins) {

            if (StringUtils.isEmpty(pinyin)) {

                continue;

            }

            builder.append(pinyin.substring(0,1).toUpperCase()+pinyin.substring(1));

        }

        return builder.toString();

    }

    /**

     * 拼音(带数字音标)

     * @param word

     * @return

     */

    public static String tonePinyin(String text) {

        StringBuilder builder = new StringBuilder();

        List<String> pinyins = Pinyin.tonePinyin(text);

        for (String pinyin : pinyins) {

            if (null != pinyin) {

                builder.append(pinyin+" ");

            }

        }

        return builder.toString();

    }

    /**

     * 拼音(带符号音标)

     * @param word

     * @return

     */

    public static String unicodePinyin(String text) {

        StringBuilder builder = new StringBuilder();

        List<String> pinyins = Pinyin.unicodePinyin(text);

        for (String pinyin : pinyins) {

            if (null != pinyin) {

                builder.append(pinyin+" ");

            }

        }

        return builder.toString();

    }

    /**

     * 词频统计

     * @param words

     * @return

     */

    public static Map<String, Double> wordCount(List<String> words) {

        WordWeight ww = new WordWeight();

        for (String word : words) {

            ww.add(word);

        }

        return ww.export();

    }

    /**

     * 词频统计

     * @param words

     * @return

     */

    public static List<String> wordCount1(List<String> words) {

        List<String> wcs = new ArrayList<String>();

        WordWeight ww = new WordWeight();

        for (String word : words) {

            ww.add(word);

        }

        Map<String, Double> export = ww.export();

        for (Entry<String, Double> entry : export.entrySet()) {

            wcs.add(entry.getKey()+":"+entry.getValue());

        }

        return wcs;

    }

    /**

     * 语种识别:1英文；0中文

     * @param words

     * @return

     */

    public static int language(String word) {

        return WordAlert.isEnglish(word)?1:0;

    }

}

基于ansj_seg和nlp-lang的简单nlp工具类的更多相关文章

分享基于MemoryCache（内存缓存）的缓存工具类，C# B/S 、C/S项目均可以使用！
using System; using System.Collections.Generic; using System.Linq; using System.Runtime.Caching; usi ...
Go/Python/Erlang编程语言对比分析及示例基于RabbitMQ.Client组件实现RabbitMQ可复用的 ConnectionPool（连接池）封装一个基于NLog+NLog.Mongo的日志记录工具类LogUtil 分享基于MemoryCache（内存缓存）的缓存工具类，C# B/S 、C/S项目均可以使用！
Go/Python/Erlang编程语言对比分析及示例本文主要是介绍Go,从语言对比分析的角度切入.之所以选择与Python.Erlang对比,是因为做为高级语言,它们语言特性上有较大的相似性, ...
Apache Commons Lang之日期时间工具类
码农不识Apache,码尽一生也枉然. FastDateFormat FastDateFormat是一个快速且线程安全的时间操作类,它完全可以替代SimpleDateFromat.因为是线程安全的,所 ...
JDBC第一篇--【介绍JDBC、使用JDBC连接数据库、简单的工具类】
1.什么是JDBC JDBC全称为:Java Data Base Connectivity,它是可以执行SQL语句的Java API 2.为什么我们要用JDBC 市面上有非常多的数据库,本来我们是需要 ...
JDBC【介绍JDBC、使用JDBC连接数据库、简单的工具类】
1.什么是JDBC JDBC全称为:Java Data Base Connectivity,它是可以执行SQL语句的Java API 2.为什么我们要用JDBC 市面上有非常多的数据库,本来我们是需要 ...
基于数组阻塞队列 ArrayBlockingQueue 的一个队列工具类
java语言基于ArrayBlockingQueue 开发的一个根据特定前缀和后缀的队列.每天自动循环生成. 1.定义队列基类 Cookie package com.bytter.util.queue ...
SSM-MyBatis-10：Mybatis中SqlSession的getMapper()和简单的工具类MyBatisUtils
------------吾亦无他,唯手熟尔,谦卑若愚,好学若饥------------- getMapper的作用,获取到接口,直接通过点的方式调用方法,以免直接手打的方式写错方法名,(强类型的方式) ...
字符串排序简单的工具类，数组转list,list转数组
public static void main(String[] args) { /* String[] str = {"a", "c", "b&qu ...
基于Java反射的map自动装配JavaBean工具类设计
我们平时在用Myabtis时不是常常需要用map来传递参数,大体是如下的步骤: public List<Role> findRoles(Map<String,Object> p ...
基于json-lib-2.2.2-jdk15.jar的JSON解析工具类大集合
json解析之前的必备工作:导入json解析必须的六个包资源链接:百度云:链接:https://pan.baidu.com/s/1dAEQQy 密码:1v1z 代码示例: package com.s ...

随机推荐

使用 Python 操作 Git 版本库 - GitPython
GitPython 是一个用于操作 Git 版本库的 python 包, 它提供了一系列的对象模型(库 - Repo.树 - Tree.提交 - Commit等) 用于操作版本库中的相应对象. 版本库 ...
React Components Template
React Components Template "use strict"; /** * * @author xgqfrms * @license MIT * @copyrigh ...
Delphi中正常窗口的实现
摘要: 在Delphi的VCL库中,为了使用以及实现的方便,应用对象Application创建了一个用来处理消息响应的隐藏窗口.而正是这个窗口,使得用VCL开发出来的程序存在着与其他窗口不能正常排列平 ...
MyBatis原理系列
原理分析之一:从JDBC到Mybatis 原理分析之二:框架整体设计原理分析之三:初始化(配置文件读取和解析) 原理分析之四:一次SQL查询的源码分析
Go语言【第八篇】：Go语言变量作用域
Go语言变量作用域作用域为已声明标识符所表示的常量.类型.变量.函数或包在源代码中的作用范围,Go语言中变量可以在三个地方声明: 函数内定义的变量称为局部变量: 函数外定义的变量称为全局变量: 函数 ...
2017 ICPC beijing E - Cats and Fish
#1631 : Cats and Fish 时间限制:1000ms 单点时限:1000ms 内存限制:256MB 描述 There are many homeless cats in PKU camp ...
UVA.10305 Ordering Tasks (拓扑排序)
UVA.10305 Ordering Tasks 题意分析详解请移步算法学习拓扑排序(TopSort) 拓扑排序的裸题基本方法是,indegree表示入度表,vector存后继节点.在tops ...
React属性用法总结
1. 键值对 <ClaaNameA name = “Tom” /> <ClaaNameA name = {Tom} /> <ClaaNameA name = {“Tom” ...
luoguP1357 花园
矩阵乘法优化dp 注意环形处理: 发现,对于一个初始状态s的方案数,就是填n次后,再回到自己的状态.期间都是合法的话,那么一定这个方案就合法. 和开始状态有关.所以先把状态转移矩阵的(n-m)乘出来. ...
#define与typedef
#define(宏定义)只是简单的字符串代换(原地扩展),它本身并不在编译过程中进行,而是在这之前(预处理过程)就已经完成了. typedef是为了增加可读性而为标识符另起的新名称(仅仅只是个别名), ...

基于ansj_seg和nlp-lang的简单nlp工具类

基于ansj_seg和nlp-lang的简单nlp工具类的更多相关文章

随机推荐

热门专题