Pyhanlp自然语言处理中的新词识别

新词发现

本“新词发现”模块基于信息熵和互信息两种算法，可以在无语料的情况下提取一段长文本中的词语，并支持过滤掉系统中已存在的“旧词”，得到新词列表。

调用方法

静态方法

一句话静态调用接口已经封装到HanLP中：

/**

* 提取词语

* @param text 大文本

* @param size 需要提取词语的数量

* @return 一个词语列表

public static List<WordInfo> extractWords(String text, int size)

/**

* 提取词语

* @param reader 从reader获取文本

* @param size 需要提取词语的数量

* @return 一个词语列表

public static List<WordInfo> extractWords(BufferedReader reader, int size) throws IOException

/**

* 提取词语（新词发现）

* @param text 大文本

* @param size 需要提取词语的数量

* @param newWordsOnly 是否只提取词典中没有的词语

* @return 一个词语列表

public static List<WordInfo> extractWords(String text, int size, boolean newWordsOnly)

/**

* 提取词语（新词发现）

* @param reader 从reader获取文本

* @param size 需要提取词语的数量

* @param newWordsOnly 是否只提取词典中没有的词语

* @return 一个词语列表

public static List<WordInfo> extractWords(BufferedReader reader, int size, boolean newWordsOnly) throws IOException

调用示例请参考com.hankcs.demo.DemoNewWordDiscover。值得注意的是，在计算资源允许的情况下，文本越长，结果质量越高。对于一些零散的文章，应当合并为整个大文件传入该算法。

高级参数

根据语料的长度或用词的不同，默认的参数有可能不能得到最佳的结果。我们可以通过构造不同的NewWordDiscover调整提取算法。该构造函数如下：

/**

* 构造一个新词识别工具

* @param max_word_len 词语最长长度

* @param min_freq 词语最低频率

* @param min_entropy 词语最低熵

* @param min_aggregation 词语最低互信息

* @param filter 是否过滤掉HanLP中的词库中已存在的词语

public NewWordDiscover(int max_word_len, float min_freq, float min_entropy, float min_aggregation, boolean filter)

其中：

· max_word_len控制识别结果中最长的词语长度，默认值是4；该值越大，运算量越大，结果中出现短语的数量也会越多。

· min_freq控制结果中词语的最低频率，低于该频率的将会被过滤掉，减少一些运算量。由于结果是按照频率排序的，所以该参数其实意义不大。

· min_entropy控制结果中词语的最低信息熵的值，一般取0.5左右。该值越大，越短的词语就越容易被提取出来。

· min_aggregation控制结果中词语的最低互信息值，一般取50到200.该值越大，越长的词语就越容易被提取出来，有时候会出现一些短语。

· filter设为true的时候将使用内部词库过滤掉“旧词”。

Pyhanlp自然语言处理中的新词识别的更多相关文章

从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史（转载）
转载 https://zhuanlan.zhihu.com/p/49271699 首发于深度学习前沿笔记写文章从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史张 ...
自然语言处理中的语言模型预训练方法（ELMo、GPT和BERT）
自然语言处理中的语言模型预训练方法(ELMo.GPT和BERT) 最近,在自然语言处理(NLP)领域中,使用语言模型预训练方法在多项NLP任务上都获得了不错的提升,广泛受到了各界的关注.就此,我将最近 ...
zz从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史 Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得.那为什么 ...
（转）注意力机制（Attention Mechanism）在自然语言处理中的应用
注意力机制(Attention Mechanism)在自然语言处理中的应用本文转自:http://www.cnblogs.com/robert-dlut/p/5952032.html 近年来,深度 ...
paip.提升中文分词准确度---新词识别
paip.提升中文分词准确度---新词识别近来,中文每年大概出现800---1仟个新的词.. 60%的分词错误是由新词导致的作者Attilax 艾龙, EMAIL:1466519819@qq. ...
注意力机制（Attention Mechanism）在自然语言处理中的应用
注意力机制(Attention Mechanism)在自然语言处理中的应用近年来,深度学习的研究越来越深入,在各个领域也都获得了不少突破性的进展.基于注意力(attention)机制的神经网络成为了 ...
自然语言处理中的自注意力机制（Self-attention Mechanism）
自然语言处理中的自注意力机制(Self-attention Mechanism) 近年来,注意力(Attention)机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中,之前我对早期注意力 ...
自然语言处理中的N-Gram模型
N-Gram(有时也称为N元模型)是自然语言处理中一个非常重要的概念,通常在NLP中,人们基于一定的语料库,可以利用N-Gram来预计或者评估一个句子是否合理.另外一方面,N-Gram的另外一个作用是 ...
(zhuan) 自然语言处理中的Attention Model：是什么及为什么
自然语言处理中的Attention Model:是什么及为什么 2017-07-13 张俊林待字闺中要是关注深度学习在自然语言处理方面的研究进展,我相信你一定听说过Attention Model( ...

随机推荐

2019-03-18-day013-装饰器与内置函数
上周回顾函数: def 函数名(): 缩进函数体闭包: a = 50 def func(): a = 10 def avg(): print(a) 函数名的使用: 当做值被赋值给变量当做返回值 ...
Day9作业及默写
1,整理函数相关知识点,写博客. 2,写函数,检查获取传入列表或元组对象的所有奇数位索引对应的元素,并将其作为新列表返回给调用者. def func(obj): return obj[1::2] 3, ...
[Jedis] ERR wrong number of arguments for 'mget'
看别人写的代码是件比较痛苦的事情,更加痛苦的是别人的代码出错还要负责调试好. 关于如何迅速定位问题和调试代码,我的一点感受是:逐行认真查看错误信息,在这些信息中找自己熟悉的内容(包括文件名.方法名等) ...
Maven3 package时报 'version' contains an expression but should be a constant
父pom文件: <modelVersion>4.0.0</modelVersion> <groupId>com.wey</groupId> <ar ...
MAC机下用Terminal操作MySql
在MAC机上安装好MySql后,在Terminal内运行mysql时会提示mysql command not found命令.这是因为没有把运行时的路径添加到$PATH变量中.检查$PATH变量中是否 ...
使用solr报错
2017-11-15 20:15:18 错误介绍: 错误原因:url错误错误解决:换成正确
2017第八届蓝桥杯C/C++ B组省赛-日期问题
标题:日期问题小明正在整理一批历史文献.这些历史文献中出现了很多日期.小明知道这些日期都在1960年1月1日至2059年12月31日.令小明头疼的是,这些日期采用的格式非常不统一,有采用年/月/日的 ...
html 调用ocx控件
!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/x ...
BT原理分析
BT全名為BitTorrent,是一個p2p軟件,你在下載download的同時,也在為其他用戶提供上傳upload,因為大家是「互相幫助」,所以不會隨著用戶數的增加而降低下載速度. 其實跟ED也十分 ...
Python之路，第十篇：Python入门与基础10
python3 函数函数(function) 什么是函数: 函数是可以重复执行的代码块,可以重复使用: 作用: 定义用户级的函数:实现了一个代码块的封装: 语法: def 函数名(参数列表): ...

Pyhanlp自然语言处理中的新词识别

Pyhanlp自然语言处理中的新词识别的更多相关文章

随机推荐

热门专题