互联网时代，信息产生的数量和传递的速度非常快，语言文字也不断变化更新，新词层出不穷。一个好的新词发现程序对做NLP（自然预言处理）来说是非常重要的。

N-Gram加词频

最原始的新词算法莫过于n-gram加词频了。简单来说就是，从大量语料中抽取连续的字的组合片段，这些字组合片段最多包含n个字，同时统计每个字组合的频率，按照词频并设置一个阈值来判断一个字组合片段是否为词汇。

该方法简单处理速度快，它的缺点也很明显，就是会把一些不是词汇但出现频率很高的字组合也当成词了。

凝固度和自由度

这个算法在文章《互联网时代的社会语言学：基于SNS的文本数据挖掘》里有详细的阐述。

凝固度就是一个字组合片段里面字与字之间的紧密程度。比如“琉璃”、“榴莲”这样的词的凝固度就非常高，而“华为”、“组合”这样的词的凝固度就比较低。

自由度就是一个字组合片段能独立自由运用的程度。比如“巧克力”里面的“巧克”的凝固度就很高，和“巧克力”一样高，但是它自由运用的程度几乎为零，所以“巧克”不能单独成词。

Python实现

根据以上阐述，算法实现的步骤如下：

1. n-gram统计字组合的频率

如果文本量很小，可以直接用Python的dict来统计n-gram及其频率。一段文本n-gram出来的字组合的大小大约是原始文本的(1+n)*n/2倍，字组合的数量也非常惊人。比如，“中华人民共和国”的首字n-gram是（n=5）：

中
中华
中华人
中华人民
中华人民共

n-gram统计字组合频率的同时还要统计字组合的左右邻居，这个用来计算自由度。

如果文本量再大一些，Python的dict经常会碰到最好使用trie tree这样的数据结构。双数组Trie Tree有很多非常好的开源实现，比如，cedar、darts等等。Trie Tree使用的好处是，它天然包含了字组合的右邻居信息，因为这个数据结构一般是前缀树。要统计左邻居信息时，只需要把字组合倒序放入另外一个Trie Tree即可。
使用cedar Trie Tree的时候，5-gram统计30M的文本大约使用6GB左右的内存。

如果文本量更大，这就要借助硬盘了，可以使用leveldb这样的key-value数据库来实现。实验下来，trie tree统计30M的文本用几十秒，而同样的用leveldb统计却要6个多小时！！！应该还有比leveldb更合适的数据库来做这件事情，有时间再说。
当然，为了发现新词，几十MB的文本文本足够了。

2. 计算字组合的凝固度;

有了上述的统计结果，计算每个字组合的凝固度就比较简单了。
首先，把字组合切分成不同的组合对，比如’abcd’可以拆成(‘a’, ‘bcd’), (‘ab’, ‘cd’), (‘abc’, ‘d’),
然后，计算每个组合对的凝固度：D(s1, s2) = P(s1s2) / (P(s1) * P(s2))
最后，取这些组合对凝固度中最小的那个为整个字组合的凝固度。

3. 计算字组合的自由度;

分别计算它的左邻居信息熵和右邻居信息熵，取其中较小的为该组合的自由度。

4. 阈值的选择

整个过程涉及到三个阈值的选择：

组合的词频：频率很低的组合成词的可能性很小
组合的凝固度：凝固度越大成词的可能性越大
组合的自由度：自由度越大成词的可能性越大

经验值：30M文本，词频>200, 凝固度>10**(n-1), 自由度>1.5

小窍门：词频>30, 凝固度>20**(n-1)也能发现很多低频的词汇。

文章首发于我的个人博客：猿人学

用python实现新词发现程序——基于凝固度和自由度的更多相关文章

使用python对py文件程序代码复用度检查
#!/user/bin/env python # @Time :2018/6/5 14:58 # @Author :PGIDYSQ #@File :PyCheck.py from os.path im ...
【新词发现】基于SNS的文本数据挖掘、短语挖掘
互联网时代的社会语言学:基于SNS的文本数据挖掘 python实现 https://github.com/jtyoui/Jtyoui/tree/master/jtyoui/word 这是一个无监督训 ...
基于大规模语料的新词发现算法【转自matix67】
最近需要对商品中的特有的词识别,因此需新词发现算法,matrix的这篇算法很好. 对中文资料进行自然语言处理时,我们会遇到很多其他语言不会有的困难,例如分词——汉语的词与词之间没有空格,那计算机怎么才 ...
Pytest权威教程-更改标准（Python）测试发现
目录更改标准(Python)测试发现在测试收集过程中忽略路径测试期间收集的测试取消保留从命令行指定的重复路径更改目录递归更改命名约定将cmdline参数解释为Python包找出收集的东 ...
[python]用profile协助程序性能优化
转自:http://blog.csdn.net/gzlaiyonghao/article/details/1483728 本文最初发表于恋花蝶的博客http://blog.csdn.net/lanph ...
小程序基于疼讯qcloud的nodejs开发服务器部署
腾讯,疼讯,很疼. 请慎重看腾讯给出的文档,最好做一个笔记. 我只能说我能力有限,在腾讯云小程序的文档中跳了n天. 最后还是觉得记录下来,以防止我的cpu过载给烧了. 此文档是对<小程序 ...
【转】Python用数据说明程序员需要掌握的技能
[转]Python用数据说明程序员需要掌握的技能 https://blog.csdn.net/HuangZhang_123/article/details/80497951 当下是一个大数据的时代,各 ...
OpenCV + python 实现人脸检测（基于照片和视频进行检测）
OpenCV + python 实现人脸检测(基于照片和视频进行检测) Haar-like 通俗的来讲,就是作为人脸特征即可. Haar特征值反映了图像的灰度变化情况.例如:脸部的一些特征能由矩形特征 ...
[转]python实现RESTful服务（基于flask）
python实现RESTful服务(基于flask) 原文: https://www.jianshu.com/p/6ac1cab17929 前言上一篇文章讲到如何用java实现RESTful服务, ...

随机推荐

Java使用jxl修改现有Excel文件内容，并验证其是否对公式的结果产生影响
jxl的maven坐标:  <dep ...
【ARTS】01_32_左耳听风-201900617~201900623
ARTS: Algrothm: leetcode算法题目 Review: 阅读并且点评一篇英文技术文章 Tip/Techni: 学习一个技术技巧 Share: 分享一篇有观点和思考的技术文章 Algo ...
【c# 学习笔记】索引器
当一个类包含数组成员时,索引器的使用将大大地简化对类中数组成员的访问.索引器的定义类似于属性,也具有GET访问器和set访问器,如下: [修饰符] 数据类型 this[索引类型 index] { g ...
CEIWEI USBMonitor监控驱动 OCX/SDK USB 监控精灵 USB过滤驱动
CEIWEI USBMonitor监控精灵软件SDK USBMonitorX.dll SDK,能够嵌入到你的App程序中,从而在你的App中实现USB端口协议分析.调试USB设备的协议信息,并可以拦截 ...
Echarts 图表的本地配置
前言 Echarts是一个美观的可视化工具,但是很多朋友初次接触,不知道自己该怎么创建一个包含Echartst图表的本地HTML网页,本文将详细地介绍Echarts的使用流程. 使用流程步骤共分为三 ...
【谷歌浏览器】修改和添加Cookie
一.使用谷歌浏览器 1.1.修改ookie 方法一:直接用开发者工具修改: 操作如图: 参考: 检查和删除 Cookie · Chrome 开发者工具中文文档 http://www.css88.c ...
iOS开发系列之app的一天
本文主要讲述我对 iOS 开发的一些理解,希望能通过 app 从启动到退出,将一些的知识整合起来,形成一条知识链,目前涉及到的知识点有 runloop.runtime.文件存储.界面布局.离线推送.内 ...
win10系统不能ping通vmware虚假机解决办法
在使用vmware安装虚拟机后,在虚拟机里面可以上网,但就是不能在宿主机通过远程连接工具连接同时也不能ping通虚拟机检查网络配置查看网关在宿主机打开 ip地址填写刚刚查看的网关,同时把子网掩 ...
【Linux内核】编译与配置内核(x86)
[Linux内核]编译与配置内核(x86) https://www.cnblogs.com/jamesharden/p/6414736.html
SC创建服务编写bat脚本
新建bat脚本,并写入一下文本保存 sc create "DevFast.SupportGPSWarmService" binpath= "%cd%\DevFast.Su ...

用python实现新词发现程序——基于凝固度和自由度