概述

对机器学习感兴趣的小伙伴,可以借助python,实现一个N-gram分词中的Unigram和Bigram分词器,来进行入门, github地址

此项目并将前向最大切词FMM和后向最大切词的结果作为Baseline,对比分析N-gram分词器在词语切分正确率、词义消歧和新词识别等方面的优势。

数据说明

本实验使用的语料是人民日报1998年中文标注的语料库,19484条。在处理过程中,按照训练集 : 测试集 = 9 : 1的比例进行随机划分。 数据预处理包括:去词性、去文本行标识(19980101-01-001-001)、词典统计、标点统计等。

主要流程

  1. 文本预处理,分为:语料随机切分、去词性、统计词典等
  2. 使用前向FMM和后向BMM最大切分,对测试语料进行切分,统计准确率、召回率和F1值
  3. 统计训练语料词典概率,用Unigram模型对待切分文本采用递归的思想,进行最大概率切分,统计准确率、召回率和F1值
  4. 统计Bigram词典概率,用Bigram模型对文本进行切分方案概率计算,选取概率最大切分,统计准确率、召回率和F1值
  5. 对比分析不同切词方案对文本歧义和未登录词的处理效果。

算法描述

文本预处理

首先进行语料的随机切分,默认按照9 : 1的比例切分训练集合测试集。

"""语料的随机切分,默认按照9 : 1的比例切分训练集合测试集"""
def splitCorpus(train=0.9, fileName='199801.txt'):
train_file = open('train.txt', 'wb')
test_file = open('test.txt', 'wb')
with open(fileName, 'rb') as f:
for line in f:
if random() <= train:
train_file.write(line)
else:
test_file.write(line)
train_file.close()
test_file.close()
print('successfully to split corpus by train = %f test = %f' %
(train, 1 - train)) """统计语料词典"""
def toWordSet(file_name='train.txt', is_save=False, save_file='wordSet.pkl'):
# 获取词典
word_dict = defaultdict(float)
with open(file_name, 'rb') as f:
for line in f:
content = line.decode('gbk').strip().split()
# 去掉第一个词“19980101-01-001-001/m”
for word in content[1:]:
word_dict[word.split(u'/')[0]] += 1
if is_save:
# 保存wordSet以复用
joblib.dump(word_dict, save_file)
print("successfully get word dictionary!")
print("the total number of words is:{0}".format(len(word_dict.keys())))
return word_dict

FMM和BMM

前向最大切词,是以可变滑动窗口对文本进行顺序取词,若改词在词典中存在,则进行一次切分;否则,缩小窗口大小,继续取词与词典库进行搜索,知道窗口词长为1。后向切词原理相似,只不过是从后面开始进行窗口滑动。

def forwardMaxCut(ustring, word_set, word_max_len=5):
"""
前向最大切词
:param ustring: 待切词文本
:param word_set: 词典
:param word_max_len: 最大词长
:return: 词列表
"""
wordList = []
if not ustring:
return wordList
while ustring:
sentence_len = len(ustring)
if sentence_len < word_max_len:
word_max_len = sentence_len
for i in range(word_max_len, 0, -1):
if ustring[:i] in word_set or i == 1:
wordList.append(ustring[:i])
ustring = ustring[i:]
break
else:
i -= 1
return wordList

运行结果:

前向分词结果:
successfully to split corpus by train = 0.900000 test = 0.100000
the total number of punction is:47
the total number of words is:53198
召回率为:0.9466013860392212
准确率为:0.9154134377927275
F值为:0.9307462195496794 后向分词结果:
successfully to split corpus by train = 0.900000 test = 0.100000
the total number of punction is:47
the total number of words is:53767
召回率为:0.950686195146746
准确率为:0.92130516483316
F值为:0.9357651113664159

由于每次运行,都会对语料进行随机切分,因此运行结果中的词典大小有出入。

Unigram分词

Unigram切词的计算公式如下:

  • 基本思路: 首先统计出训练集词典中各个词的频率,用来表示公式中的wi;然后,对待切分文本的进行某种策略的切分,递归选择切分概率最大的子切分序列,最后回溯得到最大概率切分。
  • 举个栗子:
例句S:我是北京大学的一名研究生
# S的切分可以拆成两步
P(S) = P(我)*P(是北京大学的一名研究生)
#同时后面的子句,继续可以拆成:
P(S) = P(我)*P(是北京大学的一名研究生) = P(我)*P(是)*p(北京大学的一名研究生)
#这里有个问题,我们是如何知道应该拆成“我”和“是”两个词,而不是“我是”一个词呢
#上面计算最大概率,是递归调用的,假设我们开始有两种切分
[我,是北京大学的一名研究生]
[我是,北京大学的一名研究生]
#计算组合概率
P1 = P(我)*P(是北京大学的一名研究生)
P2 = P(我是)*P(北京大学的一名研究生)
#我们会发现
P1 > P2
#对于后面的任何子句,我们都采用无脑切分,即设置最大词长,这里假设为3,可得到以下切分:
[我,是北京大学的一名研究生]
[我是,北京大学的一名研究生]
[我是北,京大学的一名研究生]
#然后分别递归计算
#为了满足性能的要求,避免重复计算,我们采用将间接计算的子序列的组合概率,都存储起来
#每次计算新的子序列时,先查看子序列的切分组合中,是否包含已经计算过的子子序列,包含,则直接复用
  • 平滑,对于词典中搜索不到的词,需要做一定的平滑处理,常用的平滑方法原理见这里,本课程实验支持加1平滑、WItten-Bell平滑方法,默认采用的是Wittten-Bell平滑方法。以下为计算最大切分概率程序:
def maxP(self, sentence):
'''
计算最大切分方案
:param sentence: 待切分句子
:return:
'''
# 遍历所有切分组合中,找出最大概率切分
if len(sentence) <= 1:
return self.DICT.getPValue(self, sentence)
# 判断切词方向:backward 或 forward
sentence_split_words = [self.backwardSplitSentence(
sentence), self.forwardSplitSentence(sentence)][self.split_way != 'back']
# 记录最大概率值
max_p_value = 0
# 储存最大概率下的切分组合
word_pairs = []
# 组合概率值
word_p = 0
for pair in sentence_split_words:
p1, p2 = 0, 0
if pair[0] in self.value_dict:
p1 = self.value_dict[pair[0]]
else:
p1 = self.maxP(pair[0])
if pair[1] in self.value_dict:
p2 = self.value_dict[pair[1]]
else:
p2 = self.maxP(pair[1])
word_p = p1 * p2
if max_p_value < word_p:
max_p_value = word_p
word_pairs = pair
# 在词典中查询当前句对应的频率,不存在时,返回 1/N
sentence_p_value = self.DICT.getPValue(self, sentence)
# 不切分概率最大时,更新各值
if sentence_p_value > max_p_value and self.DICT.inDict(self, sentence):
self.value_dict[sentence] = sentence_p_value
self.seg_dict[sentence] = sentence
return sentence_p_value
# 某种切分组合概率最大时,更新sentence对应概率,避免后续切分重复计算
else:
self.value_dict[sentence] = max_p_value
self.seg_dict[sentence] = word_pairs
return max_p_value

运行结果:

successfully to split corpus by train = 0.900000 test = 0.100000
the total number of words is:53705
the total number of punction is:47
召回率为:0.9614382160763091
准确率为:0.9319770859102912
F值为:0.9464784466054017

Bigram分词

  • Bigram切词的计算公式如下:
  • 基本思路: 首先统计出训练集词典中各个Bigram的频率,如[我|是]、[我|来自],用来表示公式中的[wi|wi-1];然后,对待切分文本给出所有的切分方案,计算切分概率最大的切分序列。
  • 举个栗子:
例句S: 这几块地面积还真不小。
#对S进行切分,获得所有切分方案
S1 = ['这', '几', '块', '地', '面', '积', '还', '真', '不', '小']
S2 = ['这', '几', '块', '地', '面', '积', '还', '真', '不小']
S3 = ['这', '几', '块', '地', '面积', '还', '真', '不', '小']
S4 = ['这', '几', '块', '地', '面积', '还', '真', '不小']
S5 = ['这', '几', '块', '地面', '积', '还', '真', '不小']
#利用Bigram公式,计算所有的方案的切分概率,为了避免出现float下溢出,采用log求和
P(S1) = -64.745
P(S2) = -63.894
P(S3) = -55.041
P(S4) = -54.190
P(S5) = -58.190
P(S4) > P(S3)>P(S5)>P(S2)>P(S1)
#不难发现,上述例句对于机器是一个歧义句,S4和S5两种切分都可以
#但是根据语境,S4是正确的
  • 运行结果:
successfully to split corpus by train = 0.900000 test = 0.100000
the total number of words is:53260
The total number of bigram is : 403121.
successfully witten-Bell smoothing! smooth_value:1.3372788850370981e-05
the total number of punction is:47
召回率为:0.962036929819092
准确率为:0.9401303935308096
F值为:0.950957517059212

结果分析

  • 对比指标
指标 FMM BMM Unigram Bigram
准确率 91.54% 92.13% 93.20% 94.01%
召回率 94.66% 95.07% 96.14% 96.20%
F1值 93.07% 93.58% 94.64% 95.10%

根据上表可知:分词效果最好的是Bigram,最差的是FMM。 因为FMM只考虑了前向顺序词是否在字典中出现,而Bigram除了考虑词典中是否包含此词,同时也考虑了邻接词对分词的选择的影响。 在处理歧义上,Bigram具有较好的效果,能基本实现消除歧义,但是消除歧义的效果受文本训练大小的影响。 在处理未登录词上,这里仅仅是对未登录词切分为单个字,因此在未登录词的处理上还要进一步的研究讨论。

机器学习新手项目之N-gram分词的更多相关文章

  1. 2016年GitHub排名前20的Python机器学习开源项目(转)

    当今时代,开源是创新和技术快速发展的核心.本文来自 KDnuggets 的年度盘点,介绍了 2016 年排名前 20 的 Python 机器学习开源项目,在介绍的同时也会做一些有趣的分析以及谈一谈它们 ...

  2. Python & 机器学习之项目实践

    机器学习是一项经验技能,经验越多越好.在项目建立的过程中,实践是掌握机器学习的最佳手段.在实践过程中,通过实际操作加深对分类和回归问题的每一个步骤的理解,达到学习机器学习的目的. 预测模型项目模板不能 ...

  3. 机器学习开源项目精选TOP30

    本文共图文结合,建议阅读5分钟. 本文为大家带来了30个广受好评的机器学习开源项目. 640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1 最近,Mybridge发布了 ...

  4. 百度DMLC分布式深度机器学习开源项目(简称“深盟”)上线了如xgboost(速度快效果好的Boosting模型)、CXXNET(极致的C++深度学习库)、Minerva(高效灵活的并行深度学习引擎)以及Parameter Server(一小时训练600T数据)等产品,在语音识别、OCR识别、人脸识别以及计算效率提升上发布了多个成熟产品。

    百度为何开源深度机器学习平台?   有一系列领先优势的百度却选择开源其深度机器学习平台,为何交底自己的核心技术?深思之下,却是在面对业界无奈时的远见之举.   5月20日,百度在github上开源了其 ...

  5. 深入浅出Hadoop Mahout数据挖掘实战(算法分析、项目实战、中文分词技术)

    Mahout简介 Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目, 提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建 ...

  6. 自然语言处理高手_相关资源_开源项目(比如:分词,word2vec等)

    (1) 中科院自动化所的博士,用神经网络做自然语言处理:http://licstar.net (2) 分词项目:https://github.com/fxsjy/jieba(3) 清华大学搞的中文分词 ...

  7. 机器学习:项目流程及方法(以 kaggle 实例解释)

    一.项目目录 (一)数据加载 基础统计 特征分类 基本分布(scatter) (二)数据分析 正态性检验 偏离度分析 (hist | scatter) 峰度分析 (hist | scatter) 分散 ...

  8. 盘点当下大热的7大Github机器学习创新项目

    哪个平台有最新的机器学习发展现状和最先进的代码?没错——Github!本文将会分享近期发布的七大GitHub机器学习项目.这些项目广泛覆盖了机器学习的各个领域,包括自然语言处理(NLP).计算机视觉. ...

  9. GitHub排名TOP30的机器学习开源项目/贪心学院

    对于机器学习者来说,阅读开源代码并基于代码构建自己的项目,是一个非常有效的学习方法.看看以下这些Github上平均star为3558的开源项目,你错了哪些? 1. FastText:快速文本表示和文本 ...

随机推荐

  1. 洛谷P1003 铺地毯 模拟

    这一题就是一个很普通的模拟,每次输入的时候存储四个角的值 把四个角的横纵坐标存储在一排.然后在倒序遍历一遍,查找的时候就看所要查找的坐标在不在这个范围内,如果找到了就标记一下再输出,如果没有找到就输出 ...

  2. 基于KNN的发票识别

    项目概况: 有一个PDF文件,里面的每页都是一张发票,把每页的发票单独存为一个PDF并用该发票的的发票号码进行文件的命名,发票号码需要OCR识别,即识别下图中红色方块的内容. 一:拆分PDF 现有一个 ...

  3. effective-java学习笔记---使用限定通配符来增加 API 的灵活性31

    在你的 API 中使用通配符类型,虽然棘手,但使得 API 更加灵活. 如果编写一个将被广泛使用的类库,正确使用通配符类型应该被认为是强制性的. 记住基本规则: producer-extends, c ...

  4. 命令行中运行Java字节码文件提示找不到或无法加载主类的问题

    测试类在命令行操作,编译通过,运行时,提示 错误: 找不到或无法加载主类 java类 package com.company.schoolExercise; public class test7_3_ ...

  5. Java实现自定义数组及其方法

    自定义数组 主要功能有增.删(根据索引,根据值).改.查扩容等功能 package array; public class CustomArray { private int[] array = nu ...

  6. 403 Invalid CORS request 跨域问题解决

    这里使用springMVC自带的CORS解决跨域问题 什么是跨域问题 1.请求地址与当前地址不相同 2.端口号不相同 技术有限端口号不同还未发现 3.二级域名不相同 出现这种问题如何解决有很多种方法, ...

  7. Docker容器入门-基本命令的使用

    目前容器技术使用相当广泛 不会或者没有使用过容器感觉都不像是个搞技术的 所以,我也就docker相关内容做一个整理 只有不断的学习,才能保持自己的竞争力 什么是容器? 容器是一种轻量级.可移植.自包含 ...

  8. c++ 重载、继承、多态

    一.重载 1.函数重载 在同一个作用域内,可以声明几个功能类似的同名函数,但是这些同名函数的形式参数(指参数的个数.类型或者顺序)必须不同.您不能仅通过返回类型的不同来重载函数. #include & ...

  9. mysql 5.7.18安装教程

    安装之前 确认是否已安装旧版mysql.如有,则卸载(注意需要的数据备份). /etc/init.d/mysqld stop yum remove mysql mysql-* rm -rf /var/ ...

  10. Luogu 1008 三连击

    题目背景 本题为提交答案题,您可以写程序或手算在本机上算出答案后,直接提交答案文本,也可提交答案生成程序. 题目描述 将1,2, \cdots ,91,2,⋯,9共99个数分成33组,分别组成33个三 ...