概述

对机器学习感兴趣的小伙伴，可以借助python，实现一个N-gram分词中的Unigram和Bigram分词器，来进行入门， github地址

此项目并将前向最大切词FMM和后向最大切词的结果作为Baseline，对比分析N-gram分词器在词语切分正确率、词义消歧和新词识别等方面的优势。

数据说明

本实验使用的语料是人民日报1998年中文标注的语料库，19484条。在处理过程中，按照训练集 : 测试集 = 9 : 1的比例进行随机划分。数据预处理包括：去词性、去文本行标识(19980101-01-001-001)、词典统计、标点统计等。

主要流程

文本预处理，分为：语料随机切分、去词性、统计词典等
使用前向FMM和后向BMM最大切分，对测试语料进行切分，统计准确率、召回率和F1值
统计训练语料词典概率，用Unigram模型对待切分文本采用递归的思想，进行最大概率切分，统计准确率、召回率和F1值
统计Bigram词典概率，用Bigram模型对文本进行切分方案概率计算，选取概率最大切分，统计准确率、召回率和F1值
对比分析不同切词方案对文本歧义和未登录词的处理效果。

算法描述

文本预处理

首先进行语料的随机切分，默认按照9 : 1的比例切分训练集合测试集。

"""语料的随机切分，默认按照9 : 1的比例切分训练集合测试集"""

def splitCorpus(train=0.9, fileName='199801.txt'):

train_file = open('train.txt', 'wb')

test_file = open('test.txt', 'wb')

with open(fileName, 'rb') as f:

  for line in f:

      if random() <= train:

          train_file.write(line)

      else:

          test_file.write(line)

train_file.close()

test_file.close()

print('successfully to split corpus by train = %f test = %f' %

    (train, 1 - train))

"""统计语料词典"""

def toWordSet(file_name='train.txt', is_save=False, save_file='wordSet.pkl'):

# 获取词典

word_dict = defaultdict(float)

with open(file_name, 'rb') as f:

    for line in f:

        content = line.decode('gbk').strip().split()

        # 去掉第一个词“19980101-01-001-001/m”

        for word in content[1:]:

            word_dict[word.split(u'/')[0]] += 1

if is_save:

    # 保存wordSet以复用

    joblib.dump(word_dict, save_file)

print("successfully get word dictionary!")

print("the total number of words is:{0}".format(len(word_dict.keys())))

return word_dict

FMM和BMM

前向最大切词，是以可变滑动窗口对文本进行顺序取词，若改词在词典中存在，则进行一次切分；否则，缩小窗口大小，继续取词与词典库进行搜索，知道窗口词长为1。后向切词原理相似，只不过是从后面开始进行窗口滑动。

def forwardMaxCut(ustring, word_set, word_max_len=5):

"""

前向最大切词

:param ustring: 待切词文本

:param word_set: 词典

:param word_max_len: 最大词长

:return: 词列表

"""

wordList = []

if not ustring:

return wordList

while ustring:

sentence_len = len(ustring)

if sentence_len < word_max_len:

    word_max_len = sentence_len

for i in range(word_max_len, 0, -1):

    if ustring[:i] in word_set or i == 1:

        wordList.append(ustring[:i])

        ustring = ustring[i:]

        break

    else:

        i -= 1

return wordList

运行结果：

前向分词结果：

successfully to split corpus by train = 0.900000 test = 0.100000

the total number of punction is:47

the total number of words is:53198

召回率为:0.9466013860392212

准确率为:0.9154134377927275

F值为:0.9307462195496794

后向分词结果：

successfully to split corpus by train = 0.900000 test = 0.100000

the total number of punction is:47

the total number of words is:53767

召回率为:0.950686195146746

准确率为:0.92130516483316

F值为:0.9357651113664159

由于每次运行，都会对语料进行随机切分，因此运行结果中的词典大小有出入。

Unigram分词

Unigram切词的计算公式如下：

基本思路： 首先统计出训练集词典中各个词的频率，用来表示公式中的wi；然后，对待切分文本的进行某种策略的切分，递归选择切分概率最大的子切分序列，最后回溯得到最大概率切分。
举个栗子：

例句S：我是北京大学的一名研究生

# S的切分可以拆成两步

P(S) = P(我)*P(是北京大学的一名研究生)

#同时后面的子句，继续可以拆成：

P(S) = P(我)*P(是北京大学的一名研究生) = P(我)*P(是)*p(北京大学的一名研究生)

#这里有个问题，我们是如何知道应该拆成“我”和“是”两个词，而不是“我是”一个词呢

#上面计算最大概率，是递归调用的，假设我们开始有两种切分

[我，是北京大学的一名研究生]

[我是，北京大学的一名研究生]

#计算组合概率

P1 = P(我)*P(是北京大学的一名研究生)

P2 = P(我是)*P(北京大学的一名研究生)

#我们会发现

P1 > P2

#对于后面的任何子句，我们都采用无脑切分，即设置最大词长，这里假设为3，可得到以下切分：

[我，是北京大学的一名研究生]

[我是，北京大学的一名研究生]

[我是北，京大学的一名研究生]

#然后分别递归计算

#为了满足性能的要求，避免重复计算，我们采用将间接计算的子序列的组合概率，都存储起来

#每次计算新的子序列时，先查看子序列的切分组合中，是否包含已经计算过的子子序列，包含，则直接复用

平滑，对于词典中搜索不到的词，需要做一定的平滑处理，常用的平滑方法原理见这里，本课程实验支持加1平滑、WItten-Bell平滑方法，默认采用的是Wittten-Bell平滑方法。以下为计算最大切分概率程序：

def maxP(self, sentence):

  '''

  计算最大切分方案

  :param sentence: 待切分句子

  :return:

  '''

  # 遍历所有切分组合中，找出最大概率切分

  if len(sentence) <= 1:

      return self.DICT.getPValue(self, sentence)

  # 判断切词方向：backward 或 forward

  sentence_split_words = [self.backwardSplitSentence(

      sentence), self.forwardSplitSentence(sentence)][self.split_way != 'back']

  # 记录最大概率值

  max_p_value = 0

  # 储存最大概率下的切分组合

  word_pairs = []

  # 组合概率值

  word_p = 0

  for pair in sentence_split_words:

      p1, p2 = 0, 0

      if pair[0] in self.value_dict:

          p1 = self.value_dict[pair[0]]

      else:

          p1 = self.maxP(pair[0])

      if pair[1] in self.value_dict:

          p2 = self.value_dict[pair[1]]

      else:

          p2 = self.maxP(pair[1])

      word_p = p1 * p2

      if max_p_value < word_p:

          max_p_value = word_p

          word_pairs = pair

  # 在词典中查询当前句对应的频率，不存在时，返回 1/N

  sentence_p_value = self.DICT.getPValue(self, sentence)

  # 不切分概率最大时，更新各值

  if sentence_p_value > max_p_value and self.DICT.inDict(self, sentence):

      self.value_dict[sentence] = sentence_p_value

      self.seg_dict[sentence] = sentence

      return sentence_p_value

  # 某种切分组合概率最大时，更新sentence对应概率，避免后续切分重复计算

  else:

      self.value_dict[sentence] = max_p_value

      self.seg_dict[sentence] = word_pairs

      return max_p_value

运行结果：

successfully to split corpus by train = 0.900000 test = 0.100000

the total number of words is:53705

the total number of punction is:47

召回率为:0.9614382160763091

准确率为:0.9319770859102912

F值为:0.9464784466054017

Bigram分词

Bigram切词的计算公式如下：
基本思路： 首先统计出训练集词典中各个Bigram的频率，如[我|是]、[我|来自]，用来表示公式中的[wi|wi-1]；然后，对待切分文本给出所有的切分方案，计算切分概率最大的切分序列。
举个栗子：

例句S: 这几块地面积还真不小。

#对S进行切分，获得所有切分方案

S1 = ['这', '几', '块', '地', '面', '积', '还', '真', '不', '小']

S2 = ['这', '几', '块', '地', '面', '积', '还', '真', '不小']

S3 = ['这', '几', '块', '地', '面积', '还', '真', '不', '小']

S4 = ['这', '几', '块', '地', '面积', '还', '真', '不小']

S5 = ['这', '几', '块', '地面', '积', '还', '真', '不小']

#利用Bigram公式，计算所有的方案的切分概率，为了避免出现float下溢出，采用log求和

P(S1) = -64.745

P(S2) = -63.894

P(S3) = -55.041

P(S4) = -54.190

P(S5) = -58.190

P(S4) > P(S3)>P(S5)>P(S2)>P(S1)

#不难发现，上述例句对于机器是一个歧义句，S4和S5两种切分都可以

#但是根据语境，S4是正确的

运行结果：

successfully to split corpus by train = 0.900000 test = 0.100000

the total number of words is:53260

The total number of bigram is : 403121.

successfully witten-Bell smoothing! smooth_value:1.3372788850370981e-05

the total number of punction is:47

召回率为:0.962036929819092

准确率为:0.9401303935308096

F值为:0.950957517059212

结果分析

对比指标

指标	FMM	BMM	Unigram	Bigram
准确率	91.54%	92.13%	93.20%	94.01%
召回率	94.66%	95.07%	96.14%	96.20%
F1值	93.07%	93.58%	94.64%	95.10%

根据上表可知：分词效果最好的是Bigram，最差的是FMM。因为FMM只考虑了前向顺序词是否在字典中出现，而Bigram除了考虑词典中是否包含此词，同时也考虑了邻接词对分词的选择的影响。在处理歧义上，Bigram具有较好的效果，能基本实现消除歧义，但是消除歧义的效果受文本训练大小的影响。在处理未登录词上，这里仅仅是对未登录词切分为单个字，因此在未登录词的处理上还要进一步的研究讨论。

机器学习新手项目之N-gram分词的更多相关文章

2016年GitHub排名前20的Python机器学习开源项目(转)
当今时代,开源是创新和技术快速发展的核心.本文来自 KDnuggets 的年度盘点,介绍了 2016 年排名前 20 的 Python 机器学习开源项目,在介绍的同时也会做一些有趣的分析以及谈一谈它们 ...
Python & 机器学习之项目实践
机器学习是一项经验技能,经验越多越好.在项目建立的过程中,实践是掌握机器学习的最佳手段.在实践过程中,通过实际操作加深对分类和回归问题的每一个步骤的理解,达到学习机器学习的目的. 预测模型项目模板不能 ...
机器学习开源项目精选TOP30
本文共图文结合,建议阅读5分钟. 本文为大家带来了30个广受好评的机器学习开源项目. 640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1 最近,Mybridge发布了 ...
百度DMLC分布式深度机器学习开源项目（简称“深盟”）上线了如xgboost（速度快效果好的Boosting模型）、CXXNET（极致的C++深度学习库）、Minerva（高效灵活的并行深度学习引擎）以及Parameter Server（一小时训练600T数据）等产品，在语音识别、OCR识别、人脸识别以及计算效率提升上发布了多个成熟产品。
百度为何开源深度机器学习平台? 有一系列领先优势的百度却选择开源其深度机器学习平台,为何交底自己的核心技术?深思之下,却是在面对业界无奈时的远见之举. 5月20日,百度在github上开源了其 ...
深入浅出Hadoop Mahout数据挖掘实战(算法分析、项目实战、中文分词技术)
Mahout简介 Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目, 提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建 ...
自然语言处理高手_相关资源_开源项目（比如：分词,word2vec等）
(1) 中科院自动化所的博士,用神经网络做自然语言处理:http://licstar.net (2) 分词项目:https://github.com/fxsjy/jieba(3) 清华大学搞的中文分词 ...
机器学习：项目流程及方法（以 kaggle 实例解释）
一.项目目录 (一)数据加载基础统计特征分类基本分布(scatter) (二)数据分析正态性检验偏离度分析 (hist | scatter) 峰度分析 (hist | scatter) 分散 ...
盘点当下大热的7大Github机器学习创新项目
哪个平台有最新的机器学习发展现状和最先进的代码?没错——Github!本文将会分享近期发布的七大GitHub机器学习项目.这些项目广泛覆盖了机器学习的各个领域,包括自然语言处理(NLP).计算机视觉. ...
GitHub排名TOP30的机器学习开源项目/贪心学院
对于机器学习者来说,阅读开源代码并基于代码构建自己的项目,是一个非常有效的学习方法.看看以下这些Github上平均star为3558的开源项目,你错了哪些? 1. FastText:快速文本表示和文本 ...

随机推荐

干货 | NLP算法岗大厂面试经验与路线图分享
最近有好多小伙伴要面经(还有个要买简历的是什么鬼),然鹅真的没有整理面经呀,真的木有时间(｡ ́︿ ̀｡).不过话说回来,面经有多大用呢?最起码对于NLP岗位的面试来说,作者发现根本不是面经中说的样子 ...
CodeForces - 1244D 树（一条链）的染色
题意:给一个无向的无环的树,需要用三种颜色将他染色,相邻的三个点不能有重复的颜色.给出每个点染成每种颜色的花费,求最小的染色花费,如果给的图不能按要求染色,输出-1. 思路:只有三种颜色,相邻三个点还 ...
Web Scraping（网页抓取）基本原理 - 白话篇
本文主要介绍 Web Scraping 的基本原理,基于Python语言,大白话,面向可爱的小白(^-^). 易混淆的名称: 很多时候,大家会把,在网上获取Data的代码,统称为"爬虫&qu ...
iOS mmap
一.常规文件操作常规文件操作(read/write)有那几个重要步骤: 进程发起读文件请求内核通过查找进程文件符表,定位到内核已打开文件集上的文件信息,从而找到此文件的 inode inode 在 ...
.net core系统跨平台部署手册
前言 .net core跨平台版本基于.net core 3.1 SDK开发,剥离原来的基于MS Office进行文档转换功能的模块,使用基于开源跨平台的LibreOffice进行文档转换的模块.以此 ...
HDU1398：Square Coins（DP水题）
Square Coins Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Tota ...
PTA | 1019 数字黑洞 (20分)
给定任一个各位数字不完全相同的 4 位正整数,如果我们先把 4 个数字按非递增排序,再按非递减排序,然后用第 1 个数字减第 2 个数字,将得到一个新的数字.一直重复这样做,我们很快会停在有" ...
Nginx知多少系列之(一)前言
目录 1.前言 2.安装 3.配置文件详解 4.工作原理 5.Linux下托管.NET Core项目 6.Linux下.NET Core项目负载均衡 7.Linux下.NET Core项目Nginx+ ...
.Net微服务实践（五）[服务发现]：Consul介绍和环境搭建
目录介绍服务发现健康检查.键值存储和数据中心架构 Consul模式环境安装 HTTP API 和Command CLI 示例API介绍最后在上篇.Net微服务实践(四)[网关]:Ocel ...
Go golang语言特性
一.垃圾回收 1.内存自动回收. 2.只需要创建,不需要释放二.天然并发: 1.语言层支持并发,对比python,少了GIL锁. 2.goroute,轻量级线程. 3.基于CSP模型实现三.cha ...

机器学习新手项目之N-gram分词

概述