自然语言处理--N-gram

考虑一个语音识别系统，假设用户说了这么一句话：“I have a gun”，因为发音的相似，该语音识别系统发现如下几句话都是可能的候选：1、I have a gun. 2、I have a gull. 3、I have a gub. 那么问题来了，到底哪一个是正确答案呢？

一般的解决方法是采用统计的方法。即比较上面的1、2和3这三句话哪一句在英语中出现的概率最高，哪句概率最高就把哪句返回给用户。那么如何计算一个句子出现的概率呢？说白了就是“数数”的方法。但是即使是“数数”也有很多种数法，其中，最简单的策略如下：

给定一个语料库，数出其中所有的长度为4的句子的个数，设为N，然后再看在这N个长度为4的句子中，“I have a gun”出现了多少次，不妨设为N₀，那么句子“I have a gun”的概率就是N₀/N。其它两个句子的概率也这么计算。

上述的这种数数方法，从逻辑上讲是完全OK的，但是因为自然语言的灵活多变性，以及语料库的规模总是有限的，对于一个稍长一点的句子，很可能语料库中根本就没有。比如说下面这个句子：“I am looking for a restaurant to eat breakfast”，直观上看，这句话在语料库中应该出现次数很多吧？但是如果把这句话输入到Google的搜索框中，点击搜索，你会发现返回的结果中根本就没有完全匹配上的。所以，我们需要提出更加有效的“数数”方法。

为了把事情说清楚，需要引入一些简单的数学符号。

1、word序列：w₁, w₂, w₃, … , w_n

2、链式规则：P(w₁, w₂, w₃, … , w_n)=P(w₁)P(w₂|w₁)P(w₃|w₁w₂)P(w₄|w₁w₂w₃)…P(w_n|w₁w₂…w_n-1)

好了，我们想要计算“I have a gun”的概率，也就是计算P(I,have,a,gun)，按照链式规则，则有：

P(I,have,a,gun)=P(I)P(have|I)P(a|I,have)P(gun|I,have,a)

但是事情并没有得到简化，例如要计算P(gun|I,have,a)，按照条件概率公式展开：

P(gun|I,have,a) = P(I,have,a,gun)/P(I,have,a)

发现了什么？为了计算P(gun|I,have,a)，我们需要先计算P(I,have,a,gun)和P(I,have,a)。哎？P(I,have,a,gun)不就是我们一开始想要计算的值吗？所以绕了一圈，我们又回到了原地？

好了，现在我们来整理一下思路。

对于一个句子，其可以表示为一个word序列：w₁, w₂, w₃, … , w_n。我们现在想要计算句子出现的概率，也就是计算P(w₁, w₂, w₃, … , w_n)。这个概率我们可以直接用数数的方法求解，但是效果并不好，所以我们利用链式规则，把计算P(w₁, w₂, w₃, … , w_n)转化为计算一系列的乘积：P(w₁)P(w₂|w₁)P(w₃|w₁w₂)P(w₄|w₁w₂w₃)…P(w_n|w₁w₂…w_n-1)。但是转化之后，问题并没有变得简单。怎么办？

N-gram这时候就派上用场了。

对于1-gram，其假设是P(w_n|w₁w₂…w_n-1)≈P(w_n|w_n-1)

对于2-gram，其假设是P(w_n|w₁w₂…w_n-1)≈P(w_n|w_n-1,w_n-2)

对于3-gram，其假设是P(w_n|w₁w₂…w_n-1)≈P(w_n|w_n-1,w_n-2,w_n-3)

依次类推。

所以：

在1-gram模型下：

P(w₁, w₂, w₃, … , w_n)=P(w₁)P(w₂|w₁)P(w₃|w₁w₂)P(w₄|w₁w₂w₃)…P(w_n|w₁w₂…w_n-1)

≈P(w₁)P(w₂|w₁)P(w₃|w₂)P(w₄|w₃)…P(w_n|w_n-1)

在2-gram模型下：

P(w₁, w₂, w₃, … , w_n)=P(w₁)P(w₂|w₁)P(w₃|w₁w₂)P(w₄|w₁w₂w₃)…P(w_n|w₁w₂…w_n-1)

≈P(w₁)P(w₂|w₁)P(w₃|w₁w₂)P(w₄|w₂w₃)…P(w_n|w_n-2w_n-1)

在3-gram模型下：

P(w₁, w₂, w₃, … , w_n)=P(w₁)P(w₂|w₁)P(w₃|w₁w₂)P(w₄|w₁w₂w₃)…P(w_n|w₁w₂…w_n-1)

≈P(w₁)P(w₂|w₁)P(w₃|w₁w₂)P(w₄|w₁w₂w₃)…P(w_n|w_n-3w_n-2w_n-1)

假设我们采用的是1-gram模型，那么：

P(I,have,a,gun)=P(I)P(have|I)P(a|have)P(gun|a).

然后，我们再用“数数”的方法求P(I)和其他的三个条件概率：

P(I)=语料库中I出现的次数 / 语料库中的总词数

P(have|I) = 语料库中I和have一起出现的次数 / 语料库中I出现的次数。

总结，本文只是对N-gram做了非常简单的介绍，目的在于简单易懂，但是不够严谨。感兴趣的同学可以进一步查阅相关的资料。在任何一本关于自然语言处理的书上都能够找到N-gram的内容。

自然语言处理--N-gram的更多相关文章

斯坦福大学自然语言处理第四课“语言模型（Language Modeling）”
http://52opencourse.com/111/斯坦福大学自然语言处理第四课-语言模型(language-modeling) 一.课程介绍斯坦福大学于2012年3月在Coursera启动了在 ...
达观数据CTO纪达麒:小标注数据量下自然语言处理实战经验
自然语言处理在文本信息抽取.自动审校.智能问答.情感分析等场景下都有非常多的实际应用需求,在人工智能领域里有极为广泛的应用场景.然而在实际工程应用中,最经常面临的挑战是我们往往很难有大量高质量的标注语 ...
【HanLP】HanLP中文自然语言处理工具实例演练
HanLP中文自然语言处理工具实例演练作者:白宁超 2016年11月25日13:45:13 摘要:HanLP是hankcs个人完成一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环 ...
Python自然语言处理工具小结
Python自然语言处理工具小结作者:白宁超 2016年11月21日21:45:26 目录 [Python NLP]干货!详述Python NLTK下如何使用stanford NLP工具包(1) [ ...
【NLP】基于自然语言处理角度谈谈CRF(二)
基于自然语言处理角度谈谈CRF 作者:白宁超 2016年8月2日21:25:35 [摘要]:条件随机场用于序列标注,数据分割等自然语言处理中,表现出很好的效果.在中文分词.中文人名识别和歧义消解等任务 ...
Atitit 自然语言处理原理与实现 attilax总结
Atitit 自然语言处理原理与实现 attilax总结 1.1. 中文分词原理与实现 111 1.2. 英文分析 1941 1.3. 第6章信息提取 2711 1.4. 第7章自动摘要 3041 ...
Atitit.自然语言处理--摘要算法---圣经章节旧约39卷概览bible overview v2 qa1.docx
Atitit.自然语言处理--摘要算法---圣经章节旧约39卷概览bible overview v2 qa1.docx 1. 摘要算法的大概流程2 2. 旧约圣经 (39卷)2 2.1. 与古兰经的对 ...
tn文本分析语言(四) 实现自然语言计算器
tn是desert和tan共同开发的一种用于匹配,转写和抽取文本的语言.解释器使用Python实现,代码不超过1000行. github地址:https://github.com/ferventdes ...
自然语言26_perplexity信息
http://www.ithao123.cn/content-296918.html 首页 > 技术 > 编程 > Python > Python 文本挖掘:简单的自然语言统计 ...
43、哈工大NLP自然语言处理，LTP4j的测试+还是测试
1.首先需要构建自然语言处理的LTP的框架 (1)需要下载LTP的源码包即c++程序(https://github.com/HIT-SCIR/ltp)下载完解压缩之后的文件为ltp-master (2 ...

随机推荐

OpenGL ES之GLFW窗口搭建
概述本章节主要总结如何使用GLFW来创建Opengl窗口.主要包括如下内容: OpenGl窗口创建介绍 GLFW Window版编译介绍 GLFW简单工程源码介绍 OpenGL窗口创建介绍能用于O ...
netty 原理
netty 实现 1. 各组件之间的关系每个ServerBootstrap与一个事件循环对象(一个线程)都会与一个Channel绑定,如NioServerSocketChannel 2. 如何绑定 ...
POJ3273 Monthly Expense 2017-05-11 18:02 30人阅读评论(0) 收藏
Monthly Expense Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 25959 Accepted: 10021 ...
自适应XAML布局经验总结（四）区域布局设计模式
本系列对实际项目中的XAML布局场景进行总结,给出了较优化的自适应布局解决方案,希望对大家有所帮助. 下面介绍区域布局设计模式. 7. 头尾模式页面有时分为顶部栏,中间内容和底部栏三部分.这时可以使 ...
VS2012 中不能安装ARCGIS 10.0 SDK的解决方法
问题描述在ARCGIS 安装SDK时就会出错原因是ARCGIS SDK 10.0只能在VS2010中安装,因为我本机是安的VS2012所以安装不成功. 解决方法一,在注册表中HKE ...
jenkins调用本地搭建sendmail邮件服务器发送邮件
应用jenkins发送邮件的邮件服务器 SMTP server 可以是本地的,也可以是远程,远程的就不多说了,在此说一下如何在jenkins本地服务器上搭建邮件服务器,并用jenkins发送邮件,详细 ...
数据导出之winform导出word（三）
本篇文章补充讲解上篇文章中word模板的制作. ① 新建一个word文档 ② 定位到要插入书签的位置 ③ 菜单栏 “插入” -> “书签”,输入书签名,点击“添加” 可以多处位置使用同样的书签名 ...
EF动态linq的两种方式
网上收集的资源我怕遗忘就在自己博客记录下,有些我忘记原文地址了请见谅这个链接的动态sql方式是 where("c=>c.id==id") https://weblogs ...
gridview获取选中行索引及当前行数据
gridview获取选中行索引及当前行数据一.非直接绑定数据:  <asp:TemplateField HeaderText="操作"&g ...
Day6 ,周期末考试试题
Python基础数据类型考试题考试时间:两个半小时满分100分(80分以上包含80分及格) 一,基础题. 1,简述变量命名规范(3分) 2,字节和位的关系 ...

自然语言处理--N-gram

自然语言处理--N-gram的更多相关文章

随机推荐

热门专题