什么是标注？

在自然语言处理中有一个常见的任务，即标注。常见的有：1）词性标注（Part-Of-Speech Tagging），将句子中的每一个词标注词性，比如名词、动词等；2）实体标注（Name Entity Tagging），将句子中的特殊词标注，比如地址、日期、人物姓名等。

下图所看到的的是词性标注的案例，当输入一个句子时，计算机自己主动标注出每一个词的词性。

下图所看到的的是实体标注的案例，当输入一个句子时，计算机自己主动标注出特殊词的实体类别。

粗略看来。这并非一个简单问题。首先每一个词都可能有多个含义，不同情况表达不同含义。其次，一个词的含义或者词性也受到前后多个词的影响。

标注问题的数学表达

在找到解决方式之前，我们最好先用数学的语言来描写叙述一下这个问题。

当我们得到一个句子时，我们能够把它看做一个向量。令句子s有共计n个单词，第i个单词用xi来表示，显然s = x1, x2, ... xn。因此问题能够描写叙述成。对于每一个单词xi，我们须要分别给定一个标注yi，因而获得句子的标注y = y1, y2, ... yn。

综上所述，训练模型时我们期望对于不论什么一个句子s，我们须要得到全部可能出现的标注的概率p(y | s)，当中概率最大的y即是我们须要的结果。终于的表达式为tagging(s)= arg max(p(y|s))。

接下来。我们须要考虑怎样建立训练集并从中学习出上述的模型。首先，我须要获得一个已经标注好的语料库。语料库中有若干句子。每一个句子中的每一个词都已有标识。

因为语料库无法保存全部客观存在的句子。我们必须找到一种方法来预计p(y)与p(s | y)的取值，而当中一种很有名的方法就是隐马尔科夫模型。

隐马尔科夫模型

我们依旧回到上述问题，给定一个句子s = x1, x2, ... xn，我们给出一个标识组合y = y1, y2, ... yn，使得y = arg max(p(y)
* p(s | y)) = arg max(p(x1,
x2, ... , xn, y1, y2, ..., yn))。

依据上一章《语言模型》所提到的。我们依旧对每一个句子做一点优化：

1）添加一个開始符号”*“。我们定义全部句子都是以”*“開始。即X-1 = X0 = *；

2）添加一个结束符号”STOP“，我们定义全部句子都是以”STOP“结束。

同一时候，隐马尔科夫模型须要我们做一些额外的如果来简化模型：

1）yk仅仅与前几个元素相关，即标识的语义相关性仅仅影响前后几个元素；

2）单词xk与相应的yk不受其它单词的影响，即p(xi | yi)相互独立.

经过简化以后。我们以三阶隐马尔科夫模型为例，表达式为 p(y1, y2, … yn |

x1, x2, … xn) =
p(y1, y2, … yn) * p(x1, x2, … xn | y1, y2, … yn) = ∏q(yj | yj-2, yj-1) * ∏ e(xi | yi)。显然，简化后的模型，单个单词在语料库中出现的频率会远远高于句子总体出现的频率。

參数估算

1）首先将语料库中全部的单词分为频繁词与非频繁词（通过一个阈值来确定）；

2）频繁词的e(xi
| yi)将直接从语料库中统计得出。

3）非频繁词的通过预定的规则划分到多个群组中。通过统计群组的词频来确定e(xi
| yi)。

比如，常见的分组方法例如以下图所看到的。这样的方式对于日期、姓名、缩写等特殊词的效果非常好。

算法的复杂度

如果我们已经训练得到q(yj | yj-2, yj-1)与e(xi
| yi)，给定一个句子s = x1, x2, ... xn，我们应当怎样得到标注y
= y1, y2, ... yn。

方法1：
暴力方法。遍历全部可能出现的y1, y2, ... yn组合，计算概率并找出概率最大的值。显然，暴力方法的时间复杂度不会令人惬意。

方法2：动态规划，定义一个动态规划表达式m(k,
u, v)，k表示句子的第k位，u，v表示前k为组成的子句的最后两个单词的标识。因此。递归方程能够表述为m(k, u, v) = max(m(k-1, w, u) * q(v | w, u) * e( x | v))。关于动态规划方法，leetcode里有不少案例能够说明。

NLP | 自然语言处理 - 标注问题与隐马尔科夫模型（Tagging Problems, and Hidden Markov Models）的更多相关文章

机器学习中的隐马尔科夫模型（HMM）详解
机器学习中的隐马尔科夫模型(HMM)详解在之前介绍贝叶斯网络的博文中,我们已经讨论过概率图模型(PGM)的概念了.Russell等在文献[1]中指出:"在统计学中,图模型这个术语指包含贝叶 ...
自然语言处理(1)-HMM隐马尔科夫模型基础概念（一）
隐马尔科夫模型HMM 序言文本序列标注是自然语言处理中非常重要的一环,我先接触到的是CRF(条件随机场模型)用于解决相关问题,因此希望能够对CRF有一个全面的理解,但是由于在学习过程中发现一个算法像 ...
自然语言处理---用隐马尔科夫模型（HMM）实现词性标注---1998年1月份人民日报语料---learn---test---evaluation---Demo---java实现
先放上一张Demo的测试图测试的句子及每个分词的词性标注为: 目前/t 这/rzv 条/q 高速公路/n 之间/f 的/ude1 路段/n 已/d 紧急/a 封闭/v ./w 需要基础知识 HM ...
HMM隐马尔科夫模型
这是一个非常重要的模型,凡是学统计学.机器学习.数据挖掘的人都应该彻底搞懂. python包: hmmlearn 0.2.0 https://github.com/hmmlearn/hmmlearn ...
猪猪的机器学习笔记（十七）隐马尔科夫模型HMM
隐马尔科夫模型HMM 作者:樱花猪摘要: 本文为七月算法(julyedu.com)12月机器学习第十七次课在线笔记.隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来 ...
机器学习之隐马尔科夫模型HMM（六）
摘要隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔科夫过程.其难点是从可观察的参数中确定该过程的隐含参数,然后利用这些参数来作进一步 ...
隐马尔科夫模型（HMM）与词性标注问题
一.马尔科夫过程: 在已知目前状态(现在)的条件下,它未来的演变(将来)不依赖于它以往的演变 (过去 ).例如森林中动物头数的变化构成——马尔可夫过程.在现实世界中,有很多过程都是马尔可夫过程,如液体 ...
隐马尔科夫模型HMM
崔晓源翻译我们通常都习惯寻找一个事物在一段时间里的变化规律.在很多领域我们都希望找到这个规律,比如计算机中的指令顺序,句子中的词顺序和语音中的词顺序等等.一个最适用的例子就是天气的预测. 首先,本 ...
隐马尔科夫模型 HMM(Hidden Markov Model)
本科阶段学了三四遍的HMM,机器学习课,自然语言处理课,中文信息处理课:如今学研究生的自然语言处理,又碰见了这个老熟人: 虽多次碰到,但总觉得一知半解,对其了解不够全面,借着这次的机会,我想要直接搞定 ...

随机推荐

代码中函数、变量、常量 / bss段、data段、text段 /sct文件、.map文件的关系[实例分析arm代码（mdk）]
函数代码://demo.c #include<stdio.h> #include<stdlib.h> , global2 = , global3 = ; void functi ...
[转] 8张图学习javascript
学习的道路就是要不断的总结归纳,好记性不如烂笔头,so,下面将po出8张javascript相关的思维导图. 思维导图小tips:思维导图又叫心智图,是表达发射性思维的有效的图形思维工具 ,它简单却又 ...
2014 HDU多校弟五场J题【矩阵乘积】
题意很简单,就是两个大矩阵相乘,然后求乘积. 用 Strassen算法的话,当N的规模达到100左右就会StackOverFlow了况且输入的数据范围可达到800,如果变量还不用全局变量的话连内存 ...
github过程中收集
github过程中收集 <HelloGithub月刊>第三期 <HelloGithub>第三期兴趣是最好的老师,而<HelloGithub> 就是帮你找到兴趣 ...
Spring IOC(DI)之注入方式
一次被问到IOC的注入方式,当时脑袋一阵混乱,不知道噻.于是google了一下,发现众说纷纭,有说三种的,有说四种的.都滚犊子吧,还是看看官方文档吧. DI exists in two major v ...
神奇的矩阵 NOI模拟题
神奇的矩阵题目大意有一个矩阵\(A\),第一行是给出的,接下来第\(x\)行,第\(y\)个元素的值为数字\(A_{x-1,y}\)在\(\{A_{x-1,1},A_{x-1,2},A_{x-1, ...
Git学习笔记总结和注意事项
一.Git简单介绍 Git是眼下世界上最先进的分布式版本号控制系统.其特点简单来说就是:高端大气上档次! 二.Windows上Git安装最早Git是在Linux上开发的.非常长一段时间内.Git也仅 ...
Android学习笔记之View（二）
View加载的流程之测量:rootView调用measure()→onMeasure(): measure()是final方法,表明Android不想让开发者去修改measure的框架,开发者可以on ...
KeyValuePair用法（转）
转载自:http://blog.sina.com.cn/s/blog_9741eba801016w61.html C# KeyValuePair<TKey,TValue>的用法.结构体,定 ...
编译安装MongoDB C++ Driver （win8.1 vs2013）
在C++中调用mongodb的库函数需要安装mongodb的c++driver,需要自己编译,(自己搞了一天半 =_=''' ) 官网Build MongoDB From Source 说To bui ...

NLP | 自然语言处理 - 标注问题与隐马尔科夫模型（Tagging Problems, and Hidden Markov Models）