CRF++模板使用（转）

CRF++模板构建分为两类，一类是Unigram标注，一类是Bigram标注。

Unigram和Bigram模板分别生成CRF的状态特征函数 $s_{l}(y_{i},x,i)$ 和转移特征函数 $t_{k}(y_{i-1},y_{i},x,i)$ 。其中 $y_{i}$ 是标签， $x$ 是观测序列， $i$ 是当前节点位置。
Bigram 下面只需要加一个B就ok了，其它还是用Unigram模板生成特征。

主要介绍Unigram模板

Unigram

U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-2,0]/%x[-1,0]/%x[0,0]
U06:%x[-1,0]/%x[0,0]/%x[1,0]
U07:%x[0,0]/%x[1,0]/%x[2,0]
U08:%x[-1,0]/%x[0,0]
U09:%x[0,0]/%x[1,0]

特征模板格式：%x[row,col]。x可取U或B，对应两种类型。方括号里的编号用于标定特征来源，row表示相对当前位置的行，0即是当前行；col对应训练文件中的列。这里只使用第1列（编号0），即文字。

Unigram template:第一个字符是U，这是用于描述unigram feature的模板。每一行%x[#,#]生成一个CRFs中的点(state)函数: f(s, o), 其中s为t时刻的的标签(output)，o为t时刻的上下文.

这是CRF++例子中给出的模板，一共有９个模板，先看第一个模板，表示当前词和其前面的第二个词组成的特征，U02表示当前词。

CRF++遍历每一个位置时，会查看此位置前一个位置(-1,0)和前两个位置(-2,0)和后一个位置（1,0）和后两个位置（2,0），这是U00,U01,U02,U03,U04所规定的。至于后面几个特征函数，比如U05，它把前面的几个位置合起来看。

以‘小明今天穿了一件红色上衣’为例，符合CRF++处理格式的这句话应该变成如下形式：
小　Ｂ
明　Ｉ
今　Ｂ
天　Ｉ
穿　Ｓ
了　Ｓ
一　Ｂ
件　Ｉ
红　Ｂ
色　Ｉ
上　Ｂ
衣　Ｉ

假设我们有三个标记tag，Ｂ（表示一个词的开头那个字），Ｉ（表示一个词的结尾那个字），Ｓ（表示单个字的词）。

先看第一个模板Ｕ00:%x[-2,0],第一个模板产生的特征如下：
如果当前词是‘今’，那-2位置对应的字就是‘小’，
每个特征对应的字如下：

U00:%x[-2,0]=====>小
U01:%x[-1,0]=====>明
U02:%x[0,0]=====>今
U03:%x[1,0]=====>天
U04:%x[2,0]=====>穿
U05:%x[-2,0]/%x[-1,0]/%x[0,0]=====>小/明/今
U06:%x[-1,0]/%x[0,0]/%x[1,0]=====>明/今/天
U07:%x[0,0]/%x[1,0]/%x[2,0]=====>今/天/穿
U08:%x[-1,0]/%x[0,0]=====>明/今
U09:%x[0,0]/%x[1,0]=====>今/天

根据第一个模板U00:%x[-2,0]能得到的转移特征函数如下：
func1=if(output=B and feature=’U00:小‘ )　return 1 else return 0

func2=if(output=I and feature=’U00:小’) return 1 else return 0
func3=if(output=S and feature=’U00:小) return 1 else return 0

其中output=B 指的是当前词（字）的预测标记，也就是’今‘的预测标记，每个模板会把所有可能的标记输出都列一遍，然后通过训练确定每种标记的权重，合理的标记在训练样本中出现的次数多，对应的权重就高，不合理的标记在训练样本中出现的少，对应的权重就少。

得到三个特征函数之后当前这个字’今‘的特征函数利用第一个模板就全了。然后扫描下一个字‘天‘，以’天‘字作为当前字预测这个字的标记tag,同样会得到三个特征函数：
func4=if(output=B and feature=’U00:明’) return 1 else return 0
func5=if(output=I and feature=’U00:明’) return 1 else return 0
func6=if(output=S and feature=’U00:明’) return 1 else return 0

后面U01~U09都会按此方式继续扫描生成特征函数。

func = if(output = B，and feature = “U05:小/明/今”) return 1 else return 0
即当前位置输出标签为B，并且当前位置为今，前一个位置是明，前两个位置是小，则输出1。

不管以何种方式扫描或者生成模板，最终会生成N*T*M个特征函数，N代表分词中词的个数，T代表分词标注的tag标签（B,I,S等），M代表模板个数。

Bigram类型

与Unigram不同的是，Bigram类型模板生成的函数会多一个参数：上个节点的标签。

生成函数类似于：

func1 = if (prev_output = B and output = B and feature=B01:"北") return 1 else return 0
这样，每行模板则会生成 L*L*N 个特征函数。经过训练后，这些函数的权值反映了上一个节点的标签对当前节点的影响。

参考链接：https://www.cnblogs.com/pangxiaodong/archive/2011/11/21/2256264.html

CRF++模板使用（转）的更多相关文章

NLP之CRF应用篇（序列标注任务）
1.CRF++的详细解析完成的是学习和解码的过程:训练即为学习的过程,预测即为解码的过程. 模板的解析: 具体参考hanlp提供的: http://www.hankcs.com/nlp/the-cr ...
CRF++ 如何制定自己的特征模板
工具的简单介绍对该工具的安装及介绍我这里就不再赘述,请参考官方文档或者国内一些翻译后的中文版.也还比较清楚. 我只介绍一下crf++在命名实体识别中的一些用法,这些都建立在你了解crf++的一些最基 ...
CRF++使用小结
1. 简述最近要应用CRF模型,进行序列识别.选用了CRF++工具包,具体来说是在VS2008的C#环境下,使用CRF++的windows版本.本文总结一下了解到的和CRF++工具包相关的信息. 参 ...
条件随机场CRF简介
http://blog.csdn.net/xmdxcsj/article/details/48790317 Crf模型 1. 定义一阶(只考虑y前面的一个)线性条件随机场: 相比于最大熵模型的输 ...
CRF++中文分词使用指南
http://blog.csdn.net/marising/article/details/5769653 前段时间写了中文分词的一些记录里面提到了CRF的分词方法,近段时间又研究了一下,特把方法写下 ...
基于条件随机场（CRF）的命名实体识别
很久前做过一个命名实体识别的模块,现在有时间,记录一下. 一.要识别的对象人名.地名.机构名二.主要方法 1.使用CRF模型进行识别(识别对象都是最基础的序列,所以使用了好评率较高的序列识别算法C ...
CRF++使用小结（转）
1. 简述近期要应用CRF模型,进行序列识别.选用了CRF++工具包,详细来说是在VS2008的C#环境下,使用CRF++的windows版本号.本文总结一下了解到的和CRF++工具包相关的信息. ...
CRF技能词识别过程
最近在用CRF做未登录技能词识别,虽然艰难,但是感觉很爽,效率非常高. (1)数据准备: 选取30000行精语料作为训练数据.每一个br作为一条数据.使用已有的技能词典对数据进行无标注分词. (2)训 ...
长短时记忆网络LSTM和条件随机场crf
LSTM 原理 CRF 原理给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型.假设输出随机变量构成马尔科夫随机场(概率无向图模型)在标注问题应用中,简化成线性链条件随机场,对数线性判别 ...

随机推荐

Java List部分截取，获得指定长度子集合
subList方法用于获取列表中指定范围的子列表,该列表支持原列表所支持的所有可选操作.返回列表中指定范围的子列表. 语法 subList(int fromIndex, int toIndex) fr ...
主流的RPC框架有哪些
RPC是远程过程调用的简称,广泛应用在大规模分布式应用中,作用是有助于系统的垂直拆分,使系统更易拓展.Java中的RPC框架比较多,各有特色,广泛使用的有RMI.Hessian.Dubbo等.RPC还 ...
使用cookie保存用户登录信息
写入Cookie HttpCookie _cookie = new HttpCookie("User"); _cookie.Values.Add("UserName&qu ...
day 008 文件操作
08. 万恶之源-⽂文件操作本节主要内容:1. 初识⽂文件操作2. 只读(r, rb)3. 只写(w, wb)4. 追加(a, ab)5. r+读写6. w+写读7. a+写读(追加写读)8. 其他操 ...
并发时-修改Linux系统下的最大文件描述符限制
通常我们通过终端连接到linux系统后执行ulimit -n 命令可以看到本次登录的session其文件描述符的限制,如下: $ulimit -n1024 当然可以通过ulimit -SHn 1024 ...
C++之基础知识20170830
/*************************************************************************************************** ...
Linux之选取信息命令介绍与应用20170331
在介绍选取信息命令之前,说一下管道符“|”与tr命令,因为在使用多个命令一起的时候经常用到它. 一.利用Linux所提供的管道符“|”将两个命令隔开,管道符左边命令的输出就会作为管道符右边命令的输入. ...
[转]从头开始 GAN
1 前言 GAN的火爆想必大家都很清楚了,各种GAN像雨后春笋一样冒出来,大家也都可以名正言顺的说脏话了[微笑脸].虽然目前GAN的酷炫应用还集中在图像生成上,但是GAN也已经拓展到NLP,Robot ...
C++单例模式设计与实现
C++单例模式主要用途就是整个程序中只实例化一个对象,之后获取到的都是该对象本身进行处理问题. 单例模式一般都是在函数中采用局部静态变量完成的,因为局部的静态变量生命周期是随着程序的生命周期一起结束 ...
C++模板类注意事项
最近使用C++模板,虽然工作几年了,但是模板用的很少,确切的说自己实现的机会很小. 昨天写了一个代码maxheap.h 中实现了类模板的声明,我将实现写在maxheap.cpp中, 当在main.cp ...

CRF++模板使用（转）

CRF++模板使用（转）的更多相关文章

随机推荐

热门专题