BiLSTM：序列标注任务的标杆

YoungF 2024-09-02 20:05:22 原文

Bidirectional LSTM-CRF Models for Sequence Tagging. Zhiheng Huang. 2015

在2015年，本文第一个提出使用BiLSTM-CRF来做序列标注任务，BiLSTM-CRF模型的优势有三点：

efficiently use both past and future input features thanks to a bidirectional LSTM component.
use sentence level tag information thanks to a CRF layer.
robust and has less dependence on word embedding as compared to previous observations

尽管如此，BiLSTM-CRF的成绩只达到了接近SOTA的水准。

实验数据集

本文在三个数据集上做了测评，Penn TreeBank(PTB)词性标注数据集、CoNLL 2000组块分析(chunking)数据集、CoNLL 2003命名实体标注数据集。

其中，词性标注就是给每个词标上句法角色，比如名词、动词、形容词等等；组块分析是给每个词打上短语类型，比如B-NP表示名词短语的开头；命名实体识别则是给词打上人名、地名、组织名等类型。

数据集的规模如下所示：

特征

有三种，第一种是拼写特征，比如开头字母、大小写、词的构成；第二种是上下文特征，使用unigram特征和bi-grams特征；第三种是词嵌入。

这里面的上下文特征到底是什么样的，论文没有细讲，一笔带过了。。。

在特征连接上，使用了一个技巧：

就是把拼写和上下文特征和输出连接起来，不仅可以加速训练，还可以带来相似的标注准确率（有点残差连接的感觉）。

实验结果

实验的一些经验之谈：

模型性能和隐藏单元大小无关；
模型在10论内就可以收敛；
对于词性分析，报告词准确率；对于组块分析和命名实体识别，报告F1值；

下面是各个LSTM衍生模型的实验结果对比：

可以看到，在所有基于LSTM的模型中，BiLSTM-CRF表现最好。

接下来还有一些ablation study，只使用词嵌入特征，而不使用拼写特征和上下文特征的对比：

可以看出CRF非常依赖于人工特征；而基于LSTM的模型，BiLSTM和BiLSTM-CRF对此影响较小，具有一定的鲁棒性（词性标注和组块分析是比较小，但是NER上都四个百分点了，这还小吗？）。

再来看看和其他一些模型的对比：

可以看到BiLSTM-CRF不能说是最好，只能说接近SOTA。

BiLSTM：序列标注任务的标杆的更多相关文章

TensorFlow教程——Bi-LSTM+CRF进行序列标注（代码浅析）
https://blog.csdn.net/guolindonggld/article/details/79044574 Bi-LSTM 使用TensorFlow构建Bi-LSTM时经常是下面的代码: ...
TensorFlow (RNN)深度学习双向LSTM(BiLSTM)+CRF 实现 sequence labeling 序列标注问题源码下载
http://blog.csdn.net/scotfield_msn/article/details/60339415 在TensorFlow (RNN)深度学习下双向LSTM(BiLSTM)+CR ...
ALBERT+BiLSTM+CRF实现序列标注
一.模型框架图二.分层介绍 1)ALBERT层 albert是以单个汉字作为输入的(本次配置最大为128个,短句做padding),两边分别加上开始标识CLS和结束标识SEP,输出的是每个输入wor ...
Bi-LSTM+CRF在文本序列标注中的应用
传统 CRF 中的输入 X 向量一般是 word 的 one-hot 形式,前面提到这种形式的输入损失了很多词语的语义信息.有了词嵌入方法之后,词向量形式的词表征一般效果比 one-hot 表示的特征 ...
转：TensorFlow入门（六）双端 LSTM 实现序列标注（分词）
http://blog.csdn.net/Jerr__y/article/details/70471066 欢迎转载,但请务必注明原文出处及作者信息. @author: huangyongye @cr ...
BI-LSTM-CRF在序列标注中的应用
1. 前言在NLP中有几个经典的序列标注问题,词性标注(POS),chunking和命名实体识别(NER).序列标注器的输出可用于另外的应用程序.例如,可以利用在用户搜索查询上训练的命名实体识别器来 ...
序列标注（HMM/CRF）
目录简介隐马尔可夫模型(HMM) 条件随机场(CRF) 马尔可夫随机场条件随机场条件随机场的特征函数 CRF与HMM的对比维特比算法(Viterbi) 简介序列标注(Sequence Ta ...
序列标注（BiLSTM-CRF/Lattice LSTM）
前言在三大特征提取器中,我们已经接触了LSTM/CNN/Transormer三种特征提取器,这一节我们将介绍如何使用BiLSTM实现序列标注中的命名实体识别任务,以及Lattice-LSTM的模型原 ...
NLP之CRF应用篇（序列标注任务）
1.CRF++的详细解析完成的是学习和解码的过程:训练即为学习的过程,预测即为解码的过程. 模板的解析: 具体参考hanlp提供的: http://www.hankcs.com/nlp/the-cr ...

随机推荐

HDOJ 1051. Wooden Sticks
题目 There is a pile of n wooden sticks. The length and weight of each stick are known in advance. The ...
Android Studio采坑记录
折腾了几个月的Android Studio,终于在今天被我搞定了 (￣▽￣)~* 开贴记录下,免得下次再次采坑先说下我之前电脑的环境配置吧,sdk是几年前在网上下载别人整理出来的包,一直没有更新过 ...
Git报错问题集锦
git merge合并时遇上refusing to merge unrelated histories的解决方案如果git merge合并的时候出现refusing to merge unrelat ...
ContiPerf
概述 ContiPerf 是一个轻量级的单元测试工具,基于JUnit 4二次开发,使用它基于注解的方式,快速在本地进行单元压测并提供详细的报告. Example 1. 新建 SpringBoot 工程 ...
性能测试必备知识（6）- 如何查看“CPU 上下文切换”
做性能测试的必备知识系列,可以看下面链接的文章哦 https://www.cnblogs.com/poloyy/category/1806772.html 课前准备,安装 sysbench 下载 sy ...
APP自动化 -- 获取driver
一.appium设置 1.打开appium 2.设置 appium服务器:点击高级设置 3.启动 appium 服务器二.查看 .apk 安装包的“包名”和“活动入口名” 1.先复制本地 ...
CSS3选择器用法小结
1.*通配符选择器 eg:*{margin:0;padding:0;} 2.#id选择符 ID选择器是CSS中效率最高的选择器,使用的时候要保证ID的唯一性 eg:#div{width:960px;m ...
ubuntu的docker安装
安装docker 安装介绍一下docker 的中央仓库们 Docker官方中央仓库: https://hub.docker.com/ 因为docker 网站在国外所以访问速度和你的运气有关还有网络. ...
flask的第一次尝试
from flask import Flask app = Flask(__name__) @app.route('/') def hello_world(): return "Hello ...
Django学习路22_empty为空,forloop.counter 从1计数,.counter0 从0计数 .revcounter最后末尾数字是1,.revcounter0 倒序,末尾为 0
当查找的数据不存在,返回为空时在 html 中使用 {%empty%} 语句进行显示 def getstudents(request): students = Student.objects.a ...