自己也是一个初学者,主要是总结一下最近的学习,大佬见笑. 中文分词说到命名实体抽取,先要了解一下基于字标注的中文分词.比如一句话 "我爱北京天安门”. 分词的结果可以是 “我/爱/北京/天安门”. 那什么是基于字标注呢? “我/O 爱/O 北/B 京/E 天/B 安/M 门/E”. 就是这样,给每个字都进行一个标注.我们可以发现这句话中字的标注一共有四种.他们分别代表的意义如下. B | 词首M | 词中E | 词尾O | 单字 B表示一个词的开始,E表示一个词的结尾,M表示词中间的字.如果这个…
三个月之前 NLP 课程结课,我们做的是命名实体识别的实验.在MSRA的简体中文NER语料(我是从这里下载的,非官方出品,可能不是SIGHAN 2006 Bakeoff-3评测所使用的原版语料)上训练NER模型,识别人名.地名和组织机构名.尝试了两种模型:一种是手工定义特征模板后再用CRF++开源包训练CRF模型:另一种是最近两年学术界比较流行的 BiLSTM-CRF 模型. 小白一枚,简单介绍一下模型和实验结果,BiLSTM-CRF 模型的数据和代码在GitHub上. 命名实体识别(Named…
因为工作需要,调研了一下Stanford coreNLP的命名实体识别功能. Stanford CoreNLP是一个比较厉害的自然语言处理工具,很多模型都是基于深度学习方法训练得到的. 先附上其官网链接: https://stanfordnlp.github.io/CoreNLP/index.html https://nlp.stanford.edu/nlp/javadoc/javanlp/ https://github.com/stanfordnlp/CoreNLP 本文主要讲解如何在java…
BERT-BiLSMT-CRF-NERTensorflow solution of NER task Using BiLSTM-CRF model with Google BERT Fine-tuningGitHub: https://github.com/macanv/BERT-BiLSTM-CRF-NER本文目录机构: 自己训练模型说明结果使用自己的数据2019.1.31更新,支持pip install package现在可以使用下面的命令下载软件包了: pip install bert-b…
还记得之前介绍过的命名实体识别系列文章吗,可以从句子中提取出人名.地址.公司等实体字段,当时只是简单提到了BERT+CRF模型,BERT已经在上一篇文章中介绍过了,本文将对CRF做一个基本的介绍.本文尽可能不涉及复杂晦涩的数学公式,目的只是快速了解CRF的基本概念以及其在命名实体识别等自然语言处理领域的作用. 什么是CRF? CRF,全称 Conditional Random Fields,中文名:条件随机场.是给定一组输入序列的条件下,另一组输出序列的条件概率分布模型. 什么时候可以用CRF?…
follow: https://github.com/zjy-ucas/ChineseNER  这里边主要识别的实体如图所示,其实也就主要识别人名PER,机构ORG和地点LOC: B表示开始的字节,I表示中间的字节,E表示最后的字节,S表示该实体是单字节 例子:        实现架构: 1. 读取数据集,数据集共三个文件,训练集,交叉测试集和测试集,文件中每一行包含两个元素,字和标识.每一句话间由一个空格隔开                2. 处理数据集     1) 更新数据集中的标签,如…
准备工作,先准备 python 环境,下载 BERT 语言模型 Python 3.6 环境 需要安装kashgari Backend pypi version desc TensorFlow 2.x pip install 'kashgari>=2.0.0' coming soon TensorFlow 1.14+ pip install 'kashgari>=1.0.0,<2.0.0' current version Keras pip install 'kashgari<1.0…
CRF与NER简介   CRF,英文全称为conditional random field, 中文名为条件随机场,是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫(Markov)随机场.   较为简单的条件随机场是定义在线性链上的条件随机场,称为线性链条件随机场(linear chain conditional random field). 线性链条件随机场可以用于序列标注等问题,而本文需要解决的命名实体识别(NER)任务正好可通过序列标注方…
命名实体识别 1. 问题定义 广义的命名实体识别是指识别出待处理文本中三大类(实体类.时间类和数字类).七小类(人名.机构名.地名.日期.货币和百分比)命名实体.但实际应用中不只是识别上述所说的实体类,还包括其他自定义的实体,如角色.菜名等等. 2. 解决方式 命名实体识别其本质是一个序列标注问题,序列标注就是对给定文本中每一个字符打上标签.标签的格式可以分为BO,BIO和BIEO三种形式.对于数据集较少的情况,建议使用BO,如果有大量数据可以选用BIEO格式. 命名实体识别的解决方案有三种:基…
一.任务 Named Entity Recognition,简称NER.主要用于提取时间.地点.人物.组织机构名. 二.应用 知识图谱.情感分析.机器翻译.对话问答系统都有应用.比如,需要利用命名实体识别技术自动识别用户的查询,然后将查询中的实体链接到知识图谱对应的结点上,其识别的准确率将会直接影响到后续的一系列工作. 三.流程图 四.标注集 采用BMEWO标注体系进行标注 BME分别代表实体的首部.中部.尾部.W代表单独是一个实体,O代表非实体. 五.NER的难点 1)不同场景不同领域下差异较…