NLP 基于kashgari和BERT实现中文命名实体识别（NER）

准备工作，先准备 python 环境，下载 BERT 语言模型

Python 3.6 环境

需要安装kashgari

Backend	pypi version desc
TensorFlow 2.x	pip install ‘kashgari>=2.0.0’ coming soon
TensorFlow 1.14+	pip install ‘kashgari>=1.0.0,<2.0.0’ current version
Keras	pip install ‘kashgari<1.0.0’ legacy version

BERT, Chinese 中文模型

我选择的是工大的BERT-wwm-ext模型

在此感谢上述作者

数据集准备

from kashgari.corpus import ChineseDailyNerCorpus

train_x, train_y = ChineseDailyNerCorpus.load_data('train')

valid_x, valid_y = ChineseDailyNerCorpus.load_data('validate')

test_x, test_y  = ChineseDailyNerCorpus.load_data('test')

print(f"train data count: {len(train_x)}")

print(f"validate data count: {len(valid_x)}")

print(f"test data count: {len(test_x)}")

train data count: 20864

validate data count: 2318

test data count: 4636

采用人民日报标注的数据集，格式为：

海 O

钓 O

比 O

赛 O

地 O

点 O

在 O

厦 B-LOC

门 I-LOC

与 O

金 B-LOC

门 I-LOC

之 O

间 O

的 O

海 O

域 O

。 O

创建 BERT embedding

import kashgari

from kashgari.embeddings import BERTEmbedding

bert_embed = BERTEmbedding('chinese_wwm_ext_L-12_H-768_A-12',

                           task=kashgari.LABELING,

                           sequence_length=100)

创建模型并训练

from kashgari.tasks.labeling import BiLSTM_CRF_Model

# 还可以选择 `CNN_LSTM_Model`, `BiLSTM_Model`, `BiGRU_Model` 或 `BiGRU_CRF_Model`

model = BiLSTM_CRF_Model(bert_embed)

model.fit(train_x,

          train_y,

          x_validate=valid_x,

          y_validate=valid_y,

          epochs=20,

          batch_size=512)

model.save('ner.h5')

模型评估

model.evaluate(test_x, test_y)

BERT + B-LSTM-CRF 模型效果最好。详细得分如下：

precision	recall	f1-score	support
LOC	0.9208	0.9324	0.9266
ORG	0.8728	0.8882	0.8804
PER	0.9622	0.9633	0.9627
avg / total	0.9169	0.9271	0.9220

模型使用

# -*- coding: utf-8 -*-

import kashgari

import re

loaded_model = kashgari.utils.load_model('per_ner.h5')

def cut_text(text, lenth):

    textArr = re.findall('.{' + str(lenth) + '}', text)

    textArr.append(text[(len(textArr) * lenth):])

    return textArr

def extract_labels(text, ners):

    ner_reg_list = []

    if ners:

        new_ners = []

        for ner in ners:

            new_ners += ner;

        for word, tag in zip([char for char in text], new_ners):

            if tag != 'O':

                ner_reg_list.append((word, tag))

    # 输出模型的NER识别结果

    labels = {}

    if ner_reg_list:

        for i, item in enumerate(ner_reg_list):

            if item[1].startswith('B'):

                label = ""

                end = i + 1

                while end <= len(ner_reg_list) - 1 and ner_reg_list[end][1].startswith('I'):

                    end += 1

                ner_type = item[1].split('-')[1]

                if ner_type not in labels.keys():

                    labels[ner_type] = []

                label += ''.join([item[0] for item in ner_reg_list[i:end]])

                labels[ner_type].append(label)    

    return labels

while True:

    text_input = input('sentence: ')

    texts = cut_text(text_input, 100)

    ners = loaded_model.predict([[char for char in text] for text in texts])

    print(ners)

    labels = extract_labels(text_input, ners)

    print(labels)

参考文献

Chinese-BERT-wwm：https://github.com/ymcui/Chinese-BERT-wwm

Kashgari：https://github.com/BrikerMan/Kashgari

NLP 基于kashgari和BERT实现中文命名实体识别（NER）的更多相关文章

基于 bi-LSTM和CRF的中文命名实体识别
follow: https://github.com/zjy-ucas/ChineseNER 这里边主要识别的实体如图所示,其实也就主要识别人名PER,机构ORG和地点LOC: B表示开始的字节,I ...
基于BERT预训练的中文命名实体识别TensorFlow实现
BERT-BiLSMT-CRF-NERTensorflow solution of NER task Using BiLSTM-CRF model with Google BERT Fine-tuni ...
DL4NLP —— 序列标注：BiLSTM-CRF模型做基于字的中文命名实体识别
三个月之前 NLP 课程结课,我们做的是命名实体识别的实验.在MSRA的简体中文NER语料(我是从这里下载的,非官方出品,可能不是SIGHAN 2006 Bakeoff-3评测所使用的原版语料)上训练 ...
NLP入门（八）使用CRF++实现命名实体识别(NER)
CRF与NER简介 CRF,英文全称为conditional random field, 中文名为条件随机场,是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机 ...
命名实体识别(NER)
一.任务 Named Entity Recognition,简称NER.主要用于提取时间.地点.人物.组织机构名. 二.应用知识图谱.情感分析.机器翻译.对话问答系统都有应用.比如,需要利用命名实体 ...
pytorch 文本情感分类和命名实体识别NER中LSTM输出的区别
文本情感分类: 文本情感分类采用LSTM的最后一层输出比如双层的LSTM,使用正向的最后一层和反向的最后一层进行拼接 def forward(self,input): ''' :param inpu ...
使用Standford coreNLP进行中文命名实体识别
因为工作需要,调研了一下Stanford coreNLP的命名实体识别功能. Stanford CoreNLP是一个比较厉害的自然语言处理工具,很多模型都是基于深度学习方法训练得到的. 先附上其官网链 ...
『深度应用』NLP命名实体识别(NER)开源实战教程
近几年来,基于神经网络的深度学习方法在计算机视觉.语音识别等领域取得了巨大成功,另外在自然语言处理领域也取得了不少进展.在NLP的关键性基础任务—命名实体识别(Named Entity Recogni ...
零基础入门--中文命名实体识别（BiLSTM+CRF模型，含代码）
自己也是一个初学者,主要是总结一下最近的学习,大佬见笑. 中文分词说到命名实体抽取,先要了解一下基于字标注的中文分词.比如一句话 "我爱北京天安门”. 分词的结果可以是 “我/爱/北京/天安 ...

随机推荐

cad二次开发中DBText对象的外框GeometricExtents有问题？
CAD2007版本 acDoc.Editor.WriteMessage( string.Format("[{0:F1},{1:F1},{2:F1}] - [{3:F1},{4:F1},{5: ...
Badge 标记
出现在按钮.图标旁的数字或状态标记. 基础用法展示新消息数量. 定义value属性,它接受Number或者String. <el-badge :value="12" cla ...
AXIS 1.4 自定义序列化/反序列化类
axis1.4的CalendarDeserializer 使用的时区是GMT,导致日期显示不准确 private static SimpleDateFormat zulu = new SimpleDa ...
七十六：flask.Restful之flask-Restful插件的基本使用
安装:flask 0.8以上.python2.6或者3.3以上:pip install flask-restful 使用方法:1.从flask_restful中导入Api,来创建对象 2.写一个视图函 ...
一步一步搭建：spark之Standalone模式+zookeeper之HA机制
理论参考:http://www.cnblogs.com/hseagle/p/3673147.html 基于3台主机搭建:以下仅是操作步骤,原理网上自查 :1. 增加ip和hostname的对应关系,跨 ...
DevOps - Scrum
1 - DevOps与敏捷开发在采用敏捷开发的情况下,所有成员都对服务和产品负责,理解彼此的业务,符合DevOps的组织和文化. 以商业需求为核心,在较短期间内确定开发方针,并持续进行改善,从而逐步 ...
vs code 设置保存自动格式化vue代码
配置 ESLint (需安装 Prettier - Code formatter 插件) command + shift + p 打开用户设置 // vscode默认启用了根据文件类型自动设置tab ...
pandas中.value_counts()用于统计数据集中的某一列
value_counts()是一种查看表格某列中有多少个不同值的快捷方法,并计算每个不同值有在该列中有多少重复值.value_counts()是Series拥有的方法,一般在DataFrame中使用时 ...
【DSP开发】C6678的中断控制器
分两层,一层是每个core内部的中断控制器,这个叫interrupt controller,简写intc:一层是整个芯片的,属于芯片级的,在每个core的外面,这个叫chip-level interr ...
出现错误lambda expressions are not supported at language level 7解决方法
AS工程出现题目中的错误.解决办法: 这两个选中为1.8. 然后AS会自动在app的build.gradle下面,android{}里面增加同时会修改app.iml文件中的如下部分,将Languag ...