NLP（十二）指代消解

原文链接：http://www.one2know.cn/nlp12/

代词是用来代替重复出现的名词

例句：

1.Ravi is a boy. He often donates money to the poor.

先出现主语，后出现代词，所以流动的方向从左到右，这类句子叫回指(Anaphora)

2.He was already on his way to airport.Realized Ravi.

这种句子表达的方式的逆序的，这类句子叫预指(Cataphora)
代码

import nltk

from nltk.chunk import tree2conlltags

from nltk.corpus import names # 有 人名和性别 标签

import random

class AnaphoraExample:

    def __init__(self): # 不需要参数就能构造

        males = [(name,'male') for name in names.words('male.txt')]

        females = [(name,'female') for name in names.words('female.txt')]

        combined = males + females # 列表元素：人名和性别构成的元组

        random.shuffle(combined)

        # print(combined)

        training = [(self.feature(name),gender) for (name,gender) in combined]

        self._classifier = nltk.NaiveBayesClassifier.train(training) # 分类器

    def feature(self,word): # 单词最后一个字母当特征

        return {'last(1)' : word[-1]}

    def gender(self,word): # 返回单词放到分类器中得到的性别标签

        return self._classifier.classify(self.feature(word))

    def learnAnaphora(self):

        sentences = [

            "John is a man. He walks",

            "John and Mary are married. They have two kids",

            "In order for Ravi to be successful, he should follow John",

            "John met Mary in Barista. She asked him to order a Pizza",

        ]

        for sent in sentences:

            chunks = nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize(sent)),binary=False)

            # 实现分词，词性标注，组块(实体)抽取，返回组块树结果，赋给chunks

            stack = []

            print(sent)

            items = tree2conlltags(chunks) # 将一个句子展平成一个列表，并以IOB格式表示

            for item in items:

                if item[1] == 'NNP' and (item[2] == 'B-PERSON' or item[2] == '0'): # 人名

                    stack.append((item[0],self.gender(item[0]))) # 人名和性别的元组

                elif item[1] == 'CC': # 连词

                    stack.append(item[0])

                elif item[1] == 'PRP': # 人称代词

                    stack.append(item[0])

            print('\t{}'.format(stack))

if __name__ == "__main__":

    anaphora = AnaphoraExample()

    anaphora.learnAnaphora()

输出：

John is a man. He walks

	[('John', 'male'), 'He']

John and Mary are married. They have two kids

	[('John', 'male'), 'and', ('Mary', 'female'), 'They']

In order for Ravi to be successful, he should follow John

	[('Ravi', 'female'), 'he', ('John', 'male')]

John met Mary in Barista. She asked him to order a Pizza

	[('John', 'male'), ('Mary', 'female'), 'She', 'him']

NLP（十二）指代消解的更多相关文章

NLP（二十二）利用ALBERT实现文本二分类
在文章NLP(二十)利用BERT实现文本二分类中,笔者介绍了如何使用BERT来实现文本二分类功能,以判别是否属于出访类事件为例子.但是呢,利用BERT在做模型预测的时候存在预测时间较长的问题.因此 ...
NLP（二十五）实现ALBERT+Bi-LSTM+CRF模型
在文章NLP(二十四)利用ALBERT实现命名实体识别中,笔者介绍了ALBERT+Bi-LSTM模型在命名实体识别方面的应用. 在本文中,笔者将介绍如何实现ALBERT+Bi-LSTM+CRF ...
NLP（二十六）限定领域的三元组抽取的一次尝试
本文将会介绍笔者在2019语言与智能技术竞赛的三元组抽取比赛方面的一次尝试.由于该比赛早已结束,笔者当时也没有参加这个比赛,因此没有测评成绩,我们也只能拿到训练集和验证集.但是,这并不耽误我们在这 ...
NLP十大里程碑
NLP十大里程碑 2.1 里程碑一:1985复杂特征集复杂特征集(complex feature set)又叫做多重属性(multiple features)描写.语言学里,这种描写方法最早出现在语 ...
【转】基于VSM的命名实体识别、歧义消解和指代消解
原文地址:http://blog.csdn.net/eastmount/article/details/48566671 版权声明:本文为博主原创文章,转载请注明CSDN博客源地址!共同学习,一起进步 ...
Stanford CoreNLP 3.6.0 中文指代消解模块调用失败的解决方案
当前中文指代消解领域比较活跃的研究者是Chen和Vincent Ng,这两个人近两年在AAAI2014, 2015发了一些相关的文章,研究领域跨越零指代.代词指代.名词指代等,方法也不是很复杂,集中于 ...
NLP（二十一）人物关系抽取的一次实战
去年,笔者写过一篇文章利用关系抽取构建知识图谱的一次尝试,试图用现在的深度学习办法去做开放领域的关系抽取,但是遗憾的是,目前在开放领域的关系抽取,还没有成熟的解决方案和模型.当时的文章仅作为笔者的 ...
NLP（二十七）开放领域的三元组抽取的一次尝试
当我写下这篇文章的时候,我的内心是激动的,这是因为,自从去年6月份写了文章利用关系抽取构建知识图谱的一次尝试后,我就一直在试图寻找一种在开放领域能够进行三元组抽取的办法,也有很多读者问过我这方面 ...
前端开发中SEO的十二条总结
一. 合理使用title, description, keywords二. 合理使用h1 - h6, h1标签的权重很高, 注意使用频率三. 列表代码使用ul, 重要文字使用strong标签四. 图片 ...
CRL快速开发框架系列教程十二(MongoDB支持)
本系列目录 CRL快速开发框架系列教程一(Code First数据表不需再关心) CRL快速开发框架系列教程二(基于Lambda表达式查询) CRL快速开发框架系列教程三(更新数据) CRL快速开发框 ...

随机推荐

LVS + Keepalived + Nginx基于DR模式构建高可用方案
在大型网站中一般服务端会做集群,同时利用负载均衡器做负载均衡.这样有利于将大量的请求分散到各个服务器上,提升网站的响应速度.当然为了解决单点故障的问题,还会做热备份方案.这里演示利用LVS做负载均衡器 ...
host配置
host添加地址今天是我第一天入职,坐到工位的第一件事就是配置host,因为连接测试环境需要本地授权,所以要配置.这里简单记录下配置中遇到的问题和操作的步骤操作环境是win10,之前公司一直使用的 ...
自定义SWT控件七之自定义Shell（可伸缩窗口）
7.可伸缩窗口该自定义窗口可以通过鼠标随意更改窗口大小 package com.hikvision.encapsulate.view.control.shell; import org.eclips ...
Zabbix利用Windows性能监视器监控各项资源指标
zabbix自带的windows监控模板并没有监控windows cpu使用率的监控在cmd命令输入perfmon 打开后默认就一项CPU占用的监控,下面以添加硬盘空闲时间做示例 1:监控图形上面右 ...
异步编程CompletableFuture实现高并发系统优化之请求合并
先说场景: 根据Redis官网介绍,单机版Redis的读写性能是12万/秒,批量处理可以达到70万/秒.不管是缓存或者是数据库,都有批量处理的功能.当我们的系统达到瓶颈的时候,我们考虑充分的压榨缓存和 ...
【错误】【vscode】"'#' not expected here"
今天使用vscode发现完整的代码报错了,但依然可以运行
Powered by .NET Core 进展：用 docker-compose 验证高并发问题嫌疑犯 docker swarm
相关博文: [故障公告]发布 .NET Core 版博客站点引起大量 500 错误 [网站公告].NET Core 版博客站点第二次发布尝试暴风雨中的 online : .NET Core 版博客站 ...
把Python项目打包成exe文件
我们很多时候,写好的程序需要打包成.exe文件才可以发给客户,那么今天我就来谈一谈,如何将一个写好的Python程序打包成exe文件! 首先,我们我们使用到的工具是python 3.7 和 Pyins ...
PKI机制总结
PKI,全称是Public Key Infrastructure,可译为公钥基础设施.它是因特网中节点通信的安全保障机制,HTTPS中的‘S’就来源于PKI. 要去学习一个技术,首先要从它的源头考虑— ...
100天搞定机器学习|day39 Tensorflow Keras手写数字识别
提示:建议先看day36-38的内容 TensorFlow™ 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库.节点(Nodes)在图中表示数学操作,图中的线(edge ...

NLP（十二）指代消解

NLP（十二）指代消解的更多相关文章

随机推荐

热门专题