本文来自于一次交流的的记录，{}内的为个人体会。

基本概念

实事知识：实体-关系-实体的三元组。比如，
知识图谱：大量实时知识组织在一起，可以构建成知识图谱。
关系抽取：由于文本中蕴含大量事实知识，需要从非结构化文本中自动地抽取出事实知识
完整的关系抽取抽取系统包括以下，其中，关系分类最核心
- 命名实体识别 (Named Entity Recongnition, NER)
- 实体链接 (Entity Linking)
- 关系分类 (Relation Classification)

关系抽取的任务难点

如何处理句子的结构信息
- 在复杂句，长难句的实体关系如何
如何更好的利用实体信息
- 实体的位置信息
- 实体的类型信息
如何更好地建立关系语义
- 对于隐晦的表达，如何抽取出真实关系

如何处理结构信息处理

引入dependecy parsing 信息，将pasing信息建模成feature 2004
基于最短依存路径的 (Xu Yan, et al. Classifying relations via long short tem memory netwworks along shortest dependency paths EMNLP 2015) 简化实体关系，抽取核心的关系
使用GCN建模依存关系：使用图网络，在最短依存路径基础上，对关系的关注更高效，更全面: Zhang Yuhao, et al. Graph convolution over pruned dependency tress imporoves relation extraction. arXiv:1809.10185(2018)

如何更好地利用实体信息

位置信息

position embendding: Zeng,Daojan, et al. Relation classfication via convolutional deep neural network.2014
进一步利用positional embendding指导attention: Zhang et al. Position-aware Attention and Supervised Data ...
BERT 等与训练模型，在fintue时引入位置信息：Soares et al. Matching the Blanks: Distributional Similarity for Relation Learning. 2019

类型信息

在feature-based方法中，将类型作为feature：在与训练模型出现以前，SOTA关系抽取模型(LSTM-ATT, GCN, AGGCN)在预处理时直接将实体替换成实体类型。 {相当于简化实体的复杂度}这类方法的鲁棒性不行，在实体名字改变之后，往往效果下降的很厉害。
预训练模型可以更好地建模实体信息
实体信息和上下文信息都很重要。实体的类型信息在关系抽取时的表现比实体本身更好{换句话说，过于关注实体信息本身，而减弱对类型、上下文信息的关注，会降低关系抽取效果}。：Peng, Hao, et al. Learning from context ofr names? an empirical study on neural realation extraction. EMNLP2020 —— 本文采用随机Mask实体，减少模型对实体信息的依赖。

如何更好地建立关系语义

已有大量的基于CNN ,RNN, transformers的工作

预训练语言模型建模关系语义的问题

预训练表示中包含复杂的语义，并非针对关系抽取设计
关系类别是人工定义的，很难隐式地学习

当前，大量的工作已经投入在了预训练模型上

面向关系表示的预训练 Soares, Livio Baldini, et al. Mathcing the blanks:Distributional Similarity for Relation Learning. 2019

同时，传统关系抽取任务已经的sota已经92%了。

传统关系抽取的局限性和当前关系抽取的方向

封闭世界假设：远程监督关系抽取，开放域关系抽取
大数据假设：少样本关系抽取
单句关系假设：文档级关系抽取

远程监督关系抽取

动机：

大规模人工标注很贵
通过远程监督(distant supervision) 得到大量标注数据

包级别的关系抽取

远程监督的标注存在大量噪音，因此解决远程监督监督的核心问题是如何降噪

于是假设：包含一堆实体的多个句子中，至少有一句表达该实体的关系，因此可以使用 multi-instance learning，即使用包级别的算法抽取关系

基于Multi-instance learning的降噪方法:

soft denoise methods
- PCNN+ATT Lin, Yankai, et al. Neural relation extraction with selective attention over instances. ACL2015
hard denoise methods

RL-based noise selection: Qin, Pengda. Robust distant supervision relation extraction via deep ...

该方案问题：由于使用包级别的关系抽取，无法获得句子级别的标签预测

句子级别的关系抽取

如何使用员监督数据实现句子级别关系抽取的挑战的核心问题是如何降噪：负例学习(Negative Trainning)

SENT:Sentence-level Distant Realation Extraction via Negative Training. ACL 2021

开放域关系抽取 (Open RE)

Openset(开集)

开放域关系抽取：不对关系类型做约束，旨在从开放域的无监督文本中自动发现新的关系

基于聚类的开放域关系发现:Wu Ruidong, et al. Open relation extraction : Relational knowledge transfer from supervised data to unsupervised data. EMNLP2019

使用Relation Siamese Network判断两个句子是否表达同一种关系
用作聚类算中的距离度量

少样本(Few-shot) 关系抽取

通过领域外经验和少量目标高效学习

基于原型网络的少样本关系抽取:

Snell Prototypical networks for few-shot learning. Advances in neural information processing system 30(2017)

Large Margin Prototypical Network for Few-shot Relation Classification with Fine-grained Features. CIKM 2019
Prompt-tuning：在低资源场景下如何更好地利用预训练网络，通过贴近预训练形式，能够减少预训练模型和下游人物的gap，通常更多地复用预训练模型的参数，这样对样本的数量依赖更小。
- 将下游任务重构为何预训练任务相似的形式
  
  Han, Xu et al. Ptr: Prompt tuning with rules for text classification. arXiv:2105.11259 2021

文档级关系抽取

传统关系抽取的假设：实体关系的表达局限在一个单句中，而实际情况下，很多信息也存在在更大的范围外，级文档级关系抽取

文档级关系抽取的挑战：

文档中存在大量的实体和关系
、
、

典型做法：

基于层级网络的文档级关系抽取，通过不同层级的网络实现token level-> sentence level -> document level的层次化特征抽取. Tang, et al. Hin: Hierarchical inference network for document-level relation extraction
基于图神经网络的文档级抽取，通过两层mention-实体图构建更好的表示. Double Graph Based Reasoning for Document-level Relation Extraction. EMNLP2020

个人体会

尽管是NLP 关系抽取的调研，但其实和图像模式识别的很多问题的是相似的。

比如，噪声问题、少样本问题，这些也都指向机器学习更普遍的问题，即样本与标签越来越成为模型瓶颈，也越来越受到研究者的关注。

一次关于关系抽取(RE)综述调研的交流心得的更多相关文章

学习笔记CB003:分块、标记、关系抽取、文法特征结构
分块,根据句子的词和词性,按照规则组织合分块,分块代表实体.常见实体,组织.人员.地点.日期.时间.名词短语分块(NP-chunking),通过词性标记.规则识别,通过机器学习方法识别.介词短语(PP ...
NLP（二十一）人物关系抽取的一次实战
去年,笔者写过一篇文章利用关系抽取构建知识图谱的一次尝试,试图用现在的深度学习办法去做开放领域的关系抽取,但是遗憾的是,目前在开放领域的关系抽取,还没有成熟的解决方案和模型.当时的文章仅作为笔者的 ...
【关系抽取-R-BERT】定义训练和验证循环
[关系抽取-R-BERT]加载数据集 [关系抽取-R-BERT]模型结构 [关系抽取-R-BERT]定义训练和验证循环相关代码 import logging import os import num ...
人工智能论文解读精选 | PRGC：一种新的联合关系抽取模型
NLP论文解读原创•作者 | 小欣论文标题:PRGC: Potential Relation and Global Correspondence Based Joint Relational ...
【关系抽取-R-BERT】加载数据集
认识数据集 Component-Whole(e2,e1) The system as described above has its greatest application in an arraye ...
【关系抽取-R-BERT】模型结构
模型的整体结构相关代码 import torch import torch.nn as nn from transformers import BertModel, BertPreTrainedMo ...
关系抽取--Relation Extraction: Perspective from Convolutional Neural Networks
一种使用CNN来提取特征的模型,通过CNN的filter的大小来获得不同的n-gram的信息,模型的结构如下所示: 输入输入使用word2vec的50维词向量,加上 position embeddi ...
中文电子病历命名实体识别（CNER）研究进展
中文电子病历命名实体识别(CNER)研究进展中文电子病历命名实体识别(Chinese Clinical Named Entity Recognition, Chinese-CNER)任务目标是从给定 ...
【调研与分析】标杆学习、知识管理和竞争情报的关系——From Team
注: 1)红色实线箭头表示可以直接使用:例如竞争情报业务输出产品之一的标杆文档可以直接作为公司标杆学习中外部标杆的资料: 2)蓝色虚线箭头表示转化后使用或者间接利用的关系:例如专题调研可以帮助建立内部 ...

随机推荐

Qt：QString
0.说明区别于QByteArray,QString串是Unicode串,每个元素都是QChar 16-bit UTF-16编码(Unicode) :而QByteArray是8-bit串. 0.1.初 ...
Mysql的用户管理与授权
Mysql用户管理本人使用的是Mysql8.0的版本,可能会有一些语句不兼容: 1.用户管理在Mysql中支持创建账户,并给账户分配权限:例如只拥有数据库A操作的权限.只拥有数据库B中某些表的权限 ...
JZ-047-求 1+2+3+...+n
标题求 1+2+3+...+n 求1+2+3+...+n,要求不能使用乘除法.for.while.if.else.switch.case等关键字及条件判断语句(A?B:C). 题目链接: 求 1+2 ...
SQL从零到迅速精通【实用函数（2）】
1.对查询结果进行排序查询stu_info表中所有学生信息,并按照成绩由高到底进行排序,输入语句如下. SELECT * FROM stu_info ORDER BY s_score DESC; ...
Mybatis 多对一和一对多学习总结04
1.Mybatis 组件的声明周期声明周期是组件的重要问题,Mybatis也常用语多线程环境,错误使用会造成多线程并发问题,为正确编写Mybatis应用程序,我们要掌握Mybatis组件的声明周 ...
4、mysql的存储引擎
存储引擎存储引擎是负责对表中的数据进行提取和写入工作的,我们可以为不同的表设置不同的存储引擎,也就是说不同的表可以有不同的物理存储结构,不同的提取和写入方式. 1.1 InnoDB 引擎:具备外键支 ...
social network 中Clustering Coefficient 相关笔记2
breath_first search 改变了原图的连接情况.
LGP2461题解
引用化学老师的一句话:什么矩阵,没有矩阵! 这种板子题怎么能用矩阵呢. \(O(k^2\log n)\) 能搞定何必需要 \(O(k^3\log n)\) 呢. 首先设 \(F_n(x)=x^n \b ...
6月16日 Django作业文件解压缩统计行数
作业要求: 前端页面注意: 自己写的: from django.shortcuts import render, HttpResponse import zipfile import re # Cre ...
远程调用NFS超时，服务卡死
远程调用NFS超时,服务卡死如何查看进程中使用了哪些文件句柄?

一次关于关系抽取(RE)综述调研的交流心得