原文

代码

摘要

为了解决传统的关系抽取(RE)方法只能识别两个实体之间的关系,而忽略了同一上下文中多个关系之间的相互依赖性,即关系的关系(relation of relations,RoR)的问题,本文提出了一种新的RE范式,它将所有关系的预测作为一个整体进行优化。本文设计了一种数据驱动的方法,利用图神经网络和关系矩阵Transformer自动学习RoR,无需人工规则。在两个公开的数据集ACE05和SemEval 2018任务7.2上,本文的模型分别比最先进的方法提高了+1.12%和+2.55%,达到了显著的改进效果。

1 Introduction

概述:
图1中的句子涉及到七个实体。在广泛使用的ACE 05数据集(Walker et al., 2006)中,有99.76%的数据实例涉及到两个以上的实体,而且每个文本中平均存在9.21个关系。
 
传统方法:
采用了一种简化的设置,即只对每两个实体之间的关系进行分类(Zeng et al., 2014; Luan et al., 2018; Li and Ji, 2014; Gormley et al., 2015; Miwa and Bansal, 2016)。这意味着对于图1中有7个实体的句子,大多数以前的方法需要执行49个独立的关系分类任务(如果考虑自反关系)。由于现有的方法需要对输入的实体进行显式标注,因此无法减少这个数量的分类任务。例如,要预测实体对(obstetricians, California)之间的关系,输入需要转换为“...<e1> obstetricians <\e1> in <e2> California <\e2> will pay $60,000 in Los Angeles ...”。
 
传统方法的问题:
它不仅效率低下,而且忽略了同一上下文中多个关系之间的相互依赖性。例如,在图1中的49个关系中,如果已经知道了关系(Miami, is part of, south Florida),其中“is part of”是定义在两个对象上的关系,那么Miami就不太可能与其他任何人际关系有关,比如“is the father of...”。
 
RoR:
在ACE 05数据集中,每个文本中平均存在9.21个关系,这意味着每个关系都可能对同一文本中的其他关系有影响。将同一文本中多个关系之间的频繁出现的相互依赖性称为“关系的关系”(RoR)。
 
为了捕捉RoR,本文提出了一种新的关系抽取(RE)范式,它将同一文本中所有关系的预测作为一个整体来处理。本文的工作与(Wang et al., 2019)不同,后者仍然将每个实体对的关系视为独立的分类任务,但以牺牲准确性为代价节省了计算能力,通过一次编码所有实体。相反,本文新提出的范式不是关于计算成本和准确性之间的权衡,而是通过捕捉RoR来提高性能。

2 New formulation of RE

传统的任务定义:
把每个文本序列和其中的两个实体之间的关系作为一个独立的分类问题来处理的。即:
给定一个文本序列,以及 中的两个实体提及 ,还有一个预定义的关系类型集合 ,任务是预测  和  之间属于哪种关系类型。这样的 RE 问题可以归结为一个经典的句子分类任务
 
本文的任务定义:
给定一个文本序列 ,以及 中的所有实体提及 ,模型需要预测 中任意两个实体  之间的关系 ,其中 。本文使用一个矩阵  来表示  中所有可能的关系,如图 2 所示。

3 Statistical analysis of RoR

本文的案例研究基于 ACE05 数据集 (Walker et al., 2006)。下面将介绍两种 RoR 的形式:
  1. biRoR,只考虑两个关系之间的相互作用。
  2. multiRoR,考虑三个或更多关系之间的复杂关联。

3.1 Data overview

ACE05 (Walker et al., 2006) 是最广泛使用的关系抽取数据集。它的文本来自多种来源,包括新闻节目、报纸、新闻报道和音频转录。它有 6 种关系类型,如表 1 所示。对于这些关系,有 7 种有效的实体类型:设施 (FAC)、地缘政治实体 (GPE)、位置 (LOC)、组织 (ORG)、人 (PER)、车辆 (VEH)、武器 (WEA)。

3.2 BiRoR: Interdependency of two relations

3.2.1 Entity type-constrained biRoR(受实体类型约束)

给定两个实体和它们之间的关系类型,可以判断  是否不可能与另一种关系类型  同时出现。为了说明这种方法,用 ACE05 数据集中的七种实体类型举例。表 1 显示了不同的关系类型允许的实体类型参数。根据这些信息,可以得出 12 条不兼容的规则。比如,同一个实体不能同时是 Per-Soc 的 arg0 和 Part-Whole 的 arg0,因为 Per-Soc 的 arg0 必须是人 (PER),而 Part-Whole 不能包含 PER。所有的不兼容规则都列在附录 A.1 中。

3.2.2 Semantic-constrained biRoR(受语义约束)

一个关系的含义可以决定它是否能够与另一个关系共存或者必须与另一个关系互斥。例如,Art 关系可以表示一个人(arg0)拥有一个设施(arg1),其中 arg1 必须是一个设施。如果已经存在这样的关系,那么同一个设施就不能再与一个城市构成 Part-Whole 关系,因为从语义上讲,城市(比如波士顿)不可能是一个设施的一部分。这种不兼容性不是由实体类型强制规定的,而是由关系的语义所暗示的。
 
语义也可以暗示一个关系是否应该具有对称性。例如,Per-Soc 关系总是对称的,因为家庭和朋友是可以互换的关系,而 Org-Aff 关系总是非对称的(Walker et al., 2005)。因此,如果一个关系 ,那么 也等于 。而如果 ,那么

3.2.3 Empirical biRoR

本文对图 3 中的每对关系进行了相关性分析。从图中可以看出,3.2.1 节提出的不兼容性规则在红色的负相关区域得到了验证,3.2.2 节描述的 Per-Soc 和 Phys 的对称性在深蓝色的高相关区域得到了体现。此外,图中还显示了一些其他的相关性,例如 Part-Whole 和 Phys 关系经常同时出现。

3.3 MultiRoR: Correlation of 3+ relations

3.3.1 Entity type-constrained multiRoR

biRoR 是一种只涉及两个关系的规则,但还有一些更复杂的规则,它们可以作用于多个关系,称之为 multiRoR。multiRoR 是一种基于实体类型的规则,它把 3.2.1 节中介绍的两个关系的不兼容性推广到 3 个或更多的关系。举个例子,如果一个实体同时是 Org-Aff 和 Phys 关系的 arg1,那么根据实体类型的约束,它就不能再是 Art 关系的 arg1(因为它必须是 GPE)。图 4 显示了,当一个实体的关系数量增加时,所有可能的多个关系组合中,无效的组合所占的比例也会迅速上升,当有 7 个关系时,甚至高达 83%。

3.3.2 Numerically correlated multiRoR

从数据集中的所有关系矩阵 R 中,可以发现不同类别的关系之间存在数值相关性。这种相关性不是针对两个具体的关系,而是针对两类关系的总数,因此属于 multiRoR 的范畴(每一类关系都可能有多次出现)。图 5 中的相关性图显示了,Per-Soc 和 Gen-Aff 两类关系的总数呈现出明显的正相关,而 Art 和 Org-Aff 两类关系的总数则呈现出负相关。

4 Method

手工制定各种类型的RoR规则是一种简单的方法,但是它不适用于具有不同特征的数据集,也无法识别一些难以人工发现的RoR。因此,本文的目标是设计一个不依赖于手工规则的RoR学习模型。 训练策略如图6所示。接下来,将详细介绍三个关键的模型组件:
  1. 实体和关系的初始嵌入。
  2. 基于GNN的biRoR学习器。
  3. 学习multiRoR的矩阵变换器。

4.1 Initialization of entities and relations

在准备阶段,首先为每个实体生成嵌入。利用预训练的BERT模型(Devlin et al., 2019)处理文本,并通过对BERT最后一层的每个词的隐藏状态取平均,得到每个实体的表示。本文的框架可以灵活地采用其他获取预训练嵌入的方法,例如(Yang et al., 2019; Liu et al., 2019)。接着,将两个相关实体的嵌入拼接起来,并通过一个前馈层,得到每个关系的初始嵌入

4.2 BiRoR Learner

本文的目标是利用图神经网络(GNN)来学习文本序列中不同关系之间的相互作用,实现双向关系推理(biRoR)。给定一个包含个实体的文本序列,将其表示为一个图,其中是由所有的实体和关系组成的节点集合,是由每个关系节点和其对应的两个实体节点组成的边集合。
采用图神经网络来捕捉节点之间的信息传递,特别是在关系节点之间。图神经网络的第一层以第4.1节中得到的节点嵌入(包括实体嵌入和关系嵌入)为输入。在第层,图神经网络通过从邻居节点收集隐藏状态来更新当前层的节点表示,进而得到第层的节点表示。具体地,有
其中表示第层中第个节点的隐藏状态,表示一个前馈网络,表示一个权重矩阵,表示节点的邻居节点集合,表示节点对节点的注意力权重。这个注意力权重由下式计算:
其中分别表示计算注意力时的键和查询权重矩阵。

4.3 MultiRoR Learner

图神经网络(GNN)具有强大的建模节点间交互的能力,这与双向关系推理(biRoR)相对应,但它在捕捉更复杂的多重关系推理(multiRoR)方面并不那么强大。例如,如果一个实体同时具有Org-Aff和Phys两种关系,那么它就不能具有Art关系。但是GNN结构并不一定能够捕捉涉及嵌套条件的这种复杂的multiRoR。因此,需要另一个模块来对关系矩阵进行建模,它考虑了所有关系之间的动态,以便捕捉multiRoR。本文提出了一个简单而有效的模块,即关系矩阵Transformer。由于关系矩阵中的每个关系都需要关注所有其他关系,本文定制了基于Transformer的编码器架构来构建关系矩阵Transformer,它允许所有元素之间进行广泛的相互注意力(Vaswani et al., 2017)。将Transformer中的位置编码定制为两部分:行编码和列编码,每一部分都是一个从位置索引到维向量空间的可学习映射。关系矩阵Transformer将位置编码,即行和列嵌入的和,加到4.1节中得到的关系的初始表示上。接着,关系矩阵Transformer学习所有关系之间的动态,并通过一个变换后的矩阵输出所有关系的新特征,从而捕捉multiRoR。最后,将GNN和关系矩阵Transformer学习到的关系嵌入相加,然后将它们输入到最终的分类层,以获得每个关系的类型。
 

《Relation of the Relations A New Paradigm of the Relation Extraction Problem》论文阅读笔记的更多相关文章

  1. 《MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment》论文阅读笔记

    出处:2018 AAAI SourceCode:https://github.com/salu133445/musegan abstract: (写得不错 值得借鉴)重点阐述了生成音乐和生成图片,视频 ...

  2. (转)Introductory guide to Generative Adversarial Networks (GANs) and their promise!

    Introductory guide to Generative Adversarial Networks (GANs) and their promise! Introduction Neural ...

  3. 生成对抗网络(Generative Adversarial Networks,GAN)初探

    1. 从纳什均衡(Nash equilibrium)说起 我们先来看看纳什均衡的经济学定义: 所谓纳什均衡,指的是参与人的这样一种策略组合,在该策略组合上,任何参与人单独改变策略都不会得到好处.换句话 ...

  4. 生成对抗网络(Generative Adversarial Networks, GAN)

      生成对抗网络(Generative Adversarial Networks, GAN)是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的学习方法之一.   GAN 主要包括了两个部分,即 ...

  5. StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 论文笔记

    StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks  本文将利 ...

  6. 论文笔记之:Semi-Supervised Learning with Generative Adversarial Networks

    Semi-Supervised Learning with Generative Adversarial Networks 引言:本文将产生式对抗网络(GAN)拓展到半监督学习,通过强制判别器来输出类 ...

  7. 《Self-Attention Generative Adversarial Networks》里的注意力计算

    前天看了 criss-cross 里的注意力模型  仔细理解了  在: https://www.cnblogs.com/yjphhw/p/10750797.html 今天又看了一个注意力模型 < ...

  8. Paper Reading: Perceptual Generative Adversarial Networks for Small Object Detection

    Perceptual Generative Adversarial Networks for Small Object Detection 2017-07-11  19:47:46   CVPR 20 ...

  9. SalGAN: Visual saliency prediction with generative adversarial networks

    SalGAN: Visual saliency prediction with generative adversarial networks 2017-03-17 摘要:本文引入了对抗网络的对抗训练 ...

  10. Generative Adversarial Networks,gan论文的畅想

    前天看完Generative Adversarial Networks的论文,不知道有什么用处,总想着机器生成的数据会有机器的局限性,所以百度看了一些别人 的看法和观点,可能我是机器学习小白吧,看完之 ...

随机推荐

  1. Go 匿名函数与闭包

    Go 匿名函数与闭包 匿名函数和闭包是一些编程语言中的重要概念,它们在Go语言中也有重要的应用.让我们来详细介绍这两个概念,并提供示例代码来帮助理解. 目录 Go 匿名函数与闭包 一.匿名函数(Ano ...

  2. 升级到win11 22h2的体验

    win11 22h2更稳定了 在win11 22h2发布后没多久,我就升级到了这个版本,截止目前已经使用半个月了,谈谈我的使用感受. 总体要比之前的版本更稳定,表现为笔记本风扇不会突然响,突然卡顿,不 ...

  3. 深入浅出Java多线程(一):进程与线程

    引言 大家好,我是你们的老伙计秀才. 在计算机系统的发展历程中,早期的计算机操作模式十分单一和低效.用户只能逐条输入指令,而计算机则按照接收指令的顺序逐一执行,一旦用户停止输入或进行思考,计算机会处于 ...

  4. Python 实现SynFlood洪水攻击

    Syn-Flood攻击属于TCP攻击,Flood类攻击中最常见,危害最大的是Syn-Flood攻击,也是历史最悠久的攻击之一,该攻击属于半开放攻击,攻击实现原理就是通过发送大量半连接状态的数据包,从而 ...

  5. Hadoop超详细讲解之单节点搭建

    1 Hadoop介绍 Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台.允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理. ...

  6. 递归锁和死锁(Python)

    一.递归锁 # Lock :互斥锁 效率高 # RLock :递归(recursion)锁 效率相对低 在同一个线程中可以被acquire多次,如果想要释放锁,acquire多少次就要release多 ...

  7. 制作包含最新更新的Windows 10 LTSC 2021 ISO

    介绍 在制作桌面云windows 模板的时候,一般需要安装最新的更新.更新安装过程非常耗时,并且安装更新会导致桌面模板的磁盘空间膨胀.制作出的模板会占用很大的磁盘空间.如果不安装更新,模板大小约5G. ...

  8. Vulkan学习苦旅04:创建设备(逻辑设备VkDevice)

    设备是对物理设备的一种抽象,使我们更加方便地使用它.更准确地说,应该称其为"逻辑设备",但由于逻辑设备在Vulkan中极为常用,后面几乎所有的API都需要它作为第一个参数,因此在V ...

  9. Java开发学习(二十)----AOP总结

    一.AOP的核心概念 概念:AOP(Aspect Oriented Programming)面向切面编程,一种编程范式 作用:在不惊动原始设计的基础上为方法进行功能增强 核心概念 代理(Proxy): ...

  10. 洛谷P2670 扫雷游戏 关于区域搜索标记的坐标增量法

    最简单的思路就是扫描一边所有节点,对每个非地雷节点,去检查一下他八个方向的元素是否有'*',有的话就加一 但是逐个写出有点麻烦,我们不妨定义两个增量数组来存储每一次的相对位移,对每次检查只需要遍历这个 ...