原文

代码

摘要

为了解决传统的关系抽取(RE)方法只能识别两个实体之间的关系,而忽略了同一上下文中多个关系之间的相互依赖性,即关系的关系(relation of relations,RoR)的问题,本文提出了一种新的RE范式,它将所有关系的预测作为一个整体进行优化。本文设计了一种数据驱动的方法,利用图神经网络和关系矩阵Transformer自动学习RoR,无需人工规则。在两个公开的数据集ACE05和SemEval 2018任务7.2上,本文的模型分别比最先进的方法提高了+1.12%和+2.55%,达到了显著的改进效果。

1 Introduction

概述:
图1中的句子涉及到七个实体。在广泛使用的ACE 05数据集(Walker et al., 2006)中,有99.76%的数据实例涉及到两个以上的实体,而且每个文本中平均存在9.21个关系。
 
传统方法:
采用了一种简化的设置,即只对每两个实体之间的关系进行分类(Zeng et al., 2014; Luan et al., 2018; Li and Ji, 2014; Gormley et al., 2015; Miwa and Bansal, 2016)。这意味着对于图1中有7个实体的句子,大多数以前的方法需要执行49个独立的关系分类任务(如果考虑自反关系)。由于现有的方法需要对输入的实体进行显式标注,因此无法减少这个数量的分类任务。例如,要预测实体对(obstetricians, California)之间的关系,输入需要转换为“...<e1> obstetricians <\e1> in <e2> California <\e2> will pay $60,000 in Los Angeles ...”。
 
传统方法的问题:
它不仅效率低下,而且忽略了同一上下文中多个关系之间的相互依赖性。例如,在图1中的49个关系中,如果已经知道了关系(Miami, is part of, south Florida),其中“is part of”是定义在两个对象上的关系,那么Miami就不太可能与其他任何人际关系有关,比如“is the father of...”。
 
RoR:
在ACE 05数据集中,每个文本中平均存在9.21个关系,这意味着每个关系都可能对同一文本中的其他关系有影响。将同一文本中多个关系之间的频繁出现的相互依赖性称为“关系的关系”(RoR)。
 
为了捕捉RoR,本文提出了一种新的关系抽取(RE)范式,它将同一文本中所有关系的预测作为一个整体来处理。本文的工作与(Wang et al., 2019)不同,后者仍然将每个实体对的关系视为独立的分类任务,但以牺牲准确性为代价节省了计算能力,通过一次编码所有实体。相反,本文新提出的范式不是关于计算成本和准确性之间的权衡,而是通过捕捉RoR来提高性能。

2 New formulation of RE

传统的任务定义:
把每个文本序列和其中的两个实体之间的关系作为一个独立的分类问题来处理的。即:
给定一个文本序列,以及 中的两个实体提及 ,还有一个预定义的关系类型集合 ,任务是预测  和  之间属于哪种关系类型。这样的 RE 问题可以归结为一个经典的句子分类任务
 
本文的任务定义:
给定一个文本序列 ,以及 中的所有实体提及 ,模型需要预测 中任意两个实体  之间的关系 ,其中 。本文使用一个矩阵  来表示  中所有可能的关系,如图 2 所示。

3 Statistical analysis of RoR

本文的案例研究基于 ACE05 数据集 (Walker et al., 2006)。下面将介绍两种 RoR 的形式:
  1. biRoR,只考虑两个关系之间的相互作用。
  2. multiRoR,考虑三个或更多关系之间的复杂关联。

3.1 Data overview

ACE05 (Walker et al., 2006) 是最广泛使用的关系抽取数据集。它的文本来自多种来源,包括新闻节目、报纸、新闻报道和音频转录。它有 6 种关系类型,如表 1 所示。对于这些关系,有 7 种有效的实体类型:设施 (FAC)、地缘政治实体 (GPE)、位置 (LOC)、组织 (ORG)、人 (PER)、车辆 (VEH)、武器 (WEA)。

3.2 BiRoR: Interdependency of two relations

3.2.1 Entity type-constrained biRoR(受实体类型约束)

给定两个实体和它们之间的关系类型,可以判断  是否不可能与另一种关系类型  同时出现。为了说明这种方法,用 ACE05 数据集中的七种实体类型举例。表 1 显示了不同的关系类型允许的实体类型参数。根据这些信息,可以得出 12 条不兼容的规则。比如,同一个实体不能同时是 Per-Soc 的 arg0 和 Part-Whole 的 arg0,因为 Per-Soc 的 arg0 必须是人 (PER),而 Part-Whole 不能包含 PER。所有的不兼容规则都列在附录 A.1 中。

3.2.2 Semantic-constrained biRoR(受语义约束)

一个关系的含义可以决定它是否能够与另一个关系共存或者必须与另一个关系互斥。例如,Art 关系可以表示一个人(arg0)拥有一个设施(arg1),其中 arg1 必须是一个设施。如果已经存在这样的关系,那么同一个设施就不能再与一个城市构成 Part-Whole 关系,因为从语义上讲,城市(比如波士顿)不可能是一个设施的一部分。这种不兼容性不是由实体类型强制规定的,而是由关系的语义所暗示的。
 
语义也可以暗示一个关系是否应该具有对称性。例如,Per-Soc 关系总是对称的,因为家庭和朋友是可以互换的关系,而 Org-Aff 关系总是非对称的(Walker et al., 2005)。因此,如果一个关系 ,那么 也等于 。而如果 ,那么

3.2.3 Empirical biRoR

本文对图 3 中的每对关系进行了相关性分析。从图中可以看出,3.2.1 节提出的不兼容性规则在红色的负相关区域得到了验证,3.2.2 节描述的 Per-Soc 和 Phys 的对称性在深蓝色的高相关区域得到了体现。此外,图中还显示了一些其他的相关性,例如 Part-Whole 和 Phys 关系经常同时出现。

3.3 MultiRoR: Correlation of 3+ relations

3.3.1 Entity type-constrained multiRoR

biRoR 是一种只涉及两个关系的规则,但还有一些更复杂的规则,它们可以作用于多个关系,称之为 multiRoR。multiRoR 是一种基于实体类型的规则,它把 3.2.1 节中介绍的两个关系的不兼容性推广到 3 个或更多的关系。举个例子,如果一个实体同时是 Org-Aff 和 Phys 关系的 arg1,那么根据实体类型的约束,它就不能再是 Art 关系的 arg1(因为它必须是 GPE)。图 4 显示了,当一个实体的关系数量增加时,所有可能的多个关系组合中,无效的组合所占的比例也会迅速上升,当有 7 个关系时,甚至高达 83%。

3.3.2 Numerically correlated multiRoR

从数据集中的所有关系矩阵 R 中,可以发现不同类别的关系之间存在数值相关性。这种相关性不是针对两个具体的关系,而是针对两类关系的总数,因此属于 multiRoR 的范畴(每一类关系都可能有多次出现)。图 5 中的相关性图显示了,Per-Soc 和 Gen-Aff 两类关系的总数呈现出明显的正相关,而 Art 和 Org-Aff 两类关系的总数则呈现出负相关。

4 Method

手工制定各种类型的RoR规则是一种简单的方法,但是它不适用于具有不同特征的数据集,也无法识别一些难以人工发现的RoR。因此,本文的目标是设计一个不依赖于手工规则的RoR学习模型。 训练策略如图6所示。接下来,将详细介绍三个关键的模型组件:
  1. 实体和关系的初始嵌入。
  2. 基于GNN的biRoR学习器。
  3. 学习multiRoR的矩阵变换器。

4.1 Initialization of entities and relations

在准备阶段,首先为每个实体生成嵌入。利用预训练的BERT模型(Devlin et al., 2019)处理文本,并通过对BERT最后一层的每个词的隐藏状态取平均,得到每个实体的表示。本文的框架可以灵活地采用其他获取预训练嵌入的方法,例如(Yang et al., 2019; Liu et al., 2019)。接着,将两个相关实体的嵌入拼接起来,并通过一个前馈层,得到每个关系的初始嵌入

4.2 BiRoR Learner

本文的目标是利用图神经网络(GNN)来学习文本序列中不同关系之间的相互作用,实现双向关系推理(biRoR)。给定一个包含个实体的文本序列,将其表示为一个图,其中是由所有的实体和关系组成的节点集合,是由每个关系节点和其对应的两个实体节点组成的边集合。
采用图神经网络来捕捉节点之间的信息传递,特别是在关系节点之间。图神经网络的第一层以第4.1节中得到的节点嵌入(包括实体嵌入和关系嵌入)为输入。在第层,图神经网络通过从邻居节点收集隐藏状态来更新当前层的节点表示,进而得到第层的节点表示。具体地,有
其中表示第层中第个节点的隐藏状态,表示一个前馈网络,表示一个权重矩阵,表示节点的邻居节点集合,表示节点对节点的注意力权重。这个注意力权重由下式计算:
其中分别表示计算注意力时的键和查询权重矩阵。

4.3 MultiRoR Learner

图神经网络(GNN)具有强大的建模节点间交互的能力,这与双向关系推理(biRoR)相对应,但它在捕捉更复杂的多重关系推理(multiRoR)方面并不那么强大。例如,如果一个实体同时具有Org-Aff和Phys两种关系,那么它就不能具有Art关系。但是GNN结构并不一定能够捕捉涉及嵌套条件的这种复杂的multiRoR。因此,需要另一个模块来对关系矩阵进行建模,它考虑了所有关系之间的动态,以便捕捉multiRoR。本文提出了一个简单而有效的模块,即关系矩阵Transformer。由于关系矩阵中的每个关系都需要关注所有其他关系,本文定制了基于Transformer的编码器架构来构建关系矩阵Transformer,它允许所有元素之间进行广泛的相互注意力(Vaswani et al., 2017)。将Transformer中的位置编码定制为两部分:行编码和列编码,每一部分都是一个从位置索引到维向量空间的可学习映射。关系矩阵Transformer将位置编码,即行和列嵌入的和,加到4.1节中得到的关系的初始表示上。接着,关系矩阵Transformer学习所有关系之间的动态,并通过一个变换后的矩阵输出所有关系的新特征,从而捕捉multiRoR。最后,将GNN和关系矩阵Transformer学习到的关系嵌入相加,然后将它们输入到最终的分类层,以获得每个关系的类型。
 

《Relation of the Relations A New Paradigm of the Relation Extraction Problem》论文阅读笔记的更多相关文章

  1. 《MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment》论文阅读笔记

    出处:2018 AAAI SourceCode:https://github.com/salu133445/musegan abstract: (写得不错 值得借鉴)重点阐述了生成音乐和生成图片,视频 ...

  2. (转)Introductory guide to Generative Adversarial Networks (GANs) and their promise!

    Introductory guide to Generative Adversarial Networks (GANs) and their promise! Introduction Neural ...

  3. 生成对抗网络(Generative Adversarial Networks,GAN)初探

    1. 从纳什均衡(Nash equilibrium)说起 我们先来看看纳什均衡的经济学定义: 所谓纳什均衡,指的是参与人的这样一种策略组合,在该策略组合上,任何参与人单独改变策略都不会得到好处.换句话 ...

  4. 生成对抗网络(Generative Adversarial Networks, GAN)

      生成对抗网络(Generative Adversarial Networks, GAN)是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的学习方法之一.   GAN 主要包括了两个部分,即 ...

  5. StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 论文笔记

    StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks  本文将利 ...

  6. 论文笔记之:Semi-Supervised Learning with Generative Adversarial Networks

    Semi-Supervised Learning with Generative Adversarial Networks 引言:本文将产生式对抗网络(GAN)拓展到半监督学习,通过强制判别器来输出类 ...

  7. 《Self-Attention Generative Adversarial Networks》里的注意力计算

    前天看了 criss-cross 里的注意力模型  仔细理解了  在: https://www.cnblogs.com/yjphhw/p/10750797.html 今天又看了一个注意力模型 < ...

  8. Paper Reading: Perceptual Generative Adversarial Networks for Small Object Detection

    Perceptual Generative Adversarial Networks for Small Object Detection 2017-07-11  19:47:46   CVPR 20 ...

  9. SalGAN: Visual saliency prediction with generative adversarial networks

    SalGAN: Visual saliency prediction with generative adversarial networks 2017-03-17 摘要:本文引入了对抗网络的对抗训练 ...

  10. Generative Adversarial Networks,gan论文的畅想

    前天看完Generative Adversarial Networks的论文,不知道有什么用处,总想着机器生成的数据会有机器的局限性,所以百度看了一些别人 的看法和观点,可能我是机器学习小白吧,看完之 ...

随机推荐

  1. 4.1 C++ Boost 字符串处理库

    Boost 库是一个由C/C++语言的开发者创建并更新维护的开源类库,其提供了许多功能强大的程序库和工具,用于开发高质量.可移植.高效的C应用程序.Boost库可以作为标准C库的后备,通常被称为准标准 ...

  2. Python 实现文件关键字扫描

    第一段代码用户传入一个文件夹,自动扫描文件夹内特定文件是否存在某些关键字,如果存在则输出该文件的路径信息. # coding=gbk import sys,os,re def spider(scrip ...

  3. IDEA破解(无限重启激活时间版)

    下载地址[将下载的目录打成zip压缩包后使用]:「ide-eval-resetter」https://www.aliyundrive.com/s/UFHpDX5d6Xv 点击链接保存,或者复制本段内容 ...

  4. C++文件处理工具类

    C++文件处理工具类,hpp文件,使用时只需要include即可,跨平台 File.hpp #ifndef FILE_HPP #define FILE_HPP #include <fstream ...

  5. 移动端跨平台动效工具Lottie, PAG的使用

    动效工具Lottie   Lottie 是 Airbnb 开源的一套跨平台的完整的动画效果解决方案,设计师可以使用 Adobe After Effects 设计出漂亮的动画之后,使用 Lottic 提 ...

  6. 5、后端学习规划:.Net学习 - 学习规划系列文章

    .Net是微软发布的一整套的软件编程解决方案.笔者从大学的时代开始就阅读.netframework的书籍了,但是当时没有进行实践.毕业后,笔者去了微软技术中心的公司上班,所以就接触了.net以及C#编 ...

  7. curl接口调用

    CURL 是一个利用URL语法规定来传输文件和数据的工具,支持很多协议,如HTTP.FTP.TELNET等.最爽的是,PHP也支持 CURL 库.使用PHP的CURL 库可以简单和有效地去抓网页.你只 ...

  8. api接口调用

    api接口调用 CURL 是一个利用URL语法规定来传输文件和数据的工具,支持很多协议,如HTTP.FTP.TELNET等.最爽的是,PHP也支持 CURL 库.使用PHP的CURL 库可以简单和有效 ...

  9. P3730 曼哈顿交易 题解

    题目链接:曼哈顿交易 比较容易想的题,观察下首先不带修改,考虑维护的东西:次数作为权值,这玩意很显然很难在线维护,考虑下离线算法.看到这种和次数有关的权值,典型的单点加入和删除是非常好找到变化的,那么 ...

  10. .NET Core开发实战(第12课:配置变更监听)--学习笔记

    12 | 配置变更监听:配置热更新能力的核心 这一节讲解如何使用代码来监视配置变化并做出一些动作 当我们需要追踪配置发生的变化,可以在变化发生时执行一些特定的操作 配置主要提供了一个 GetReloa ...