原文

代码

摘要

为了解决传统的关系抽取(RE)方法只能识别两个实体之间的关系,而忽略了同一上下文中多个关系之间的相互依赖性,即关系的关系(relation of relations,RoR)的问题,本文提出了一种新的RE范式,它将所有关系的预测作为一个整体进行优化。本文设计了一种数据驱动的方法,利用图神经网络和关系矩阵Transformer自动学习RoR,无需人工规则。在两个公开的数据集ACE05和SemEval 2018任务7.2上,本文的模型分别比最先进的方法提高了+1.12%和+2.55%,达到了显著的改进效果。

1 Introduction

概述:
图1中的句子涉及到七个实体。在广泛使用的ACE 05数据集(Walker et al., 2006)中,有99.76%的数据实例涉及到两个以上的实体,而且每个文本中平均存在9.21个关系。
 
传统方法:
采用了一种简化的设置,即只对每两个实体之间的关系进行分类(Zeng et al., 2014; Luan et al., 2018; Li and Ji, 2014; Gormley et al., 2015; Miwa and Bansal, 2016)。这意味着对于图1中有7个实体的句子,大多数以前的方法需要执行49个独立的关系分类任务(如果考虑自反关系)。由于现有的方法需要对输入的实体进行显式标注,因此无法减少这个数量的分类任务。例如,要预测实体对(obstetricians, California)之间的关系,输入需要转换为“...<e1> obstetricians <\e1> in <e2> California <\e2> will pay $60,000 in Los Angeles ...”。
 
传统方法的问题:
它不仅效率低下,而且忽略了同一上下文中多个关系之间的相互依赖性。例如,在图1中的49个关系中,如果已经知道了关系(Miami, is part of, south Florida),其中“is part of”是定义在两个对象上的关系,那么Miami就不太可能与其他任何人际关系有关,比如“is the father of...”。
 
RoR:
在ACE 05数据集中,每个文本中平均存在9.21个关系,这意味着每个关系都可能对同一文本中的其他关系有影响。将同一文本中多个关系之间的频繁出现的相互依赖性称为“关系的关系”(RoR)。
 
为了捕捉RoR,本文提出了一种新的关系抽取(RE)范式,它将同一文本中所有关系的预测作为一个整体来处理。本文的工作与(Wang et al., 2019)不同,后者仍然将每个实体对的关系视为独立的分类任务,但以牺牲准确性为代价节省了计算能力,通过一次编码所有实体。相反,本文新提出的范式不是关于计算成本和准确性之间的权衡,而是通过捕捉RoR来提高性能。

2 New formulation of RE

传统的任务定义:
把每个文本序列和其中的两个实体之间的关系作为一个独立的分类问题来处理的。即:
给定一个文本序列,以及 中的两个实体提及 ,还有一个预定义的关系类型集合 ,任务是预测  和  之间属于哪种关系类型。这样的 RE 问题可以归结为一个经典的句子分类任务
 
本文的任务定义:
给定一个文本序列 ,以及 中的所有实体提及 ,模型需要预测 中任意两个实体  之间的关系 ,其中 。本文使用一个矩阵  来表示  中所有可能的关系,如图 2 所示。

3 Statistical analysis of RoR

本文的案例研究基于 ACE05 数据集 (Walker et al., 2006)。下面将介绍两种 RoR 的形式:
  1. biRoR,只考虑两个关系之间的相互作用。
  2. multiRoR,考虑三个或更多关系之间的复杂关联。

3.1 Data overview

ACE05 (Walker et al., 2006) 是最广泛使用的关系抽取数据集。它的文本来自多种来源,包括新闻节目、报纸、新闻报道和音频转录。它有 6 种关系类型,如表 1 所示。对于这些关系,有 7 种有效的实体类型:设施 (FAC)、地缘政治实体 (GPE)、位置 (LOC)、组织 (ORG)、人 (PER)、车辆 (VEH)、武器 (WEA)。

3.2 BiRoR: Interdependency of two relations

3.2.1 Entity type-constrained biRoR(受实体类型约束)

给定两个实体和它们之间的关系类型,可以判断  是否不可能与另一种关系类型  同时出现。为了说明这种方法,用 ACE05 数据集中的七种实体类型举例。表 1 显示了不同的关系类型允许的实体类型参数。根据这些信息,可以得出 12 条不兼容的规则。比如,同一个实体不能同时是 Per-Soc 的 arg0 和 Part-Whole 的 arg0,因为 Per-Soc 的 arg0 必须是人 (PER),而 Part-Whole 不能包含 PER。所有的不兼容规则都列在附录 A.1 中。

3.2.2 Semantic-constrained biRoR(受语义约束)

一个关系的含义可以决定它是否能够与另一个关系共存或者必须与另一个关系互斥。例如,Art 关系可以表示一个人(arg0)拥有一个设施(arg1),其中 arg1 必须是一个设施。如果已经存在这样的关系,那么同一个设施就不能再与一个城市构成 Part-Whole 关系,因为从语义上讲,城市(比如波士顿)不可能是一个设施的一部分。这种不兼容性不是由实体类型强制规定的,而是由关系的语义所暗示的。
 
语义也可以暗示一个关系是否应该具有对称性。例如,Per-Soc 关系总是对称的,因为家庭和朋友是可以互换的关系,而 Org-Aff 关系总是非对称的(Walker et al., 2005)。因此,如果一个关系 ,那么 也等于 。而如果 ,那么

3.2.3 Empirical biRoR

本文对图 3 中的每对关系进行了相关性分析。从图中可以看出,3.2.1 节提出的不兼容性规则在红色的负相关区域得到了验证,3.2.2 节描述的 Per-Soc 和 Phys 的对称性在深蓝色的高相关区域得到了体现。此外,图中还显示了一些其他的相关性,例如 Part-Whole 和 Phys 关系经常同时出现。

3.3 MultiRoR: Correlation of 3+ relations

3.3.1 Entity type-constrained multiRoR

biRoR 是一种只涉及两个关系的规则,但还有一些更复杂的规则,它们可以作用于多个关系,称之为 multiRoR。multiRoR 是一种基于实体类型的规则,它把 3.2.1 节中介绍的两个关系的不兼容性推广到 3 个或更多的关系。举个例子,如果一个实体同时是 Org-Aff 和 Phys 关系的 arg1,那么根据实体类型的约束,它就不能再是 Art 关系的 arg1(因为它必须是 GPE)。图 4 显示了,当一个实体的关系数量增加时,所有可能的多个关系组合中,无效的组合所占的比例也会迅速上升,当有 7 个关系时,甚至高达 83%。

3.3.2 Numerically correlated multiRoR

从数据集中的所有关系矩阵 R 中,可以发现不同类别的关系之间存在数值相关性。这种相关性不是针对两个具体的关系,而是针对两类关系的总数,因此属于 multiRoR 的范畴(每一类关系都可能有多次出现)。图 5 中的相关性图显示了,Per-Soc 和 Gen-Aff 两类关系的总数呈现出明显的正相关,而 Art 和 Org-Aff 两类关系的总数则呈现出负相关。

4 Method

手工制定各种类型的RoR规则是一种简单的方法,但是它不适用于具有不同特征的数据集,也无法识别一些难以人工发现的RoR。因此,本文的目标是设计一个不依赖于手工规则的RoR学习模型。 训练策略如图6所示。接下来,将详细介绍三个关键的模型组件:
  1. 实体和关系的初始嵌入。
  2. 基于GNN的biRoR学习器。
  3. 学习multiRoR的矩阵变换器。

4.1 Initialization of entities and relations

在准备阶段,首先为每个实体生成嵌入。利用预训练的BERT模型(Devlin et al., 2019)处理文本,并通过对BERT最后一层的每个词的隐藏状态取平均,得到每个实体的表示。本文的框架可以灵活地采用其他获取预训练嵌入的方法,例如(Yang et al., 2019; Liu et al., 2019)。接着,将两个相关实体的嵌入拼接起来,并通过一个前馈层,得到每个关系的初始嵌入

4.2 BiRoR Learner

本文的目标是利用图神经网络(GNN)来学习文本序列中不同关系之间的相互作用,实现双向关系推理(biRoR)。给定一个包含个实体的文本序列,将其表示为一个图,其中是由所有的实体和关系组成的节点集合,是由每个关系节点和其对应的两个实体节点组成的边集合。
采用图神经网络来捕捉节点之间的信息传递,特别是在关系节点之间。图神经网络的第一层以第4.1节中得到的节点嵌入(包括实体嵌入和关系嵌入)为输入。在第层,图神经网络通过从邻居节点收集隐藏状态来更新当前层的节点表示,进而得到第层的节点表示。具体地,有
其中表示第层中第个节点的隐藏状态,表示一个前馈网络,表示一个权重矩阵,表示节点的邻居节点集合,表示节点对节点的注意力权重。这个注意力权重由下式计算:
其中分别表示计算注意力时的键和查询权重矩阵。

4.3 MultiRoR Learner

图神经网络(GNN)具有强大的建模节点间交互的能力,这与双向关系推理(biRoR)相对应,但它在捕捉更复杂的多重关系推理(multiRoR)方面并不那么强大。例如,如果一个实体同时具有Org-Aff和Phys两种关系,那么它就不能具有Art关系。但是GNN结构并不一定能够捕捉涉及嵌套条件的这种复杂的multiRoR。因此,需要另一个模块来对关系矩阵进行建模,它考虑了所有关系之间的动态,以便捕捉multiRoR。本文提出了一个简单而有效的模块,即关系矩阵Transformer。由于关系矩阵中的每个关系都需要关注所有其他关系,本文定制了基于Transformer的编码器架构来构建关系矩阵Transformer,它允许所有元素之间进行广泛的相互注意力(Vaswani et al., 2017)。将Transformer中的位置编码定制为两部分:行编码和列编码,每一部分都是一个从位置索引到维向量空间的可学习映射。关系矩阵Transformer将位置编码,即行和列嵌入的和,加到4.1节中得到的关系的初始表示上。接着,关系矩阵Transformer学习所有关系之间的动态,并通过一个变换后的矩阵输出所有关系的新特征,从而捕捉multiRoR。最后,将GNN和关系矩阵Transformer学习到的关系嵌入相加,然后将它们输入到最终的分类层,以获得每个关系的类型。
 

《Relation of the Relations A New Paradigm of the Relation Extraction Problem》论文阅读笔记的更多相关文章

  1. 《MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment》论文阅读笔记

    出处:2018 AAAI SourceCode:https://github.com/salu133445/musegan abstract: (写得不错 值得借鉴)重点阐述了生成音乐和生成图片,视频 ...

  2. (转)Introductory guide to Generative Adversarial Networks (GANs) and their promise!

    Introductory guide to Generative Adversarial Networks (GANs) and their promise! Introduction Neural ...

  3. 生成对抗网络(Generative Adversarial Networks,GAN)初探

    1. 从纳什均衡(Nash equilibrium)说起 我们先来看看纳什均衡的经济学定义: 所谓纳什均衡,指的是参与人的这样一种策略组合,在该策略组合上,任何参与人单独改变策略都不会得到好处.换句话 ...

  4. 生成对抗网络(Generative Adversarial Networks, GAN)

      生成对抗网络(Generative Adversarial Networks, GAN)是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的学习方法之一.   GAN 主要包括了两个部分,即 ...

  5. StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 论文笔记

    StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks  本文将利 ...

  6. 论文笔记之:Semi-Supervised Learning with Generative Adversarial Networks

    Semi-Supervised Learning with Generative Adversarial Networks 引言:本文将产生式对抗网络(GAN)拓展到半监督学习,通过强制判别器来输出类 ...

  7. 《Self-Attention Generative Adversarial Networks》里的注意力计算

    前天看了 criss-cross 里的注意力模型  仔细理解了  在: https://www.cnblogs.com/yjphhw/p/10750797.html 今天又看了一个注意力模型 < ...

  8. Paper Reading: Perceptual Generative Adversarial Networks for Small Object Detection

    Perceptual Generative Adversarial Networks for Small Object Detection 2017-07-11  19:47:46   CVPR 20 ...

  9. SalGAN: Visual saliency prediction with generative adversarial networks

    SalGAN: Visual saliency prediction with generative adversarial networks 2017-03-17 摘要:本文引入了对抗网络的对抗训练 ...

  10. Generative Adversarial Networks,gan论文的畅想

    前天看完Generative Adversarial Networks的论文,不知道有什么用处,总想着机器生成的数据会有机器的局限性,所以百度看了一些别人 的看法和观点,可能我是机器学习小白吧,看完之 ...

随机推荐

  1. TienChin 渠道管理-工程创建

    因为本文章主要围绕着项目开发进行,所以前言不做开头,直接上内容. 添加字段 我们的渠道表,我看到若依脚手架当中有一个是否删除的标志字段,所以我这里也添加一下: ALTER TABLE `tienchi ...

  2. python随机种子seed的作用(强化学习常用到)

    先上代码 import math import gym from gym import spaces, logger from gym.utils import seeding import nump ...

  3. C/C++ Qt 常用数据结构

    Qt 是一个跨平台的图形化类库,常用数据结构就是对C++ STL的二次封装,使其更加易用,如下是经常会用到的一些数据结构和算法,其中包括了QString,QList,QLinkedList,QVect ...

  4. C/C++ 动态解密释放ShellCode

    今天在复习<加密与解密>时,在软件保护这一章中有一个代码与数据结合的案例,其原理是将代码段中的代码进行xor异或加密处理以后回写到原始位置,当程序运行后将此处的内容动态的进行解密,解密后回 ...

  5. Linux的守护进程 [补档-2023-08-10]

    12-1守护进程 12-1-1介绍 ​   Daemom是Linux中的后台服务进程,通常独立于控制终端并且周期性地执行某种任务或者事件.这些进 程一般不直接和用户交互,不受用户的登录,注销等影响.没 ...

  6. flutter3+dart3聊天室|Flutter3跨平台仿微信App语音聊天/朋友圈

    全新研发flutter3+dart3+photo_view跨多端仿微信App界面聊天Flutter3-Chat. flutter3-chat基于最新跨全平台技术flutter3+dart3+mater ...

  7. 如何做好一个基础的搜索功能?记一个因客户大数据量而导致的后发先至Bug

    壹 ❀ 引 上篇文章算是开了一个新系列,因为工作缘故,我基本每天都在跟各式各样的bug打交道.其实站在一个开发的角度,我想每个人应该都更喜欢创造新代码,创造新bug,而不是每天都泡在茫茫代码海洋中定位 ...

  8. JS Leetcode 530. 二叉搜索树的最小绝对差 题解分析,再次了解中序遍历

    壹 ❀ 引 本题来自LeetCode 783. 二叉搜索树节点最小距离,题目描述如下: 给你一个二叉搜索树的根节点 root ,返回 树中任意两不同节点值之间的最小差值 . 示例 1: 输入:root ...

  9. JS Leetcode 264. 丑数 II 题解分析,当暴力无法暴力,让我们弃武从文了解三指针

    壹 ❀ 引 我在JS Leetcode 263. 丑数 题解分析,来认识有趣的丑数吧一文中记录了简单难度的丑数题,那么这篇题解是它的升级版,题目来自LeetCode264. 丑数 II,题目描述如下: ...

  10. maven打包更改版本号

    引入依赖 <plugin> <groupId>org.codehaus.mojo</groupId> <artifactId>versions-mave ...