原文

代码

摘要

本文研究的是文档级关系抽取,即从文档中抽取出多个实体之间的关系。现有的方法主要是基于图或基于Transformer的模型,它们只考虑实体自身的信息,而忽略了关系三元组之间的全局信息。为了解决这个问题,本文提出了一种新的方法,它通过预测一个实体级关系矩阵来同时捕获局部和全局信息。这种方法类似于计算机视觉中的语义分割任务。本文的主要贡献是提出了一个文档U形网络,它由一个编码器模块和一个U形分割模块组成。编码器模块用于捕获实体的上下文信息,U形分割模块用于捕获图像风格特征图上的三元组之间的全局相互依赖性。本文在三个公开的数据集DocRED、CDR和GDA上进行了实验,结果表明,本文的方法可以达到最先进的性能。

1 Introduction

每个关系三元组可以向同一文本中的其他关系三元组提供信息。
 
为了捕获文档中多个三元组的相互依赖关系,本文将文档级关系抽取任务转化为一种实体级的分类问题[Jiang et al., 2019],也叫做表格填充[Miwa and Sasaki, 2014; Gupta et al., 2016],如图2所示。这种问题类似于语义分割(一个广泛应用的计算机视觉任务),它的目标是用卷积网络给图像的每个像素分配一个对应的类别标签。受此启发,本文提出了一种新颖的模型,名为文档U形网络(DocuNet),它将文档级关系抽取建模为语义分割问题。在这个模型中,本文将实体对之间的相关特征作为图像输入,然后预测每个实体对的关系类型作为像素级的输出。具体来说,本文设计了一个编码器模块来获取实体的上下文信息,以及一个U形分割模块来获取三元组之间的全局依赖信息。本文还提出了一种平衡的softmax方法来处理关系类别的不平衡分布。本文的主要贡献有以下几点:
  1. 首次将文档级关系抽取问题建模为语义分割问题。
  2. 提出了模型DocuNet,它能够有效地捕获文档级关系抽取的局部和全局信息。
  3. 在三个公开的数据集上进行了实验,证明了本文模型相比于现有的方法有显著的性能提升。

2 Related Work

一方面,本文受到了[Jin et al., 2020]的启发,他们是首次考虑关系之间全局交互的研究,而这方面的研究还很少见。另一方面,本文注意到卷积神经网络(CNN)在关系抽取(RE)领域已经有了很多应用,这些研究[Nguyen and Grishman, 2015; Shen and Huang, 2016]表明CNN可以有效地提取图像风格的特征图。因此,本文的工作也与[Liu et al., 2020]的研究有关,他们将不完整的话语重写视为一种语义分割任务,这激发了本文从计算机视觉的角度来探索RE问题。本文采用了U-Net [Ronneberger et al., 2015],它由一个收缩路径和一个对称的扩展路径组成,分别用于捕获上下文信息和实现精确的定位。据本文所知,这是第一次将RE问题建模为语义分割任务

3 Methodology

3.1 Preliminary

给定一个文档 ,其中包含一组实体 ,任务是提取这些实体之间的关系。一个文档中可能有多个相同的实体。为了抽取实体  和  之间的关系,本文用一个  的矩阵  表示,其中  是  和  的关系类型。本文的目标是得到矩阵  的输出,这类似于语义分割的任务。本文按照实体在文档中首次出现的顺序排列矩阵  中的实体,利用实体间的相关性估计生成特征图,并把特征图当作一张图像。注意,输出的实体级关系矩阵 和语义分割中的像素级掩码是对应的,这就把关系抽取和语义分割联系起来了。本文的方法也适用于句子级别的关系抽取。由于文档中的实体更多,所以实体级关系矩阵可以学习更多的全局信息,从而提高性能。

3.2 Encoder Module

考虑一个文档 ,其中包含了一些实体提及。为了标记实体的位置,在每个提及的开始和结束处添加特殊符号。使用一个预训练的语言模型作为编码器,将文档中的每个词  转换为一个向量 ,得到文档的嵌入表示:
由于有些文档的长度超过了语言模型的最大输入限制(例如 512),本文使用一个滑动窗口的方法来编码整个文档。对于每个窗口,取其嵌入的平均值作为最终的表示。然后,使用的嵌入来表示每个实体提及,这是一种简单而有效的方法,参考了 [Verga et al., 2018]。
 
为了得到每个实体的嵌入,使用一种平滑的最大池化操作,即 logsumexp 池化,将一个实体的所有提及的嵌入进行聚合:
其中  是第  个实体的嵌入, 是该实体在文档中出现的次数, 是该实体的第  个提及的嵌入。这种池化操作可以有效地捕捉文档中提及的信息,得到一个全局的实体表示
 
为了计算文档中实体之间的关系,本文构建一个实体级的关系矩阵,其中每个元素表示两个实体的相关性。使用一个  维的特征向量  来表示源实体  和目标实体  之间的关系特征。本文提出了两种计算  的方法,一种是基于相似度的方法,另一种是基于上下文的方法。基于相似度的方法是将  和  之间的三种相似度度量拼接起来,分别是哈达玛积(element-wise product)、余弦相似度(cosine similarity)和双线性相似度(bi-linear similarity)
其中  是一个可学习的权重矩阵。这种方法可以直接捕捉实体嵌入之间的相似程度,反映它们的关系强度基于上下文的方法是利用实体感知的注意力机制,根据文档的嵌入和实体的重要性,计算出一个特征向量
其中  是一个可学习的权重矩阵, 是文档的嵌入, 是 transformer 中的头数, 和  分别是第  个头的源实体和目标实体的注意力权重, 是实体感知的注意力权重。这种方法可以利用文档的上下文信息,生成更加丰富和灵活的关系特征。

3.3 U-shaped Segmentation Module

本文将实体级关系矩阵  看作是一个 通道的图像,并将文档级关系预测问题转化为在  上进行像素级的分割。其中  是数据集中所有样本的最大实体数。为了实现这一目标,本文借鉴了计算机视觉领域的经典语义分割模型 U-Net。如图 3 所示,该模型由一个 U 型的分割网络组成,包括两个下采样模块和两个上采样模块,并通过跳跃连接实现信息的融合。在下采样模块中,每个模块包含两个最大池化层和两个卷积层,同时每个模块的通道数翻倍。如图 2 所示,实体级关系矩阵中的分割区域对应于实体对之间的关系共现情况。U 型分割网络能够在接受域内实现实体对之间的信息交换,类似于一种隐式的推理过程。具体来说,CNN 和下采样模块能够扩大当前实体对嵌入  的感受野,从而为表示学习提供更多的全局信息。在上采样模块中,每个模块包含一个反卷积层和两个卷积层,同时每个模块的通道数减半,这有助于将聚合的信息分配到每个像素上。最后,通过一个编码模块和一个 U 型分割模块来融合局部和全局信息,如下式所示:
其中  和  分别表示 U 型分割模块和实体级关系矩阵。 是一个可学习的权重矩阵,用于降低的维度,使其与 相匹配,而  远小于

3.4 Classification Module

本文使用前馈神经网络,将实体对嵌入和  以及实体级关系矩阵  映射到隐藏表示 。然后,利用双线性函数计算关系的概率。具体地,有:
其中, 是矩阵  中  的实体对表示,,是模型的参数。
 
由于之前的工作发现 RE 的关系分布不平衡(大部分实体对的关系为 NA),本文采用了一个平衡的 softmax 方法进行训练,这受到了计算机视觉领域的圆形损失 [Sun et al., 2020] 的影响。具体地,增加了一个额外的类别 0,使得目标类别的分数都高于 ,而非目标类别的分数都低于。形式地,有:
为了简化,将阈值设为零,得到以下公式:
 

《Document-level Relation Extraction as Semantic Segmentation》论文阅读笔记的更多相关文章

  1. 《MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment》论文阅读笔记

    出处:2018 AAAI SourceCode:https://github.com/salu133445/musegan abstract: (写得不错 值得借鉴)重点阐述了生成音乐和生成图片,视频 ...

  2. (转)Introductory guide to Generative Adversarial Networks (GANs) and their promise!

    Introductory guide to Generative Adversarial Networks (GANs) and their promise! Introduction Neural ...

  3. 生成对抗网络(Generative Adversarial Networks,GAN)初探

    1. 从纳什均衡(Nash equilibrium)说起 我们先来看看纳什均衡的经济学定义: 所谓纳什均衡,指的是参与人的这样一种策略组合,在该策略组合上,任何参与人单独改变策略都不会得到好处.换句话 ...

  4. 生成对抗网络(Generative Adversarial Networks, GAN)

      生成对抗网络(Generative Adversarial Networks, GAN)是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的学习方法之一.   GAN 主要包括了两个部分,即 ...

  5. StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 论文笔记

    StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks  本文将利 ...

  6. 论文笔记之:Semi-Supervised Learning with Generative Adversarial Networks

    Semi-Supervised Learning with Generative Adversarial Networks 引言:本文将产生式对抗网络(GAN)拓展到半监督学习,通过强制判别器来输出类 ...

  7. 《Self-Attention Generative Adversarial Networks》里的注意力计算

    前天看了 criss-cross 里的注意力模型  仔细理解了  在: https://www.cnblogs.com/yjphhw/p/10750797.html 今天又看了一个注意力模型 < ...

  8. Paper Reading: Perceptual Generative Adversarial Networks for Small Object Detection

    Perceptual Generative Adversarial Networks for Small Object Detection 2017-07-11  19:47:46   CVPR 20 ...

  9. SalGAN: Visual saliency prediction with generative adversarial networks

    SalGAN: Visual saliency prediction with generative adversarial networks 2017-03-17 摘要:本文引入了对抗网络的对抗训练 ...

  10. Generative Adversarial Networks,gan论文的畅想

    前天看完Generative Adversarial Networks的论文,不知道有什么用处,总想着机器生成的数据会有机器的局限性,所以百度看了一些别人 的看法和观点,可能我是机器学习小白吧,看完之 ...

随机推荐

  1. AppCan 打包无限次下载解决方案

    1.下载AppCan 官网上打包好的文件apk文件 2.将apk文件放在指定的服务器文件内,谇文件发布到IIS,一般都会用已发布发的网站上面随便一个目录就可以了. 3.MIME类型中填写apk的MIM ...

  2. Windows 堆管理机制 [3] Windows XP SP2 – Windows 2003 版本

    3. Windows XP SP2 – Windows 2003 3.1 环境准备 环境 环境准备 虚拟机 32位Windows XP SP2 \32位Windows XP SP3 调试器 OllyD ...

  3. 使用Git 命令行拉取、提交、推送、合并 代码

    1.拉取 1.1.拉取该分支的最新代码(远程分支是与当前分支相同) git pull origin updateCode 1.2.拉取最新代码(远程分支是与当前分支不相同,但要合并) git pull ...

  4. TienChin 活动管理-活动列表展示

    后端 ActivityVO /** * @author BNTang * @version 1.0 * @description 活动管理VO * @since 2023-23-05 **/ publ ...

  5. python自动化高效办公第二期,带你项目实战【二】{数据可视化、发送邮件(定时任务监控)、python聊天机器人(基于微信、钉钉)}

    相关文章和数据源: python自动化高效办公第二期,带你项目实战[一]{excel数据处理.批量化生成word模板.pdf和ppt等自动化操作} Python自动化办公--Pandas玩转Excel ...

  6. nginx入门之安装和启动

    1.安装环境 nginx 使用源码编译安装,环境及组件如下: make 环境 openssl-fips-2.0.10 pcre-8.44 zlib-1.2.11 nginx-1.10.2 需要注意各组 ...

  7. 【奶奶看了都会】Meta开源大模型LLama2部署使用教程,附模型对话效果

    1.写在前面 就在7月19日,MetaAI开源了LLama2大模型,Meta 首席科学家.图灵奖获得者 Yann LeCun在推特上表示Meta 此举可能将改变大模型行业的竞争格局.一夜之间,大模型格 ...

  8. Java浅谈BufferedReader

    既然Scanner简单好用,为什么要用BufferedReader呢? 主要原因是面对大量的读入显得较慢且不安全,这里体现在三个方面,一方面是解析的问题,好用意味着封装的更复杂,一拖n的接口解析起来会 ...

  9. NC19999 [HAOI2016]放棋子

    题目链接 题目 题目描述 给你一个N*N的矩阵,每行有一个障碍,数据保证任意两个障碍不在同一行,任意两个障碍不在同一列,要求你在这个矩阵上放N枚棋子(障碍的位置不能放棋子),要求你放N个棋子也满足每行 ...

  10. NC20960 迪拜的超市

    题目链接 题目 题目描述 forever97家住迪拜一环,因此有很多大大小小的商场. 迪拜一环有n个超市,分别在坐标轴[1,n]位置,forever97家在0这个位置. 由于日常开销巨大,所以Trot ...