ACL2016信息抽取与知识图谱相关论文掠影
实体关系推理与知识图谱补全
Unsupervised Person Slot Filling based on Graph Mining
- 作者:Dian Yu, Heng Ji
- 机构:Computer Science Department, Rensselaer Polytechnic Institute
本文的任务为槽填充(Slot Filling),即从大规模的语料库中抽取给定实体(query)的被明确定义的属性(slot types)的值(slot fillers)。对于此任务,本文叙述目前主流的方法可以分为两类:有监督的分类方法,设计分类器识别给定的实体与值所属的关系类型,分类器的训练往往使用如活动学习、利用距离监督的噪声标注等方法;模式匹配方法,从文本中自动或半自动地抽取和生成词法或句法的模式,以用于关系的抽取,但因为关系所表述的方式千差万别,这种模式匹配方法无法拥有较好的召回率。
本文认为,以上两类方法都无法很好的应对新的语言或是出现新的关系类型的情况,即移植性不强;而且,两种方法都只是专注于实体和候选值之前的平坦表示,并没有考虑到它们之间的全局结构关系,以及语句中其他的关系事实的影响。本文重要的算法思想基于以下两个观察:
- 在句子的依存图中,触发词结点(trigger)经常是和实体(query)与值(filler)结点都很相关的,并且是图中的重要节点;
- 当实体(query)与值(filler)结点通过一个关系明确的触发词强关联起来,往往意味着存在一定的关系(slot type)。
基于以上两个观察,本文的提出了一种基于图的槽填充的方法:首先,利用简单的启发式规则,从句子中识别出候选实体与属性值;然后,对于给定候选实体与属性值对,利用PageRank图算法和AP(Affinity Propagation)聚类算法自动识别触发词;最后,根据识别的触发词对属性类型(slot type)进行分类。本文主要的思想在于,以属性触发词为切入点进行关系的挖掘,将PageRank算法与AP算法引入其中。候选实体与属性值的识别、属性类型的分类这两个部分使用了启发式的规则与外部的词典资源。
Knowledge Base Completion via Coupled Path Ranking
- 作者:Quan Wang†, Jing Liu‡, Yuanfei Luo†, Bin Wang†, Chin-Yew Lin‡
- 机构†:Institute of Information Engineering, Chinese Academy of Sciences
- 机构‡:Microsoft Research
本文的任务为知识库补全,即通过考察知识库中已经存在的事实,自动推理出丢失的事实。本文叙述这项任务的方法大体分为三种:
- Path Ranking 算法(PRA),通过连接实体的已有路径来预测实体间的潜在关系;
- 基于表示学习的模型,将实体和关系映射为空间中的向量,通过空间中向量的运算来进行推理(如TransE);
- 概率图模型,如马尔科夫逻辑网络及其衍生物。
由于PRA方法具有较好的解释性,并且不需要额外的逻辑规则,本文主要使用PRA方法对其改进。在利用PRA进行关系推理时,以往的方法都是在推理阶段,利用PRA为每个关系独立建模,也就是为每个关系学习一个独立的分类器。
本文的初衷是:如果使用PRA对某些关系集体建模是否会得到更好的效果,尤其是当这些关系彼此紧密联系的时候,比如,“出生”和“生长于”这两个关系极有可能共同拥有一些关系路径:“国籍->首都”等。很多研究表明这种多任务学习相比单任务学习而言,往往具有更好的效果。本文提出CPRA的方法,该方法所要解决两个问题:(1)哪些关系需要组合在一起学习?(2)如何组合在一起学习?
Commonsense Knowledge Base Completion
- 作者:Xiang Li∗‡ Aynaz Taheri† Lifu Tu‡ Kevin Gimpel‡
- 机构∗:University of Chicago
- 机构†:University of Illinois at Chicago
- 机构‡:Toyota Technological Institute at Chicago
本文的任务是常识知识库的补全工作,即根据已有的知识推理预测概念之间心的知识。不同于一般的知识库,如FreeBase,常识知识库ConceptNet的结点主要为短语,而非实体。本文利用神经网络的方法将ConceptNet中词项向量话表示,对于给定的元组进行打分以获得置信度较高的元组用以补全。
Compositional Learning of Embeddings for Relation Paths in Knowledge Bases and Text
- 作者:Kristina Toutanova, Xi Victoria Lin∗, Wen-tau Yih, Hoifung Poon, Chris Quirk
- 机构:Microsoft Research
- 机构∗:University of Washington
本文的任务为知识图谱补全,推理预测实体间潜在的关系。本文叙述,当前的一些学者将关系路径信息融入到知识库嵌入式表示中,取得了非常显著的结果。知识库嵌入式表示,指的是将知识库中实体和关系映射到低维稠密的空间中,知识的推理转化为实体与关系所关联的向量或矩阵之间的运算。这种嵌入式的表示,操作花销较小,推理的效率较高。为了进一步提升基于嵌入式表示的关系推理,一些学者将关系路径信息融入其中。
本文发现,目前的将关系路径融入知识库的嵌入式表示方法存在如下问题:首先,当关系的路径总类增多时,时间开销较大,严重影响推理的效率;另外,目前的方法只考虑了路径信息,没有考虑结点的信息,即使是相同路径,包含不同结点也拥有不同的信息。本文提出了一种动态编程的方法,可以高效地将关系路径融入到知识库的嵌入式表示,并且同时对路径上的关系类型和结点进行表示。
TransG : A Generative Model for Knowledge Graph Embedding
- 作者:Han Xiao, Minlie Huang∗, Xiaoyan Zhu
- 机构:State Key Lab. of Intelligent Technology and Systems National Lab. for Information Science and Technology
- 机构∗:Dept. of Computer Science and Technology Tsinghua University
本文的任务为知识图谱表示学习,旨在将知识图谱映射到低维稠密的向量空间里。与以往研究工作不同,本文将目光聚焦于“多语义关系”,即同一名相的关系可能具有不同的语义含义,如对于关系“HasPart”,对于实体“桌子”和“桌腿”有这种关系,对于“英国”和“伦敦”也同样具有这样的关系,但二者所表达的含义却不尽相同。
不止于感性层面上,本文对TransE的知识图谱向量表示进行可视化(PCA降维):抽取四种不同关系,将具有给定关系的实体对向量相减(据TransE思想,可以得到关系的向量),将结果向量展示在二维空间里。理想情况下,对于每个关系应该只和一个簇对应,但真实的结果是每个关系不止一个簇,而是多个明显分开的簇。这也从另一个角度说明了关系的多语义性质。
针对这一问题,本文提出贝叶斯非参数混合嵌入式表示模型,TransG。TransG可以自动发现关系的多语义簇,并且利用关系的混合语义对实体对进行翻译操作,以进行关系推理。
实体链指
A Multi-media Approach to Cross-lingual Entity Knowledge Transfer
- 作者:Di Lu1, Xiaoman Pan1, Nima Pourdamghani2, Shih-Fu Chang3, Heng Ji1, Kevin Knight2
- 机构1:Computer Science Department, Rensselaer Polytechnic Institute
- 机构2:Information Sciences Institute, University of Southern California
- 机构3:Electrical Engineering Department, Columbia University
文本的任务为low-resource语言(LLs)的实体识别,即从LLs的文本中发现实体。在某些情况下,如突发事件以及自然灾害发生时,我们经常需要构建一个LLs的信息抽取工具。对于LLs的信息抽取,其主要的挑战在于缺乏目标语言的标注数据以及相应的语言处理工具,一个较为认可的解决方案是:从high-resource语言(HLs)(如英语)文本中抽取信息,并进行知识映射。
对于突发事件的发生,在LLs和HLs中往往存在着大量的非并发的、领域丰富的、主题相关的文本语料,如社交媒体。但是如果没有高效的机器翻译技术,即使在HLs中识别出信息也是无济于事。本文发现,在这些文档中常常存在着大量的媒体数据,这些媒体数据在不同的语言上往往是相似的,如图片、视频,即语言独立的。
基于这个启发,本文以图片为枢纽自动发现内容相似的LLS和HLs文档数据,然后在HLs文档中进行实体识别与链指,最后借助多媒体的相关技术将结果映射到LLs。基于这个思想,本文提出两个组件:名称标注、跨语言实体链指(CLEL)。
总体框架包含两个步骤:(1)应用语言独立的关键短语抽取方法对LLs文档进行处理,利用这些短语搜索出种子图片,用于进一步检索相关图片以及包含这些图片的HLs文档;(2)从HLs文档中抽取知识,设计知识迁移的方法精炼LLs文档的抽取结果。
Alleviating Poor Context with Background Knowledge for Named Entity Disambiguation
- 作者:Ander Barrena, Aitor Soroa, Eneko Agirre
- 机构:IXA NLP Group, UPV/EHU University of the Basque Country
本文的任务为实体消歧,即将文本中的名相实体链接到知识库中的实体实例。本文叙述,目前的实体链指的工作方法主要分为两类:(1)mention模型,通过先验概率对可能的实体进行排序;(2)上下文模型,从上下文中抽取特征,进行实体的链指。另外,最近有提出利用上下文中共现的实体来确定目标实体的链指。
本文发现了以往方法受到低质量上下文的影响导致链接失败,很多情况下,上下文所提供的线索很弱或是有误导的可能。本文引入了背景知识来缓解低质量上下文的问题。本文主要引入了两部分背景知识:(1)和目标实体具有相似分布的实体(本文利用word2vec);(2)利用上下文的句法依存关系,引入依存的偏好,如上下文中的“visit to”和目标实体有动宾关系,与“visit to”具有动宾关系的主要是地名,所以目标实体很可能是地名。
因果推断
Identifying Causal Relations Using Parallel Wikipedia Articles
- 作者:Kathleen McKeown, Christopher Hidey
- 机构:Department of Computer Science, Columbia University
本文的任务为识别句中指示因果关系的短语,并对其进行份分类。因果关系的检测是一项十分困难的任务。首先,大多数的因果关系都是隐式表达的,这需要一些背景知识进行推理才能得知;其次,即使对于显式表达的因果,其表达的方式也是多种多样。在PDTB中,有102种显式语篇关系makers,其中有28种指示因果关系,如“because”、“as a result”等。PDTB的研究学者发现了开放的makers存在,将其称为Altlex,其中指示因果关系的包括如“This may help explain why”、“This activity produced”等开放式的表达方式。对于因果关系,显示maker s可以以较高的准确率被识别,但却很少;隐式makers较多的存在于语句中,但不易识别,Altlex则介于这二者之间:由于其变化多样,所以识别起来较为困难,但Altlex的出现也使得因果关系的识别情况可以有提升空间。
数据的缺失是因果识别的关键问题。无监督学习的准确率较低,而监督学习又需要大量的训练数据已达到较高的找汇率。本文利用维基百科平行语料识别出新的因果关系makers,这些makers也是已知makers的变种,进而通过距离监督创造训练语料。利用开放的makers和上下文特征训练出因果分类器。
ACL2016信息抽取与知识图谱相关论文掠影的更多相关文章
- 知识图谱+Recorder︱中文知识图谱API与工具、科研机构与算法框架
目录 分为两个部分,笔者看到的知识图谱在商业领域的应用,外加看到的一些算法框架与研究机构. 文章目录 @ 一.知识图谱商业应用 01 唯品金融大数据 02 PlantData知识图谱数据智能平台 03 ...
- Atitit 知识图谱的数据来源
Atitit 知识图谱的数据来源 2. 知识图谱的数据来源1 a) 百科类数据2 b) 结构化数据3 c) 半结构化数据挖掘AVP (垂直站点爬虫)3 d) 通过搜索日志(query record ...
- 1. 通俗易懂解释知识图谱(Knowledge Graph)
1. 通俗易懂解释知识图谱(Knowledge Graph) 2. 知识图谱-命名实体识别(NER)详解 3. 哈工大LTP解析 1. 前言 从一开始的Google搜索,到现在的聊天机器人.大数据风控 ...
- [知识图谱]Neo4j知识图谱构建(neo4j-python-pandas-py2neo-v3)
neo4j-python-pandas-py2neo-v3 利用pandas将excel中数据抽取,以三元组形式加载到neo4j数据库中构建相关知识图谱 Neo4j知识图谱构建 1.运行环境: pyt ...
- 百度大脑UNIT3.0详解之知识图谱与对话
如今,越来越多的企业想要在电商客服.法律顾问等领域做一套包含行业知识的智能对话系统,而行业或领域知识的积累.构建.抽取等工作对于企业来说是个不小的难题,百度大脑UNIT3.0推出「我的知识」版块专门为 ...
- 知识图谱如何运用于RecomSys
将知识图谱作为辅助信息引入到推荐系统中可以有效地解决传统推荐系统存在的稀疏性和冷启动问题,近几年有很多研究人员在做相关的工作.目前,将知识图谱特征学习应用到推荐系统中主要通过三种方式——依次学习.联合 ...
- 知识图谱实体对齐1:基于平移(translation)的方法
1 导引 在知识图谱领域,最重要的任务之一就是实体对齐 [1](entity alignment, EA).实体对齐旨在从不同的知识图谱中识别出表示同一个现实对象的实体.如下图所示,知识图谱\(\ma ...
- 我发起了一个 .Net 平台上的 开源项目 知识图谱 Babana Map 和 文本文件搜索引擎 Babana Search
起因 也是 前几天 有 网友 在 群 里发了 知识图谱 相关的文章, 还有 有 网友 问起 NLog -> LogStash -> Elastic Search 的 问题, ...
- 知识图谱-生物信息学-医学论文(BMC Bioinformatics-2022)-挖掘阿尔茨海默病相关KG来确定潜在的相关语义三元组用于药物再利用
论文标题: Mining On Alzheimer's Diseases Related Knowledge Graph to Identity Potential AD-related Semant ...
随机推荐
- Unity使用GL画线
脚本需挂在相机上,如果你的脚本,编辑器报错了,Matrix stack full depth reached,加上这个方法试试GL.LoadPixelMatrix(); using System.Co ...
- 生肖年(switch练习)
<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8" ...
- C++ 头文件系列(system_error)
1.为什么system_error "....report error conditions originating from the operating system or low-lev ...
- 简谈-Python的输入、输出、运算符、数据类型转换
输出: 格式化输出: 看到了 % 这样的操作符,这就是Python中格式化输出. 换行输出: 在输出的时候,如果有 \n 那么,此时 \n 后的内容会在另外一行显示 输入: 在python2.7当中, ...
- 函数, lambda表达式
函数 函数:简单的理解,就是一次执行很多行代码 函数的返回值 函数的参数,和变量没区别 例: def hello(): print "hello world" hello() he ...
- PHP填补数字前后的0
PHP数字填补0 经常会遇到这样的问题: 自然数字是0,1,2,3...而我们需要的却是满足多少多少位数的数字,如:001,002. 在ID,编号,学号中我们会经常用到补全前面或者后面的空位(一般为前 ...
- Could not find a valid gem 'compass' (>= 0) in any repository compass安装失败解决方案
安装完成ruby gem 之后,通过 gem install compass 安装compass~~ 出现如下报错 Could not find a valid gem 'compass' (> ...
- 根据优先关系矩阵使用逐次加一发构造优先函数(Java)
若已知运算符之间的优先关系,可按如下步骤构造优先函数: 1.对每个运算符a(包括#在内)令f(a)=g(a)=1 2.如果a⋗b且f(a)<=g(b)令f(a)=g(b)+1 3.如果a⋖b且f ...
- Docker - 定制镜像
Dockerfile Docker Hub拥有大量高质的官方镜像:可直接使用的服务类镜像.语言应用镜像.基础操作系统镜像等,满足绝大部分需求. 此外,可以通过定制镜像的方式来满足实际使用中的特定需求. ...
- Mongodb以及rockmongo安装
Mongodb安装 以centos6.x_x_64位系统为例,我们使用yum安装 1.添加yum源 在/etc/yum.repos.d/目录下创建文件10genmon.repo(名字随意,.repo结 ...