Large-Scale Named Entity Disambiguation Based on Wikipedia Data

基于维基百科数据的大规模命名实体消岐

1.引言

  1.1. 概念

  实体(entity客观存在的事物;

  表层形式(surface form): 实体的助记符号;

  实体和表层形式是多对多的关系:一个表层形式可以和多个实体相关联,指代多个实体;一个实体可以有多个表层形式指代它

  1.2. 实体标识的目标

  把表层形式映射到实体,并标注实体的类型(人名、地名、组织名等)。当文档数量越来越多的时候,表层形式的语义歧义问题越来越突出。

如:Texas在维基百科中指代超过20个实体。在百度百科中,一个人名也对应多个人。

  1.3. 前人的工作

实体标识的重要性:略。

前人的工作:简单举两个。

  Bagga Baldwin(1998)解决跨文档的共指关系。

  问题描述:不同文档的两个同名实体是否指代相同的事物

  解决方案:统计各个文档中所有出现这个同名实体句子的词向量,然后计算向量的余弦值。

  Ravin和Kazi用Nominator来解决夸文档的共指关系。Nominator是第一个成功解决实体识别和共指关系消解的系统。(没有看这个系统)

  2. 系统介绍

  2.1. 任务描述

  给定一个实体的表层形式,给表层形式分配一个实体(用唯一名称或者id表示)。

  这个任务类似于词义消解(word sense disambiguation, WSD),为文章中的多义词分配正确的意思。

  2.2. 消岐方法

  一句话总结:用一个庞大的实体列表和广泛的世界知识来做命名实体消岐。

分为2个子任务:

  1)如何得到实体列表和世界知识;

  2)如何运用这些数据

2.2.1. 需要在维基百科中得到的知识:

a) 已知的实体(entity)

b) 实体的类别(如果可用,人名、地名、组织名等)(entity class)

c) 实体已知的表层形式(surface form)

d) 上下文证据(contextual evidence)

e) 类别标记(category tag)

  2.2.2. 如何得到上的说的5种数据

  a) 英文维基百科页面可以分成4类

  i) 实体页面(entity page)

罗列单个实体的描述信息(最多)

    例子:http://en.wikipedia.org/wiki/Texas_(TV_series)

   ii) 重定向页面(redirecting page)

    一个实体有多种名称,或者某些页面已经废弃不用,来指向其他表示他们的页面

    例子:http://en.wikipedia.org/wiki/Another_World_in_Texas

   iii) 消岐页面(disambiguation page)

    一个实体有多种名称,消岐页面列出名称可能表示的所有实体

    例子:http://en.wikipedia.org/wiki/Texas_(disambiguation)

iv) 列表页面(list page)

聚集相同类型的实体

    例子:http://en.wikipedia.org/wiki/List_of_band_name_etymologies

  b) 抽取的内容:

i) 得到表层形式到实体的映射(surface form mapping to entity)

实体页面和重定向页面的title,和这些title去除同位语的形式

消岐页面:指向其他实体页面的超链接,是被指实体的表层形式

    实体页面的正文中,指向其他实体页面的超链接是被指实体的表层形式。

http://en.wikipedia.org/wiki/Pam_Long

  ii) 得到类别标记(category information)

    列表页面的title是所有本页面的类别标记

    实体页面中包含的类别标记

    页面段落title

  iii) 得到上下文(context)

    实体页面

    其他指向该实体页面的实体(互为上下文)

  2.2.3.如何运用

a) 文档分析

把文档切分成句子;

判断句首单词是否是实体的一部分,如果不是首字母小写

把title中的非实体单词的大写字母化为小写

使用统计方法识别实体,判别实体边界

  把一篇文章中的所有相同的表层形式分配一个类别(人名、地名、组织名、其他)

消除结构歧义(连接性歧义、所有格歧义、介词前置歧义)。

把短的表层形式转化为长的表层形。

b) 消岐组件

  消岐处理使用向量空间模型。把分析文档得到的向量表示和实体页面的向量表示做比较。

  令C={c1,…,cM}为维基页面中已知的上下文集合,T={t1,…,tN}是已知的类别标签的集合。一个实体可以用一个向量δe={0,1}M+N表示,δe由两部分组成δe|c∈{0,1}M,δe|t∈{0,1}N

    

  令ε(s)代表具有表层形式s的实体集合。D为文档,S(D)={s1,…,sn}是在文档D中标识的表层形式集合。我们建立文档的上下文向量d={d1,…,dm}∈NM,其中di是上下文ci出现的次数。建立扩增向量 

  目标是为表层形式分配实体。si|->ei,i=1,…,n。使实体的上下文和文档的上下文具有一致性,并且对文档中每对分配的实体的类别标记具有一致性。下面是公式:

    

  注意:为一个表层形式分配的实体取决于其他被分配的所有实体,这样来说是一个复杂度很高、很困难的优化任务。另一个方案是考虑文档中所有表层形式的所有可能实体的类别标记。公式如下

    

  上面公式可以重写为

    

  与开始的公式相等。

  

  因此,消岐分为两个步骤:

  (1)  建立扩增文档向量

  (2)  最大化上面公式

  注意的是:并不对笛卡尔积做归一化处理(也就是不是计算余弦值)

Large-Scale Named Entity Disambiguation Based on Wikipedia Data的更多相关文章

  1. 大规模视觉识别挑战赛ILSVRC2015各团队结果和方法 Large Scale Visual Recognition Challenge 2015

    Large Scale Visual Recognition Challenge 2015 (ILSVRC2015) Legend: Yellow background = winner in thi ...

  2. Introducing DataFrames in Apache Spark for Large Scale Data Science(中英双语)

    文章标题 Introducing DataFrames in Apache Spark for Large Scale Data Science 一个用于大规模数据科学的API——DataFrame ...

  3. 论文笔记之:Large Scale Distributed Semi-Supervised Learning Using Streaming Approximation

    Large Scale Distributed Semi-Supervised Learning Using Streaming Approximation Google  2016.10.06 官方 ...

  4. 快速高分辨率图像的立体匹配方法Effective large scale stereo matching

    <Effective large scale stereo matching> In this paper we propose a novel approach to binocular ...

  5. Lessons learned developing a practical large scale machine learning system

    原文:http://googleresearch.blogspot.jp/2010/04/lessons-learned-developing-practical.html Lessons learn ...

  6. 【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 17—Large Scale Machine Learning 大规模机器学习

    Lecture17 Large Scale Machine Learning大规模机器学习 17.1 大型数据集的学习 Learning With Large Datasets 如果有一个低方差的模型 ...

  7. [C12] 大规模机器学习(Large Scale Machine Learning)

    大规模机器学习(Large Scale Machine Learning) 大型数据集的学习(Learning With Large Datasets) 如果你回顾一下最近5年或10年的机器学习历史. ...

  8. Computer Vision_33_SIFT:Improving Bag-of-Features for Large Scale Image Search——2010

    此部分是计算机视觉部分,主要侧重在底层特征提取,视频分析,跟踪,目标检测和识别方面等方面.对于自己不太熟悉的领域比如摄像机标定和立体视觉,仅仅列出上google上引用次数比较多的文献.有一些刚刚出版的 ...

  9. The Entity Framework provider type 'System.Data.Entity.SqlServer.SqlProviderServices, EntityFramework.SqlServer' registered in the application config file for the ADO.NET provider with invariant name

    可以强迫部署EntityFramework.SqlServer.dll这个文件到输出目录 找到1个老外的帖子,戳这里(本人测试无效,大家有可能试一下..) 解决方案以下: 在EF的上下文代码CS文件( ...

随机推荐

  1. windows service自动启动相关设置

    http://blog.csdn.net/thebesttome/article/details/7590025   原帖:http://www.cnblogs.com/junior/archive/ ...

  2. SQL Server 2005中的分区表(三):将普通表转换成分区表(转)

    在设计数据库时,经常没有考虑到表分区的问题,往往在数据表承重的负担越来越重时,才会考虑到分区方式,这时,就涉及到如何将普通表转换成分区表的问题了. 那么,如何将一个普通表转换成一个分区表 呢?说到底, ...

  3. 为什么老师不喜欢RelativeLayout

    这个要看个人喜好.RelativeLayout对于一些简单布局来说反而复杂了.要计算相对距离这些.用线性布局只要利用好weight可以很直观的实现效果.所以这个因个人喜好而定 对于讲一些简单的功能来说 ...

  4. eclipse快捷键使用

    Eclipse的编辑功能非常强大,掌握了Eclipse快捷键功能,能够大大提高开发效率.Eclipse中有如下一些和编辑相关的快捷键.1. [ALT+/]此快捷键为用户编辑的好帮手,能为用户提供内容的 ...

  5. python 之编码问题详解

    前在一个项目中遇到用post提交一个xml,xml中含有中文,对于单独的py文件,使用urllib2.urlopen完全ok,但在django中使用就一直报编码错误,然后在网上看到这篇文章不错,决定m ...

  6. POJ 2096 【期望DP】

    题意: 有n种选择,每种选择对应m种状态.每种选择发生的概率相等,每种选择中对应的每种状态发生的概率相等. 求n种选择和m种状态中每种至少发生一次的期望. 期望DP好别扭啊.要用倒推的方法. dp[i ...

  7. 9.链式A+B

    题目描述 有两个用链表表示的整数,每个结点包含一个数位.这些数位是反向存放的,也就是个位排在链表的首部.编写函数对这两个整数求和,并用链表形式返回结果. 给定两个链表ListNode* A,ListN ...

  8. [HDU 1011] Starship Troopers (树形dp)

    题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1011 dp[u][i]为以u为根节点的,花了不超过i元钱能够得到的最大价值 因为题目里说要访问子节点必 ...

  9. ubuntu 服务管理

    在Linux系统下,一个Services的启动.停止以及重启通常是通过/etc/init.d目录下的脚本来控制的.然而,在启动或改变运行级别时,是在/etc/rcX.d中来搜索脚本.其中X是运行级别的 ...

  10. Intent Receiver

    使用Intent Receiver让自己的应用对一个外部事件做出响应,比如当电话呼入时,或者当数据网络可用时,或者时间到晚上了.Intent Receiver不能显示用户界面,它只能通过Notific ...