Large-Scale Named Entity Disambiguation Based on Wikipedia Data
Large-Scale Named Entity Disambiguation Based on Wikipedia Data
基于维基百科数据的大规模命名实体消岐
1.引言
1.1. 概念
实体(entity): 客观存在的事物;
表层形式(surface form): 实体的助记符号;
实体和表层形式是多对多的关系:一个表层形式可以和多个实体相关联,指代多个实体;一个实体可以有多个表层形式指代它
1.2. 实体标识的目标
把表层形式映射到实体,并标注实体的类型(人名、地名、组织名等)。当文档数量越来越多的时候,表层形式的语义歧义问题越来越突出。
如:Texas在维基百科中指代超过20个实体。在百度百科中,一个人名也对应多个人。
1.3. 前人的工作
实体标识的重要性:略。
前人的工作:简单举两个。
Bagga Baldwin(1998)解决跨文档的共指关系。
问题描述:不同文档的两个同名实体是否指代相同的事物
解决方案:统计各个文档中所有出现这个同名实体句子的词向量,然后计算向量的余弦值。
Ravin和Kazi用Nominator来解决夸文档的共指关系。Nominator是第一个成功解决实体识别和共指关系消解的系统。(没有看这个系统)
2. 系统介绍
2.1. 任务描述
给定一个实体的表层形式,给表层形式分配一个实体(用唯一名称或者id表示)。
这个任务类似于词义消解(word sense disambiguation, WSD),为文章中的多义词分配正确的意思。
2.2. 消岐方法
一句话总结:用一个庞大的实体列表和广泛的世界知识来做命名实体消岐。
分为2个子任务:
1)如何得到实体列表和世界知识;
2)如何运用这些数据
2.2.1. 需要在维基百科中得到的知识:
a) 已知的实体(entity)
b) 实体的类别(如果可用,人名、地名、组织名等)(entity class)
c) 实体已知的表层形式(surface form)
d) 上下文证据(contextual evidence)
e) 类别标记(category tag)
2.2.2. 如何得到上的说的5种数据
a) 英文维基百科页面可以分成4类
i) 实体页面(entity page)
罗列单个实体的描述信息(最多)
例子:http://en.wikipedia.org/wiki/Texas_(TV_series)
ii) 重定向页面(redirecting page)
一个实体有多种名称,或者某些页面已经废弃不用,来指向其他表示他们的页面
例子:http://en.wikipedia.org/wiki/Another_World_in_Texas
iii) 消岐页面(disambiguation page)
一个实体有多种名称,消岐页面列出名称可能表示的所有实体
例子:http://en.wikipedia.org/wiki/Texas_(disambiguation)
iv) 列表页面(list page)
聚集相同类型的实体
例子:http://en.wikipedia.org/wiki/List_of_band_name_etymologies
b) 抽取的内容:
i) 得到表层形式到实体的映射(surface form mapping to entity)
实体页面和重定向页面的title,和这些title去除同位语的形式
消岐页面:指向其他实体页面的超链接,是被指实体的表层形式
实体页面的正文中,指向其他实体页面的超链接是被指实体的表层形式。
http://en.wikipedia.org/wiki/Pam_Long
ii) 得到类别标记(category information)
列表页面的title是所有本页面的类别标记
实体页面中包含的类别标记
页面段落title
iii) 得到上下文(context)
实体页面
其他指向该实体页面的实体(互为上下文)
2.2.3.如何运用
a) 文档分析
把文档切分成句子;
判断句首单词是否是实体的一部分,如果不是首字母小写
把title中的非实体单词的大写字母化为小写
使用统计方法识别实体,判别实体边界
把一篇文章中的所有相同的表层形式分配一个类别(人名、地名、组织名、其他)
消除结构歧义(连接性歧义、所有格歧义、介词前置歧义)。
把短的表层形式转化为长的表层形。
b) 消岐组件
消岐处理使用向量空间模型。把分析文档得到的向量表示和实体页面的向量表示做比较。
令C={c1,…,cM}为维基页面中已知的上下文集合,T={t1,…,tN}是已知的类别标签的集合。一个实体可以用一个向量δe={0,1}M+N表示,δe由两部分组成δe|c∈{0,1}M,δe|t∈{0,1}N。
令ε(s)代表具有表层形式s的实体集合。D为文档,S(D)={s1,…,sn}是在文档D中标识的表层形式集合。我们建立文档的上下文向量d={d1,…,dm}∈NM,其中di是上下文ci出现的次数。建立扩增向量 。
目标是为表层形式分配实体。si|->ei,i=1,…,n。使实体的上下文和文档的上下文具有一致性,并且对文档中每对分配的实体的类别标记具有一致性。下面是公式:
注意:为一个表层形式分配的实体取决于其他被分配的所有实体,这样来说是一个复杂度很高、很困难的优化任务。另一个方案是考虑文档中所有表层形式的所有可能实体的类别标记。公式如下
上面公式可以重写为
与开始的公式相等。
因此,消岐分为两个步骤:
(1) 建立扩增文档向量
(2) 最大化上面公式
注意的是:并不对笛卡尔积做归一化处理(也就是不是计算余弦值)
Large-Scale Named Entity Disambiguation Based on Wikipedia Data的更多相关文章
- 大规模视觉识别挑战赛ILSVRC2015各团队结果和方法 Large Scale Visual Recognition Challenge 2015
Large Scale Visual Recognition Challenge 2015 (ILSVRC2015) Legend: Yellow background = winner in thi ...
- Introducing DataFrames in Apache Spark for Large Scale Data Science(中英双语)
文章标题 Introducing DataFrames in Apache Spark for Large Scale Data Science 一个用于大规模数据科学的API——DataFrame ...
- 论文笔记之:Large Scale Distributed Semi-Supervised Learning Using Streaming Approximation
Large Scale Distributed Semi-Supervised Learning Using Streaming Approximation Google 2016.10.06 官方 ...
- 快速高分辨率图像的立体匹配方法Effective large scale stereo matching
<Effective large scale stereo matching> In this paper we propose a novel approach to binocular ...
- Lessons learned developing a practical large scale machine learning system
原文:http://googleresearch.blogspot.jp/2010/04/lessons-learned-developing-practical.html Lessons learn ...
- 【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 17—Large Scale Machine Learning 大规模机器学习
Lecture17 Large Scale Machine Learning大规模机器学习 17.1 大型数据集的学习 Learning With Large Datasets 如果有一个低方差的模型 ...
- [C12] 大规模机器学习(Large Scale Machine Learning)
大规模机器学习(Large Scale Machine Learning) 大型数据集的学习(Learning With Large Datasets) 如果你回顾一下最近5年或10年的机器学习历史. ...
- Computer Vision_33_SIFT:Improving Bag-of-Features for Large Scale Image Search——2010
此部分是计算机视觉部分,主要侧重在底层特征提取,视频分析,跟踪,目标检测和识别方面等方面.对于自己不太熟悉的领域比如摄像机标定和立体视觉,仅仅列出上google上引用次数比较多的文献.有一些刚刚出版的 ...
- The Entity Framework provider type 'System.Data.Entity.SqlServer.SqlProviderServices, EntityFramework.SqlServer' registered in the application config file for the ADO.NET provider with invariant name
可以强迫部署EntityFramework.SqlServer.dll这个文件到输出目录 找到1个老外的帖子,戳这里(本人测试无效,大家有可能试一下..) 解决方案以下: 在EF的上下文代码CS文件( ...
随机推荐
- TNT平台
1, TNT平台 本词条缺少信息栏.名片图,补充相关内容使词条更完整,还能快速升级,赶紧来编辑吧! TNT平台中的开发平台是基于微软Jupiter平台的快速开发工具,开发者可以通过界面属性设定的方法来 ...
- python的装饰器
什么是python的装饰器? 网络上的定义: 装饰器就是一函数,用来包装函数的函数,用来修饰原函数,将其重新赋值给原来的标识符,并永久的丧失原函数的引用. 在google上搜索下python 装饰器 ...
- [POJ 3211] Washing Clothes (动态规划)
题目链接:http://poj.org/problem?id=3211 题意:有M件衣服,每种衣服有一种颜色,一共有N种颜色.现在两个人洗衣服,规则是必须把这一种颜色的衣服全部洗完才能去洗下一种颜色的 ...
- sqoop安装
环境:Hadoop 2.3.0 sqoop 1.4.5 1.下载并解压sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz (解压完,名字会很长,可以根据需要自己修改下 ...
- java枚举使用
1.开发中如何使用枚举,一般在开发中使用消息提示.枚举可以继承,实现接口等.public enum Result { SUCCESS(1,"201 ok") { @Override ...
- 在 angularjs 中集成 bootstrap typeahead
问题 在使用 typeahead 的时候,有这样一个需求,当用户选中其中一项的之后,将项目对应的 id 保存到另外一个变量中,以后在提交表单的时候,将这个 id 发送到服务器中. 但是,在 typea ...
- 让执行程序引用特定目录下的Dll
当写一个软件,特别是大型的软件,经常会引用一些第三方的类库,再加上一些自己的项目,如果这些Dll全都放在主目录下的话,会显得比较杂乱.我们希望将项目的类库分类成文件夹存放,这样才显得比较整洁. 解决方 ...
- 慕课网-安卓工程师初养成-1-1 Java简介
来源 http://www.imooc.com/video/1430 主要内容 Java平台应用 核心概念:JVM,JDK,JRE 搭建Java开发环境 使用工具开发安卓程序 经验技巧分享 Java历 ...
- redis学习(一)Redis应用场景
Redis开创了一种新的数据存储思路,使用Redis,我们不用在面对功能单调的数据库时,把精力放在如何把大象放进冰箱这样的问题上,而是利用Redis灵活多变的数据结构和数据操作,为不同的大象构建不同的 ...
- SQL模式匹配
标准的SQL的模式匹配允许你使用“_”匹配任何单个字符,而“%”匹配任意数目字符(包括零个字符).在 MySQL中,SQL的模式缺省是忽略大小写的.下面显示一些例子.注意在你使用SQL模式时,你不能使 ...