一摘要：

name entity disambiguation：将对应多个人的记录进行分组，使得每个组的记录对应一个人。
现有的方法多为批处理方式，需要将所有的记录输入给算法。
现实环境需要1：以oneline的方式解决这类问题

　　　　　　　　 2：能够处理新出现的ambiguous entities。

本文提出： Bayesian non-exhaustive classification framework。

　　用a Dirichlet process prior with a Normal × Normal × Inverse Wishart data model解决新的ambiguous entities。
　　用one sweep Gibbs sampler来解决oneline问题。

二简介：

　　name entity disambiguation在 information retrieval，digital forensic（数字取证）和social network analysis方面有广泛应用？？？？

information retrieval：
digital forensic（数字取证）：
social network analysis：

　　现有方法分类：

supervised和unsupervised
机器学习方法（svm，markov random field，graph clustering）
数据来源(内部的和外部的（wikipedia）)

　　上述方法的限制：

operate in a batch mode：算法获取所有的records，然后从这些records中提取features训练learning model。因此，它们不能处理新出现的ambigu entities。

当有新的ambigu entities出现时，重新运行一遍算法是不现实的。

　　本文方法：

　　采用机器学习的non-exhaustive learning（考虑到这样一种场景：training data缺失某一些classes，使得不但能够对现有的entities进行消歧，也可以对新出现的ambiguous entities进行消歧）。

　　given a non-exhaustive training data，

用Dirichlet process prior来建模both known and emerging class（已知的和将要出现的类），
用Normal distribution建模每一个class distribution。
用Normal×Inverse Wishart（NIW）prior来为每一个class distribution建模mean vectors和covariance matrices

　online：对于每一个新的record，计算类条件概率（同时考虑这个record由新class产生的可能性）。

　　　　当有新class出现时，就更新class set，然后用新的classification model来对记录进行分类。

　　本文的方法能够同时进行online classification和noval class discovery。

三 related work：

四问题形式化：

Xn是name reference a的records流。xi ∈ Xn可表示成d维的vector ，a实际对应着k个人， k一般未知，而且随着时间，k会增长。

name entities disambiguation：就是要将Xn分为k个不相交的set，每个set的records对应着同一个人。

online name entities disambiguation：为每一个新的records分到一个合适的set中。

　　面临的挑战

挑战1：出现新实体的records。所以一个学习模型需要在non-exhaustive的设定下工作（就是training data中有些类的records完全没有）。现有的解决方法：聚类，缺点：不够健壮，聚类参数的小改变可能会引起聚类结果的大改变。

挑战2：online name entities disambiguation是一个非常不均衡的classification task。早期出现的entity是domain entities，使得验证新的entities更加困难。

挑战3：在online learning scenario，新的records作为测试集的一部分，learning model需要判断此records是否属于新的class，如果属于新的class，model需要调整自己，使得模型能够验证新class的records。也就是更新classes，并能够将新的records分类到已有的class和新的class。

挑战4：在online setting下，records要按照时间进行排列，一个新的records不能用来训练模型预测旧的records。

五 entity disambiguation on bibliographic data：

为每一个name referende构造一个model，记录流Xn按照时间进行排序。利用author-list，kwywords from paper，paper venue这些信息，为每一篇paper 提取出features。

　　feature matrix construction and preprocess：

data matrix X_n ∈ IR_{n×d，每一个paper都有一个class label li，表示属于第i-th个不同的人。}

特征向量构造：

author information：将all-paper的作者聚集到一起，然后为每一个author定义一个binary feature representation。
keyword based features：首先过滤掉一些预先定义的stop words，然后用剩下的word构建feature。同样定义一个binary feature
publications venues：以同样的方式构建binary feature。

（预处理：维度规约）

Dimensionality reduction：因为Xn非常稀疏，用非负矩阵分解的方式将 X_n ∈ IR_{n×d映射到En ∈ IRn×h h是隐层的维度。}

首先在最初可用的记录上进行非负矩阵分解，产生base向量，然后在online环境下，对于新观测到的records用base vector的线性结合表示，base vector的系数作为新纪录的隐层特征值

那么如何学习系数呢？

解决一个带限制的二次编程问题，通过在系数非负的限制下最小化最小二乘损失函数。

用Incremental NNMF的目的：为新的记录发现隐层特征表示，来更好地拟合本文提出的Normal×Normal×Inverse Wishart（NNIW） data model。？？？？？

形式化online name disambiguation：

给定一个time-stamped partition t0，考虑两种类型的records，一种是 training set中最初可用的records（class标签已知），另一种是oneline环境下新观测到的records（class信息不明确）。

最初可用的records streams： En = {e1, ..., ei, ..., en}， e1.t ≤ ... ≤ ei.t ≤ ... ≤ en.t <=t0

Yn = (y1, ..., yi, ..., yn) 是class label vector，其中 yi ∈ {l1, .., lk} k是training set中的不同的类别数。

为区别初始的records和online observed records，用 ˜ei ∈ IR^1×h表示第i个observed的记录。用 E˜r = {e˜₁, ..., e˜_i, ..., e˜_r}表示时间t0之后的online observed records。即t0 ≤ e˜₁.t ≤ ... ≤ e˜_r.t.

随着新records的出现，当出现新的ambiguous authors时，k会变大，我们用Y˜r = (˜y1, ..., y˜i, ..., y˜r) 表示新记录的class information。其中 y˜_i ∈ {l₁, ..., l_k˜r+k } 其中 ˜k_r是新出现的class数。

六 Method:

Dirichlet Process Prior Model

Bayesian Non-Exhaustive Online Classification

Gibbs Sampler for Non-Exhaustive Learning

Data Model

七实验：

Bayesian Non-Exhaustive Classification A case study:online name disambiguation using temporal record streams的更多相关文章

Data Visualization – Banking Case Study Example (Part 1-6)
python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_camp ...
Deep Learning-Based Video Coding: A Review and A Case Study
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! 1.Abstract: 本文主要介绍的是2015年以来关于深度图像/视频编码的代表性工作,主要可以分为两类:深度编码方案以及基于传统编码方 ...
Case Study: Random Number Generation(翻译教材)
很荣幸,经过三天的努力.终于把自己翻译的教材做完了,现在把它贴出来,希望能指出其中的不足. Case Study: Random Number Generation Fig. 6.7 C++ 标 ...
课程三(Structuring Machine Learning Projects)，第一周（ML strategy（1）） —— 1.Machine learning Flight simulator:Bird recognition in the city of Peacetopia (case study)
[]To help you practice strategies for machine learning, the following exercise will present an in-de ...
Attacking JavaScript Engines: A case study of JavaScriptCore and CVE-2016-4622（转）
转:http://phrack.org/papers/attacking_javascript_engines.html Title : Attacking JavaScript Engines: A ...
【ASE模型组】Hint::neural 模型与case study
模型基于搜索的提示系统我们的系统用Pycee针对语法错误给出提示.然而,对于语法正确.结果错误的代码,我们需要另外的解决方式.因此,我们维护一些 (错误代码, 相应提示) 的数据,该数据可以由我们 ...
关于运维之故障复盘篇-Case Study
关于故障的事后复盘,英文名 Case Study是非常有必要做的,当然是根据故障的级别,不可能做到每个故障都Case Study,除非人员和时间充足: 文档能力也是能力的一种,一般工程师的文档能力比较 ...
李宏毅机器学习课程---2、Regression - Case Study
李宏毅机器学习课程---2.Regression - Case Study 一.总结一句话总结: 分类讨论可能是比较好的找最佳函数的方法:如果有这样的因素存在的话模型不够好,可能是因素没有找全 ...
你从未见过的Case Study写作指南
Case Study,意为案例分析,Case Study与其它的留学论文作业最大的的差别就在于Case Study在论文开始就需要明确给出论,然后再阐述这个结论的论证依据和理由.留学生们需要知道的是C ...

随机推荐

「洛谷P1231」教辅的组成解题报告
P1231 教辅的组成题目背景滚粗了的HansBug在收拾旧语文书,然而他发现了什么奇妙的东西. 题目描述蒟蒻HansBug在一本语文书里面发现了一本答案,然而他却明明记得这书应该还包含一份练习 ...
Oracle基础之保留字和关键字
Oracle基础之保留字和关键字在Oracle之中,有分为保留字和关键字,所谓关键字就是Oracle中有实际意义的,而保留字(比如DESC.ORDER等等)是Oracle中不能随便使用的,比如不能随 ...
人群密度检测MCNN+CSRnet
MCNN(简单理解): 三列卷积神经网络,分别为大中小三种不同尺度的卷积核,表示为L列(使用大尺度卷积核: 9*9, 7*7, 7*7,7*7), M(使用中等尺度卷积核: 7*7, 5*5, 5*5 ...
Android学习进度二
在最新的Android开发中,Google已经使用了新的开发技术,即使用Jectpack来开发App.所以今天我主要学习了这方面的知识. Jetpack 是一套库.工具和指南,可帮助开发者更轻松地编写 ...
MapGIS文件如何压缩存盘
经过多次编辑修改的MapGIS数据,含有大量逻辑上已删除的节点或图元,数据冗余复杂, 在转换过程前应注意一定要采用压缩存盘方式处理,目的是确保编辑状态已删除的数据真正从物理存储层删除,以确保数据的精简 ...
dp-(LCS 基因匹配)
Human Gene Functions Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 19885 Accepted: ...
http GET 和 POST 请求的优缺点和误区 --前端优化
Get和Post在面试中一般都会问到,一般的区别:(1)post更安全(不会作为url的一部分,不会被缓存.保存在服务器日志.以及浏览器浏览记录中)(2)post发送的数据更大(get有url长度限制 ...
在 ASP.NET Core 程序启动前运行你的代码
一.前言在进行 Web 项目开发的过程中,可能会存在一些需要经常访问的静态数据,针对这种在程序运行过程中可能几乎不会发生变化的数据,我们可以尝试在程序运行前写入到缓存中,这样在系统后续使用时就可以直 ...
去除空白字符串trim
let str = ' foo ' //去除开头空格 console.log(str.trimLeft()) console.log(str.trimStart()) //去除尾部空格 console ...
整理OD一些快捷键和零碎知识点
第一次记录:2019.9.15 完成了近期基本知识点的记录第二次记录:2019.9.16 更新VB和的Delphi的汇编代码特点介绍几个快捷键: Alt+B 断点编辑器,空格键可切换断点状态 ct ...

Bayesian Non-Exhaustive Classification A case study:online name disambiguation using temporal record streams

一 摘要：

二 简介：

name entity disambiguation在 information retrieval，digital forensic（数字取证）和social network analysis方面有广泛应用 ？？？？

现有方法分类：

上述方法的限制：

本文方法：

本文的方法能够同时进行online classification和noval class discovery。

三 related work：

四 问题形式化：

面临的挑战

五 entity disambiguation on bibliographic data：

feature matrix construction and preprocess：

六 Method:

Dirichlet Process Prior Model

Bayesian Non-Exhaustive Online Classification

Gibbs Sampler for Non-Exhaustive Learning

Data Model

七 实验：

Bayesian Non-Exhaustive Classification A case study:online name disambiguation using temporal record streams的更多相关文章

随机推荐

热门专题

一摘要：

二简介：

　　name entity disambiguation在 information retrieval，digital forensic（数字取证）和social network analysis方面有广泛应用？？？？

　　现有方法分类：

　　上述方法的限制：

　　本文方法：

　　本文的方法能够同时进行online classification和noval class discovery。

四问题形式化：

　　面临的挑战

　　feature matrix construction and preprocess：

七实验：