Information Cartography
作者:Dafna Shahaf
会议:ACM 2015.
研究大背景:自动化地从很大数据集中提取结构化的知识变得越来越难。在本篇文章中,我们将探索我们在文献中(25,26,27)中创立的方法来自动提取信息的“地铁地图”(metro maps)。
问题1: 什么是信息的地铁地图? 这是一个隐喻,信息就像地铁一样用直线表示,每一条线代表着一个故事;多条线可以代表多个故事,也可以代表一个故事从不同的方面来叙述。而每一个停站点,代表着文档集群。
问题2: 一个好的信息地铁图有哪些标准?很难说,但是想象以下,在实体世界,怎样的地铁规划算好呢? 尽可能的以较少的线路覆盖尽可能多的地点 --- 多样性(多个线路尽可能多的包含最重要的主题); 每一条线路都要尽可能有连贯性有意义(比如,地铁1号线主要是连接高铁站,机场,起着交通枢纽的作用;地铁2号线主要连接市区到市区,起着通勤日常起居作用)---- 每一条上的信息要有故事的连贯性; 线路跟线路之间要有合理的换乘站 ------ 故事与故事之间的关系和联系。
相关工作
虽然目前,在主题探测,摘要跟踪,时间文档挖掘等方向有大量的研究,但是自动构建地图目前为止是很新颖。我们与之前的研究不同之点在于:
1. 首先,我们的输出是结构化的 - 它不仅展示了信息的结构块,并且还展现了它们之间的联系。在摘要任务上(参考2,20,22),目标通常是通过列出一列表的句子来总结语料库。其他的方法(参考18,31,30)旨在发现新的事件。
也有很多尝试不仅仅限于列表的信息检索上的努力,而是尝试展示更丰富的信息界面,包括不同概念层次上的故事线(参考1,2,28,29);新闻分析的图形展示也很常见(参考10,14,17,19);同时也有考虑路径层面上的线的相关性的方法(参考5,6),但是它们没有考虑到文档的顺序。已有多个总结和可视化的文献和工具(参考4)。不像我们的系统,参考12,16中,使用单一的概念作为分析的单元,也就是粒度太精细了不太适合专家用。参考8,13中的可视化工具粒度与我们类似,但是他们关注与引用和共同引用。
最后,引用地铁的隐喻也曾经被引用过(参考文献21),但是这个地图是手动的,而不是自动生成的。
找到一个好地图
我们先形式化好的地图的一些特征, 然后阐述它们的构造作为优化问题。然后我们提供一些方法来构造这些地图。然后解释如何将这个概念应用到其它领域。
-------------------
目标函数
目标函数不明确。但是我们可以给出我们的问题定义:给定一个文档集,我们想要计算出总结和组织文档的地图。在这个地图里:
1. 由多条线组成,每条线都有站的顺序,
2. 每一站都是文档的集合/集群,
3. 每一条线都有自己的“主人公”的故事,并且线与线来自不同的方面,
4. “换乘站”表示主题与主题之间的联系
那么,要求我们可以知道:
要求一: 连贯性. 每一条故事要讲述一个故事/主题。为了方便描述,我们这里用一个文档表示一个站,评价是否连贯性通常来说,就是计算这两个文档的相似度/距离。因为每条链都有很多个连接点,那么我们评价这条链的连贯性,就是看最差的那个节点。(如图:上传不了。博客园服务器不是一般的垃圾,见链接吧:https://cacm.acm.org/magazines/2015/11/193323-information-cartography/fulltext) 如图2.我们可以发现,链条A中单词时而出现,时而消失然后再出现。而链条B中单词的持续性更长。由此,我们可以看出连贯性的定义。
我们把问题转换成线性规划优化问题,目标是选择一小组单词集,然后根据这个单词集进行评分。为了确保每个每个过渡的强度,链条的分数就是最弱的链接的分数(见参考文献24)。一条单独的链条的分数可能依赖于domain。在参考(文献26)中,我们展现了如何仅根据文档内容,来计算得分。在参考(文献25)中,我们展现了如何利用文章间的连接。
要求二:覆盖性. 覆盖性也就是多样性的同义词。一个高覆盖率的地图可以涵盖很多重要的单词。
问题转化为计算一个覆盖函数 , 来计算每个文档覆盖所有元素的程度好坏。同样的思路,我们可以将它扩展为一系列覆盖函数,来计算一群文档覆盖元素的好坏。 为了鼓励多样性,这个函数应该是子模块化。想想一下,如果一个地图已经很好的覆盖了一些元素,这时候再增加一个同样很好地覆盖了元素的文档,此时结果并不会有多少提升。这很少的提升会促使我们去选择那些覆盖了新的主题的文档(类似边际效用递减原则)。 接下来,我们引入了每个元素的权重概念,表明每个元素的重要程度。这个重要程度会因人而异,所以我们在(文献26)一文中,讨论了从用户反馈来调整参数,这也就引入了“个性化覆盖”的概念。
要求三:联结性. 不同的故事有着不同的结构,有些故事是简单的线性,而有些故事就复杂得多。为了捕捉故事的结构,我们仅仅计算出最少线路,来覆盖尽可能多的站。直观来看,我们的目标是,计算出尽可能长的线。
-------------------
总结以上我们讨论的来看,现在给出地铁图的标准目的:
必须满足:O1 高覆盖性
O2 结构高质量
受到的约束: C1 最小的线连贯性
C2 最小聚类质量
C3 最大地图大小
算法的标准描述和优化,请看"nformation cartography : Creating zoomable, large-scale maps of information"
算法:
step1:根据查询计算出一个文档集合
step2:把文章分类成时间窗口,然后通过在word coocurrence graph上使用“COMMUNITY DETECTION算法”来为每个时间窗计算出好的聚类(约束2)(详见文献3)。 这些聚类就被视作站。
step3:一旦我们有了集群,我们就可以计算连贯的线(约束1)。
step4:编码了所有的连贯性的线后,我们确定故事的结构,优化联结性(目标2),然后尽可能的选择更长的线。
step5:根据用户,选择合适的地图大小(目标1和约束3)。
算法一览图如下:
-----------------------
复杂性和运行时间
给定一个查询和一系列文档,我们首先运行一个线性时间的算法 - 把文档集合D编译成一系列的单词出现图(翻译不准确,目前我不懂这个词)。 图的大小并不取决于集合D的大小,而取决于单词总量W(参考文献2 和 3)。 而我们最大的瓶颈是覆盖这个福州,因为复杂度是W数量的高次数多项式。一个平行的实施和简单的评估可以实现近似的情况下大大的加速。在实际执行时,我们系统运行1万个文档可以在不到1分钟的时间内完成。
-----------------------
参数
约束的C1-C3都需要手动调整,并且另一个参数也需要调整,那就是m,也就是用户的“历史窗口”大小/原先的线上用户能够记住的文章数量
应用
主要有四个应用领域:新闻、科学、法律文件、书籍
--------------
新闻
一、使用方法
我们使用上面的算法来计算有关新闻事件的新闻,然后集合多个数据集,包含了十万个帖子。系统演示请见:http://metromaps.stanford.edu/
二、评估
不好评估,一般使用外包
--------------
科学研究
目的是为了帮助新进入该领域的人最快的掌握研究动向(新的研究生之类,例如我)
一、方法
我们的数据集包括了超过3w5k个ACM会议和杂志的paper。与新闻不同的是,论文不能交叉。此时,我们稍微调整了下算法,把换乘站改成了引用。
二、评估
--------------
剩下两个应用与我的研究无关,因此略去。
使用地图
结论
下一篇:
connecting the dots between news articles". Shahaf.D. SIGKDD. 2010
参考:https://cacm.acm.org/magazines/2015/11/193323-information-cartography/fulltext
文献1:"Unfield analysis of streaming news". Ahmed.A. WWW.2011
文献2: "Termporal summaries of new topics". Allan. J . ACM SIGIR. 2001
文献4:"VIsualizing what we know". Borner.K. MIT. 2010
文献5:"Creation of a highly detailed, dynamic, global model and map of science." Boyack.W.W AIST.2014
文献6:"Mapping of science by combined co-citation and word analysis." Braam.R.R AIST.1999
文献8:"Detecting and visualizing emerging trends and transient patterns in scientific literature." Chen.C AIST.2006
文献10:"Fast discovery of connection subgraphs" Faloutsos. SIGKDD. 2004
文献12:"Exploring the computing literature with visualization and stepping stones and pathways." Fox.E.A. ACM.2006
文献13:
文献14:"Discovering diverse and salient threds in document collections". Gillenwater. 2012
文献16:"Connecting the dots between PubMed abstracts." Hossain. 2012.
文献17:"The web of topics: discovering the topology of topic evolution in a corpus". Jo. 2011
文献19:"Event threading within news topics". Nallapati.R. ACM.2004
文献18: "Bursty and hierarchical structure in steams". Kleinberg. J. DMKD.2003
文献20:"A survey of text summarization techiques". Nenkova.A. 2012
文献21:"Getting to more abstract places using the metro map metaphor". Nesbitt. IEEE.2004.
文献22:"Summarizing online news topics". Radev.D. ACM 2005
文献24: "connecting the dots between news articles". Shahaf.D. SIGKDD. 2010 ( 24)
文献25: "metro maps of science". SIGKDD.2012 Shahaf. D (25)
文献26: "Trains of thought: Generating information maps." WWW. 2012. Shahaf.D (26)
文献27: "Information cartography : Creating zoomable, large-scale maps of information" . SIGKDD. 2013. Shahaf.D (27)
文献28:"TimeMines: Constructing timelines with statistical models of word usage". Swan.R SIGKDD. 2000
文献29:"Evolutionary timeline summarization: A balanced optimization framework via iterative substitution" Yan.R SIGIR. 2011.
文献30: "Improving text categorization methods for event tracking." Yang.Y. SIGIR. 2000
文献31:"Learning approaches for detecting and tracking news event." Yang.Y IEEE. 1999
Information Cartography的更多相关文章
- 用信息值进行特征选择(Information Value)
Posted by c cm on January 3, 2014 特征选择(feature selection)或者变量选择(variable selection)是在建模之前的重要一步.数据接口越 ...
- iOS之使用模拟器报错:resource fork, Finder information, or similar detritus not allowed
很奇怪的问题,使用真机测试没有问题.但使用模拟器测试的时候就会报这样的错误,错误类型为:Code Sign Error 错误提示是这样:resource fork, Finder informatio ...
- Information Management Policy(信息管理策略)的使用范例
基础知识 很多人都会定期收拾自己的书架或者抽屉,把里面过旧的资料拿走,为新的资料腾出空间来,这样既可以节省空间,而且当冗余资料过多的时候也会降低你查找的速度和效率.那么,在企业的SharePoint中 ...
- Android Studio安装以及Fetching android sdk component information超时的解决方案
转载:http://www.cnblogs.com/sonyi/p/4154797.html 在经过两年的开发之本后,Google 公司终于发布了 Android Studio 1.0,喜欢折腾的童鞋 ...
- iOS Xcode, 解决“Could not insert new outlet connection: Could not find any information for the class named”的问题。
在Xcode中,我们可以在StoryBoard编辑界面或者是xib编辑界面中通过“Control键+拖拽“的方式将某个界面元素和对应的代码文件连接起来,在代码文件中创建outlet. 不过,如果你的运 ...
- ORA-00824: cannot set sga_target due to existing internal settings, see alert log for more information
这篇文章是上篇文章”Expdp 导数错误 ORA-00832”的延续,前几天工作比较忙.累,直到今天才整理发出来.这个数据库实例的参数设置比较诡异其实是有原因的,由于这台数据库服务器系统是32位,数据 ...
- MS SQL Could not obtain information about Windows NT group/user 'domain\login', error code 0x5. [SQLSTATE 42000] (Error 15404)
最近碰到一个有趣的错误:海外的一台数据库服务器上某些作业偶尔会报错,报错信息如下所示: -------------------------------------------------------- ...
- MS SQL错误:SQL Server failed with error code 0xc0000000 to spawn a thread to process a new login or connection. Check the SQL Server error log and the Windows event logs for information about possible related problems
早晨宁波那边的IT人员打电话告知数据库无法访问了.其实我在早晨也发现Ignite监控下的宁波的数据库服务器出现了异常,但是当时正在检查查看其它服务器发过来的各类邮件,还没等到我去确认具体情 ...
- Could not obtain information about Windows NT group/user 'xxxx\xxxx', error code 0x5
案例描述 昨晚踢球回来,接到电话说一个系统的几个比较重要作业出错,导致系统数据有些问题.让我赶紧检查看看.检查作业日志时发现,作业报如下错误(关键信息用xxx替换) The job failed. ...
随机推荐
- xhEditor编辑器从word粘贴公式
我司需要做一个需求,就是使用富文本编辑器时,不要以上传附件的形式上传图片,而是以复制粘贴的形式上传图片. 在网上找了一下,有一个插件支持这个功能. WordPaster 安装方式如下: 直接使用Wor ...
- 窗口看门狗 WWDG
一,窗口看门狗 二,喂狗注意事项 三,程序设计 1.检查复位状态,有助于观察当前工作的可靠性 /* Check if the system has resumed from WWDG reset ,检 ...
- ElasticSearch数据导入By Postman
样例数据 为了更好的使用和理解ES,没有点样例数据还是不好模拟的.这里提供了一份官网上的数据,accounts.json.如果需要的话,也可以去这个网址玩玩,它可以帮助你自定义写随机的JSON数据. ...
- Microsoft.Jet.OLEDB.4.0读取EXCEL数据
用Microsoft.Jet.OLEDB.4.0读取EXCEL数据的代码是这样的: string ConnStr="Provider=Microsoft.Jet.OLEDB.4.0; ...
- 第三章 基本的bash shell命令
1.硬链接:等同于引用了原文件,并未产生新的文件,不同的硬链接共用一个inode 2.符号链接:创建的是一个新文件,新文件指向原文件,因为是不同的文件,所以有不同的inode
- Bzoj 1566: [NOI2009]管道取珠(DP)
1566: [NOI2009]管道取珠 Time Limit: 20 Sec Memory Limit: 650 MB Submit: 1558 Solved: 890 [Submit][Status ...
- centos7 安装python3.7.1
centos7自带python2,由于执行yum需要python2,所以即使安装了python3也不能删除python21.安装依赖包yum -y groupinstall "Develop ...
- NetworkX系列教程(2)-graph生成器
小书匠Graph图论 本节主要讲解如何快速使用内置的方法生成graph,官方的文档在这里,里面包含了networkX的所有graph生成器,下面的内容只是我节选的内容,并将graph画出来而已. 声明 ...
- python对象调用父类的方法
#类定义 class People: #定义基本属性 name = '' age = 0 #定义私有属性,私有属性在类外部无法直接进行访问 __weight = 0 #定义构造方法 def __ini ...
- idhttp访问DATASNAP有密码验证的中间件
idhttp访问DATASNAP有密码验证的中间件 用TIDHttp访问DataSnap Rest服务器,在服务器采用了用户验证的情况下,客户端需要提交密码,否则不能正常连接. procedure T ...