作者:Dafna Shahaf

会议:ACM 2015.


    研究大背景:自动化地从很大数据集中提取结构化的知识变得越来越难。在本篇文章中,我们将探索我们在文献中(25,26,27)中创立的方法来自动提取信息的“地铁地图”(metro maps)。 

问题1: 什么是信息的地铁地图? 这是一个隐喻,信息就像地铁一样用直线表示,每一条线代表着一个故事;多条线可以代表多个故事,也可以代表一个故事从不同的方面来叙述。而每一个停站点,代表着文档集群。

  问题2: 一个好的信息地铁图有哪些标准?很难说,但是想象以下,在实体世界,怎样的地铁规划算好呢?  尽可能的以较少的线路覆盖尽可能多的地点 ---  多样性(多个线路尽可能多的包含最重要的主题); 每一条线路都要尽可能有连贯性有意义(比如,地铁1号线主要是连接高铁站,机场,起着交通枢纽的作用;地铁2号线主要连接市区到市区,起着通勤日常起居作用)----  每一条上的信息要有故事的连贯性; 线路跟线路之间要有合理的换乘站   ------  故事与故事之间的关系和联系。


相关工作

  虽然目前,在主题探测,摘要跟踪,时间文档挖掘等方向有大量的研究,但是自动构建地图目前为止是很新颖。我们与之前的研究不同之点在于:  

  1. 首先,我们的输出是结构化的 - 它不仅展示了信息的结构块,并且还展现了它们之间的联系。在摘要任务上(参考2,20,22),目标通常是通过列出一列表的句子来总结语料库。其他的方法(参考18,31,30)旨在发现新的事件。

    也有很多尝试不仅仅限于列表的信息检索上的努力,而是尝试展示更丰富的信息界面,包括不同概念层次上的故事线(参考1,2,28,29);新闻分析的图形展示也很常见(参考10,14,17,19);同时也有考虑路径层面上的线的相关性的方法(参考5,6),但是它们没有考虑到文档的顺序。已有多个总结和可视化的文献和工具(参考4)。不像我们的系统,参考12,16中,使用单一的概念作为分析的单元,也就是粒度太精细了不太适合专家用。参考8,13中的可视化工具粒度与我们类似,但是他们关注与引用和共同引用。

  最后,引用地铁的隐喻也曾经被引用过(参考文献21),但是这个地图是手动的,而不是自动生成的。


找到一个好地图

  我们先形式化好的地图的一些特征, 然后阐述它们的构造作为优化问题。然后我们提供一些方法来构造这些地图。然后解释如何将这个概念应用到其它领域。

-------------------

目标函数

目标函数不明确。但是我们可以给出我们的问题定义:给定一个文档集,我们想要计算出总结和组织文档的地图。在这个地图里:

      1. 由多条线组成,每条线都有站的顺序,

        2. 每一站都是文档的集合/集群,

      3. 每一条线都有自己的“主人公”的故事,并且线与线来自不同的方面,

      4. “换乘站”表示主题与主题之间的联系 

那么,要求我们可以知道:

  要求一: 连贯性. 每一条故事要讲述一个故事/主题。为了方便描述,我们这里用一个文档表示一个站,评价是否连贯性通常来说,就是计算这两个文档的相似度/距离。因为每条链都有很多个连接点,那么我们评价这条链的连贯性,就是看最差的那个节点。(如图:上传不了。博客园服务器不是一般的垃圾,见链接吧:https://cacm.acm.org/magazines/2015/11/193323-information-cartography/fulltext) 如图2.我们可以发现,链条A中单词时而出现,时而消失然后再出现。而链条B中单词的持续性更长。由此,我们可以看出连贯性的定义。

   我们把问题转换成线性规划优化问题,目标是选择一小组单词集,然后根据这个单词集进行评分。为了确保每个每个过渡的强度,链条的分数就是最弱的链接的分数(见参考文献24)。一条单独的链条的分数可能依赖于domain。在参考(文献26)中,我们展现了如何仅根据文档内容,来计算得分。在参考(文献25)中,我们展现了如何利用文章间的连接。

要求二:覆盖性.  覆盖性也就是多样性的同义词。一个高覆盖率的地图可以涵盖很多重要的单词。  

    问题转化为计算一个覆盖函数 , 来计算每个文档覆盖所有元素的程度好坏。同样的思路,我们可以将它扩展为一系列覆盖函数,来计算一群文档覆盖元素的好坏。 为了鼓励多样性,这个函数应该是子模块化。想想一下,如果一个地图已经很好的覆盖了一些元素,这时候再增加一个同样很好地覆盖了元素的文档,此时结果并不会有多少提升。这很少的提升会促使我们去选择那些覆盖了新的主题的文档(类似边际效用递减原则)。 接下来,我们引入了每个元素的权重概念,表明每个元素的重要程度。这个重要程度会因人而异,所以我们在(文献26)一文中,讨论了从用户反馈来调整参数,这也就引入了“个性化覆盖”的概念。

要求三:联结性. 不同的故事有着不同的结构,有些故事是简单的线性,而有些故事就复杂得多。为了捕捉故事的结构,我们仅仅计算出最少线路,来覆盖尽可能多的站。直观来看,我们的目标是,计算出尽可能长的线。
-------------------

  总结以上我们讨论的来看,现在给出地铁图的标准目的:

     必须满足:O1  高覆盖性

          O2  结构高质量

    受到的约束: C1 最小的线连贯性

           C2 最小聚类质量

           C3 最大地图大小

算法的标准描述和优化,请看"nformation cartography : Creating zoomable, large-scale maps of information"


算法:

     step1:根据查询计算出一个文档集合

   step2:把文章分类成时间窗口,然后通过在word coocurrence graph上使用“COMMUNITY DETECTION算法”来为每个时间窗计算出好的聚类(约束2)(详见文献3)。 这些聚类就被视作站。

     step3:一旦我们有了集群,我们就可以计算连贯的线(约束1)。

       step4:编码了所有的连贯性的线后,我们确定故事的结构,优化联结性(目标2),然后尽可能的选择更长的线。

     step5:根据用户,选择合适的地图大小(目标1和约束3)。

    算法一览图如下:

    

  

      

-----------------------

复杂性和运行时间

    给定一个查询和一系列文档,我们首先运行一个线性时间的算法 - 把文档集合D编译成一系列的单词出现图(翻译不准确,目前我不懂这个词)。 图的大小并不取决于集合D的大小,而取决于单词总量W(参考文献2 和 3)。 而我们最大的瓶颈是覆盖这个福州,因为复杂度是W数量的高次数多项式。一个平行的实施和简单的评估可以实现近似的情况下大大的加速。在实际执行时,我们系统运行1万个文档可以在不到1分钟的时间内完成。

-----------------------

参数

   约束的C1-C3都需要手动调整,并且另一个参数也需要调整,那就是m,也就是用户的“历史窗口”大小/原先的线上用户能够记住的文章数量


应用 

  主要有四个应用领域:新闻、科学、法律文件、书籍

--------------

新闻   

 一、使用方法

  我们使用上面的算法来计算有关新闻事件的新闻,然后集合多个数据集,包含了十万个帖子。系统演示请见:http://metromaps.stanford.edu/

 二、评估

  不好评估,一般使用外包

--------------

科学研究

  目的是为了帮助新进入该领域的人最快的掌握研究动向(新的研究生之类,例如我)

一、方法

  我们的数据集包括了超过3w5k个ACM会议和杂志的paper。与新闻不同的是,论文不能交叉。此时,我们稍微调整了下算法,把换乘站改成了引用。

 二、评估

--------------

剩下两个应用与我的研究无关,因此略去。


使用地图


结论

下一篇:

    connecting the dots between news articles". Shahaf.D. SIGKDD. 2010

参考:https://cacm.acm.org/magazines/2015/11/193323-information-cartography/fulltext

文献1:"Unfield analysis of streaming news". Ahmed.A. WWW.2011

文献2: "Termporal summaries of new topics". Allan. J . ACM SIGIR. 2001

文献4:"VIsualizing what we know". Borner.K. MIT. 2010

文献5:"Creation of a highly detailed, dynamic, global model and map of science." Boyack.W.W AIST.2014

文献6:"Mapping of science by combined co-citation and word analysis." Braam.R.R AIST.1999

文献8:"Detecting and visualizing emerging trends and transient patterns in scientific literature." Chen.C AIST.2006

文献10:"Fast discovery of connection subgraphs" Faloutsos. SIGKDD. 2004

文献12:"Exploring the computing literature with visualization and stepping stones and pathways." Fox.E.A. ACM.2006

文献13:

文献14:"Discovering diverse and salient threds in document collections". Gillenwater. 2012

文献16:"Connecting the dots between PubMed abstracts." Hossain. 2012.

文献17:"The web of topics: discovering the topology of topic evolution in a corpus". Jo. 2011

文献19:"Event threading within news topics". Nallapati.R. ACM.2004

文献18: "Bursty and hierarchical structure in steams". Kleinberg. J. DMKD.2003

文献20:"A survey of text summarization techiques". Nenkova.A.  2012

文献21:"Getting to more abstract places using the metro map metaphor". Nesbitt. IEEE.2004.

文献22:"Summarizing online news topics". Radev.D. ACM 2005

文献24: "connecting the dots between news articles". Shahaf.D. SIGKDD. 2010   ( 24)

文献25:  "metro maps of science". SIGKDD.2012 Shahaf. D     (25)

文献26: "Trains of thought: Generating information maps." WWW. 2012. Shahaf.D   (26)

文献27: "Information cartography : Creating zoomable, large-scale maps of information" . SIGKDD. 2013. Shahaf.D   (27)

文献28:"TimeMines: Constructing timelines with statistical models of word usage". Swan.R SIGKDD. 2000

文献29:"Evolutionary timeline summarization: A balanced optimization framework via iterative substitution" Yan.R SIGIR. 2011.

文献30:  "Improving text categorization methods for event tracking." Yang.Y. SIGIR. 2000

文献31:"Learning approaches for detecting and tracking news event." Yang.Y IEEE. 1999

Information Cartography的更多相关文章

  1. 用信息值进行特征选择(Information Value)

    Posted by c cm on January 3, 2014 特征选择(feature selection)或者变量选择(variable selection)是在建模之前的重要一步.数据接口越 ...

  2. iOS之使用模拟器报错:resource fork, Finder information, or similar detritus not allowed

    很奇怪的问题,使用真机测试没有问题.但使用模拟器测试的时候就会报这样的错误,错误类型为:Code Sign Error 错误提示是这样:resource fork, Finder informatio ...

  3. Information Management Policy(信息管理策略)的使用范例

    基础知识 很多人都会定期收拾自己的书架或者抽屉,把里面过旧的资料拿走,为新的资料腾出空间来,这样既可以节省空间,而且当冗余资料过多的时候也会降低你查找的速度和效率.那么,在企业的SharePoint中 ...

  4. Android Studio安装以及Fetching android sdk component information超时的解决方案

    转载:http://www.cnblogs.com/sonyi/p/4154797.html 在经过两年的开发之本后,Google 公司终于发布了 Android Studio 1.0,喜欢折腾的童鞋 ...

  5. iOS Xcode, 解决“Could not insert new outlet connection: Could not find any information for the class named”的问题。

    在Xcode中,我们可以在StoryBoard编辑界面或者是xib编辑界面中通过“Control键+拖拽“的方式将某个界面元素和对应的代码文件连接起来,在代码文件中创建outlet. 不过,如果你的运 ...

  6. ORA-00824: cannot set sga_target due to existing internal settings, see alert log for more information

    这篇文章是上篇文章”Expdp 导数错误 ORA-00832”的延续,前几天工作比较忙.累,直到今天才整理发出来.这个数据库实例的参数设置比较诡异其实是有原因的,由于这台数据库服务器系统是32位,数据 ...

  7. MS SQL Could not obtain information about Windows NT group/user 'domain\login', error code 0x5. [SQLSTATE 42000] (Error 15404)

    最近碰到一个有趣的错误:海外的一台数据库服务器上某些作业偶尔会报错,报错信息如下所示: -------------------------------------------------------- ...

  8. MS SQL错误:SQL Server failed with error code 0xc0000000 to spawn a thread to process a new login or connection. Check the SQL Server error log and the Windows event logs for information about possible related problems

          早晨宁波那边的IT人员打电话告知数据库无法访问了.其实我在早晨也发现Ignite监控下的宁波的数据库服务器出现了异常,但是当时正在检查查看其它服务器发过来的各类邮件,还没等到我去确认具体情 ...

  9. Could not obtain information about Windows NT group/user 'xxxx\xxxx', error code 0x5

    案例描述 昨晚踢球回来,接到电话说一个系统的几个比较重要作业出错,导致系统数据有些问题.让我赶紧检查看看.检查作业日志时发现,作业报如下错误(关键信息用xxx替换) The job failed.  ...

随机推荐

  1. 1820:【00NOIP提高组】进制转换

    #include<bits/stdc++.h>//十分简单(滑稽)的一道模拟题 using namespace std; ]={'A','B','C','D','E','F','G','H ...

  2. 开启php的PDO扩展,mysql扩展

    打开php.ini配置文件,找到extension=php_pdo.dll 和 extension=php_pdo_mysql.dll ,去掉前面“;”的注释,修改后的两行配置内容如下: extens ...

  3. Java Heap dump文件分析工具jhat简介

    jhat 是Java堆分析工具(Java heap Analyzes Tool). 在JDK6u7之后成为标配. 使用该命令需要有一定的Java开发经验,官方不对此工具提供技术支持和客户服务. 用法: ...

  4. Js 之cookie插件(jquery.cookie.js)

    一.代码 (function (factory) { if (typeof define === 'function' && define.amd) { // AMD define([ ...

  5. [APIO2018]铁人两项——圆方树+树形DP

    题目链接: [APIO2018]铁人两项 对于点双连通分量有一个性质:在同一个点双里的三个点$a,b,c$,一定存在一条从$a$到$c$的路径经过$b$且经过的点只被经过一次. 那么我们建出原图的圆方 ...

  6. vue点击父组件里面的列表动态传值到子组件

    <template> <div> 爸爸 <div style="background-color:yellow;margin-top:10px" v- ...

  7. 在被open(url)打开的子页面往父页面传值时候这样

    function fnqd(zj,rwmc){ window.parent.opener.document.getElementById("jcrwModel_sjrwzj").v ...

  8. 【hadoop环境问题】namenode无法启动问题解决

    [问题背景] 要在自己的阿里云上搭伪分布式,用来复习和强化hive相关的知识,在执行脚本 sh start-dfs.sh后,jps后: 然后查看name的日志,报错如下: [解决方法] 网上的很多方法 ...

  9. 解析复杂的嵌套数据结构-jsonpath

    JsonPath是一种简单的方法来提取给定JSON文档的部分内容. JsonPath有许多编程语言,如Javascript,Python和PHP,Java. JsonPath提供的json解析非常强大 ...

  10. 常见ETL工具一览

    这些年,几乎都与ETL打交道,接触过多种ETL工具.现将这些工具做个整理,与大家分享. 一 ETL工具[国外] 1. datastage点评:最专业的ETL工具,价格不菲,使用难度一般 下载地址:ft ...