Evaluating Automatically Generated timelines from the Web (paper1)
摘要:
问题:There is a need that 以一个更全面/更综合的方式来展现搜索结果。对此,作者正在开发一个系统,called “Cronopath”,这个系统将产生一个时间线,通过决定每个文档中的时间帧,并且连接时间线上的元素到相应的文档中。 本文,作者提出了评估自动生成时间线的质量的指南,基于一系列的共同特征。
引言:
Cronopath System
我们已经开发出了自动生成时间线的系统(参考“Timeline Extraction from Hyperlinked Text Corpora”,不可见, 收费),接下来我们要做的就是设计出一套标准/指南,来评估自动生成的时间线。
通过观察现有的时间线,我们发现手动创建的时间线都有一系列的特征,而这些特征正好可以作为评估的标准。 我们假设时间线是从一个支持的文档的数据集中产生的,这些文档首先被处理以提取命名实体和一系列的时间戳以及之间的关系。 接着,每个文档被处理以识别一个时间范围来缩短文件可能创立的时间,结合“时间表达式分析”技术(参考“TIDES 2005 Standard for the Annotation of Temporal Expressions”)和“文本的时间分类”技术(参考“Temporal Classification of Texts”)。 同时,“多文档的摘要技术”也是需要的,用来提取/生成相关的句子来作为时间线每段时间的标签。
接下来,我们将讨论时间线的特征/组成:
1. 什么是Timeline, 如图1所示。
2. 什么是TimeFrame: 时间线里的时间间隔,例如,图1中的 1957-1974是一个timeframe,1975-1979,1980-1984,这都是timeframe
3. 什么是Label:每一个timeframe的内容摘要。
重要的特征:
1. Accuracy: a. 每一个相关的文档都被包含在时间帧里面, b. 时间线包含正确的文本标签, c. 时间线包含文档中最重要的方面/事实
2. presentation. 表现形式,是以图形显示,还是以时间轴显示,显示的帧数,单位大小等等
Evaluation Guideline
一. ACCURACY
1. Is Timeframe for each timeline dcoument correct?
评估的方法很直观:: 检查每一个timeframe链接的文档中,是否列举了该时间点,例如1956-1974所对应的文档中,应该出现1956,1957,1958.....1974。(问题,如果只有起始点跟终止点呢? 比如 : 1956: Sb entered the high school. 1959: Sb graduated from the high school. )
2. Does the timeline label reflect the document that it represent?
一个很普通的做法是: 直接在文档中搜索这个label --- 通常效果不太好
还可以就是,通过document重新计算出summary, 然后将summary与label进行对比 ----uncessarily complex
作者提出,寻找n-grams(参考 "An introduction to information Extraction") 从label中。理论上,label会跟documents有重叠的内容。 可以通过调整权制,n越大,N-gram的值越高。这需要创建一个手动的算法。
3. 时间线包含了文档最重要的内容/事件吗?
这是最困难的一个问题 without using an information extraction engin. 一个简单的方法是在文档中关于重叠的词使用频度计数(包括用于标签的n-gram,更大的n值有着更大的权重)。一般而言,人们期望出现在标签中的词语有着更高的出现频度。然而,没有出现在时间线上,但是有着很高出现率的事件/事实不能通过这个方法被找到。(大致意思就是,我们只能判断这个时间线的label是否是重要的事件,但是不能说,重要的事件都被它包含了。) 另一个判断事件是否是全局重要的方法是:把这个标签,输入到另一个搜索引擎中,例如Google,记录词条返回的数量。
二. PRESENTATION
虽然时间线的展现包含了更多的个人审美,但是有几点需要注意:
1. 保持每个时间帧的单元数相同,一般而言都是10个。
2. 保证标签的字体大到足以识别,而且仅仅显示一部分时间线,其他的通过点击滚动来展现
3. 一般而言都是水平时间线。
基于网页的时间线评估语义库
wikipedia 维基百科有几百个基于文档的时间线,http://en.wikipedia.org/wiki/Timelines. 我们正在收集这些文档以及时间线,然后建立数据集。这些可以数据集可以用来自动创建时间线。可以把生成的时间线与wikipedia的时间线进行对比(即使wikipedia时间线的权威性有待商榷)。
结论
在Cornopah的下一个阶段, 我们将评估自动生成的时间线,用本文提出的指导方针。我们感觉,自动生成时间线将会在未来成为一个流行的趋势来展现与总结信息。
评论:1. 关于时间线的基本描述以及特征总结的很简洁明了,适合新学者阅读
2. 关于本文的贡献不太明确:首先,这个系统到底有没有被开发出来; 其次,为什么把系统作为一个论文,把评估的指导方针作为一个论文,然后将评估的结果作为下一篇论文? 如果将整个内容,结合起来,发一篇paper或许会更好。
参考文献:Evaluating Automatically Generated Timelines from the Web. Roberta Catizone. et.
Evaluating Automatically Generated timelines from the Web (paper1)的更多相关文章
- Web Services and C# Enums -摘自网络
Web Service Transparency .NET support for web services is excellent in creating illusion of transpar ...
- Using PL/SQL APIs as Web Services
Overview Oracle E-Business Suite Integrated SOA Gateway allows you to use PL/SQL application program ...
- Microsoft Azure Tutorial: Build your first movie inventory web app with just a few lines of code
Editor’s Note: The following is a guest post from Mustafa Mahmutović, a Microsoft Student Partner wh ...
- Web Services and C# Enums
Web Service Transparency .NET support for web services is excellent in creating illusion of transpar ...
- 【Java学习笔记】如何写一个简单的Web Service
本Guide利用Eclipse以及Ant建立一个简单的Web Service,以演示Web Service的基本开发过程: 1.系统条件: Eclipse Java EE IDE for Web De ...
- 运用模型绑定和web窗体显示和检索数据(Retrieving and displaying data with model binding and web forms)
原文 http://www.asp.net/web-forms/overview/presenting-and-managing-data/model-binding/retrieving-data ...
- 交互式shell脚本web console
官网:http://web-console.org/ 这个脚本可以实现web下交互,也就是有了这玩意后可以不用反弹shell了. <?php // Web Console v0.9.7 (201 ...
- Automatically generating nice graphs at end of your Load Test with Apache JMeter and JMeter-Plugins
Update as of November 2017: Since JMeter 3.0, last version being 3.3, JMeter provides Out Of The Box ...
- 使用jhipster 加速java web开发
jhipster,中文释义: Java 热爱者! JHipster is a development platform to quickly generate, develop, & depl ...
随机推荐
- luogu 4211
题意 存在一棵树,每次询问 \(l, r, z\) 求 \[\sum_{i = l} ^ {r} deep(lca(i, z))\] 考虑 lca 的实质:两点到根的路径的交集中深度最大的点 其中一点 ...
- java 标准日期格式
public static void main(String[] argv) { // 使用默认时区和语言环境获得一个日历 Calendar cale = Calendar.getInstance() ...
- 做reacat小项目的过程(我感觉适合那种刚刚接触react感觉很深奥的亲们,通过这个可以建立一个很垃圾的项目,入门吧,往深处就需要自己再看了)
需求:做一个react框架的前端框架(包括路由,请求后端等),大概就是做一个左边导航右边显示组件页面的东西,ui为material-ui 环境: 软件:vscode 包含的知识点:使用路由来导航,使用 ...
- Java学习日记——基础篇(三-上)基本语法之运算符和流程控制
运算符 算术运算符 听其名而知其意,就是用于计算的,java中常用的是: + 加 - 减 * 乘 / 除 % 取模,取余——%可以用来得到两个数相除的余数 小练习——写一个ja ...
- Alpha项目冲刺! Day6-产出
各个成员今日完成的任务 林恩:任务分工,博客撰写,了解安卓环境搭建 杨长元:安卓本地数据库 李震:了解聊天类app相关内容 胡彤:完善服务端 寇永明:研究测试代码 王浩:研究测试代码 李杰:研究测试代 ...
- xgboost 源码学习
官方代码结构解析,README.MD XGboost 回归时,损失函数式平方误差损失 分类时,是对数自燃损失: Coding Guide ====== This file is intended to ...
- 浅谈TextView Ellipsize效果与Marquee跑马灯无效果问题
说到TextView 效果,相信大家一定熟悉跑马灯. 先来看看 Ellipsize是什么,Ellipsize 从开发技术上翻译为省略效果.故名思议,就是当文本无法显示全部时,用什么效果来显示未显示的部 ...
- The magic method __set() must have public visibility and cannot be static in
魔术方法 __set 用private 封装后出现问题 private function __set(){} 就是这个格式 10 错误信息就是这个:The magic method __set() m ...
- 27flutter日期 时间组件flutter_cupertino_date_picker的使用
pubspec.yaml flutter_cupertino_date_picker: ^ DatePicker.dart import 'package:date_format/date_forma ...
- Qt编写控件属性设计器2-拖曳控件
一.前言 上一篇文章把插件加载好了,并且把插件中的所有控件都显示到了列表框中,这次要做的就是实现拖曳控件的功能,用户选择一个控件拖曳到画布上,松开,在松开位置处自动实例化该控件,这个需要用到dropE ...