论文阅读 | CrystalBall: A Visual Analytic System for Future Event Discovery and Analysis from Social Media Data
CrystalBall: A Visual Analytic System for Future Event Discovery and Analysis from Social Media Data
1 Abstract
这是一个可以预测未来一段时间内所发生事情的可视化系统,使用的是twitter数据进行分析。
2 Introduction
识别一个未来的事件并不可以依靠消息量的突增来判断(一般一个很大的事件的到来会引发交际圈的热烈讨论),一个未来时间的发生并不一定可以激发消息量的增加。识别未来事件的挑战在于筛选大量社交媒体数据,并识别埋在关于过去和正在进行的事件,个人状态更新等的压倒性信息中的小信号。
作者看来,未来事件的定义是"与将来的位置和日期/时间(跨度)相关联的事件。 这种情况的特点是地点和时间,通常与特定主题和社交网络相关联。" 位置和时间是定义未来事件的主要属性
通过这个系统。我们既可以发现各种未来事件,也可以对特定的时间地点进行重点调查。
3 Related Work
未来事件提取和可视化交互是两个主要的方面
4 System overview and pipeline
CrystalBall集成了多个组件,包括来自Twitter Streaming API ,实体提取,未来事件标识 和排名以及交互式可视化界面。 所有的数据收集和分析都是在线进行的。接口每天刷新以显示未来几天或几周内可能发生的事件的结果。
5 CrystalBall: future event identifiction and characterization
(如何处理数据)
因为未来数据在所有的数据占比小,怎么提取是个问题
NPMI得到了位置和时间之间的相关性,相比PMI,将其正则化到1和-1之间。
除了上面所说到的NPMI,还有一些其他特征,这些其他属性包括
链接和比例,我们衡量包含链接的推文与所有与可能的未来事件相关的推文的比例
主题标签比例。同样,我们测量与一个可能的未来事件相关的推文的标签比率
用户可信度,我们选择一个简单的度量,即Twitter追随者朋友(TFF)比率来表示用户的可信度。TFF是追随者与朋友的比率。 1.0到2.0之间的比率表示用户具有平衡的跟随/跟随者关系
用户多样性,如果关于一个潜在的未来事件的所有推文都来自一个账户,那么这些推文很可能来自被编程为定期发送某些推文的机器人。
除此之外有些信息并不包括完整的信息,比方说纽约在4.3会有一场音乐会,但是推文里只会提到“我将在4月3日访问我在纽约的朋友”,其实可能是和朋友一起看音乐会。所以我们可以设计一些关于相似推文的内容。
中心性。高度连接的推特网络将具有接近1的程度中心性,而分散的推特网络产生接近于0的中心性。
推特相似性。但是并不是所有推文都有@和推文相关联。所以我们还计算了每篇推文的相似性
我们已经提出了确定可能的未来事件(NPMI)的措施,以及六个额外措施来描述事件的特征。下一步是结合这些措施来评估已确定的未来事件的质量。我们希望对事件进行排名,以便CrystalBall首先直观地表示高质量的事件。
我们使用RankSVM进行排序。为了训练RankSVM,我们开发了一个标签数据集,其中包含三天内提取的未来事件(约1000个事件)。我们为表2列出的事件定义了5个类别。标注决定表明我们重视地缘政治和基层性质的事件。
五位编码者独立完成了1000次提取的未来事件,并使用上述分类对事件进行了排名。然后,我们使用标记的数据集来训练RankSVM,并开发了一个可应用于无标签事件排序的模型。在CrystalBall可视化界面中,事件列表视图中每天显示的事件顺序(如图3所示)反映了RankSVM的结果。
5 CrystalBall: Visual Interface(可视化分析)
按时间检索
日期纵览
我们从整个时间轴进行查看
上图是未来事件的总揽,首先每行该日期所发生的事件,实线连接的是有相同的地点的事件。虚线连接的是具有同样的关键词的事件。
每个事件都有自己的颜色,颜色代表整个事件的感情属性,而颜色的深浅表达了置信度。
单个日期查看
我们也可以查看一天的信息
A图,花瓣的红色占比代表了这个指标的大小,中间的数字是该日共有几个未来事件。
B图中,1表是每个时刻的时间数,2表是近30天内将会发生的相似事件,3表是按照感情属性分类的结果。
C图中,未来事件中的关键词。
D按钮可以用来收藏
按地点检索
A图中可以放缩不同尺寸的地点,中间的数字表示的是事件数,不同深浅表达了在不同时间点内的事件。
B图中当我们点击华盛顿图表,就会跳出所有事件的映像。
上图词云显示的是当前区域当中过的关键词
上图这种模式下,每个节点代表一个事件,节点之间的链接表示两个事件共享相同的位置和时间。节点中的数字表示事件的推文数量。
上图每个点是一个用户,颜色代表了TTF比例,越深代表跟随者越多。聚集在一起表示同样的时间地点。点击这个区域,所有这块有的词语都会被标红
可视化系统的互动方式有 按照 时间,地点,关键词,类型
7 Case Study
上面介绍了一件北卡罗来纳州夏洛特市2016年9月抗议活动有关的一周活动。图1中的实现代表了三个有同样的地点的事物,分析这个时间线,可以发现这个时间线中有很多关于抗议的关键词。关注9.24一天,可以发现很多人的情绪都转变为恐慌,愤怒。与此同时一个有趣的现象就是大家的视线都转向了trump的一篇推文(最右边的一张图)。
该系统还可以搜索潜在的用户。用户通过关键词(爱国的欧洲人反对西方的伊斯兰化)搜索,可以非常详细的认识一个活动的开始,组织,和最后收到大家的报道。
8 Validation studies
我们希望通过我们的系统预测于2011年9月17日在纽约市开始的占领运动。CrystalBall分析了大约123,000条推文,其中根据我们的初步数据分析,只有120条推文包含标签“占据”。但是CrystalBall可以找到这些蛛丝马迹。下图显示了这个寻找的过程。
随着事件的组织,CrystalBall可以识别早期信号。用户从事件日历视图开始,发现了一系列的选举后事件。在确定了多个大型全球地点(例如印度,英国,加拿大,伦敦,以色列)后,她发现跨越多个日期的“华盛顿”。选择那个地点后,她在就职典礼日(1月20日)之前发现了多个未成年人事件。描述未来事件的关键词包括“million womenmarch”,“washton”,“1月”等。查看与这些事件有关的推文显示3月份的妇女组织活动在选举后不久发生。
9 Limitation
- 使用 时间-地点 组合进行编码,比较局限。
- 识别未来事件错误,关于过去事件的新闻头条的推文可能会被错误地视为未来事件,而且很多转发是在很多天之后才收到转发。
- 时间位置的提取算法还是不准确
10 Future Work
处理多个数据源的流量(fb, ins, wiki, google),新的nlp算法
论文阅读 | CrystalBall: A Visual Analytic System for Future Event Discovery and Analysis from Social Media Data的更多相关文章
- 论文阅读:Learning Visual Question Answering by Bootstrapping Hard Attention
Learning Visual Question Answering by Bootstrapping Hard Attention Google DeepMind ECCV-2018 2018 ...
- 论文阅读:Robust Visual SLAM with Point and Line Features
本文提出了使用异构点线特征的slam系统,继承了ORB-SLAM,包括双目匹配.帧追踪.局部地图.回环检测以及基于点线的BA.使用最少的参数对线特征采用标准正交表示,推导了线特征重投影误差的雅克比矩阵 ...
- A context-aware personalized travel recommendation system based on geotagged social media data mining
文章简介:利用社交网站Flickr上照片的geotag信息将这些照片聚类发现城市里的旅游景点,通过各照片的拍照时间得到用户访问某景点时的时间上下文和天气上下文(利用时间和public API of W ...
- 【论文阅读】Motion Planning through policy search
想着CSDN还是不适合做论文类的笔记,那里就当做技术/系统笔记区,博客园就专心搞看论文的笔记和一些想法好了,[]以后中框号中间的都算作是自己的内心OS 有时候可能是问题,有时候可能是自问自答,毕竟是笔 ...
- 论文阅读(Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition)
白翔的CRNN论文阅读 1. 论文题目 Xiang Bai--[PAMI2017]An End-to-End Trainable Neural Network for Image-based Seq ...
- 论文笔记之:Visual Tracking with Fully Convolutional Networks
论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015 CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做 ...
- BITED数学建模七日谈之三:怎样进行论文阅读
前两天,我和大家谈了如何阅读教材和备战数模比赛应该积累的内容,本文进入到数学建模七日谈第三天:怎样进行论文阅读. 大家也许看过大量的数学模型的书籍,学过很多相关的课程,但是若没有真刀真枪地看过论文,进 ...
- 论文阅读笔记 - YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
- 论文阅读笔记 - Mesos: A Platform for Fine-Grained ResourceSharing in the Data Center
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
随机推荐
- 【面试笔试算法】Problem 9: 腾讯2016年研发实习笔试题:最长回文子串
(一)题目 问题:求给定字符串s的回文(palindrome)子串中,长度最大的回文子串的长度. 回文(palindrome)是指从左往右读和从右往左读字符串,看到的字符串都是一样的.比如" ...
- 仿百度壁纸客户端(五)——实现搜索动画GestureDetector手势识别,动态更新搜索关键字
仿百度壁纸客户端(五)--实现搜索动画GestureDetector手势识别,动态更新搜索关键字 百度壁纸系列 仿百度壁纸客户端(一)--主框架搭建,自定义Tab + ViewPager + Frag ...
- 基于ARM-contexA9-Linux驱动开发:如何获取板子上独有的ID号
每个CPU,都有它固定的ID号,ID号就是这个CPU唯一的标识,它可能隐含着CPU的生产日期,版本号,型号等等,那么,在我们的这款友善之臂Tiny4412的板子上,我的这个CPU的ID又是多少呢?从我 ...
- Mybatis批量插入、批量更新
合理的使用批量插入.更新对优化有很大的作用,速度明显快了N倍. 数据库连接串后面要新增:&allowMultiQueries=true 批量插入的最大限制主要是看你整条sql占用的大小,所以可 ...
- 根据isbn获得图书的所有信息
几点说明 1这个豆瓣的api https://api.douban.com/v2/book/isbn/:9787549208869 可以以json的形式返回书籍的所有信息 2最开始的时候是我自己写的用 ...
- 【42】android Context深度剖析
android程序和java程序的区别 Android程序不像Java程序一样,随便创建一个类,写个main()方法就能跑了,而是要有一个完整的Android工程环境,在这个环境下,我们有像Activ ...
- 简单开发Apple Watch的步骤
好久没写博客了,自己这两年自从孩子出世,也慢慢懈怠了.实在有点对不住了,换了个新公司,也有点时间可以写写东西了. 前几天苹果刚刚发布Apple Watch,Xcode6也更新了watchKit,正好 ...
- LeetCode(61)-Valid Palindrome
题目: Given a string, determine if it is a palindrome, considering only alphanumeric characters and ig ...
- obj-c编程15[Cocoa实例03]:MVC以及归档化示例
前面的博文里介绍了归档和解档,这里我们把它实际应用到一个简单的代码中去,将它作为一个多文档应用程序的打开和保存的背后支持.另外这里介绍一下MVC思想,这个在任何语言里都会有,它是一种设计思想,主要可以 ...
- rails应用ajax之三:进一步完善ajax动画特效果
本猫已经对界面放低标准很久了,但是复习了ajax之后突然发现:哇!原来世界可以这么美,这么生动鲜活的!所以本篇主要讨论下如何用ajax在rails中做一些简单的动画效果. 其实最新版的的rails中使 ...