2013 ACM网络搜索与数据挖掘国际会议
ACM网络搜索与数据挖掘国际会议" title="2013 ACM网络搜索与数据挖掘国际会议">
编者按:ACM网络搜索与数据挖掘国际会议(6th ACM
Conference on
Web Search and Data Mining, 简称WSDM 2013)于2013年2月4在意大利首都罗马举行。微软亚洲研究院副研究员武威出席了此次会议。在WSDM设立的与图数据隐私保护相关的数据竞赛中,来自微软亚洲研究院的参赛队伍参加了图数据去匿名化的子任务,并获得了第一名。下面,让我们一起来看看武威研究员带来的大会回顾。
作者: 武威 微软亚洲研究院副研究员
会议概况
2013年2月4日,第六届
ACM网络搜索与数据挖掘国际会议 (The Sixth ACM International Conference on Web
Search and Data Mining, WSDM2013)
在意大利首都罗马举行。WSDM是一个新兴的网络搜索与数据挖掘方向的国际会议,主要由工业界的一些大型IT公司赞助。这次会议是继2009年在巴塞罗那举办之后,第二次在欧洲举办。
WSDM,读音为wisdom。该会议于2008年首次举办,由微软、谷歌和雅虎等公司赞助。相对于传统的WWW、SIGIR和ACMSIGKDD等会议,WSDM更加重视应用,是典型的应用会议。本次大会历时5天,共收到来自36个国家和地区的387篇投稿。其中,有73篇文章被大会录用,录用率为18.9%。录用文章的作者遍布20个国家,4大洲,使WSDM真正地成为了一个国际性的网络搜索与数据挖掘方向的顶级会议。其中,投稿最多和被录用文章最多的是美国。中国(包括大陆以及港澳台地区)共有10篇文章被录用,作者来自清华大学、中国科学院、中国人民大学、哈尔滨工业大学、香港中文大学以及微软亚洲研究院和惠普中国研究院。每一篇录用文章都被安排了口头报告和海报展示。为了合理安排大会时间,口头报告分为20分钟的长报告(plenary
presentation)和6分钟的短报告(spot light
presentation)。在73篇录用文章中,有40篇文章的作者获得了长报告的机会。长报告有问答时间,短报告则没有。
这次大会包括8个辅导报告(tutorials)、6个研讨会(workshops)、3个主题演讲(keynotes)、9个专题(sessions)以及一个数据竞赛(data
challenge)。其中,数据竞赛包括图数据压缩和图数据去匿名化两个子任务,是WSDM历史上举办的首次竞赛。从主题演讲和专题的内容分布来看,社交网络(social
network)成为了本次大会的绝对主角。三个主题演讲都与社交网络有关。而9个专题中,有4个与社交网络、社会媒体(social
media)有关。相关工作覆盖了社交网络数据的存储、话题动态、社区发现和情感分析等各个方面。除了社交网络,还有当下十分热门的“大数据”专题。大数据专题中的工作主要研究大数据下的算法效率和数据存储问题。一个十分有意思的事情是,在会议最后一天的工作午餐(business
lunch)中,WSDM的一位主席报告了他们对于录用论文题目的统计分析。通过对录用论文和未录用论文题目建立分类模型,他们发现了接收论文的一些特点,令人印象深刻的是“social
network”和“wikipedia”这两个关键词。这两个关键词在分类模型中很有区分度,是论文被接收的关键性词汇。这也从另外一个角度说明了本次大会,乃至整个网络搜索与数据挖掘学术领域的研究趋势。
ACM网络搜索与数据挖掘国际会议" title="2013 ACM网络搜索与数据挖掘国际会议">
主题演讲
本次大会包括三个主题演讲,分别是邓肯·沃兹(Duncan
Watts)的“The Virtual Lab”,凯瑟琳·塔克(Catherine Tucker)的“Three Findings
Concerning Protecting Consumer Privacy Online”,以及杨强的“Big Data,
Lifelong Machine Learning and Transfer
Learning”。邓肯是微软研究院的首席研究员,也是微软纽约实验室的创建人之一。他的研究兴趣是社会科学。他的演讲主题是虚拟网络对社会科学研究的影响。随着诸如Amazon’s
Mechanical Turk等众包
(crowdsourcing)网站的出现,社会科学家们可以利用互联网构建一些“虚拟的实验室”,来进行之前的“物理实验室”在规模和速度上无法实现的人类行为实验。他把社会科学的研究分为了Turk前和Turk后两个部分,并通过一些实验结果说明了互联网为社会科学研究带来的机遇和挑战。凯瑟琳是美国麻省理工史隆管理学院(MIT
Sloan)
的副教授。她的研究兴趣是信息技术对于人类商业行为的影响。她的演讲主题是数字化时代的个人隐私保护。互联网的产生和发展使得商业公司能够更容易地获得客户的个人信息。在这个前提下,她报告了一些关于个人隐私保护的经验性结果。基于大量的实验,验证了三个发现:第一,个人隐私保护不利于在线广告的有效推广;第二,个人隐私保护能够促进经济产出(economic
outcomes);第三,限制私人数据的存储时间没有太多的经济影响(economic
impact)。有趣的是这次WSDM恰好设立了一个与图数据隐私保护相关的数据竞赛。来自微软亚洲研究院的参赛队伍参加了图数据去匿名化的子任务,并获得第一名。杨强是中国香港科技大学的教授,现任华为诺亚方舟实验室的主任。他在报告中展示了诺亚方舟实验室在大数据挖掘方面取得的成果,并介绍了迁移学习(transfer
learning)及其在大数据挖掘上的应用。该报告提出了持续性的机器学习和数据挖掘。
ACM网络搜索与数据挖掘国际会议" title="2013 ACM网络搜索与数据挖掘国际会议">
图2邓肯·沃兹作题为"The Virtual
Lab"的主题演讲
具体来说,大数据洪流带来两个挑战:一方面,如何能够有效地消除噪音,从大数据中挖掘到我们想要的知识;另一方面,当数据发生变化时,已有方法能否自动调整。基于这两个理念,他展示了近期诺亚实验室取得的一些成果,包括微博自动推送机器人小诺以及手机终端上的生活助手等。纵观这次大会的主题演讲,所有内容都或多或少地与当下在学术界和工业界都很热的社交网络以及大数据有关。可以说,社交大数据的时代大幕已经拉开。无论是学术界还是工业界,都在努力争取在新技术时代留下自己的名字。然而,群雄逐鹿,胜负未分。谁能首先抓住问题的本质,以最快的速度应对变化并产生影响,谁就能占得先机,取得新时代技术上的主导地位。
最佳论文
WSDM2013从73篇接收的论文中选出了两篇最佳论文。其中,最佳论文“Optimized
Interleaving for Online Retrieval
Evaluation”的作者是微软研究院的两位研究员。在这篇工作中,作者系统研究了信息检索系统的在线评估办法,提出了一套新的交叉评估(interleaved
evaluation)框架。交叉评估是在线评估的主要方法之一。交叉评估算法是指将同一查询下的两个排序结果以某种方式组合在一起,通过跟踪用户在交叉排序列表上的点击表现来评估排序方法的好坏。交叉算法包括排序组合算法和点击评分机制两部分。已有的工作都存在一些问题,在一些特定排序上会出现与直觉不一致的评估结果。本文的作者创造性地将交叉算法的设计转化成了一个带约束的优化问题,并通过理论证明说明了所提方法不仅包含已有的方法,而且能够克服已有方法的一些弱点。此外,本文作者还提出了利用搜索的历史日志数据来评估交叉算法性能的方法。通过定性分析和定量评估,作者说明他们所提的交叉算法能够克服已有交叉算法存在的一些问题,在评估排序结果好坏上与传统的基于NDCG的办法有更好的一致性,同时所需的样本量又和已有的交叉算法相当。
最佳学生论文“Balanced Label
Propagation for Partitioning Massive
Graphs”是美国康奈尔大学和Facebook的合作成果,解决的是大规模图分割的问题。随着社交网络数据的迅猛增长,如何合理地分割网络关系图,从而实现分块存储成为了一个重要问题。论文将图分割问题形式化成一个带约束的优化问题,而这个优化问题又可以转化为一个线性优化问题,从而可以利用已有的线性优化工具进行高效求解。在两篇最佳论文中,分别关注了传统网络搜索和当下比较火的社交网路问题。两篇文章都有比较好的数学基础和丰富、扎实的实验结果,这也是他们能够最终获选最佳论文的重要因素之一。值得注意的是,两篇最佳论文的主题一旧一新,这体现了本届WSDM承前启后,既重视传统领域中扎实严谨的工作,又鼓励对新领域新问题探索的主导思想。
对WSDM未来的展望
作为一个举办了六届的大会,WSDM在投稿的数量、评审的尺度、接收论文的质量以及参与人的数量和水平上都在逐渐走向成熟。本届大会以社交网络为主题,同时兼顾大数据等新概念,很好地体现了WSDM连接学术界与工业界的宗旨。尤其是大规模关系图分割及存储技术,笔者认为不仅对学术界来说很有研究价值,对于工业界,特别是像Facebook这样的社交网络公司也可能产生直接的应用价值。
申明:《2013
ACM网络搜索与数据挖掘国际会议》一文在微软研究院博客上转载经由《中国计算机学会通讯》同意,版权归《中国计算机学会通讯》所有。原文刊登于《中国计算机学会通讯》2013年3月
第85期
作者介绍
ACM网络搜索与数据挖掘国际会议" title="2013 ACM网络搜索与数据挖掘国际会议">
武 威
微软亚洲研究院高副研究员。主要研究方向为机器学习、智能问答和信息检索。
参考文献
[2] 中国计算机学会通讯, 第8卷第1期,
2012年1月
____________________________________________________________________________________
相关阅读
欢迎关注
微软亚洲研究院人人网主页:http://page.renren.com/600674137
微软亚洲研究院微博:http://t.sina.com.cn/msra
2013 ACM网络搜索与数据挖掘国际会议的更多相关文章
- 信息检索盛会 微软“领衔主演”——记ACM SIGIR 2013信息检索国际会议
微软"领衔主演"--记ACM SIGIR 2013信息检索国际会议" title="信息检索盛会 微软"领衔主演"--记ACM SIGIR ...
- HDU 4738 Caocao's Bridges (2013杭州网络赛1001题,连通图,求桥)
Caocao's Bridges Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) ...
- hduoj 4712 Hamming Distance 2013 ACM/ICPC Asia Regional Online —— Warmup
http://acm.hdu.edu.cn/showproblem.php?pid=4712 Hamming Distance Time Limit: 6000/3000 MS (Java/Other ...
- hduoj 4707 Pet 2013 ACM/ICPC Asia Regional Online —— Warmup
http://acm.hdu.edu.cn/showproblem.php?pid=4707 Pet Time Limit: 4000/2000 MS (Java/Others) Memory ...
- HDU 4763 Theme Section (2013长春网络赛1005,KMP)
Theme Section Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Tot ...
- HDU 4764 Stone (2013长春网络赛,水博弈)
Stone Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Submi ...
- HDU 4762 Cut the Cake (2013长春网络赛1004题,公式题)
Cut the Cake Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Tota ...
- HDU 4759 Poker Shuffle(2013长春网络赛1001题)
Poker Shuffle Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Tot ...
- HDU 4768 Flyer (2013长春网络赛1010题,二分)
Flyer Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Submi ...
随机推荐
- 运行xv6
我们使用Qemu在Ubuntu下运行 1. 安装Qemu sudo apt-get install qemu 执行 qemu-system-i386 ,如果弹出Qemu界面说明安装成功了 2. 编译x ...
- C++逐行读取txt
C++读取txt文件的时候可以使用std::ifstream来实现,如果打开文件失败的话,其变量会是空的,所以可以用来判断是否打开成功. #include <stdlib.h> #in ...
- 2020牛客寒假算法基础集训营5 G街机争霸
题目描述 哎,又是银首,要是你这个签到题少WA一发就金了 牛牛战队的队员打完比赛以后又到了日常甩锅的时间.他们心情悲伤,吃完晚饭以后,大家相约到一个街机厅去solo.牛牛和牛能进入了一个迷宫,这个迷宫 ...
- ssh到ubuntu没颜色
ssh远程到ubuntu系统, 没有颜色. 原因是 .bashrc 配置没生效. $ echo '. $HOME/.bashrc' > ~/.profile
- 吴裕雄--天生自然 JAVASCRIPT开发学习: 错误 - throw、try 和 catch
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...
- 《打造扛得住的MySQL数据库架构》第4章 MySQL数据库结构优化
4-1 数据库结构优化介绍 良好的数据库逻辑设计和物理设计是数据库获得高性能的基础. 1.减少不必要的数据冗余. 2.尽量避免数据维护中出现更新,插入和删除异常. 插入异常:如果表中的某个实体随着另一 ...
- Django模型基础(三)——关系表的数据操作
模型之间可以有三种表关系,即一对一,一对多和多对多.表关联之间的数据操作在Django中可以很方便的操作到.在模型中,表关联的字段类型是关联表的实例,而不是字段本身类型.关联字段在数据库中会在其后补上 ...
- 微信支付的Demo
是在一个子项目完成的, 依赖: <dependencies> <!-- spring-boot--> <dependency> <groupId>org ...
- LeetCode——973. 最接近原点的 K 个点
我们有一个由平面上的点组成的列表 points.需要从中找出 K 个距离原点 (0, 0) 最近的点. (这里,平面上两点之间的距离是欧几里德距离.) 你可以按任何顺序返回答案.除了点坐标的顺序之外, ...
- Java线程——线程习题(二)生成者消费者
生产者消费者问题是线程模型中的经典问题:生产者和消费者在同一时间段内共用同一存储空间,生产者向空间里生产数据,而消费者取走数据. 这里实现如下情况的生产--消费模型: 生产者不断交替地生产两组数据“姓 ...