WWW 2015:一个神奇的会议
2015:一个神奇的会议" title="WWW 2015:一个神奇的会议">
作者:微软亚洲研究院研究员 袁进辉
WWW 2015(24th
International Conference of World Wide
Web)大会于2015年5月18日至22日在文艺复兴的摇篮--意大利佛罗伦萨举行。我们微软亚洲研究院人工智能(Artificial
Intelligence (AI) Group
)组与卡内基梅隆大学(Carnegie
Mellon University,CMU)的邢波
(Eric P. Xing) 教授合作的论文“LightLDA”
被本届大会录用,我有幸作为代表参加本届WWW大会并介绍我们的研究成果,也因此亲身经历了这样一个称得上“神奇”的会议。
2015:一个神奇的会议" title="WWW 2015:一个神奇的会议">
今年大会的地点设在了佛罗伦萨市中心的巴索古垒。这座古堡建于1534年,是典型的文艺复兴式建筑,原本是美第奇家族为了保卫城邦而建设的防御工事,经现代改装后成为很别致的会议展览场所。程序委员会主席则是来自马克斯-普朗克研究所(Max
Planck Institute
for Software Systems)的Krishna
Gummadi
和伊利诺伊大学厄巴纳-香槟分校(UIUC--University
of Illinois at Urbana-Champaign)的Chengxiang
Zhai。
面面俱到的Web界旗舰会议
借用大会主席在大会闭幕式上罗列的一些统计数字来对WWW
2015有一个全貌的认识。
2015:一个神奇的会议" title="WWW 2015:一个神奇的会议">
今年的大会除主会外,还包含一些Workshop(研讨会)和Tutorials(教程)等序列,各个序列投稿和录用比例、大会覆盖的主题及对应的投稿数可参见上表。
众所周知,WWW
大会的一个特点就是主题多样,所收录的论文几乎覆盖与Web相关的方方面面,而每个主题都有其所对应的顶级国际会议,譬如KDD,
SIGIR, CHI, ICML, STOC,
EC等。如此丰富多样的主题也让参会人员更容易接触到一些新奇或迥然不同的思想,从而更有利于做出跨学科的研究成果。难得的是,WWW在主题如此“分散”的情况下投稿众多,但大会录用的稿件仍保持很高水平的质量。可以说,能被WWW
录用的文章几乎一定能被其他国际会议录用。而从Research Track
的录用率来说,WWW 仍是一个竞争比较激烈的国际会议。
万维网自诞生之日起,已经发生了翻天覆地的变化,信息展现方式从静态到动态,从无结构化到有结构的组织,也变得越来越能为我们所用。WWW作为万维网领域的旗舰会议,也在随着历史的发展趋势不断演进着、关注着新颖的潮流,同时始终致力于根本性问题。而工业界对WWW也是一如既往的重视,从大会赞助商和会场的展台来看,几乎所有互联网巨头都在
WWW 会场设立了展台。
日渐壮大的中国研究力量
根据大会组织方的统计数字,今年参加会议的人数创历史新高,达1567人。下图展示了各国参会人数所占的比例。令人欣慰的是,中国位列前三,仅排在美国和主办国意大利之后。
2015:一个神奇的会议" title="WWW 2015:一个神奇的会议">
(值得一提的是,上图是我使用Microsoft
Office Lens
拍摄并自动校正视角后得到的。当我用这个APP拍照时,还引起旁边同行的兴趣,问我使用的是什么APP)
大会主席还给出了更细致的国别统计数字,包括各国投稿及被录用稿件的数量,以及各国程序委员会委员的数量,中国都位列前三。由此可见,中国大陆的研究人员已经形成了一股不可忽视的力量。不过,在研读论文的过程中,还是能感觉到一些差距,来自中国的论文多数是研究比较经典或较成熟的问题,开创性、求新求异上还不够好;与此相反,欧美的研究成果通常在创意上更胜一筹,在选题上有一种不受约束、挥洒自如地感觉。
“经得起时间考验”的论文
除了往届大会上惯有的最佳论文奖、最佳学生论文奖(第一作者必须是博士生或博士后),本届WWW大会还添加了一个“最经得起时间考验奖”(Test
of Time Award),颁发给经时间证明具有深远历史影响的论文。
各类获奖论文如下:
最佳论文奖:基于贝叶斯方法的行为踪迹假设比较 (HypTrails:
A Bayesian Approach for Comparing Hypotheses about Human
Trails
)。
最佳学生论文奖:秘密,谎言和账户恢复:Google在私人知识问题使用中获取的经验(Secrets,
lies, and account recovery: Lessons from the use of personal
knowledge questions at Google
)。
而“最经得起时间考验奖”毫无争议地颁发给了Google
创始人Larry Page 和 Sergey Brin
发表在第七届 WWW 上关于Google
搜索引擎的开创性工作——“大规模超文本网络搜索引擎解析”
(The
anatomy of a large-scale hypertextual web search engine.
Proceedings of the Seventh International Web Conference (WWW 98),
1998.
)。
对于这样重量级的工作,是否得奖已不再重要,相反,WWW
曾发表过这样的文章且能把这个奖项颁发给它无疑是WWW
自己的荣耀。其它获得最佳论文奖提名的6篇论文可参见:http://www.www2015.it/award-papers/
2015:一个神奇的会议" title="WWW 2015:一个神奇的会议">
与阅读获奖论文相比,评奖过程更有意思。首先由领域主席提名,或者大会主席选择评分较高的论文,最终大会主席根据论文的原创性和可能对WWW产生较大影响的论文进行评选。原创性和潜在的影响力是最关键的因素,我理解,原创性更好判断一些,而潜在影响力则很难预测。假如你是
WWW 的大会主席,负责挑选出最可能产生巨大影响的论文,你会选哪一个呢?
训练主题模型的“最快”算法
今年的大会关于“主题模型”的论文有好几篇,我们的论文研究——
LightLDA: 基于中小型计算集群的大规模主题模型(LightLDA:
Big Topic Models on Modest Computer
Clusters)是其中比较醒目的。
LightLDA
论文报告了我们设计的一种训练主题模型的新算法。这个算法相对于已有LDA学习算法在效率上有一个数量级的提高,每个词的Gibbs采样复杂度达到了均摊O(1),是首个达到单个词常数复杂度的Gibbs采样算法,堪称当今“最快的算法”。而且基于CMU
邢波教授组的Petuum参数服务器,我们实现了该算法的分布式版本,可以在数十台机器上完成比以往成百上千台机器还要大很多的训练任务。LightLDA首次在中小规模集群上实现了对Web-scale数据的学习,这无论对Web应用还是分布式机器学习的研究都带来了新的可能性。
从应用角度上讲,LightLDA提供了一种超大规模矩阵分解的轻量级方案。虽然LDA已经是一个比较经典的问题,但解决Web-scale的训练问题也是一种创新,这种随机采样的算法特别是相对于梯度下降算法来做矩阵分解通信开销更小,期待LightLDA在工业级推荐系统/用户画像里可以得到更多应用。
除了LightLDA外,其它几篇搜索引擎的“排序学习”相关论文也各自提出了一些新颖的思路。如来自俄罗斯的搜索服务提供商Yandex的论文“个性化网络搜索中对相关性标签赋权的优化框架”(An
Optimization Framework for Weighting Implicit Relevance Labels for
Personalized Web Search
),讨论了在排序学习(Learning to
Rank)框架中,用户反馈不再是二值的点(click) 或不点 (not
click),而是引入更多隐式反馈信息,形成多个层级更加精确的标注信息,感觉很有新意。Yandex
的工作通常都是在传统问题上深耕细作,能有创意想法的突破,也着实值得敬佩。
另外论文“利用多臂赌博机模型从产品搜索排序中收集额外反馈信息”(Gathering
Additional Feedback on Search Results by Multi-Armed Bandits with
Respect to Production Ranking)把搜索广告中“求精和探索”(Exploitation
and
Exploration)的思路引入搜索排序学习中,从而使得更多页面能收集到用户的反馈信息,比单纯的“求精”(Exploitation)思路要更好。该论文也入选了今年最佳论文的候选。
潮流前沿的“神奇”会议
之所以一直在说
WWW 是一个神奇的会议,是因为它带给我的感受与其它学术会议的风格不太相同。首先,WWW
的主题多样,每个主题下面有十数篇文章,虽然都和Web
相关,但跨度很大。其次,WWW
的另一个特点是论文的主题都很新奇,经常能看到一些论文在做前人从来没做过的事情。最后,WWW不是纯理工色彩,还有一些人文趣味在里面,譬如有不少语言学和社会学的文章。与
WWW
同时举行的一些研讨会也是潮味十足,今年的会议上就能看到关于创业、风投、医疗健康、伦理和大数据等相关的话题。
本届WWW
上有一大批关于社交网络和图算法的论文,应该是很有代表性的。比如,为保护儿童健康成长,通常人们不鼓励儿童上社交媒体。但家长们却总是乐于在社交媒体上发布自己孩子的信息,也就是我们通常所说的“晒娃”。“大人讲话,小孩儿别插嘴:当父母伤害儿童的在线隐私时”(Children
Seen But Not Heard: When Parents Compromise Children’s
Online Privacy)中的研究则表明,晒娃有风险,家长须谨慎——根据家长在Facebook上发布的关于孩子的蛛丝马迹,就可以给小朋友建立完整的信息“画像”,使得隐私全面泄露,带来潜在风险。
而“事件与争端:骇人听闻的新闻事件对人们信息获取行为的影响”(Events
and Controversies: Influences of a Shocking News Event on
Information Seeking)则以人们对“美国控枪”问题的不同立场为例,说明搜索引擎虽然方便人们获取更全面的信息,但并不会让人更加开放包容——人们更喜欢去搜索支持自己已有观点的信息,并不愿意去挑战或拓展我们世界观的信息。这项结果同样来自卡内基梅隆大学与微软研究院的合作。
“落后区域的网络访问流量初探”(A
First Look at Tribal Web Traffic)这篇文章关注的内容则并不前沿,也不主流,而是把目光放在了美国落后或欠发达地区的网络及社交媒体的使用状况。即使像美国这样的发达国家,仍有一些地区网络基础设施不完备,人们使用网络服务并不便利。研究发现,落后闭塞地区的人们也有对网络社交娱乐的需求,而且表现出一些独特的规律,譬如本地化的内容参与度更高,参与活跃度通常会持续更长时间等。
2015:一个神奇的会议" title="WWW 2015:一个神奇的会议">
令我印象深刻的是一项为盲人服务的研究“易于(盲人)使用的在线楼层平面图”(Accessible
On-Line Floor Plans)。人们逛商场或博物馆时,通常在入口或关键地点能看到房间户型图,方便用户快速找到目的地的路径,但这些设施并不能为盲人服务。这篇文章便针对这个问题,提出了一种自动把一张房间户型图转换成盲人可用的导航图的方法并且开发出了App。这应该算是一个很小众的需求,并不具有很高的商业价值,但作者如此细致周到的考虑着实令人感动。
2015:一个神奇的会议" title="WWW 2015:一个神奇的会议">
更“小资”的还有自动给城市里每一条街道是否适合漫步进行打分的研究——“在惬意街道漫步的数字式生活”(The
Digital Life of Walkable Streets)。它考虑安全、优美、惬意等因素,研究成果可用于酒店预订服务,市区导航推荐路线等场景,颇具生活味道,然而我想到的则是更适合恋爱中的人们。
更多有意思的论文你都可以在网上的会议论文集里免费看到全文。
“全,新,奇,深”是我对WWW
2015大会的定义。主题覆盖全面,追求原创,标新立异,不局限于求解问题的具体技术,还经常有一些对问题本源的考察和思考,具有“术”和“道”的均衡,个人非常欣赏这种风格的国际会议。期待未来看到更多新奇的研究可以帮助我们的生活和工作。
相关阅读
2015:一个神奇的会议" title="WWW 2015:一个神奇的会议">
欢迎关注
微软亚洲研究院官方网站:http://www.msra.cn
微软亚洲研究院人人网主页:http://page.renren.com/600674137
微软亚洲研究院微博:http://t.sina.com.cn/msra
微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码:
2015:一个神奇的会议" title="WWW 2015:一个神奇的会议">
WWW 2015:一个神奇的会议的更多相关文章
- modifytime是一个神奇的column name----这边文章是错的totally,因为我的实验不彻底。timestamp属性很神奇,头一个timestamp,会自动的成DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP
在mysql里边modifytime是一个神奇的column name,试一下. 请执行sql语句 CREATE TABLE `test_time` ( `modifytime` timestamp ...
- 一个神奇的???whatever~~
一个神奇的类,用来封装消息数据,统一数据传递接口,从unity引擎源码拷贝而来. #include <iostream> #include <assert.h> #includ ...
- 记一个神奇的WAS问题:sibuswsgw-sibuswsgw_console.jar invalid LOC header (bad signature) 分类: WebSphere 2015-08-06 23:21 9人阅读 评论(0) 收藏
今天晚上,出现了一个神奇的WAS问题,详细问题异常信息如下: [15-8-6 22:13:29:146 CST] 00000013 ApplicationMg A WSVR0203I: 应用程序:is ...
- 微信图片上传,遇到一个神奇的jgp
微信图片上传,获取图片base64遇到一个神奇的 jgp var imgFn = function (event) { event.preventDefault(); var id = '#'+$ ...
- JS高级---一个神奇的原型链
一个神奇的原型链 <script> var divObj=document.getElementById("dv"); console.dir(divObj); //d ...
- Bugku-CTF之这是一个神奇的登陆框
Day32 这是一个神奇的登陆框 http://123.206.87.240:9001/sql/ flag格式flag{}
- 一个神奇的bug:OOM?优雅终止线程?系统内存占用较高?
摘要:该项目是DAYU平台的数据开发(DLF),数据开发中一个重要的功能就是ETL(数据清洗).ETL由源端到目的端,中间的业务逻辑一般由用户自己编写的SQL模板实现,velocity是其中涉及的一种 ...
- Font-Spider 一个神奇的网页中文字体工具,就是这么任性
文章摘要: 1>> font-spider 字体神奇 由于活动项目推广的需要,页面需要用到一些漂亮好看的字体,example : 邯郸-韩鹏毛遂体.ttf. 方正喵呜.ttf 我看 ...
- js 编写一个神奇的四则运算
写一个算法,有时候可以用简单的方法就可以写出来,但是只能针对特定的环境,如果要能够适应不同的环境,就需要对算法进行优化,在优化的过程中,你会觉得非常神奇,下面来看一个简单的四则运算的算法编写方式: 1 ...
随机推荐
- 面向对象 / MVC
MVC模式 : 是一种分层思想(软件设计典范) M-model 模型层 :主要负责业务代码和数据 V-view 视图层 : 主要负责展现展示 C-controller 控制层:负责分发请求返回数据 ...
- tensorflow C++接口调用目标检测pb模型代码
#include <iostream> #include "tensorflow/cc/ops/const_op.h" #include "tensorflo ...
- [HAOI2018]苹果树(组合数学)
首先有个很奇妙而且很有用的性质:每个二叉树对应唯一的中序遍历,然后每个二叉树出现概率相同.所以n个节点的二叉树形态是n!种(题目中说了*n!已经是提示了),对每种方案求和即可得到期望.令f[i]表示i ...
- Canvas 橡皮擦效果
引子 解决了第一个问题图像灰度处理之后,接着就是做擦除的效果. Origin My GitHub 思路 一开始想到 Canvas 的画布可以相互覆盖的特性,彩色原图作为背景,灰度图渲染到 Canvas ...
- 2.监控利器nagios手把手企业级实战第一部
1. 什么是Nagios? Nagios是一款开源的网络及服务的监控工具,功能强大,灵活性强,需要注意的是,其服务端只能在linux上面安装. Nagios可以进行分布 ...
- 机器学习总结(参考源码ml.hpp)
依据机器学习算法如何学习数据可分为3类: 有监督学习:从有标签的数据学习,得到模型参数,对测试数据正确分类: 无监督学习:没有标签,计算机自己寻找输入数据可能的模型: 强化学习(reinforceme ...
- 吴裕雄--天生自然 PYTHON3开发学习:OS 文件/目录方法
import os, sys # 假定 /tmp/foo.txt 文件存在,并有读写权限 ret = os.access("/tmp/foo.txt", os.F_OK) prin ...
- 爬虫笔记(九)——安装Fiddler
在ubuntu下不能直接安装Fiddler,我们要先安装mono环境,具体可分为三个步骤: 1. 在终端下输入指令安装mono环境 :sudo apt-get install mono-compl ...
- 【Java杂货铺】JVM#Class类结构
代码编译的结果从本地机器码转为字节码,是储存格式发展的一小步,却是编程语言的一大步.--<深入理解Java虚拟机> 计算机只认识0和1.所以我们写的编程语言只有转义成二进制本地机器码才能让 ...
- 十八、linux系统分区
一.磁盘存储结构图:这里注意下,分区标有64字节,则每个分区有16字节,MBR引导分区有446字节,共有510字节,一个扇区有512字节,还有俩个字节是分区结束标识.比如隐藏文件等标识,都是这2个字节 ...