前沿理论、反思创新、产学结合——你不能错过的WSDM 2016大会
第九届ACM网络搜索与数据挖掘国际会议(ACM International Conference on Web Search
and Data Mining,简称WSDM)已于上周(2月22日-25日)在旧金山腹地Mission Bay 会议中心举办。而今年的WSDM大会上,有关数字和经济的名词将会难舍难分。那些数据和隐藏在数字间的奥秘有时候就像一片等待寻宝人的宝藏,与会者们仿佛拿着数字的钥匙,转动了财富的锁。网络搜索、大数据、云、风投、经济这些你早已熟悉的词将被行业大佬和新秀们重新审视和讨论。
WSDM涵盖互联网和社交网络的搜索与数据挖掘方面的理论、模型、算法、评测、实验、应用等多个方面,既重视基础研究,也重视实际应用。正因为如此,WSDM越来越具影响力,并已经成为互联网搜索与数据挖掘领域的顶级国际学术会议,给网络搜索与数据挖掘领域的专家们提供了一个绝佳的交流平台。
今年的WSDM 2016会议设置了3场主题报告,4场实践和经验特邀报告,论文报告,5个研讨会,3次辅导报告,1场博士生论坛。此外,这次会议还特别设立风投产业日,并增加了WSDM
CUP挑战赛项目。下面就让小编带你走进这场有关搜索与数据的盛会!
永恒的焦点——大会论文
WSDM极为重视会议论文质量,据了解,本届会议共收到来自全球368篇论文投稿,67篇文章入选,接收率仅为18.2%。会议有两篇最佳论文提名,分别是Facebook和密歇根大学的“Information Evolution in Social
Networks”和卡耐基梅隆大学的“DiFacto: Distributed Factorization
Machines”。最佳论文奖被“Beyond Ranking: Optimizing Whole-Page
Presentation”斩获。相比其它学术会议,WSDM更加强调所研究问题的新颖性,例如来自芬兰阿尔托大学提出了目标函数值来量化分析社交网络用户节点的对立性,中科院的研究员利用户消费数据预测个人信息,这些课题都是非常创新有趣的。
在入选的67篇论文中,微软研究院贡献了6篇,一起来了解一下吧~
谁动了我的微博
当你将照片或者文字上传到微博或朋友圈,也许心中会默默期待那个TA的回复和转发吧!你的自拍或者分享又期待谁的点赞呢?到底谁动了我的社交平台?微软研究院的论文“谁将回复/转发这条微博?朋友关系和线上社交行为的动态性”Who Will Reply to/Retweet This Tweet? The Dynamics
of Friendships and Online Social
Interactions给出了答案。
论文作者之一、曾在微软亚洲研究院实习的钟元介绍说,在以往基于社交媒体的工作中,社会纽带(social
tie)一直被视为稳定的静态变量,这篇论文则从时间性(temporality)、相互性(reciprocity)和上下文关联性(contextuality)来揭示社会纽带的动态性。具体来说,该论文建立了learningto
rank
friends框架,包括数据收集,训练和预测三个阶段,通过预测一条微博的回复和转发序列来衡量模型的正确性。
在论文中,研究员们收集了超过7千万公开的在线聊天互动的数据,并通过分析微博回复、转发等互动过程中的所蕴含的时间性、语境的要素,建立了一个预测模型。该模型可以预测如果你的发出一条微博,你的哪些朋友更有可能进行回复和转发。这项模型不仅揭示了现实关系如何影响网络社交行为,更为未来的在线社交平台应用的开发提供一些新的思路。事实上,微软亚洲研究院的这项工作也是目前为止,第一次从用户和微博内容上建立关于回复和转发的预测模型。
博采百家之言
当你在医院体检时,往往需要在不同的科室对身体的各项指征进行检查。医生也需要通过综合多项指标数据才能确定你健康与否。互联网广告商业也与此类似,我们也需要考虑用户、商家、网站信息的一系列信息才能做出最佳的报价评估。因此,在多观点学习研究中,不同信息观点之间的建模工作是一大挑战。
Multi-view
Machines这篇论文正是基于这项问题提出了一种多视角机(multi-view
machines,MVMs),MVMs可以被应用到各种各样的监督机器学习过程当中,并分析源自不同观点的特征之间是否存在关联和互动。相比于传统的模型,MVMs能够进行全阶相互作用分析,并能够更好处理稀疏参数估计。
发散思维找问题
在很多以“提问-回答”方式进行互动的网站,例如百度知道,雅虎知识堂等,如果你采用关键词检索的方法进行查询,经常会反馈出一些描述极为接近的问题。但事实上,还有很多问题的本质相近,问题描述的文字缺大相径庭的类似问题,例如“健身时我该如何安排自己的三餐?”与“运动期间需要注意的饮食问题?”这两个问题都是与运动和饮食相关的同质性问题。对于网站本身的检索反馈系统来说,如何将这类问题合并与同时呈现给用户是一个较大的挑战。
Learning Distributed Representations of Data in Community
Question Answering for Question
Retrieval这篇论文提供了解决该问题的一个新思路。微软的研究员通过将文字和问题同时嵌入空间向量办法,寻找不同描述的问题中暗含的联系,并使用上百万的数据进行反复训练,最终建立了一个高效准确的检索模型。同时,这篇论文中涉及的模型代码也开源到了Github,你可以访问https://github.com/ComputerHobbyist/cqa获取更多信息。
Multi-Score Position Auctions 、
On obtaining effort based judgments for Information
retrieval、Improving IP Geolocation using Query
Logs三篇论文则在付费广告拍卖、信息相关性和IP地理定位等方向提出了一些新的模型与算法。
产业与学术并进——风投产业日
学术研究的开展离不开产业的支持,产业的革命也依赖学术领域的突破。如何将二者有机的结合在一起,并促进二者共同前进,也是此次WSDM大会提出的思考之一。为此,WSDM
2016创新性地设立了风投产业日。
在活动当日,与会人员主要围绕了网络搜索与数据挖掘和风投产业的互动这一议题展开讨论。大会还特别邀请了微软集团全球执行副总裁陆奇博士做了题为“一个新兴数字社会的剖析:从产业发展前景窥探未来”(the
Anatomy of an Emerging Digital Society: A Look into the Future from
an Industrial Development Perspective)的主题演讲。
陆奇
IT行业正在快速进入移动和云的时代,移动设备和云设备正从本质上改写我们的产业与社会,如何激发我们的潜力并打造出新一代功能更加强大的数字平台是全球工业界与学术界研究者共同面临的挑战。同时这也是一次极大的机遇,而我们期待与你共同挑战未来。
学术搜索排序的未来——WSDM CUP
相比于往年的WSDM大会,本次大会的新增项目WSDM
CUP学术搜索挑战赛环节更是十分引人注目。首届WSDM
CUP是由微软研究院和著名学术出版商Elsevier共同举办的,以论文搜索排序为题,号召学术界为学术用户探索出合理有效的论文搜索排序算法,以期改善文献检索体验。
事实上,对于每个科研人员来说,了解行业内的研究动向十分重要。当某些细分方向某些论文提出了某一新观点,虽然短时间内相关论文的引用数相对有限,但并不影响学者们对此类论文的重视度。但目前通过关键词进行查询,出现在搜索结果前几位的论文往往是那些引用次数较高,但观点可能不甚新颖的“旧论文”,学术界的新星论文却不易被学者们获取。近年来,国内外的学术界也一直在反思以引用数衡量论文质量是否合理,并开始倡导发展更加丰富多元、求真务实的评价机制,但落实到文献检索工具,则苦于没有更为合理的排序策略能够取代传统的引用数排序。
整个WSDM
CUP分为三个阶段,在大会开始之前,参赛者们经过重重筛选,仅有少数参赛队伍能够进入决赛。值得一提的是,在学术搜索挑战赛的第二阶段,由初赛中获胜的八只队伍优化过的算法进入了微软必应学术搜索中,面向所用用户进行了公测。因此,在此期间进入必应学术搜索中进行搜索行为的用户们,你们的搜索将决定着学术检索算法的未来。(相关活动信息已在微软亚洲研究院的微博、微信以及相关网站页面进行了公开。)
此外,基于此前WSDM
CUP挑战赛过程中,部分公测用户热情贡献的建议和想法,微软学术搜索开发了极具创新性的语义搜索功能,完善智能搜索的新体验。通过语义搜索技术,搜索引擎的工作不再受限于用户所输入查询的字面本身,而是透过现象了解本质,准确地捕捉到用户所输入语句后面的真正意图,并以此来进行搜索,从而更准确地返回最符合用户需求的搜索结果。
例如,用户希望了解学术领域“speech
recognition”的内容,具体到微软研究院的洪小文院长(Hsiaowuen
Hon)在学术会议(ICASSP)发表过的某篇文章时,可采用如下查询:papers
about speech recognition by hsiaowuen hon in
icassp。该查询通过语法开关papers启动语义查询功能,并由语法介词by标示作者,in标示会议;同时,语法介词可多次叠加,以优化的搜索结果,如about可用来细分领域、by标示多个合著作者、from标示作者单位或限定作者于某段科研经历期间发表的论文等等。
此外,微软学术搜索还带来了全新的筛选功能。搜索结果中,与主题相关的内容会分别展示在多维度过滤条件中,供用户筛选搜索结果。如搜索主题为洪小文(Hsiaowuen
Hon),其合著作者、研究领域、发表期刊、参加会议、所在机构等,均可作为筛选条件展示在过滤器中,选中相应条件即可过滤内容,获取更精准的论文搜索结果。快去试试吧~~
BIG 2016
CUP编程挑战赛
WSDM
CUP论文搜索挑战赛只是探索论文排序搜索未来的第一步,如果你还在遗憾过错了这个改变论文排序搜索未来的机会,那么也许今天刚刚开放报名的BIG
2016 CUP你不该错过。
BIG 2016 CUP是大数据创新收集大会(BigData Innovators
Gathering)的一部分,将与WWW
2016大会同时进行,关注的焦点主要集中于大数据与网络领域。此次BIG 2016
CUP主要关注的问题是数据库中论文和作者匹配错误的现象。BIG 2016
CUP希望参赛者可以从机器学习、信息检索、图数据分析等多个角度入手,提供一个可以验证论文和作者是否匹配的RESTful服务端口。
相比于前几届BIG编程挑战赛,本次BIG 2016
CUP更加鼓励将数据处理和在线查询相结合的创新解决方案。微软则为本次挑战赛提供了微软学术图谱数据集和在线的图查询编程接口。如需了解更多详情,请访问http://big2016.org/big-2016-cup/
相关报名地址:https://cmt3.research.microsoft.com/User/Login?ReturnUrl=/BIG2016
作者介绍
注:美国东北大学计算机系博士生、微软亚洲研究院社会计算组前实习生钟元对本文亦有贡献。
我叫钟元,博士二年级,目前就读于美国东北大学计算机系,本科毕业于中国科学技术大学。大四期间,我与双胞胎哥哥钟文(目前就读于美国纽约州立大学石溪分校计算机系)在社会计算组(Social
Computing
group)谢幸和袁晶老师的指导下,进行了关于社会纽带的动态性以及社交网络移动数据的研究,并分别发表于WSDM
2015和WSDM
2016会议上。
在MSRA实习中,谢幸和袁晶老师严谨的学术态度和扎实的工作作风,使我和哥哥钟文受益良多。在他们的影响下,我们走上了研究之路,并决心去美国攻读博士学位。在MSRA,我有机会一睹大牛巨擘的风采,并与他们近距离接触交流,了解到最前沿技术。通过组内和跨组讨论会,我不仅掌握自己领域的知识方法,对于相关领域工作也有清晰定位。实习生活本身也丰富多彩,Family
Day, Mini
Winedown等活动,棋牌社,羽毛球社等社团提供足够多的机会自我放松,同时也认识了来自世界各地的学生,收获了深厚的友谊。微软亚洲研究院的实习生活勤奋刻苦而又快乐轻松!
推荐阅读:
【年度学术大会合集】SIGGRAPH,KDD,AAAI,NIPS…这些你想参加的会议
欢迎关注
微软亚洲研究院官方网站:http://www.msra.cn
微软亚洲研究院人人网主页:http://page.renren.com/600674137
微软亚洲研究院微博:http://t.sina.com.cn/msra
微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码:
前沿理论、反思创新、产学结合——你不能错过的WSDM 2016大会的更多相关文章
- CODING 签约天津大学,助力高校“产学”接轨
近日,CODING 与天津大学顺利达成合作,将通过 CODING 的一站式 DevOps 解决方案为天津大学师生提供软件研发管理方面的先进理念和产品. 根据中共中央.国务院印发的<中国教育现代化 ...
- (36)Spring Boot Cache理论篇【从零开始学Spring Boot】
Spring Boot Cache理论篇 在上一篇中我们介绍了Spring Boot集成Redis的实战例子,里面使用到了Spring Cache,那么什么是Spring Cache呢,本章将会做一个 ...
- 共创力董事长杨学明先生受邀参加CED智慧大会!
2018年11月14日, 深圳市共创力咨询董事长.深圳市汇成研发管理咨询公司董事长杨学明先生受邀参加由深圳图书馆主办,深圳手讯视频承办的“倾听行业之声”2018第二届世界CED智慧大会,此次分享的主题 ...
- Conference-Web Search and Data Mining
Conference WSDM(Web Search and Data Mining)The ACM WSDM Conference Series 不像KDD.WWW或者SIGIR,WSDM因为从最开 ...
- 51. spring boot属性文件之多环境配置【从零开始学Spring Boot】
原本这个章节是要介绍<log4j多环境不同日志级别的控制的>但是没有这篇文章做基础的话,学习起来还是有点难度的,所以我们先一起了解下spring boot属性文件之多环境配置,当然文章中也 ...
- 开班典礼-老师玩命的教,大家玩命的学,沉静,18K
接下来的四个月决定我的命运,三年前决定现在,现在决定三年后.喜讯,双元安卓四期,1368$,到第二期仍然不成熟,打分意见多写, 孙健:15011386618 喊出你 的目标.自己监督不了自己,别人可能 ...
- 57. Spring 自定义properties升级篇【从零开始学Spring Boot】
之前在两篇文章中都有简单介绍或者提到过 自定义属性的用法: 25.Spring Boot使用自定义的properties[从零开始学Spring Boot] 51. spring boot属性文件之多 ...
- 灵雀云CTO陈恺:从“鸿沟理论”看云原生,哪些技术能够跨越鸿沟?
灵雀云CTO陈恺:从“鸿沟理论”看云原生,哪些技术能够跨越鸿沟? 历史进入2019年,放眼望去,今天的整个技术大环境和生态都发生了很大的变化.在己亥猪年春节刚刚过去的早春时节,我们来梳理和展望一下整个 ...
- 统计决策——贝叶斯决策理论(Bayesian Decision Theory)
(本文为原创学习笔记,主要参考<模式识别(第三版)>(张学工著,清华大学出版社出版)) 1.概念 将分类看做决策,进行贝叶斯决策时考虑各类的先验概率和类条件概率,也即后验概率.考虑先验概率 ...
随机推荐
- git的基础使用
GIT """ 什么是git:版本控制器 - 控制的对象是开发的项目代码 代码开发时间轴:需求1 > 版本库1 > 需求2 > 版本库2 > 版本 ...
- lnmp环境搭建:Centos7 + Nginx1.12.2 + Mysql-5.6.38 + PHP7.2.0
https://blog.csdn.net/ty_hf/article/details/50622888
- c/c++[001]:start
作为一个学校课程跳过c语言的萌新,这次重新学习c/c++从源头上明白这两种不同的输入输出还是很有必要 scanf()是C语言中的一个输入函数.与printf函数一样,都被声明在头文件stdio.h里, ...
- 吴裕雄--天生自然C语言开发:enum(枚举)
enum DAY { MON=, TUE, WED, THU, FRI, SAT, SUN }; enum DAY { MON=, TUE, WED, THU, FRI, SAT, SUN }; en ...
- 树分治(挑战p360)
poj1741 题:http://poj.org/problem?id=1741 #include<iostream> #include<algorithm> #include ...
- day22- hashlib模块-摘要算法(哈希算法)
# python的hashlib提供了常见的摘要算法,如md5(md5算法),sha1等等.摘要:digest # 摘要算法又称哈希算法.散列算法. # 它通过一个函数,把任意长度的数据(明文)转换为 ...
- 1088. Rational Arithmetic (20)
1.注意在数字和string转化过程中,需要考虑数字不是只有一位的,如300转为"300",一开始卡在里这里, 测试用例: 24/8 100/10 24/11 300/11 2.该 ...
- linux 新添加的硬盘格式化并挂载到目录下方法
需求: 新增加一块硬盘sdb,将sdb分区,只分一个区,格式化,挂载到目录/ssd下.原文:https://www.cnblogs.com/ddbear/p/7009736.html 1. 查看现在 ...
- ios 中键盘被遮挡解决方案
1.当view是非可以滚动的view时, // 添加对键盘的通知 - -(void)viewDidLoad{ [[NSNotificationCenter defaultCenter] addObse ...
- [LC] 5. Longest Palindromic Substring
Given a string s, find the longest palindromic substring in s. You may assume that the maximum lengt ...