微软“领衔主演”——记ACM SIGIR 2013信息检索国际会议" title="信息检索盛会 微软“领衔主演”——记ACM SIGIR 2013信息检索国际会议">编者按:ACM SIGIR会议(全称为ACM Special Interest Group on Information
Retrieval,国际计算机协会信息检索国际会议)创始于1971年,至今已有40多年历史。2011年,SIGIR曾在北京举行,微软亚洲研究院作为主办方之一参与到会议中。作为信息检索领域最重要的国际学术会议,SIGIR一直以来都是互联网业内关注的焦点。今年,微软亚洲研究院研究员高斌和窦志诚参加了此次会议,并撰文分享了他们精彩的会议经历。


作者:微软亚洲研究院研究员
高斌 窦志诚

2013年,第36届SIGIR会议于7月28日至8月1日在爱尔兰首都都柏林举行,本次会议从336篇候选论文投稿中录用73篇,而其中有12篇来自微软全球研究院和微软产品部门,占录用论文总数的16.4%,充分彰显了微软在信息检索领域的国际领先地位。

本次会议为期五天,按照惯例,第一天是10个教学报告会(tutorial);接着是为期三天的主会(main
conference),包括1个专题研讨会(panel)、1个主题演讲(keynote
speech)、20个学术报告会(research
session)、1个工业技术报告会(track)以及若干演示会(demo)和墙报展示会(poster);最后一天是7个专题讨论会(workshop)。

微软“领衔主演”——记ACM SIGIR 2013信息检索国际会议" title="信息检索盛会 微软“领衔主演”——记ACM SIGIR 2013信息检索国际会议">

互联网搜索20年

与往年不同,今年的开幕式上没有主题演讲,取而代之的是一个庆祝互联网搜索诞生20年的专题讨论会。早在1993年,Jonathon
Fletcher就创建了互联网第一个现代搜索引擎叫做JumpStation,并由此引发了一系列搜索技术的革新和搜索新产品的问世。Jonathon
Fletcher也受邀成为此次专题讨论会的嘉宾,此外,受邀嘉宾还有雅虎研究院的Ricardo
Baeza-Yates等人。

当然,专题讨论会的主角毫无疑问属于来自微软剑桥研究院的嘉宾Stephen Robertson,为了表彰他在信息检索领域里面的突出贡献,比如他发明了影响深远的BM25,大会为他颁发了一个特殊荣誉奖。在讨论会中,各位嘉宾回顾了互联网搜索的历史,讨论了如何更好的理解用户需求以及如何开发更加易于使用的搜索产品。

主题演讲

此次大会唯一的主题演讲安排在主会第二天上午,来自IBM
T.J. Watson实验室的John R. Smith做了题为《在多媒体大数据浪潮之巅(Riding the Multimedia
Big Data
Wave)》的报告。他介绍了为了提高多媒体(图片和视频)搜索的质量,我们应该如何更好的利用大数据来改进多媒体信息的特征抽取与分类。他分享了IBM构建图片和视频搜索平台的经验,并展示了很多生动的演示系统(demo)。

论文综述

从研究方向看,与前几年的SIGIR会议相比,除了以往的热点方向,如查询理解与推荐、推荐系统、搜索日志分析、排序学习以外,搜索结果评价(evaluation)、社交媒体(social
media)、用户行为分析(user behavior)、主题标签(hashtag)成为新的热点。

从研究问题看,排序问题仍然是SIGIR非常关注的热点问题之一,今年有关排序问题的论文不少,但是似乎没有发现让人眼前一亮的新想法,这个方面亟需新的突破。

用户行为分析(user
behavior)和信息检索评价(evaluation)问题在今年的SIGIR会议上引起了广泛关注。在全部的20个学术报告会(session)中,一个集中讨论用户行为,两个集中讨论信息检索评价,两个讨论用户行为和交互式信息检索。而在其他关于排序、检索模型和互联网搜索的报告专题中,也有部分在讨论用户行为和信息检索评价。用户行为分析是信息检索模型建立的基础。一个好的检索模型一定是提高用户体验和用户满意度为目标,而用户在搜索结果上的行为数据,是分析用户体验和用户满意度的重要数据来源。因此如何从这些用户反馈数据中挖掘出有用的信息用于改善搜索质量,是工业界和学术界一直以来都关注的问题。值得一提的是,以前的大部分研究都是针对用户在桌面电脑上(desktop)使用搜索引擎的行为,而微软的Qi
Guo研究员首次深入的分析了在可触摸设备上的用户行为数据,并研究了如何基于这些数据改进搜索排序质量。随着智能可触摸设备的飞速发展,这一研究是非常有价值的,相信在这一方向上将会有更多的研究工作出现。

和基于用户行为的排序质量改进类似,基于用户行为分析的信息检索评价近年来也得到了飞速发展。和传统的基于人工标注的信息检索评价方法相比,基于用户行为分析的评价方法更能够体现和评测真实用户体验。在此次会议上,学术界的关注度从传统的结果排序评价扩展到了页面上的其他信息,如搜索结果摘要(snippet)和查询建议(query
suggestion)的评价。值得关注的是,目前的商业搜索引擎在搜索结果中增加了越来越多的信息。比如对于查询词“微软”,除匹配的的网页结果外,微软必应搜索引擎还在结果页面显示了相关新闻、微软客服电话以及微软的股票信息。整个搜索结果页面上的信息(而不仅仅是相关网页结果)是否真正满足用户需求,提高用户体验,是目前信息检索评价领域越来越关心的问题。在此次大会上,也出现了一系列相关研究工作。

从研究的方法看,除了近些年比较受重视的机器学习、众包策略、交互学习、社交媒体等方法以外,大数据在信息检索领域的作用显得更加突出。然而,目前在语音识别、图片分类等领域大放异彩的深度学习在本次会议的各种讲座上很少被提及,我们猜测这与深度学习在自然语言处理、文本处理、排序问题上的表现尚无显著提升有一定关系。据我们所知,有很多研究者正在进行这方面的很多尝试,期望在不久的将来我们能看到一些令人耳目一新的成果。

微软“领衔主演”——记ACM SIGIR 2013信息检索国际会议" title="信息检索盛会 微软“领衔主演”——记ACM SIGIR 2013信息检索国际会议">

最佳论文奖与最佳学生论文奖

今年SIGIR的最佳论文(Best Paper
Award)题为《互联网搜索中的信仰与偏见(Beliefs
and Biases in Web Search
)》,作者是来自微软雷蒙德研究院的Ryen
White
,这也是他第三次获得SIGIR的最佳论文奖(注:前两次分别是2007年和2010年,我们猜想2016年会不会还是他?)。这篇文章通过对一系列问卷调查、搜索结果的人工标注以及大规模搜索日志信息的综合分析,探索了预想偏向性(pre-conceived
biases)对健康领域搜索的影响。

微软“领衔主演”——记ACM SIGIR 2013信息检索国际会议" title="信息检索盛会 微软“领衔主演”——记ACM SIGIR 2013信息检索国际会议">

今年的最佳学生论文奖(Best Student Paper
Award)题为《从全程关联探究网络搜索中的固有多样性(Toward
Whole-Session Relevance: Exploring Intrinsic Diversity in Web
Search
)》,作者分别是来自康奈尔大学的Karthik
Raman和来自微软雷蒙德研究院的Paul
N. Bennett
Kevyn
Collins-Thompson
。这篇文章对用户在整个查询需求会话(search
session)中的信息进行抽取和分析,从而促进对网页搜索结果的多样性方面的提升。

这两篇最佳论文均出自微软研究院,再一次体现了微软研究院在信息检索领域的国际领先地位。此外,微软亚洲研究院的酒井哲也(Tetsuya
Sakai)和窦志成的论文《综述、检索排序和会话:信息获得评价的统一标准框架Summaries,
Ranked Retrieval and Sessions: A Unified Framework for Information
Access Evaluation
》获得最佳论文runner up奖。

微软“领衔主演”——记ACM SIGIR 2013信息检索国际会议" title="信息检索盛会 微软“领衔主演”——记ACM SIGIR 2013信息检索国际会议">

一些会议

工业技术报告会

今年的工业技术报告会邀请了来自世界各大搜索技术公司的十余位核心技术领导者来做报告。

其中,微软必应(Bing)搜索的高级总监Stefan
Weitz介绍了面对越来越复杂和模糊的搜索请求,必应搜索是如何改进理解用户搜索意图的算法从而开发出更加易于使用的搜索产品的。雅虎副总裁暨雅虎欧洲拉丁美洲研究院院长Ricardo
Baeza-Yates的报告强调了用户参与度(user
engagement)在搜索产品中的重要性并且讨论了如何评价用户参与度的好坏。微软在线服务部门架构师Ronny Kohavi介绍了如何通过在线可控实验(online
controlled experiments)来对搜索产品进行线上测试。

教学报告会

今年的教学报告会有10场,内容十分丰富,涵盖了实体(entity)检索、测试数据集创建、音乐搜索、多媒体推荐、大规模高效率搜索系统、排序学习、多样化搜索等等。

专题讨论会

今年的专题讨论会有7个,包含医疗健康搜索、互联网广告的理论与实践、时域信息在信息获取中的应用、基于用户行为分析的信息检索评价、搜索系统的人机交互、推荐系统以及历史文化遗产的检索。

微软亚洲研究院的高斌刘铁岩闫峻和百度公司的沈抖联合组织了互联网广告的理论与实践的专题讨论会,邀请了来自微软、谷歌、英国伦敦大学学院(University
College
London)、华为和阿里巴巴的7位核心技术骨干和学者来做报告,内容涵盖了互联网广告中的信息检索、数据挖掘、机器学习、经济学方法以及大规模广告系统的实现经验。

和主会类似,基于用户行为的信息检索评价在专题讨论会中也吸引了大量的参会者。随着互联网的高速发展和大数据时代的到来,互联网上的动态数据(如论坛,新闻以及微博数据)越来越多。如果利用这些数据,充分发挥时间维度在信息获取中的作用,是非常有价值而且迫切的研究问题。在此次大会的主会中,讨论这一问题的并不多。但时域信息在信息获取中的应用这一专题讨论会却吸引了大量的参与者,讨论了一系列有价值而且有意思的问题,利如如何基于公众意见(public
sentiment)进行事件预测(如选举结果预测),如何改善搜索结果在时间维度上的多样性,如何提高时间相关查询的相关性等。

交流互动

今年有超过500人注册参会,许多从事搜索产品的公司比如微软、谷歌、雅虎、百度、Yandex为本次会议派出核心研究人员参会。同时,也有众多来自世界各地的学术界和工业界人士参加了本次会议,进一步加强了跨界的沟通和交流。值得注意的是,今年来自中国大陆地区的参会人数有了显著提高,比如中国科学院、清华大学、浙江大学、南开大学都派出很多研究员、教师和学生参会。

未来展望

从SIGIR的商务会议上,我们得知近年来SIGIR的财务状况很好,今后将进一步改善会议的服务、设施和环境,并加大对学生参会的资助。另外,通过今年的成功实践,今后的SIGIR
poster将改为长为4页的short paper。2014年至2016年的SIGIR将分别在澳大利亚的黄金海岸(Gold
Coast)、智利的圣地亚哥(Santiago)和意大利的比萨(Pisa)举行,接下来的这三届SIGIR的精彩内容,我们拭目以待!

作者介绍
微软“领衔主演”——记ACM SIGIR 2013信息检索国际会议">

高斌

微软亚洲研究院互联网经济与计算广告组(IECA)研究员。

主要研究方向为计算广告、数据挖掘、信息检索和机器学习。

微软“领衔主演”——记ACM SIGIR 2013信息检索国际会议">

 

 

窦志成

微软亚洲研究院网络搜索与数据管理组研究员。

主要研究方向为网络搜索与数据挖掘,

包括:个性化网络搜索、查询理解以及搜索结果多样化等。



 

____________________________________________________________________________________ 

相关阅读

2013 ACM
网络数据搜索与数据挖掘国际会议

社交网搜索成为网络搜索学界炙手可热的话题

欢迎关注


微软亚洲研究院人人网主页:
http://page.renren.com/600674137

微软亚洲研究院微博:http://t.sina.com.cn/msra

信息检索盛会 微软“领衔主演”——记ACM SIGIR 2013信息检索国际会议的更多相关文章

  1. 2013 ACM网络搜索与数据挖掘国际会议

    ACM网络搜索与数据挖掘国际会议" title="2013 ACM网络搜索与数据挖掘国际会议"> 编者按:ACM网络搜索与数据挖掘国际会议(6th ACM Conf ...

  2. 受邀与微软售前技术团队参与TFS技术沟通会议

    微软正式发布Azure DevOps Server 2019的第一个版本,作为Team Foundation Server (TFS)2018的升级版本和替代产品. 作为开发运维一体化平台的主打产品, ...

  3. HDU 4508 湫湫系列故事——减肥记I (2013腾讯编程马拉松初赛第一场)

    http://acm.hdu.edu.cn/showproblem.php?pid=4508 题目大意: 给定一些数据. 每组数据以一个整数n开始,表示每天的食物清单有n种食物.  接下来n行,每行两 ...

  4. 微软宣布一批新获得Microsoft Teams认证的会议硬件

    COVID-19 疾病流行期间,微软见到了 Microsoft Teams 视频会议解决方案取得的巨大增长.然而在许多情况下,生产力与音视频硬件的质量息息相关.好消息是,该公司刚刚完成了一批第三方硬件 ...

  5. HDOJ 4509 湫湫系列故事——减肥记II(2013腾讯编程马拉松) 并查集合并区间

    发现这种合并区间的题目还可以这么玩 给你n段时间 然后问没被占用的时间是多少 题目所给的区间是右开的导致我wa 好多人5e5*1440的暴力跑出来的时间居然只是我的两倍 不懂.... 所以并查集并没有 ...

  6. SCI&EI 英文PAPER投稿经验【转】

    英文投稿的一点经验[转载] From: http://chl033.woku.com/article/2893317.html 1. 首先一定要注意杂志的发表范围, 超出范围的千万别投,要不就是浪费时 ...

  7. IEEE会议排名(转载)

    不知道谁整理的,我就下了个word.所以就标注不了,引用的哪的了. Rank 1: SIGCOMM: ACM Conf on Comm Architectures, Protocols & A ...

  8. [转帖]重估BAT与华为的云上野心

    重估BAT与华为的云上野心 https://www.leiphone.com/news/201910/Z5aLhckqUjCNJ49o.html 本文作者:王刚 2019-10-11 16:19 导语 ...

  9. 微软亚洲研究院研究员获选IEEE Fellow 和ACM Distinguished Member

    ​ 年末将至,微软亚洲研究院喜讯连连.近日,IEEE(国际电气电子工程师学会)和ACM(美国计算机协会)先后公布了2017年度的院士名单(IEEE Fellow)和2016年度杰出会员名单(ACM D ...

随机推荐

  1. MYSQL安装与基本操作

    http://docs.sqlalchemy.org/en/latest/    sqlalchemy文档 1.下载,下载版本太多,不知道下哪个好,别人介绍版本 进入官网-->点击最下面 DOW ...

  2. Python中的常用内置对象之map对象

    如果你了解云计算的最重要的计算框架Mapreduce,你就对Python提供的map和reduce对象有很好的理解,在大数据面前,单机计算愈加力不从心,分布式计算也就是后来的云计算的框架担当大任,它提 ...

  3. shell字符串大小写转换

    1.typeset  有两个选项 -l 代表小写 -u 代表大写. 用法: typeset -u name name='asdasdas' echo $name   typeset -l ame am ...

  4. 吴裕雄--天生自然MySQL学习笔记:MySQL 连接

    使用mysql二进制方式连接 您可以使用MySQL二进制方式进入到mysql命令提示符下来连接MySQL数据库. 实例 以下是从命令行中连接mysql服务器的简单实例: [root@host]# my ...

  5. proto3 不支持内建类型的非空判断即 hasXXX

    proto3 移除了内建类型的非空判断方法 即代码生成工具不会为 bool int 等类型生成has方法 有使用过proto2 或者其它rpc 框架的人都知道使用has 方法去判断消息里的值是否设置, ...

  6. Linux下idea由于缺少相关权限导致的tomcat ERROR

    昨天一天都在倒腾两个系统,也是醉了. 不过还好,系统修好了,在ubuntu下重新安装idea后,出现了这个错误: Intellij Idea Tmocat Error running Tomcat: ...

  7. 84.常用的返回QuerySet对象的方法使用详解:select_related, prefetch_related

    1.select_related: 只能用在一对多或者是一对一的关联模型之间,不能用在多对多或者是多对一的关联模型间,比如可以提前获取文章的作者,但是不能通过作者获取作者的文章,或者是通过某篇文章获取 ...

  8. empty和is_null以及isset函数在0、”0”、‘空串’、NULL、false、array()的计算值

    1empty:只要是非空或者非零的值都返回false,换句话说‘’.‘0’.0.null.false都返回true: 2is_null: 当参数满足下面三种情况时,is_null()将返回TRUE,其 ...

  9. 时间复杂度T(n)

    1:概念 T(n)被称为时间复杂度,一般为在某个算法中操作步骤的重复次数与问题规模n的关系,下面一一举例说明 2:具体说明 2.1:常数阶o(1) 无论代码有多少行,只要没有循环等复杂的结构,其算法时 ...

  10. Java使用Sftp实现对跨服务器上传、下载、打包、写入相关操作

    1.Maven引入jar <dependency> <groupId>com.jcraft</groupId> <artifactId>jsch< ...