2015大会见闻记" title="严谨与特色并行——WSDM 2015大会见闻记">

第8届ACM网络搜索与数据挖掘会议(ACM
International Conference on Web Search and Data
Mining)今年在上海举办。我有机会与微软亚洲研究院袁晶师兄一同参加此次会议,并代表我们入选论文的作者进行发表,倍感荣幸。这篇论文是我和我的双胞胎弟弟钟元(论文的第一作者)大四时,在微软亚洲研究院谢幸老师社会与城市挖掘组实习期间完成的,这是我第一次参加高水平国际顶级学术会议。这次会议,无论从深度——深入了解网络搜索与数据挖掘领域研究的前沿,还是广度——接触了从学术界到工业界,从学术泰斗到和我一样的学术新人,甚至是对个人能力的提升以及对未来研究的规划,都使我受益匪浅。


特色的环节设置与丰富的学术演讲

WSDM非常重视论文质量——本届会议共收到238篇论文投稿,其中来自16个国家,44个科研机构的39篇文章入选,接收率仅为16.4%
(比去年的18%又有所下降) 。

此次会议设置了包括主题报告、专题讲座、实践和经验报告、研讨会和冬令营等在内的多个环节。其中,实践和经验报告作为WSDM会议极具特色的环节,邀请了工业界优秀的研究人员讲解了他们的研究成果以及解决的实际问题。冬令营是本届会议新增环节,旨在为参会者尤其是学生介绍互联网搜索和数据挖掘相关基础理论和前沿科技,涵盖了深度学习、自然语言处理、社会网络、分布式机器学习等领域。

会议邀请加州大学伯克利分校的Michael
Franklin教授讲解了开源软件伯克利数据分析堆栈(Berkeley
Data Analytics Stack)的当前情况,包括GraphX图形处理系统和SampleClean混合人机清理框架等模块。总体来看,BSD系统更加完善,在数据分析方面也越来越有影响力;Facebook的Lada
Adamic介绍了个体瀑布信息流的增长和扩张,以及社交网络中流言、迷因和社会运动等特征的传播和扩散特点;康奈尔大学的Thorsten
Joachims教授做了用户交互学习的主题演讲。他认为,学习用户交互行为不仅仅限于机器学习算法,还要根据用户决策来理解、设计更加合适的交互方式。另外,会议还邀请了斯坦福大学的Jure
Leskovec教授,谷歌公司的Tushar
Chandra,以及百度、阿里巴巴和腾讯公司的朱凯华、金榕和卓居超,进行了实践和经验报告。


利用位置签到预测用户个人信息

2015大会见闻记" title="严谨与特色并行——WSDM 2015大会见闻记">

我们在本届大会上所展示的论文是“利用位置签到预测用户个人信息”(You
are where you go: Inferring Demographic Attributes from Location
Check-ins)。以往关于用户个人信息预测的研究大多基于社交网络用户交互行为,例如:利用Facebook
Likes行为、互联网浏览行为、Twitter回复转发行为等进行预测。这些研究取得了不错的结果,但是具有高度规律性、唯一性和可预测性的用户移动行为数据却一直被忽视了。在这篇论文中,我们提出建立基于用户位置签到行为的预测模型,以当下最流行的社交网络位置签到信息作为用户移动行为数据,来推断包括性别、年龄、教育背景等个人信息。我们证实了看似内容单一的社交网络用户移动行为数据其实可以很好地预测用户个人信息,达到很高的准确率。用户个人信息的预测在社交网络推荐、广告投放、用户关系预测和信息分享等方面都有着巨大的应用前景。

作为代表,我在“用户移动性以及推荐建模”专场,进行了论文的正式报告。报告开篇,我通过举例——弟弟钟元经常在浪漫餐厅签到,而我经常在图书馆签到,推断出我俩各自情感状况。从而引出了我们的工作:利用用户位置签到历史数据来预测性别、年龄、教育背景、性取向等个人信息。然后,提出Location
to profile (L2P)系统整体框架,主要包含:数据爬取、特征抽取、特征降维、预测四部分。

其中,数据爬取部分负责获得新浪微博用户签到数据和点评网用户点评数据;预测部分利用抽取的特征,进行用户个人信息预测。这是系统中相对简单的两部分,相较之下特征抽取和特征降维则是L2P系统核心部分。我们主要从新浪微博用户位置签到数据中抽取空间、时间特征,同时结合点评网用户点评数据抽取签到位置知识特征。对于空间特征,我们通过把签到位置按照交通路网结构进行空间划分来获得;对于时间特征,我们通过按照每周工作日和休息日,每天24小时进行时间划分来获得;对于最重要的签到位置知识特征,我们通过位置知识扩展(location
knowledge enrichment)过程来获得。具体来说,首先根据签到位置的地址、经纬度等信息跨数据集(cross
domain)匹配微博签到位置和点评评论位置,继而利用高效的点评数据提取用户评论关键词,筛选出用户微博中有效的关键词并预测出用户对签到位置的评分,结合已知的签到位置类别信息,完成位置知识从点评到微博的整合。下一步,建立张量分解模型来把特征维度降低到适当维度,进而建立预测模型,来推断用户个人信息。


与微软再聚首

此次学术会议,极大地拓宽了我的研究视野,使我收获颇丰。能在这样的顶级会议上发表文章,与微软亚洲研究院对我和弟弟的培养密不可分。在微软,我们能够与世界上最优秀的计算机科学家一起做创造性的研究,获得细致的指导,这是在大多数高校和研究机构所无法想象的优越环境。恰恰是这种独一无二的氛围,让我们的研究能力有了质的飞跃。在此,我衷心地感谢微软亚洲研究院让我和弟弟有机会在大四实习阶段接触到最前沿的技术,发表了高质量的文章,这对我们未来的科研生活产生了极大的影响。

2015大会见闻记" title="严谨与特色并行——WSDM 2015大会见闻记">
今年暑假,在美国东北大学攻读博士学位的弟弟钟元再次回到微软亚洲研究院做为期三个月的暑期实习生,相信他一定会更加努力地工作,取得更优异的成绩。

钟文

于美国纽约州立大学-石溪分校


相关阅读

CHI
2015大会:着眼于更加个性化的人机交互

别恐慌,大众关心的人工智能问题学界都在努力求解——我眼中的AAAI
2015大会

2015大会见闻记" title="严谨与特色并行——WSDM 2015大会见闻记">


欢迎关注

微软亚洲研究院官方网站:http://www.msra.cn

微软亚洲研究院人人网主页:http://page.renren.com/600674137

微软亚洲研究院微博:http://t.sina.com.cn/msra

微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码​:​

2015大会见闻记" title="严谨与特色并行——WSDM 2015大会见闻记">

严谨与特色并行——WSDM 2015大会见闻记的更多相关文章

  1. WWDC 2015 - 概记

    WWDC 2015已经过去快一个月了,今年似乎没有像去年那样变化巨大,一切都在慢慢演进,iOS.Mac OS.watchOS都变得越来越好. 新的三大平台的发布,iOS 9/Mac OS EL Cap ...

  2. CTSC&&APIO 2015 酱油记

    在北京待了一周多,还是写点记录吧. 人民大学校园还是挺不错的,不过伙食差评. CTSC的题目太神,根本不会搞,一试20二试10分..本来都寄希望于提交答案题的..结果就悲剧了. 然后是听大爷们的论文答 ...

  3. 改变生活的移动计算——感受 MobiSys 2015

    MobiSys 2015" title="改变生活的移动计算--感受 MobiSys 2015"> 作者:微软亚洲研究院研究员 张健松 今年的MobiSys会议地点 ...

  4. WWW 2015:一个神奇的会议

    2015:一个神奇的会议" title="WWW 2015:一个神奇的会议"> 作者:微软亚洲研究院研究员 袁进辉 WWW 2015(24th Internatio ...

  5. 前沿理论、反思创新、产学结合——你不能错过的WSDM 2016大会

    第九届ACM网络搜索与数据挖掘国际会议(ACM International Conference on Web Search and Data Mining,简称WSDM)已于上周(2月22日-25日 ...

  6. Conference-Web Search and Data Mining

    Conference WSDM(Web Search and Data Mining)The ACM WSDM Conference Series 不像KDD.WWW或者SIGIR,WSDM因为从最开 ...

  7. 接轨国际,碰撞更多科研火花——第八届ChinaSys大会专访微软亚洲研究院首席研究员张霖涛

    作者:微软亚洲研究院实习生 徐祎雪 卢思奇 2015年6月5日至6日,由中国科学院深圳先进技术研究院先进计算与数字工程研究所主办的第八届中国计算机系统(ChinaSys)学术研讨会在厦门大学召开.来自 ...

  8. 深入理解java虚拟机JVM(下)

    深入理解java虚拟机JVM(下) 链接:https://pan.baidu.com/s/1c6pZjLeMQqc9t-OXvUM66w 提取码:uwak 复制这段内容后打开百度网盘手机App,操作更 ...

  9. 问渠那得清如许?为有源头活水来——对【近取Key】产品进行的深度测评与解析

    在 Build To Show 的场景中,大家各显身手,用各种办法展现技术,的确很难在单一的维度上确定谁赢谁输.但是,在 Build To Win 的场景中,往往市场就是那么一块, 竞争对手占了 70 ...

随机推荐

  1. Win 10 Ctrl + Space 冲突

    1. 说明 在IDE里面Ctrl + space 会与 Windows 输入法相互冲突,并且用Ctrl + Space 切换中英文也很不常用(常用直接shift切换). 2. 操作 控制面板——时钟. ...

  2. 微信小程序-wx.request-路由跳转-数据存储-登录与授权

    wx.request 相当于发送ajax请求 官方文档示例代码 wx.request({ url: 'test.php', //仅为示例,并非真实的接口地址 data: { x: '', y: '' ...

  3. python——print函数

    .print()函数概述 print() 方法用于打印输出,是python中最常见的一个函数. 该函数的语法如下: print(*objects, sep=' ', end='\n', file=sy ...

  4. [前端] VUE基础 (5) (过滤器、生命周期、钩子函数)

    一.过滤器 过滤器分为局部过滤器和全局过滤器. 1.局部过滤器 <body> <div id="app"> </div> <script ...

  5. 吴裕雄--天生自然 pythonTensorFlow自然语言处理:Seq2Seq模型--训练

    import tensorflow as tf # 1.参数设置. # 假设输入数据已经用9.2.1小节中的方法转换成了单词编号的格式. SRC_TRAIN_DATA = "F:\\Tens ...

  6. windows系统下的渗透测试神器 -pentestbox

    Pentestbox介绍 PentestBox官网:https://pentestbox.org/zh/ 这是一个运行在windows环境下的终端,集成了绝大部分渗透测试所需要的环境 如python2 ...

  7. day51-线程-条件

    #条件:Condition.notify通知.notify_all.wait #条件 = 递归锁 + wait功能 #条件可以让主线程控制多少个子线程可以执行. import threading de ...

  8. oracle 导入导出参数

  9. [TJOI2017]不勤劳的图书管理员(分块+树状数组)

    有一个数组开大会MLE开小会RE的做法:就是树套树,即树状数组套主席树,这种方法比较暴力,然而很遗憾它不能通过,因为其时空复杂度均为O(nlog2n). 想到一种不怎么耗内存,以时间换空间,分块!单次 ...

  10. element ui 自定义异步验证

    之前提到过,axios是一个异步请求,但是很多时候我们都需要同步请求,比如在element的表单验证中需要验证一个用户名是否存在的时候,异步请求好像就不太好用了.前边博客中提到过,这种情况可以用es6 ...