2015大会见闻记" title="严谨与特色并行——WSDM 2015大会见闻记">

第8届ACM网络搜索与数据挖掘会议(ACM
International Conference on Web Search and Data
Mining)今年在上海举办。我有机会与微软亚洲研究院袁晶师兄一同参加此次会议,并代表我们入选论文的作者进行发表,倍感荣幸。这篇论文是我和我的双胞胎弟弟钟元(论文的第一作者)大四时,在微软亚洲研究院谢幸老师社会与城市挖掘组实习期间完成的,这是我第一次参加高水平国际顶级学术会议。这次会议,无论从深度——深入了解网络搜索与数据挖掘领域研究的前沿,还是广度——接触了从学术界到工业界,从学术泰斗到和我一样的学术新人,甚至是对个人能力的提升以及对未来研究的规划,都使我受益匪浅。


特色的环节设置与丰富的学术演讲

WSDM非常重视论文质量——本届会议共收到238篇论文投稿,其中来自16个国家,44个科研机构的39篇文章入选,接收率仅为16.4%
(比去年的18%又有所下降) 。

此次会议设置了包括主题报告、专题讲座、实践和经验报告、研讨会和冬令营等在内的多个环节。其中,实践和经验报告作为WSDM会议极具特色的环节,邀请了工业界优秀的研究人员讲解了他们的研究成果以及解决的实际问题。冬令营是本届会议新增环节,旨在为参会者尤其是学生介绍互联网搜索和数据挖掘相关基础理论和前沿科技,涵盖了深度学习、自然语言处理、社会网络、分布式机器学习等领域。

会议邀请加州大学伯克利分校的Michael
Franklin教授讲解了开源软件伯克利数据分析堆栈(Berkeley
Data Analytics Stack)的当前情况,包括GraphX图形处理系统和SampleClean混合人机清理框架等模块。总体来看,BSD系统更加完善,在数据分析方面也越来越有影响力;Facebook的Lada
Adamic介绍了个体瀑布信息流的增长和扩张,以及社交网络中流言、迷因和社会运动等特征的传播和扩散特点;康奈尔大学的Thorsten
Joachims教授做了用户交互学习的主题演讲。他认为,学习用户交互行为不仅仅限于机器学习算法,还要根据用户决策来理解、设计更加合适的交互方式。另外,会议还邀请了斯坦福大学的Jure
Leskovec教授,谷歌公司的Tushar
Chandra,以及百度、阿里巴巴和腾讯公司的朱凯华、金榕和卓居超,进行了实践和经验报告。


利用位置签到预测用户个人信息

2015大会见闻记" title="严谨与特色并行——WSDM 2015大会见闻记">

我们在本届大会上所展示的论文是“利用位置签到预测用户个人信息”(You
are where you go: Inferring Demographic Attributes from Location
Check-ins)。以往关于用户个人信息预测的研究大多基于社交网络用户交互行为,例如:利用Facebook
Likes行为、互联网浏览行为、Twitter回复转发行为等进行预测。这些研究取得了不错的结果,但是具有高度规律性、唯一性和可预测性的用户移动行为数据却一直被忽视了。在这篇论文中,我们提出建立基于用户位置签到行为的预测模型,以当下最流行的社交网络位置签到信息作为用户移动行为数据,来推断包括性别、年龄、教育背景等个人信息。我们证实了看似内容单一的社交网络用户移动行为数据其实可以很好地预测用户个人信息,达到很高的准确率。用户个人信息的预测在社交网络推荐、广告投放、用户关系预测和信息分享等方面都有着巨大的应用前景。

作为代表,我在“用户移动性以及推荐建模”专场,进行了论文的正式报告。报告开篇,我通过举例——弟弟钟元经常在浪漫餐厅签到,而我经常在图书馆签到,推断出我俩各自情感状况。从而引出了我们的工作:利用用户位置签到历史数据来预测性别、年龄、教育背景、性取向等个人信息。然后,提出Location
to profile (L2P)系统整体框架,主要包含:数据爬取、特征抽取、特征降维、预测四部分。

其中,数据爬取部分负责获得新浪微博用户签到数据和点评网用户点评数据;预测部分利用抽取的特征,进行用户个人信息预测。这是系统中相对简单的两部分,相较之下特征抽取和特征降维则是L2P系统核心部分。我们主要从新浪微博用户位置签到数据中抽取空间、时间特征,同时结合点评网用户点评数据抽取签到位置知识特征。对于空间特征,我们通过把签到位置按照交通路网结构进行空间划分来获得;对于时间特征,我们通过按照每周工作日和休息日,每天24小时进行时间划分来获得;对于最重要的签到位置知识特征,我们通过位置知识扩展(location
knowledge enrichment)过程来获得。具体来说,首先根据签到位置的地址、经纬度等信息跨数据集(cross
domain)匹配微博签到位置和点评评论位置,继而利用高效的点评数据提取用户评论关键词,筛选出用户微博中有效的关键词并预测出用户对签到位置的评分,结合已知的签到位置类别信息,完成位置知识从点评到微博的整合。下一步,建立张量分解模型来把特征维度降低到适当维度,进而建立预测模型,来推断用户个人信息。


与微软再聚首

此次学术会议,极大地拓宽了我的研究视野,使我收获颇丰。能在这样的顶级会议上发表文章,与微软亚洲研究院对我和弟弟的培养密不可分。在微软,我们能够与世界上最优秀的计算机科学家一起做创造性的研究,获得细致的指导,这是在大多数高校和研究机构所无法想象的优越环境。恰恰是这种独一无二的氛围,让我们的研究能力有了质的飞跃。在此,我衷心地感谢微软亚洲研究院让我和弟弟有机会在大四实习阶段接触到最前沿的技术,发表了高质量的文章,这对我们未来的科研生活产生了极大的影响。

2015大会见闻记" title="严谨与特色并行——WSDM 2015大会见闻记">
今年暑假,在美国东北大学攻读博士学位的弟弟钟元再次回到微软亚洲研究院做为期三个月的暑期实习生,相信他一定会更加努力地工作,取得更优异的成绩。

钟文

于美国纽约州立大学-石溪分校


相关阅读

CHI
2015大会:着眼于更加个性化的人机交互

别恐慌,大众关心的人工智能问题学界都在努力求解——我眼中的AAAI
2015大会

2015大会见闻记" title="严谨与特色并行——WSDM 2015大会见闻记">


欢迎关注

微软亚洲研究院官方网站:http://www.msra.cn

微软亚洲研究院人人网主页:http://page.renren.com/600674137

微软亚洲研究院微博:http://t.sina.com.cn/msra

微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码​:​

2015大会见闻记" title="严谨与特色并行——WSDM 2015大会见闻记">

严谨与特色并行——WSDM 2015大会见闻记的更多相关文章

  1. WWDC 2015 - 概记

    WWDC 2015已经过去快一个月了,今年似乎没有像去年那样变化巨大,一切都在慢慢演进,iOS.Mac OS.watchOS都变得越来越好. 新的三大平台的发布,iOS 9/Mac OS EL Cap ...

  2. CTSC&&APIO 2015 酱油记

    在北京待了一周多,还是写点记录吧. 人民大学校园还是挺不错的,不过伙食差评. CTSC的题目太神,根本不会搞,一试20二试10分..本来都寄希望于提交答案题的..结果就悲剧了. 然后是听大爷们的论文答 ...

  3. 改变生活的移动计算——感受 MobiSys 2015

    MobiSys 2015" title="改变生活的移动计算--感受 MobiSys 2015"> 作者:微软亚洲研究院研究员 张健松 今年的MobiSys会议地点 ...

  4. WWW 2015:一个神奇的会议

    2015:一个神奇的会议" title="WWW 2015:一个神奇的会议"> 作者:微软亚洲研究院研究员 袁进辉 WWW 2015(24th Internatio ...

  5. 前沿理论、反思创新、产学结合——你不能错过的WSDM 2016大会

    第九届ACM网络搜索与数据挖掘国际会议(ACM International Conference on Web Search and Data Mining,简称WSDM)已于上周(2月22日-25日 ...

  6. Conference-Web Search and Data Mining

    Conference WSDM(Web Search and Data Mining)The ACM WSDM Conference Series 不像KDD.WWW或者SIGIR,WSDM因为从最开 ...

  7. 接轨国际,碰撞更多科研火花——第八届ChinaSys大会专访微软亚洲研究院首席研究员张霖涛

    作者:微软亚洲研究院实习生 徐祎雪 卢思奇 2015年6月5日至6日,由中国科学院深圳先进技术研究院先进计算与数字工程研究所主办的第八届中国计算机系统(ChinaSys)学术研讨会在厦门大学召开.来自 ...

  8. 深入理解java虚拟机JVM(下)

    深入理解java虚拟机JVM(下) 链接:https://pan.baidu.com/s/1c6pZjLeMQqc9t-OXvUM66w 提取码:uwak 复制这段内容后打开百度网盘手机App,操作更 ...

  9. 问渠那得清如许?为有源头活水来——对【近取Key】产品进行的深度测评与解析

    在 Build To Show 的场景中,大家各显身手,用各种办法展现技术,的确很难在单一的维度上确定谁赢谁输.但是,在 Build To Win 的场景中,往往市场就是那么一块, 竞争对手占了 70 ...

随机推荐

  1. Linux笔记(二)

    Linux笔记(二) 一.软件包管理 1.rpm命令使用:Linux安装软件包的三种方法 rpm工具类似于Windows的exe文件,可以直接进行安装,而且安装路径和文件名一般都是固定好的. 在Cen ...

  2. Android之布局RelativeLayout

    线性布局的weight属性在等比例分配时比较方便,但是对复杂的界面,嵌套多层LinearLayout布局会导致渲染变慢,占用更多系统资源:而使用RelativeLayout的话,可能仅仅需要一层就可以 ...

  3. myeclipse 编写java代码提示 dead code 原因

    经常使用MyEclipse或Eclipse编辑器编写java代码的程序员,可能经常遇到一个黄线警告提示:dead code:一般程序员遇到这些问题都会置之不理,反正也不影响程序的编译执行.对,这不是b ...

  4. Linux集群软件安装实战

    一.需求和思路 1. 需求描述 公司有N个节点的集群,需要统一安装一个软件(jdk)需要开发一个脚本程序,实现对集群中的N个节点批量自动下载.安装jdk 2. 思路 1)编写一个启动脚本,用来发送一个 ...

  5. Mybatis generator 数据库反向生成插件的使用

    直接上干货: 可生成数据库表对应的po  mpper接口文件 mapper.xml文件.文件中自动配置了部分常用的dao层方法.用于快速快发. 1.pom中引入插件: <plugin> & ...

  6. Java面试宝典2017

    JAVA面试.笔试题(2017版)                 欲想成功,必须用功!   目录 一.                  HTML&CSS部分................ ...

  7. [LC] 796. Rotate String

    We are given two strings, A and B. A shift on A consists of taking string A and moving the leftmost ...

  8. 在windows系统下安装使用msf

    前沿 msf基本是我在kali里最经使用的工具了 因为今天碰到一些关于VmWare的事情没有解决 windows在前一段时间更新,要求我卸载vmware虚拟机,否则就无法更新. 卸载之后再装回来就无法 ...

  9. 爱心Java for循环实现

    public class x { public static void main(String[] args) { for (int i = 0, k = 0; i < 14; i++) { i ...

  10. spring boot web 开发及数据库操作

    推荐网站http://springboot.fun/ 1.json 接口开发 2.自定义 filter 3.自定义 property 4.log 配置 5.数据库操作 6.测试