严谨与特色并行——WSDM 2015大会见闻记
2015大会见闻记" title="严谨与特色并行——WSDM 2015大会见闻记">
第8届ACM网络搜索与数据挖掘会议(ACM
International Conference on Web Search and Data
Mining)今年在上海举办。我有机会与微软亚洲研究院袁晶师兄一同参加此次会议,并代表我们入选论文的作者进行发表,倍感荣幸。这篇论文是我和我的双胞胎弟弟钟元(论文的第一作者)大四时,在微软亚洲研究院谢幸老师社会与城市挖掘组实习期间完成的,这是我第一次参加高水平国际顶级学术会议。这次会议,无论从深度——深入了解网络搜索与数据挖掘领域研究的前沿,还是广度——接触了从学术界到工业界,从学术泰斗到和我一样的学术新人,甚至是对个人能力的提升以及对未来研究的规划,都使我受益匪浅。
特色的环节设置与丰富的学术演讲
WSDM非常重视论文质量——本届会议共收到238篇论文投稿,其中来自16个国家,44个科研机构的39篇文章入选,接收率仅为16.4%
(比去年的18%又有所下降) 。
此次会议设置了包括主题报告、专题讲座、实践和经验报告、研讨会和冬令营等在内的多个环节。其中,实践和经验报告作为WSDM会议极具特色的环节,邀请了工业界优秀的研究人员讲解了他们的研究成果以及解决的实际问题。冬令营是本届会议新增环节,旨在为参会者尤其是学生介绍互联网搜索和数据挖掘相关基础理论和前沿科技,涵盖了深度学习、自然语言处理、社会网络、分布式机器学习等领域。
会议邀请加州大学伯克利分校的Michael
Franklin教授讲解了开源软件伯克利数据分析堆栈(Berkeley
Data Analytics Stack)的当前情况,包括GraphX图形处理系统和SampleClean混合人机清理框架等模块。总体来看,BSD系统更加完善,在数据分析方面也越来越有影响力;Facebook的Lada
Adamic介绍了个体瀑布信息流的增长和扩张,以及社交网络中流言、迷因和社会运动等特征的传播和扩散特点;康奈尔大学的Thorsten
Joachims教授做了用户交互学习的主题演讲。他认为,学习用户交互行为不仅仅限于机器学习算法,还要根据用户决策来理解、设计更加合适的交互方式。另外,会议还邀请了斯坦福大学的Jure
Leskovec教授,谷歌公司的Tushar
Chandra,以及百度、阿里巴巴和腾讯公司的朱凯华、金榕和卓居超,进行了实践和经验报告。
利用位置签到预测用户个人信息
2015大会见闻记" title="严谨与特色并行——WSDM 2015大会见闻记">
我们在本届大会上所展示的论文是“利用位置签到预测用户个人信息”(You
are where you go: Inferring Demographic Attributes from Location
Check-ins)。以往关于用户个人信息预测的研究大多基于社交网络用户交互行为,例如:利用Facebook
Likes行为、互联网浏览行为、Twitter回复转发行为等进行预测。这些研究取得了不错的结果,但是具有高度规律性、唯一性和可预测性的用户移动行为数据却一直被忽视了。在这篇论文中,我们提出建立基于用户位置签到行为的预测模型,以当下最流行的社交网络位置签到信息作为用户移动行为数据,来推断包括性别、年龄、教育背景等个人信息。我们证实了看似内容单一的社交网络用户移动行为数据其实可以很好地预测用户个人信息,达到很高的准确率。用户个人信息的预测在社交网络推荐、广告投放、用户关系预测和信息分享等方面都有着巨大的应用前景。
作为代表,我在“用户移动性以及推荐建模”专场,进行了论文的正式报告。报告开篇,我通过举例——弟弟钟元经常在浪漫餐厅签到,而我经常在图书馆签到,推断出我俩各自情感状况。从而引出了我们的工作:利用用户位置签到历史数据来预测性别、年龄、教育背景、性取向等个人信息。然后,提出Location
to profile (L2P)系统整体框架,主要包含:数据爬取、特征抽取、特征降维、预测四部分。
其中,数据爬取部分负责获得新浪微博用户签到数据和点评网用户点评数据;预测部分利用抽取的特征,进行用户个人信息预测。这是系统中相对简单的两部分,相较之下特征抽取和特征降维则是L2P系统核心部分。我们主要从新浪微博用户位置签到数据中抽取空间、时间特征,同时结合点评网用户点评数据抽取签到位置知识特征。对于空间特征,我们通过把签到位置按照交通路网结构进行空间划分来获得;对于时间特征,我们通过按照每周工作日和休息日,每天24小时进行时间划分来获得;对于最重要的签到位置知识特征,我们通过位置知识扩展(location
knowledge enrichment)过程来获得。具体来说,首先根据签到位置的地址、经纬度等信息跨数据集(cross
domain)匹配微博签到位置和点评评论位置,继而利用高效的点评数据提取用户评论关键词,筛选出用户微博中有效的关键词并预测出用户对签到位置的评分,结合已知的签到位置类别信息,完成位置知识从点评到微博的整合。下一步,建立张量分解模型来把特征维度降低到适当维度,进而建立预测模型,来推断用户个人信息。
与微软再聚首
此次学术会议,极大地拓宽了我的研究视野,使我收获颇丰。能在这样的顶级会议上发表文章,与微软亚洲研究院对我和弟弟的培养密不可分。在微软,我们能够与世界上最优秀的计算机科学家一起做创造性的研究,获得细致的指导,这是在大多数高校和研究机构所无法想象的优越环境。恰恰是这种独一无二的氛围,让我们的研究能力有了质的飞跃。在此,我衷心地感谢微软亚洲研究院让我和弟弟有机会在大四实习阶段接触到最前沿的技术,发表了高质量的文章,这对我们未来的科研生活产生了极大的影响。
2015大会见闻记" title="严谨与特色并行——WSDM 2015大会见闻记">
今年暑假,在美国东北大学攻读博士学位的弟弟钟元再次回到微软亚洲研究院做为期三个月的暑期实习生,相信他一定会更加努力地工作,取得更优异的成绩。
钟文
于美国纽约州立大学-石溪分校
相关阅读
别恐慌,大众关心的人工智能问题学界都在努力求解——我眼中的AAAI
2015大会
2015大会见闻记" title="严谨与特色并行——WSDM 2015大会见闻记">
欢迎关注
微软亚洲研究院官方网站:http://www.msra.cn
微软亚洲研究院人人网主页:http://page.renren.com/600674137
微软亚洲研究院微博:http://t.sina.com.cn/msra
微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码:
2015大会见闻记" title="严谨与特色并行——WSDM 2015大会见闻记">
严谨与特色并行——WSDM 2015大会见闻记的更多相关文章
- WWDC 2015 - 概记
WWDC 2015已经过去快一个月了,今年似乎没有像去年那样变化巨大,一切都在慢慢演进,iOS.Mac OS.watchOS都变得越来越好. 新的三大平台的发布,iOS 9/Mac OS EL Cap ...
- CTSC&&APIO 2015 酱油记
在北京待了一周多,还是写点记录吧. 人民大学校园还是挺不错的,不过伙食差评. CTSC的题目太神,根本不会搞,一试20二试10分..本来都寄希望于提交答案题的..结果就悲剧了. 然后是听大爷们的论文答 ...
- 改变生活的移动计算——感受 MobiSys 2015
MobiSys 2015" title="改变生活的移动计算--感受 MobiSys 2015"> 作者:微软亚洲研究院研究员 张健松 今年的MobiSys会议地点 ...
- WWW 2015:一个神奇的会议
2015:一个神奇的会议" title="WWW 2015:一个神奇的会议"> 作者:微软亚洲研究院研究员 袁进辉 WWW 2015(24th Internatio ...
- 前沿理论、反思创新、产学结合——你不能错过的WSDM 2016大会
第九届ACM网络搜索与数据挖掘国际会议(ACM International Conference on Web Search and Data Mining,简称WSDM)已于上周(2月22日-25日 ...
- Conference-Web Search and Data Mining
Conference WSDM(Web Search and Data Mining)The ACM WSDM Conference Series 不像KDD.WWW或者SIGIR,WSDM因为从最开 ...
- 接轨国际,碰撞更多科研火花——第八届ChinaSys大会专访微软亚洲研究院首席研究员张霖涛
作者:微软亚洲研究院实习生 徐祎雪 卢思奇 2015年6月5日至6日,由中国科学院深圳先进技术研究院先进计算与数字工程研究所主办的第八届中国计算机系统(ChinaSys)学术研讨会在厦门大学召开.来自 ...
- 深入理解java虚拟机JVM(下)
深入理解java虚拟机JVM(下) 链接:https://pan.baidu.com/s/1c6pZjLeMQqc9t-OXvUM66w 提取码:uwak 复制这段内容后打开百度网盘手机App,操作更 ...
- 问渠那得清如许?为有源头活水来——对【近取Key】产品进行的深度测评与解析
在 Build To Show 的场景中,大家各显身手,用各种办法展现技术,的确很难在单一的维度上确定谁赢谁输.但是,在 Build To Win 的场景中,往往市场就是那么一块, 竞争对手占了 70 ...
随机推荐
- sqlserver 数据库分组后取第一条数据
分享一个朋友的人工智能教程.零基础!通俗易懂!风趣幽默!大家可以看看是否对自己有帮助,点击查看教程. 比如查询用户某一天最后一笔交易后的账户余额 SELECT *( SELECT *, row_num ...
- 使用pythonnet调用halcon脚本
最近的项目中遇到了使用python程序结合不同部分,其中包括使用halcon处理拍摄到的图像. halcon本身提供了c++与.NET的开发库,但无python库,网上有pyhalcon之类的库,但功 ...
- iOS个人中心渐变动画、微信对话框、标签选择器、自定义导航栏、短信验证输入框等源码
iOS精选源码 简单的个人中心页面-自定义导航栏并予以渐变动画 程序员取悦女票的正确姿势---Tip1(iOS美容篇) iOS 前台重启应用和清除角标的问题 微信原生提醒对话框3.0 JHLikeBu ...
- scp 碰到的问题
将 nodejs 的全局目录scp复制到另外一台机器部署代码, 发现运行报错, 提示缺少依赖模块. 检查了很久, 没发现问题. 后来发现,软链接 scp后不再是软链接而是对应文件, 导致相对路径改变!
- Kubernetes系列三:二进制安装Kubernetes环境
安装环境: # 三个节点信息 192.168.31.11 主机名:env11 角色:部署Master节点/Node节点/ETCD节点 192.168.31.12 主机名:env12 角色:部署Node ...
- lower()|upper()|Traceback|title()|字符串合并|rstrip|lstrip|str()|
print ("hello,world!") sentence = "yyyy" print (sentence.lower()) print (sentenc ...
- tesseract系列(4) -- tesseract训练问题总结
1. 每次训练模型删除目录下,上述重复的名字 2. 生成inttemp.pffmtable文件的时候,如果下述命令(1)不行的话,或者报错,使用命令(2) (1)mftraining -F font_ ...
- 【Java杂货铺】JVM#Java高墙之GC与内存分配策略
Java与C++之间有一堵由内存动态分配和垃圾回收技术所围成的"高墙",墙外的人想进去,墙外的人想出来.--<深入理解Java虚拟机> 前言 上一章看了高墙的一半,接下 ...
- nginx应用geoip模块,实现不同地区访问不同页面的需求(实践版)
https://www.52os.net/articles/configure-nginx-using-geoip-allow-whitelist.html 搞了几天没有搞定,这篇文章一下 ...
- java中多线程入门有趣介绍
我们在网上可以看到所有有关于java的线程的基本概念的很多解释,不乏有很多详细经典的解释和代码解说.但是我们的很多初学者看完不能有一个直观的印象,特别是一些没有编程基础的学习者,很多时候要花很多时间去 ...