作者:微软亚洲研究院实习生 王英子

南半球最大城市和数据挖掘界顶级会议的浪漫碰撞

悉尼,作为澳大利亚第一大城市及新南威尔士州首府,澳大利亚的经济、金融、航运和旅游中心,同时还是南半球最大的城市和重要的港口,有着怡人的气候、诸多美丽的海港、醉人的蓝天和浪漫的日出日落。而作为一个移民城市,悉尼多元的文化又让它显得格外包容万象,富有生命力。八月的悉尼正处于冬季,少了一些喧嚣,多了一份宁静,但8月10号至13号举行的KDD
2015大会则为悉尼带来了另一种活力:来自学术界独有的激情和美好。

KDD大会(国际数据挖掘与知识发现大会,ACM
SIGKDD,Conference on Knowledge Discovery and Data
Mining, 简称KDD)是数据挖掘领域的顶级国际会议,由ACM(Association
of Computing
Machinery,计算机学会)的数据挖掘及知识发现专委会(SIGKDD)负责协调筹办。每年吸引全球数据挖掘领域的学者为之疯狂的KDD今年也收获颇丰,共吸引了1008篇投稿,其中研究论文819篇,最终有160篇录用;政府和工业届应用论文189篇,录用68篇,这也是过去15年中录取量最高的一届。工业界投稿中,Microsoft和LinkedIn以很大的优势领先于其他企业。KDD
2015会议由1天的专题研讨会(Tutorials和Workshops)和3天的主会组成。今年是KDD第三次离开美国,同时也是第一次来到南半球,不可避免地,和美丽的悉尼碰撞出浪漫多彩的火花。

大牛聚集、数据狂舞的饕餮盛宴

作为一场数据挖掘领域的顶级盛宴,大会吸引了来自世界各地的业界“大牛”参与,并给出了4个主题报告(Keynote),11个邀请报告(Invited
Talk),14个专题研讨会(Workshop),12个教学报告会(Tutorial),以及27场展览会。

今年的4个主题报告,邀请了学术界和工业界四位杰出数据科学家,他们分别来自计算机科学领域、经济学领域或是交叉领域。第一位报告人是微软的杰出科学家RonnyKohavi,他分享了关于在线控制实验A/B测试的实践经验和例子。RonnyKohavi于2005年加入微软并成立实验平台组。Ronny在这里给出A/B测试的介绍和一些Bing的在线A/B测试的例子,也分享了一些关于大规模在线A/B测试的经验。第二位报告人是悉尼大学的Hugh
Durrant-Whyte教授,他指出机器学习算法在自然科学领域的重要性,并且举出了一些已经探索出的将机器学习方法应用到自然科学领域的方法,诸如应用到生物学、地理学和生态学等。第三位是Coursera的总裁和联合创始人Daphne
Koller,她曾经是斯坦福大学的教授,她强调在线教育为跨文化互动学习以及协同学习等提供了大量的机遇。第四位报告人是斯坦福大学商学院的Sunsan
Athey,她指出机器学习的主要目的是预测,因果推论的主要目的是用随机试验或者观察学习的方法估计对照因素对结果的影响力。

​今年的邀请报告也都很精彩,其中给我留下深刻印象的是来自香港科技大学的杨强教授的报告,他主要介绍了移动社交网络中用户建模方面的挑战和经验。他强调用户建模主要包含三个方面,用户是谁、现在的情况、未来要做什么,我们需要从多媒体数据中去了解用户,建立不同的模型,如个人模型、关系模型等,去满足不同的需求,如进行推荐、预测等。

会议方给大家提供了充足的交流平台,也给予了每篇论文充分展示的机会,不仅有20分钟的口头报告时间,还有第二天晚上长达3个小时的展板(poster)展示环节。会议的报告场场火爆,来晚的同学只能站着听报告,站着记笔记,poster环节更是人山人海,每个展示者都讲到口干舌燥,小小的展台一晚上有十几拨人驻足、交流,到处碰撞着知识的火花。

今年的研究热点丰富多彩,社交网络与图象挖掘、机器学习与数据挖掘等课题近些年来一直保持很高的热度,此次大会也有所体现,比如社交网络与图挖掘的相关论文口头报告开设了4个分会场,并且今年获得最佳论文奖及最佳学生论文奖的两篇论文均出自该主题。大数据研究依然是一个热点,不论是用随机梯度蒙特卡罗法求解大规模分布式贝叶斯矩阵分解,还是对随机对偶坐标上升法(SDCA)的提速,都是有新意并且有实用价值的课题。而推荐算法与系统的研究也吸引着大批的学者,给人留下深刻印象的是来自清华大学的关于如何用贝叶斯泊松矩阵分解模型来解决局部事件推荐的冷启动问题,以及一些商品和地点的推荐问题,这些问题的解决方法在传统的算法上都有了新的突破。流数据挖掘、城市计算等领域也冉冉升起,在本届会议中吸引了大量的投稿。

中国的很多学者在数据挖掘领域也有着亮眼的表现。中国大陆的学者们踊跃投稿,来自清华大学、北京大学、中国科学技术大学、上海交通大学、西南交通大学等科研院校的学者作为第一作者的投稿有14篇,此外还有大量海外留学的中国学生,以及大量诸如微软亚洲研究院的科研机构中的中国学者投稿。

风起云涌间持续耀眼的微软秀台

作为目前世界顶尖的研究中心之一,微软在本次大会上表现格外亮眼。Ronny
Kohavi的主题报告给了大家关于A/B测试的经验和思考,微软的Azure团队展示了loT服务器的出色表现,并使用简单的代码来体现出服务器的易操作性能。

微软研究院在今年的KDD中发表了22篇高质量论文,比去年增加了6篇,这在业内获得了很高的评价。论文包括社交网络、TopicModels、大数据挖掘、web 挖掘、应用和推荐系统等方向。从理论到应用,这些论文也涉及到了多个新兴应用领域,比如空气质量预测、网络嵌入模型、分布式深度学习系统和服务器问题的检测与诊断等,可以说涵盖了数据挖掘领域的方方面面。

我们团队的论文“Regularity and Conformity: Location
Prediction Using Heterogeneous Mobility
Data ”(《规律性和从众性:使用多种移动数据进行位置预测》)就是一篇更加侧重应用的论文。与以往使用单一移动数据来挖掘用户的单一行为模式进行位置预测的方法不同,我们使用了多种移动数据(微博签到、公交车轨迹数据、出租车轨迹数据),并且在一个模型中同时挖掘出用户移动的规律性和从众行,从而进行位置预测:使用时间相关的矩阵分解方法探索用户的从众性,通过和某个用户相似的人的行为数据来帮助预测该用户的行为,使用sparse
group lasso模型挖掘用户行为的时空规律性,通过某个用户的历史移动规律来预测未来的移动行为。从应用的角度来看,这篇论文提供了一个结合多种行为数据的可行方法,具有很好的可扩展性,并且提高了位置预测准确度,也提高了基于位置预测的很多应用可实施性,如商场推荐、个人电子助手等。作为我的第一篇KDD 论文,不论是在写论文的过程中还是在参加会议的过程中都得到了很多启发和成长。回忆起从去年10月开始准备论文的日子,从一开始的拜读别人的KDD论文,体会别人缜密的逻辑和漂亮的模型,到在导师的指导中慢慢有了自己的想法,不断地改进实验和思路,体会研究和创新的乐趣,再到连今年春节的几天也在改论文和做实验中度过,得知论文被录用的时候,感觉所有辛苦都是值得的。在展示poster的时候,看到别人在自己的海报前驻足和充满兴趣的眼神,浑身充满力量。口头报告结束后,看到大家意犹未尽地围过来讨论论文的内容,看到分会主席伸出手来对我说“good
job”,那种成就感真的无与伦比,努力,然后被认可,我想这就是科研的魅力。

明年KDD将回到美国旧金山,并且将会有一些变化:Industryand
government track将更改为Applied data science
track,这将扩大论文的接受范围,不再局限于工业界的投稿,所有关于数据挖掘算法应用的论文都将参与竞争,这将促进数据科学在实际应用中的推广。Bing
Liu教授对数据挖掘领域进行了展望,在对微软的智能机器人小冰给出很好的评价的同时,提出了“个人助手和自动化聊天模式”将成为KDD的新趋势。相信微软研究院将在未来的KDD大会中绽放更美丽的烟火,让我们共同期待。

附:微软研究院在KDD
2015中发布的22篇论文下载链接

作者简介

王英子在KDD大会

我叫王英子,是一名微软亚洲研究院实习生,本科毕业于中国科学技术大学计算机系,曾参与微软亚洲研究院创新人才学院(Pre-PHD)培养项目,目前是中国科学技术大学和微软亚洲研究院联合培养博士生。曾在ICDM和KDD上发表论文2篇,并参与公司智能助手Cortana和推荐相关的工作。

在研究院实习的过程中,不仅能得到世界水准导师一对一的高效指导,享受每次组会时头脑风暴带来的启发,还能接触到领域内的“大牛”们,了解最前沿的知识,这些都能让自己快速地成长起来,我们能更好地理解专业知识,获得更高效的科研方法和思维,更广泛地开拓了计算机领域的眼界。在研究院中,认真刻苦又多才多艺、幽默诙谐的小伙伴们给了实习生活浓墨重彩的一笔,让大家在收获知识的同时也收获了友谊和快乐。

了解微软亚洲研究院实习生项目,欢迎关注“明日之星”实习生项目介绍。更多实习机会请见: http://www.msra.cn/zh-cn/jobs/interns/internopenings.aspx

或者拿起手机扫描二维码:

相关阅读

史无前例的KDD 2014大会记

​WWW 2015:一个神奇的会议

改变生活的移动计算——感受 MobiSys 2015

欢迎关注

微软亚洲研究院官方网站:http://www.msra.cn

微软亚洲研究院人人网主页:http://page.renren.com/600674137

微软亚洲研究院微博:http://t.sina.com.cn/msra

微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码:

来自澳洲的数据秀场:记KDD 2015大会的更多相关文章

  1. 当学术邂逅浪漫 – 记MobiCom 2015大会

    作者:微软亚洲研究院主管研究员 刘云新 今年的MobiCom大会在著名的浪漫之都巴黎举行.通常于欧洲举办的会议的参会人数会相对少一些,但今年的MobiCom大会吸引了近400人参加,绝不少于往年.浪漫 ...

  2. 告别尬聊,解锁秀场+社交新玩法(内含源码+Demo)

    直播已成为用户的生活习惯之一 艾媒咨询数据显示:2021年直播用户规模达到6.35亿人,在线直播用户以年轻群体为主,24岁及以下用户占比49%,30岁以下用户接近8成. 众所周知,Z世代用户是一个社交 ...

  3. ProductHunt:创业公司产品猎场和秀场

    Product模式介绍 ProductHunt(站点www.producthunt.com)是一个国外新出现的创业公司产品展示和交流平台, 顾名思义.对于创业者而言这里是一个秀场,而对于投资人而言这里 ...

  4. PLSQL 使用ODBC 数据源导入来自SQLSERVER的数据

    1. 创建ODBC数据源 方法: 打开控制命令 Win10 运行->输入 control 查看方式大图标--选择 管理工具 2. 安装了 64位的plsql 应该也选用 64位的ODBC数据源 ...

  5. 数据大爆炸:KDD 2016

    2016"> 饕餮盛宴 ACM SIGKDD国际会议(简称KDD)是数据挖掘领域的顶级国际会议,由ACM (计算机协会)的数据挖掘及知识发现专委会(SIGKDD)负责组织筹办.在现今如 ...

  6. 基于Hadoop的大数据平台实施记——整体架构设计[转]

    http://blog.csdn.net/jacktan/article/details/9200979 大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星.我们暂不去讨论大数据到底 ...

  7. 基于Hadoop的大数据平台实施记——整体架构设计

    大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星.我们暂不去讨论大数据到底是否适用于您的组织,至少在互联网上已经被吹嘘成无所不能的超级战舰.好像一夜之间我们就从互联网时代跳跃进了大 ...

  8. Request对象主要用于获取来自客户端的数据,如用户填入表单的数据、保存在客户端的Cookie等。

    1.主要属性  ApplicationPath  获取服务器上asp.net应用程序的虚拟应用程序根路径  Browser  获取有关正在请求的客户端的浏览器功能的信息,该属性值为:HttpBrows ...

  9. easyui treegrid 动态展开数据(暂记)

     ClassifyAdminSynMsgSvr.GetCLFLList("<%=CurUTag %>", 1, "", function (ret) ...

随机推荐

  1. Graph & Tree2

    续https://www.cnblogs.com/tyqtyq/p/9769817.html 0x65 负环 SPFA 当一个节点入队次数到达N的时候,就说明有负环 或者记录最短路包含的路径条数 还有 ...

  2. SQL注入常用函数(注入小白的学习笔记)

    在盲注的情况下,往往需要一个一个字符的去猜解,即过程中需要截取字符串 在这里整理了一下一些常用函数 由于现阶段学习不够深入,整理分类不清楚具体,不过博主会慢慢进行完善 user() 查询当前数据库用户 ...

  3. QMessageBox按钮自定义文字

    msgbox = QMessageBox()msgbox.setStandardButtons(QMessageBox.Yes|QMessageBox.No)msgbox.button(QMessag ...

  4. 二、NOSQL之Memcached缓存服务实战精讲第一部

    1.Memcached是一套数据缓存系统或软件. 用于在动态应用系统中缓存数据库的数据,减少数据库的访问压力,达到提升网站系统性能的目的:Memcached在企业应用场景中一般是用来作为数据库的cac ...

  5. LeetCode——15. 三数之和

    给定一个包含 n 个整数的数组 nums,判断 nums 中是否存在三个元素 a,b,c ,使得 a + b + c = 0 ?找出所有满足条件且不重复的三元组. 注意:答案中不可以包含重复的三元组. ...

  6. mysql安装(centos7)

    1.下载rpm wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm 2.安装rpm yum ...

  7. nginx简单安装

    虚拟机首先要求ping www.baidu.com 下载: 解压: 创建用户: [root@nginx ~]# useradd -M -s /sbin/nologin nginx-M 不创建加目录   ...

  8. Linux Shell命令总结

    关机/重启 关机(必须用root用户) shutdown -h now ## 立刻关机 shutdown -h + ## 10分钟以后关机 shutdown -h :: ##12点整的时候关机 hal ...

  9. HBase单机安装及Phoenix JDBC连接

    HBase是建立在Hadoop文件系统之上的分布式面向列的数据库,它是横向扩展的.它利用了Hadoop的文件系统(HDFS)提供的容错能力. HBase提供对数据的随机实时读/写访问,可以直接HBas ...

  10. Git教程 - 远程仓库

    到目前为止,我们已经掌握了如何在Git仓库里对一个文件进行时光穿梭,你再也不用担心文件备份或者丢失的问题了. 可是有用过集中式版本控制系统SVN的童鞋会站出来说,这些功能在SVN里早就有了,没看出Gi ...