2014大会记" title="史无前例的KDD 2014大会记">

作者:蒋朦

微软亚洲研究院实习生

创造多项纪录的KDD
2014

ACM SIGKDD
国际会议
(简称KDD)是由ACM的知识发现及数据挖掘专委会(SIGKDD)主办的数据挖掘研究领域的顶级年会。KDD
2014于8月24日至27日在美国纽约召开。正值大会的20岁生日,今年的KDD创造了多项的纪录,令参会者们印象深刻:

一.
史无前例的“超大会”:参会人突破2200人。提前售完注册名,取消现场注册环节

2014大会记" title="史无前例的KDD 2014大会记">

KDD为来自学术界、企业界和政府部门的研究人员和数据挖掘从业者提供了学术交流和展示研究成果的理想场所。本届大会主题为“用数据科学造福社会”(Data
Science for Social Good),为参会者们提供的学术活动包括特邀主题演讲(keynote
presentations)、论文口头报告(oral paper
presentations)、论文展板展示(poster
sessions)、研讨会(workshops)、短期课程(tutorials)、专题讨论会(panels)、展览(exhibits)、KDD
CUP赛事以及其他多个奖项的颁布。因为KDD大会涉及的议题大多跨学科且应用广泛,所以吸引了来自统计、机器学习、数据库、万维网、生物信息学、多媒体、自然语言处理、人机交互、社会网络计算、高性能计算以及大数据挖掘等众多领域的专家和学者。

二.
 
史无前例的“学术饕餮”:实际研究论文投稿量高达1036篇(除去无效摘要),而录取率相较于去年的17.8%骤降至14.6%。

本届KDD收到了超过1000篇的论文投稿,而最终仅151篇入选,这既显示出数据挖掘领域的炙手可热,也反映了KDD大会对质量的的严格要求,严防“水文”进入,杜绝“水会”污名。也因此,KDD能够在20年中,一直保持在数据挖掘领域的权威性和知名度。

2014大会记" title="史无前例的KDD 2014大会记">

本届KDD会议上,每一篇入选的高质量论文都获得了充分的展示机会,包括15分钟的口头报告时间、3分钟的问答环节以及会议首日晚长达4小时的展板展示。这与其他数据挖掘会议、乃至与往届KDD会议相比,都是颇为罕见的;研究者们对自己的成果所受到的尊重也展现出了极高的敬业精神,不仅口头报告个个重点突出、生动活泼,在展板展示环节的4小时里也都“一站到底”,哪管口干舌燥,依旧耐心而兴奋地介绍自己的工作


三.
 
史无前例的“学生资助”:学生赞助奖学金名额激增至40余名,让年轻学者对KDD更感亲近。

2014大会记" title="史无前例的KDD 2014大会记">

不同于往年仅10至20个名额的学生差旅奖学金,本届KDD在美国国家科学基金会(NSF)和彭博公司(Bloomberg)的支持下,提供了超过40个学生奖学金名额,包括BPDM免注册费奖、NSF差旅奖(提供给美国学生)和NSF免注册费奖(提供给国际学生)。会议要求所有获奖学生必须担当大会志愿者,故而这也为大会服务提供了充足的保障。在茶歇时,2015年KDD的主席之一Longbing
Cao
先生谈到下一届在悉尼举办的KDD大会是否也能提供充足的奖学金名额时,信心满满地说,KDD要更多地给国际学生以机会。悉尼KDD不仅要让美国学生能继续方便地参会,更要让太平洋地区以及亚非拉地区的国际学生得到更多的参会机会。KDD会寻求更多大会赞助商的支持,而凭借其巨大的影响力,相信这不是难事。

汇聚来自世界各地的专家学者以及爱好者们,来讨论数据挖掘等领域的研究趋势、交流创新性的想法以及突破性的研究进展,这是为期4天的KDD大会吸引到两千余人的魅力所在。非常荣幸我这次投稿两篇全部被录用并且均为第一作者,这既是对我所在团队之于数据挖掘领域研究的巨大肯定,也让我有机会能够前去大会现场一探究竟。

其他参会见闻和感受

除却上述三大“史无前例”,接下来,我再谈谈这次参会其他见闻和感受。

一.
更加细致的展示环节(Madness spotlight)

KDD 2014的三天会期中,每天早上8点半至9点的30分钟是一个叫做KDD
Madness的环节,由当日所有口头报告人对自己的成果做30秒的简短介绍。这样一来,报告人需要用一页引人注目的slide来精炼、有力地概括自己的工作;而对于其他参会者,也可以利用这一环节确定下自己一天的行程,到底去聆听哪几场报告。此外,报告人尽早地知道口头报告时前后是谁,能早一些交上朋友,也为session
chair省去不少麻烦。

在这里我要感谢Madness的主席Aris
Gionis
(来自阿尔托大学)和唐杰(来自清华大学)的辛勤工作!

二. 更加实际的审稿总结(Research Track
Summary)

在当地时间8月26日的午餐会上,担任大会研究型论文主席(Research Track General
Chair)、来自斯坦福大学(Stanford University)的Jure
Leskovec
教授介绍了本次会议的论文审稿模式,从中我们可以看到,KDD追求高质量所带来的竞争是极其残酷的。在所有评审结果中,只要存在“reject”或“weak
reject”的结果,就无法入稿;而过了这一关的论文依旧需要所有审稿人通过在线讨论,以得出最终的录取结果。这一过程中讲求公平公正,严谨认真。

Leskovec教授还介绍了一些审稿过程中的数据统计结果,比如论文投稿量、论文作者资深程度(采集自Google
Scholar和DBLP)与论文入稿与否的关系、审稿意见长度与审稿结果统一与否的关系之后。由此向大会提出了很有启发意义的两个总结:

首先,想要让论文在KDD大会中入稿,可以从这三方面入手:

1. 
团队构成多元:不仅仅拥有学术界人士,也要让工业界、乃至政府的研究人员参与进来,这样的论文更有希望得到KDD的赏识;

2. 
至少拥有一名资深作者:如果有一名在数据挖掘领域的资深专家在创作过程中作指导,那么论文质量会更容易达到KDD的标准;

3. 
不要提交超过5篇论文:当提交论文数量小于5篇时,入稿率曲线较为平滑,但当提交论文数量超过5篇时,入稿率会急剧下滑。考虑到人的精力和时间是有限的,提交超过5篇论文会对论文的质量有一定影响,因此KDD并不建议这样做。

其次,提高KDD行业标准要做到如下三点。这更多是对审稿人所说的:

1. 
尽量别给weak reject或是weak
accept这种模棱两可的分数
,因为中立的分数往往会给评审结果带来很大的偏差;

2. 
努力去写更长、更明确的审稿意见:从大量案例中发现,更长、更明确的审稿意见会与论文所得到的最终结果更吻合。此外,人们往往认为这样的审稿意见会来自年轻的审稿人,因为业界资深学者会更为忙碌,在审稿过程中更倾向于只提供积极或消极的态度。而事实上,恰恰是年长者、资深者更会给出长而清楚的意见,反倒是年轻人难于开口表达看法;

3. 
早些提交审稿意见:提交审稿结果截至时只收到了半数的审稿意见,而在期限后提交的审稿意见,无论在结果统一性和意见质量上,都无法与按时提交的意见相比。

这样的基于数据挖掘的审稿总结极具KDD的领域特色,能更好地提升学术质量,改善学术氛围,让KDD能够更健康更久远地发展下去。感谢Jure
Leskovec和Wei
Wang
(来自UCLA)的辛勤工作!

三、来源更加广泛的特邀报告(Keynotes)

本届KDD重邀5位来自不同行业不同机构、拥有不同背景的知名学者,分别给所有参会者做1小时的报告。这些特邀报告完全不同于一般的口头报告,其范围之广、内容之新,让人有醍醐灌顶之感。听完特邀报告的参会者纷纷表示,他们绝没想到能如此生动活泼,如此开拓思维。这里我们只列出特邀者、所在机构和报告名称,想必大家就能有所感觉;特邀报告的视频资料可以等待KDD大会后期公布。

2014大会记" title="史无前例的KDD 2014大会记">


四、更加丰富的奖项设置(
Awards)

本届KDD大会除了经典的最佳论文、最佳学生论文等奖项外,还设置了与会议主题有关的论文奖项,具体的获奖情况如下:

  • 最佳论文奖:Reducing the
    Sampling Complexity of Topic Models
  • 最佳学生论文奖:An Efficient
    Algorithm For Weak Hierarchical Lasso
  • 最佳主题论文奖:Targeting
    Direct Cash Transfers to the Extremely Poor
  • 最佳工业和政府论文奖:Style in the
    Long Tail: Discovering Unique Interests with Latent Variable Models
    in Large Scale Social E-commerce
  • Test of
    Time获奖论文:
    • A Density-Based
      Algorithm for Discovering Clusters in Large Spatial Databases with
      Noise (KDD 1996)
    • Integrating
      Classification and Association Rule Mining (KDD 1998)
    • Maximizing the Spread
      of Influence through a Social Network (KDD 2003)

此外本届KDD颁发的个人奖项如下:

  • 创新贡献奖:Prof. Pedro
    Domingos (University of Washington)
  • 服务贡献奖:Dr. Ted
    Senator
  • 论文答辩奖:Reconstruction
    and Applications of Collective Storylines from Web Photo
    Collections; Gunhee Kim (student) and Eric Xing
    (advisor)

我对数据挖掘领域新兴问题的探究

 

纵观本届KDD,不难发现传统的数据挖掘领域依旧充满活力的同时,对于新兴问题的研究也层出不穷。

传统问题涵盖了图建模和图挖掘、动态图分析、可扩展图算法、数据流、文本挖掘、推荐系统、排序推荐、主动学习、监督学习、迁移学习、特征工程、聚类算法、异常检测、话题建模、社区挖掘、万维网挖掘、降维算法等领域。而新兴问题则包括了大数据统计、大数据可扩展算法、大规模问题优化和学习算法、社交媒体、社交网络和信息网络传播问题、商务应用、工业应用、政府工程、健康问题、安全问题、隐私问题、欺诈问题、环境问题、教育问题、医药学、地域服务、可解释性模型、监控与维护、广告与交通、群智与市场等。从以上对比中,我们可以发现KDD的新兴问题更偏重实际应用中所产生的大规模数据和非结构化数据,偏重解决实际问题。

本人在本届KDD中所发表的两篇论文即侧重解决实际问题。一篇是《大规模有向图中的同步行为检测》(CatchSync:
Catching Synchronized Behavior in Large Directed
Graphs
),针对微博中用户关注行为的异常现象(俗称僵尸粉现象),提出了刻画用户关注行为正常性的核心特征,并从理论上证明了正常关注行为在特征空间的分布特性,可在大规模(如4000余万用户节点)社交网络上进行快速准确的异常关注行为检测。

另一篇是《基于多侧面信息进化分析的动态行为模式发掘》(FEMA:
Flexible Evolutionary Multi-faceted Analysis for Dynamic Behavioral
Pattern
Discovery
),从用户行为的动态性和多面性角度入手,基于张量摄动理论提出社交网络用户行为多侧面协同演化模式的高效挖掘算法,大幅度提升了用户行为的可预测性和可解释性。

开会最后一天的下午怕是人迹寥寥,都准备赶飞机或是游玩了,可当我前往Research Track
29听微软亚洲研究院的口头报告《GeoMF: Joint Geographical Modeling and
Matrix Factorization for Point-of-Interest
Recommendation
》时,我完全被惊住了。偌大的会议室,竟被满满当当的听众挤得透不过气来,我在开始前5分钟到达,却不得不在墙根站着听,而同时站着的不下40人。我院谢幸老师的口头报告流畅生动,内容丰富,slides清晰明了。利用地理位置信息采用矩阵分解的方法来做地点推荐,想法新颖,解决方案直接明白,优异的推荐效果让人印象深刻;犹记得会后仍有很多学者围着谢幸老师询问论文细节,而谢老师一一耐心解答。

2014大会记" title="史无前例的KDD 2014大会记">

本届会议微软研究院所发表的16篇论文质量相当不错,取得了很好的影响和知名度,相信在来年的悉尼KDD,微软研究院还能继续大放异彩!让我们期待下一次数据挖掘盛宴的来到。

附注:微软研究院在KDD 2014所发表论文 16篇:

[1] Scalable Near Real-Time Failure Localization of
Data Center
Networks
 Herodotos Herodotou ,
Microsoft Research; Bolin Ding, Microsoft Research; Shobana
Balakrishnan, Microsoft Research; Geoff Outhred, Microsoft; Percy
Fitter, Microsoft;

[2] Correlating
Events with Time Series for Incident
Diagnosis
 Chen LUO, Jilin University;
Jian-Guang LOU, Microsoft Research; Qingwei LIN, Microsoft
Research; Qiang FU, Microsoft Research; Rui DING, Microsoft
Research; Dongmei ZHANG, Microsoft Research; Zhe WANG, Jilin
University;

[3] Mining Text Snippets for Images on the Web
Anitha Kannan, Microsoft; Simon Baker, Microsoft; Krishnan Ramnath,
Microsoft; Juliet Fiss, University of Washington; Dahua Lin, TTI
Chicago; Lucy Vanderwende, Microsoft; Rizwan Ansary, Microsoft;
Ashish Kapoor, Microsoft; Qifa Ke, Microsoft; Matt Uyttendaele,
Microsoft; Xin-Jing Wang, Microsoft; Lei Zhang, Microsoft;

[4] Seven Rules of Thumb for Web Site
Experimenters
 Ron Kohavi, Microsoft; Alex
Deng, Microsoft; Roger Longbotham, SW Jiaotong University; Ya Xu,
LinkedIn;

[5] Travel Time Estimation of a Path using Sparse
Trajectories
 Yilun Wang, Microsoft Research;
Yu Zheng, Microsoft Research; Yexiang Xue, Cornell University;

[6] FastXML: A Fast, Accurate and Stable
Tree-classifier for eXtreme Multi-label Learning
Yashoteja
Prabhu, Indian Institute of Technology - Delhi; Manik Varma,
Microsoft Research;

[7] Balanced Graph Edge
Partition
 Florian Bourse, ENS; Marc Lelarge,
INRIA-ENS; Milan Vojnovic, Microsoft Research;

[8]COM: a Generative Model for Group
Recommendation
 Quan Yuan, Nanyang
Technological University; Gao Cong, Nanyang Technological
University; Chin-Yew Lin, Microsoft Research;

[9] Active Learning For Sparse Bayesian Multilabel
Classification
 Deepak Vasisht, MIT; Andreas
Damianou, University of Sheffield, UK; Manik Varma, Microsoft
Research; Ashish Kapoor, Microsoft Research;

[10] Distance Queries from Sampled Data: Accurate and
Efficient
 Edith Cohen, Microsoft Research;

[11] Grouping Students in Educational Settings Rakesh Agrawal,
Microsoft Research; Behzad Golshan, Boston University; Evimaria
Terzi, Boston University;

[12] Inferring Gas Consumption and Pollution Emission of
Vehicles throughout a City
Jingbo Shang, Shanghai Jiao Tong
University; Yu Zheng, Microsoft Research; Wenzhu Tong, Microsoft
Research; Eric Chang, Microsoft Research; Yong Yu, Shanghai Jiao
Tong University;

[13] Exploiting Geographic Dependencies for Real Estate
Appraisal
 Yanjie Fu, Rutgers University; Hui
Xiong, Rutgers University; Yong Ge, University of North Carolina at
Charlotte; Zijun Yao, Rutgers University; Yu Zheng, Microsoft
Research Asia; Zhi-Hua Zhou, Nanjing University;

[14] Minimizing Seed Set Selection with Probabilistic
Coverage Guarantee in a Social Network
 Peng
Zhang, Purdue University; Wei Chen, Microsoft; Xiaoming Sun,
Institute of Computing Technology, CAS; Yajun Wang, Microsoft;
Jialin Zhang, Institute of Computing Technology, CAS;

[15] LaSEWeb: Automating Search Strategies over
Semi-structured Web Data
Oleksandr Polozov, University of
Washington; Sumit Gulwani, Microsoft Research;

[16] GeoMF: Joint Geographical Modeling and Matrix
Factorization for Point-of-Interest Recommendation
Defu Lian,
University of Science and Technology of China; Cong Zhao,
University of Science and Technology of China; Xing Xie, Microsoft
Research; Guangzhong Sun, University of Science and Technology of
China; Enhong Chen, University of Science and Technology of China;
Yong Rui, Microsoft Research;

作者简介:

2014大会记" title="史无前例的KDD 2014大会记">蒋朦,微软亚洲研究院实习生,本科毕业于清华大学计算机系,目前在清华大学计算机系攻读博士。曾在卡内基梅隆大学访问学习,研究领域为数据挖掘,方向为用户行为分析和社交网络分析。在KDD、WWW、CIKM、PAKDD等知名国际会议上发表论文7篇(第一作者6篇,口头报告长文5篇),并在知名期刊TKDE
上发表第一作者长文1篇。

史无前例的KDD 2014大会记的更多相关文章

  1. BZOJ4530 BJOI 2014 大融合

    对LCT子树大小进行维护. size表示实子树大小,sz表示虚子树大小. 具体操作是体现在link和splay中,可以看代码. 注意每次做完都要update. By:大奕哥 #include<b ...

  2. [HEOI 2014]大工程

    Description 题库链接 给你一个 \(n\) 个节点的树, \(q\) 组询问,每次给出 \(k\) 个关键点,询问这 \(k\) 个关键点两两间路径长度和,长度最值. \(1\leq n\ ...

  3. 来自澳洲的数据秀场:记KDD 2015大会

    作者:微软亚洲研究院实习生 王英子 南半球最大城市和数据挖掘界顶级会议的浪漫碰撞 悉尼,作为澳大利亚第一大城市及新南威尔士州首府,澳大利亚的经济.金融.航运和旅游中心,同时还是南半球最大的城市和重要的 ...

  4. 探索真实事物的虚拟再现——微软亚洲研究院SIGGRAPH Asia 2014精彩入选论文赏析

    Asia 2014精彩入选论文赏析" title="探索真实事物的虚拟再现--微软亚洲研究院SIGGRAPH Asia 2014精彩入选论文赏析"> SIGGRAP ...

  5. MVP ComCamp & GCR MVP Openday 2014

    今年的MVP Openday与往年不一样,加入了Community Camp环节,即社区大课堂.其主要形式是由MVP作为讲师提供包括Developer和IT Pro方向的课程,地点是在北京国际会议中心 ...

  6. 中国大数据六大技术变迁记(CSDN)

    大会召开前期,特别梳理了历届大会亮点以记录中国大数据技术领域发展历程,并立足当下生态圈现状对即将召开的BDTC 2014进行展望: 追本溯源,悉大数据六大技术变迁 伴随着大数据技术大会的发展,我们亲历 ...

  7. 大数据freestyle: 共享单车轨迹数据助力城市合理规划自行车道

    编者按:近年来,异军突起的共享单车极大地解决了人们共同面临的“最后一公里”难题,然而,共享单车发展迅猛,自行车道建设却始终没有能够跟上脚步.幸运的是摩拜单车大量的轨迹数据为我们提供了一种新的思路:利用 ...

  8. 苹果 iOS 8 新固件新功能特性总结汇总 (苹果 iPhone/iPad 最新移动操作系统)

    苹果在 WWDC 2014 大会上正式发布了其最新的 OS X Yosemite 桌面系统以及 iOS 8 移动操作系统,虽然 iOS 8 依然延续了 iOS7 的扁平化设计风格,但在功能上却还是给我 ...

  9. Network Embedding 论文小览

    Network Embedding 论文小览 转自:http://blog.csdn.net/Dark_Scope/article/details/74279582,感谢分享! 自从word2vec横 ...

随机推荐

  1. python中selenium自动化常用关键字

    一:定位八种方法 例如: 二:常见的webdriver方法 1.浏览器相关:(打开浏览器先导入webdriver模块) (1)set_window_size(480,800)调整浏览器宽高大小 (2) ...

  2. 干货 | IP高防使用配置

    一.知识简介 DoS(Denial of Service),即拒绝服务攻击.该攻击是利用目标系统网络服务功能缺陷或者直接消耗其系统资源,目的是使该目标客户的系统不可用,无法提供正常的服务. DDoS( ...

  3. SpringMVC在使用JSON时报错信息为:Content type 'application/json;charset=UTF-8' not supported

    直接原因是:我的(maven)项目parent父工程pom.xml缺少必要的三个jar包依赖坐标. 解决方法是:在web子模块的pom.xml里面添加springMVC使用JSON实现AJAX请求. ...

  4. 题解 P4171 【[JSOI2010]满汉全席】

    什么,tarjan?那是什么? 码量太大,我选择放弃 为什么不用dfs写2-sat呢?他会伤心的说 这题2-sat的过程大佬们已经讲得非常清楚了,我就略微提一下,主要讲dfs的原理 2_sat原理 我 ...

  5. httpsqs 源码修改(内部自动复制多队列)

    /* HTTP Simple Queue Service - httpsqs v1.7 Author: Zhang Yan (http://blog.s135.com), E-mail: net@s1 ...

  6. Python实现自动处理表格,让你拥有更多的自由时间!

    相信有不少朋友日常工作会用到 Excel 处理各式表格文件,更有甚者可能要花大把时间来做繁琐耗时的表格整理工作.最近有朋友问可否编程来减轻表格整理工作量,今儿我们就通过实例来实现 Python 对表格 ...

  7. regex(python)

    正则表达式 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/7/26 16:39 # @Author : jackendoff ...

  8. Codeforces 1288A - Deadline

    题目大意: Adilbek有一个特殊项目,他需要运行这个项目得到结果. 但是这个项目直接运行需要消耗d天时间. 他也可以选择优化程序以减少程序运行消耗时间. 假设他用了x天优化程序,那么最后运行程序只 ...

  9. sockaddr_in 转成string

    string strAcceptIp = inet_ntoa(remoteAddr.sin_addr);

  10. [CTS2019]无处安放(提交答案)

    由于蒟蒻太菜没报上CTS,只能在家打VP. 感觉这题挺有意思的,5h中有3h在玩这题,获得74分的“好”成绩. 说说我的做法吧: subtask1~3:手玩,不知道为什么sub2我只能玩9分,但9和1 ...