数据大爆炸:KDD 2016
2016">
饕餮盛宴
ACM SIGKDD国际会议(简称KDD)是数据挖掘领域的顶级国际会议,由ACM
(计算机协会)的数据挖掘及知识发现专委会(SIGKDD)负责组织筹办。在现今如火如荼的大数据时代,从学术研究到工业应用,从科学发现到医疗卫生服务,来自不同领域的研究者们和工业界的弄潮儿们共享和交流数据挖掘的创新理念及先进方案的需求与日俱增。KDD作为数据挖掘领域的顶级年会,为该领域研究成果的展示和实践经验的交流提供了一个理想的场所。由于KDD的交叉学科性以及广泛的应用性,其影响力越来越大,吸引了来自机器学习、统计、数据库、万维网、生物信息学、多媒体、自然语言处理、人机交互、社会网络计算、高性能计算以及大数据挖掘等众多领域的专家和学者。
今年的KDD于8月13日至17日在美国旧金山召开。此次KDD大会堪称史上最大规模!有超过2700名来自学术界和工业界人士参与此次盛会,与往届会议参会人数相比可谓呈现爆炸式增长。旧金山市中心耸入云天的希尔顿饭店大楼里处处可见脸上洋溢着笑容与会人员;熙熙攘攘的旧金山市街头也是随处可见三三两两结伴而行的行人胸前摇摆着明亮而鲜艳的KDD参会人员标牌。这些参会人员从世界的各个角落赶来,来感受KDD大会节日般喜庆与热烈。这样的盛会也让这些从事数据分析和数据挖掘相关的从业人员,找到了大家庭般的归属感。
此次KDD大会不仅参会人员众多,而且这些人全都是重量级的业界大牛!在这里已经不知道如何列举这些业界大牛了,因为实在是太多了而且难分伯仲。如果真要列举,可能一页纸都不够。简单描述来说就是这样的情形,在会场上随便走出几步,你就会遇到大概十个人,这十个人里面有四五个人会看上去年长一些,他们要么是世界知名大学里数据挖掘、机器学习的学科领头人,要么是世界知名公司里的技术高管;剩下五六个人可能看上去年轻一些,而他们要么是各个大学里年轻的教授或是实验室里领头的博士研究生,要么是各大公司里的技术骨干。总之,你遇到的人不是已经耀眼闪亮的业界明星,就是正在冉冉升起的业界新星!这次大会也是参加过的众多会议里面,大牛数量最多密度最高的一个。
本届KDD共吸引了1115篇投稿,其中研究专题投稿论文784篇,最终有142篇录用;应用数据科学专题投稿论文331篇,录用66篇。今年KDD的应用数据科学专题由于放开了过去只接收工业界投稿的限制,吸引了大量来自高校的学者投稿,因此今年的331篇投稿较之去年的189篇投稿有了大幅度的提升。应用数据科学专题的录用文章中,微软和领英也领先于其他的企业。
2016">
2016">
2016">
创新与实践齐飞
这次KDD大会的一大特色是理论创新与开发实践并重。大会不仅将论文分为两类,研究专题与应用数据科学专题;也将前沿辅导(Tutorial)分成研究辅导(ordinary
tutorial) 和实践辅导(hands-on
tutorial);这里前者注重理论分析与证明,后者注重动手开发与实践。大会还邀请了众多知名科技公司高管来分享自己团队在解决公司具体问题时践行的方法和积累的经验。这是KDD作为一个学术会议务实主义的一面,因为她很好地把一部分注意力放在了如何系统地解决现实工业界中的实际问题上。可能正是这样的脚踏实地务实精神,也因为开会地点位于著名的硅谷附近,大会吸引了许多公司的数据科学家和研发工程师前来参会交流,营造了一个让学术界与工业界沟通交流的和谐融洽的平台。
此次大会的另一个创新点是为各个赞助商公司提供了招聘人才的机会。由于大会在业界无与伦比的声望以及注重开发实践的务实主义精神,她吸引了许许多多业界知名的公司前来资助、招聘人才,包括微软、谷歌、苹果、脸书、腾讯等国际知名企业。在会议正式开始之前,大会为参会者提供机会向自己感兴趣的公司提交简历。在大会开始之后,每个赞助企业都在人才交流峰会场有自己独立的展台,为参会人员提供企业信息咨询、招聘职位介绍、以及现场报名招聘甚至现场面试的机会。除此之外,一些总部位于旧金山市区的公司还在会议期间,特别提供了参观公司的机会,让参会者能够走进公司内部,感受其开放的工程师文化。微软也在自己的展台中积极介绍了微软与数据挖掘机器学习紧密相关的产品,吸引了非常多的参会人员前去交流。我们也尝试寻访了很多展台并与一些公司进行了后续聊天,收获颇丰,在这个过程中感受到有很多的公司多样的文化,以及业界对数据挖掘相关的人才的渴求。
2016">
微软的长袖善舞
作为世界顶尖的研究中心之一,微软在本次大会上的表现格外亮眼。在大会伊始的主题报告上,微软新英格兰研究院和微软纽约研究院院长Jennifer
Chayes对稀疏大规模网络的建模和推理进行了精彩风趣的解析。在应用数据科学的邀请报告上,作为社交网络六度空间理论的著名学者,微软纽约研究院的首席研究员Duncan
Watts深刻剖析了大数据时代下计算社会学所关注的诸如金融系统的系统性风险以及流行病传播演化之类的大问题和大挑战。在偏重于实践应用的实践辅导上,微软展示了能够实现多机器多GPU运行的开源大规模深度学习工具CNTK以及如何在Spark或者Hadoop等分布式平台上用R语言进行大规模地数据挖掘。
2016">
微软在今年的KDD中发表了11篇高质量的论文,其中有5篇来自位于北京的微软亚洲研究院。这些论文覆盖了数据挖掘相关的众多方向,比如推荐系统、迁移学习、社交网络以及神经网络。从理论到应用,这些论文也涉及到了多个新兴的应用领域,比如在线广告中用户的注意力分析、基于聊天的推荐场景以及基于搜索日志的疾病监控。
我们团队在这次KDD上发表了2篇论文。一篇文章是《智能个人助手中基于环境的用户意图推断》(Contextual
Intent Tracking for Personal Assistants),很荣幸这篇文章获得了这次KDD应用数据科学专题的最佳学生论文奖,这篇文章的第一作者是孙宇同学。我们的论文内容是与用户信息推荐相关的,根据用户的上下文信息来推测用户当前的意图,并以此意图来推荐相关的资讯或者主动提供帮助。总体感觉,我们的论文能够获得最佳学生论文的原因是我们研究的问题本身紧密结合了当前公司个人助理产品的开发,问题很实际,也有很广泛的应用价值。解决问题的方法会对微软小娜等个人助理产品上的推荐有助于提高用户使用个人助理的粘性和满意度,对其他公司个人助理产品,例如苹果公司的Siri和谷歌的Google
Now等,也都有很实际的参考意义。尽管我们在问题定义、实验和论文筹备的过程中投入了大量时间和精力,但文章能得奖也离不开微软亚洲研究院紧密结合开发的研究精神和对实习生的悉心培养,以及研究院导师们远见卓识、高屋建瓴的指引和在研究遇到困难时耐心的指导。同时,大会能将奖项颁发给这篇论文也再一次印证了大会注重工业界研发实践的务实精神。
我们团队的另一篇论文是《更好的推荐系统:
当协同过滤遇见知识库》(Collaborative
Knowledge Base Embedding for Recommender Systems),这篇KDD论文的灵感起源于我们团队与微软小娜的内容推荐项目的合作。在最初使用传统协同过滤算法时由于数据稀疏性而效果不尽如人意时,我们想到了知识库中的语义网络、文字描述以及图片等信息都可能被用来提高推荐系统的质量。在如何使用异构信息这个问题上,我们使用了异构网络嵌入以及深度学习等技术来提取异构数据中的语义信息,并和协同过滤算法进行了深度融合,在电影和书籍数据集上分别验证了推荐算法的有效性。
作者简介:
张富峥,微软亚洲研究院副研究员,中国科学技术大学计算机博士。研究领域为数据挖掘和人工智能,方向包括推荐系统、深度学习、社交网络、情感检测、时空数据挖掘和大规模机器学习系统。
2016">
孙宇,目前于墨尔本大学攻读博士学位,本科毕业于中国人民大学计算机系,曾实习于微软亚洲研究院,并参与微软人工智能助手Cortana推荐相关的工作。
2016">
数据大爆炸:KDD 2016的更多相关文章
- 海量大数据大屏分析展示一步到位:DataWorks数据服务对接DataV最佳实践
1. 概述 数据服务(https://ds-cn-shanghai.data.aliyun.com) 是DataWorks产品家族的一员,提供了快速将数据表生成API的能力,通过可视化的向导,一分钟 ...
- 使用std::map和std::list存放数据,消耗内存比实际数据大得多
使用std::map和std::list存放数据,消耗内存比实际数据大得多 场景:项目中需要存储一个结构,如下程序段中TEST_DATA_STRU,结构占24B.但是使用代码中的std::list&l ...
- 海量大数据大屏分析展示一步到位:DataWorks数据服务+MaxCompute Lightning对接DataV最佳实践
1. 概述 数据服务(https://ds-cn-shanghai.data.aliyun.com) 是DataWorks产品家族的一员,提供了快速将数据表生成API的能力,通过可视化的向导,一分钟“ ...
- UWP中实现大爆炸效果(一)
自从老罗搞出大爆炸之后,各家安卓都内置了类似功能.UWP怎么能落下呢,在这里我们就一起撸一个简单的大爆炸实现. 闲话不说,先上效果: 因为代码太多,所以我打算写成一个系列,下面是第一篇的正文: 首先, ...
- UWP中实现大爆炸效果(二)
上一回实现了一个宽度不均匀的Panel,这次我们编写一个简单的BigbangView主体. 首先创建一个模板化控件,删掉Themes/Generic.xaml中的<Style TargetTyp ...
- 从零开始设计数据大屏—基于Vue ZT
虽然已经决定这个项目用Wyn来做了,但是,了解一下如何从头开始写一个数据大屏还是挺有好玩的. ------------- 为什么要做数据大屏? 现如今的大数据逐渐发挥出了它的力量,并无形的改变着我们的 ...
- UWP 大爆炸你个锤子
今天看到 叫我蓝火火 s的 UWP中实现大爆炸效果(一) ,我也来说一下我的app [小薇自然语言处理]实现的大爆炸技术. 看一下效果先. 我的控件是基于wrappanel的,正如蓝火火说的,这样看 ...
- Hibernate 中 联合主键映射 组合关系映射 大对象映射(或者说文本大对象,二进制数据大对象)
Clob:文本大对象,最长4G Blob:二进制数据大对象,最长4G util: public class HibUtil { private static SessionFactory sessio ...
- .NET Core开发的iNeuOS工业互联网平台,发布 iNeuDA 数据分析展示组件,快捷开发图形报表和数据大屏
目 录 1. 概述... 2 2. 演示信息... 2 3. 简单介绍... 3 4. 产品特点... 4 5. 价值体现... 5 1. ...
随机推荐
- 解决UITextView无法滚到底部
程序中有一个UITextView控件 @property (weak, nonatomic) IBOutlet UITextView *textView; 一般情况下,以下代码可实现UITextVie ...
- GPIO外部中断
来源:莆田SEO 在STM32中,其每一个外设都可以产生中断. 中断分为分为 ①系统异常,内核 ②外部中断,外设 NVIC(Nested Vector Interrupt Controller ):嵌 ...
- 大数据学习——MapReduce学习——字符统计WordCount
操作背景 jdk的版本为1.8以上 ubuntu12 hadoop2.5伪分布 安装 Hadoop-Eclipse-Plugin 要在 Eclipse 上编译和运行 MapReduce 程序,需要安装 ...
- Complier
Complier [2019福建省赛] 模拟题应该有信心写,多出一些样例 当/* 与// 在一起的时候总会出错,一旦出现了这些有效的 应该把它删掉不对后面产生影响 #include<bits/s ...
- learning Perl:91行有啥用? 88 print "\n----------------------------------_matching_multiple-line_text--------------------------\n"; 91 my $lines = join '', <FILE>;
89 open FILE, "< file_4_ex_ch7.txt" 90 or die "cannot open file: $!"; ...
- Matlab高级教程_第二篇:Matlab2016a和VS2013混合
1. 首先把VS2017的XML两个配置文件放到 2. 然后一步一步的进行选择: 3. 2016版本的deploytool工具已经改版了,具体详细使用如下 4. 编写一个测试函数 我们编译成C#语言的 ...
- 场景实践篇二:Nginx作为缓存
cd /etc/nginx/conf.d/ vim cache_test.conf
- idea常用快捷键(对于新手不建议切换使用eclipse)
查看方法实现:ctrl+alt+鼠标实现父类方法:ctrl+i查看方法的具体实现:ctrl+alt(鼠标再点击方法)快速导包:alt+enter格式化:Ctrl+Alt+L格式化当前行:ctrl+sh ...
- 吴裕雄--天生自然python学习笔记:python 用 Open CV 进行人脸识别
要对特定图像进行识别,最关键的是要有识别对象的特征文件, OpenCV 己内置 了人脸识别特征文件,我们只需使用 OpenCV 的 CascadeClassifier 类即可进行识别 . 创建 Cas ...
- 我是如何在四年时间里,从厨师转行为 Serverless 应用开发者
▎本文系译文,我的软件开发入行经历非常有趣 -- 我一开始其实是厨师. 作者:KieranMcCarthy 译者:Aceyclee 我在高中时就喜欢烹饪和烘焙,用不同食材的搭配去做出美味的食物,就像个 ...