大数据分析的众包平台—Kaggle
众包(Jeff Howe,2006)是一种在互联网蓬勃发展的背景下产生的一种创新的生产组织形式。在这样的商业模式下,企业利用网络将工作分配出去,通过让更合适的人群参与其中来发现创意和解决技术问题。比较成功的众包例子有像wikipedia这样的知识贡献类平台,GitHub这样的IT类平台,也有我们要着重介绍的大数据分析类的众包平台Kaggle。
Figure 1 Kaggle的工作方式。
Kaggle的工作方式如图中右上角的流程所示。假设一个互联网广告公司收集了大量的关于用户广告点击行为的数据,想从这些数据中发现用户点击的规律、模式,希冀以此来优化广告投放、提高用户点击转化率。一种做法是,公司雇佣一个数据科学家团队来洞察数据,为决策提供支持。这种做法的成本可能比较高,小公司难以承受。Kaggle提供了另外一种方式。公司可以将他们的数据、问题的描述、以及期望的指标整理后发布到Kaggle上,通过举办竞赛的方式让网上的数据科学家参与解决。数据分析师们或独立、或组队参加比赛,利用自己的专业知识和数据分析工具得到优化模型。最后,这些结果经过原定指标的检验,被公布到排行版上;最好的结果将获得竞赛的奖金(几百美元到几百万美元不等)。而公司也能最终拥有数据分析的结果、模型等知识产权。图中左表列出了Kaggle上面一个问题的例子,这是关于Twitter对其用户的个性分析的案例。包含了训练集、测试集、示例代码和作为基准的随机森林模型。而右表则是排行版上前六位的团队以及他们在loss这个指标上的表现。
Kaggle的流行是由两方面的因素决定的。首先,随着数据量的爆炸性增长,尤其是互联网企业掌握的数据越来越多,如何利用这些数据成为了决策者们所关心的问题。大多数依靠互联网挣钱的企业技术门槛较低,竞争激励。像2010年兴起的团购,一时间中国大地上出现了5000多家类似的公司,大家有着同样的网站模板,相似的业务,却没有任何差异化的东西。如何提高技术壁垒,脱颖而出,数据驱动(data-driven)成为了大家关注的焦点。商家们需要收集用户的行为数据,分析不同用户群体的行为规律,从而为商品的定向投放,精准推荐提供有力支持。另一方面,数据科学家成为了21世纪最稀缺的资源。Kaggle总裁兼首席科学家Jeremy Howard认为一个伟大的数据科学家应具备创新、坚韧、好奇、深厚技术这四项素质。具备数据收集、数据改写、可视化、机器学习、计算机编程等技术的数据科学家使数据驱动决策并主导产品。根据McKinsey的预测,在未来6年,仅在美国本土就可能面临缺乏14万至19万具备深入分析数据能力人才的情况,同时具备通过分析大数据并为企业做出有效决策的数据的管理人员和分析师也有150万人的缺口。如何充分利用现有的数据科学家的专业知识来帮助有需要的企业实现数据驱动的业务支持,Kaggle正是基于这样的想法,建立起了一个联通领域和专业技能的桥梁。
众包方式的大数据分析绝不仅仅只有Kaggle一家,类似的还有CrowdAnalytix和TunedIT。而最早的学术界的Kaggle可以认为是从1997年开始的由ACM组织的KDD CUP(知识发现和数据挖掘竞赛)。KDD每年一次,涉及的领域从生物、营销、安全、医学,一直到最近火热的用户行为分析和社交网络分析。比如,今年(KDD2012)的分析任务就是由腾讯微博提供,通过对微博的社交分析,期望预测出最有可能的关注(Follow)关系。
现在已经是“大数据”的时代,所有的人都预测在这个领域内将来会产生一批伟大的公司。目前,在Kaggle上吸引了将近六万的参与者,竞赛的内容也从单纯的预测性分析拓展到所有关于数据的创意,比如如何实现工作职位网站上的数据可视化。可以说,聚集了如此多智慧和机会的大数据众包平台Kaggle一定会成为这些伟大公司的一员,让我们拭目以待。
大数据分析的众包平台—Kaggle的更多相关文章
- 大数据竞赛平台——Kaggle 入门
Reference: http://blog.csdn.net/witnessai1/article/details/52612012 Kaggle是一个数据分析的竞赛平台,网址:https://ww ...
- 大数据竞赛平台——Kaggle 入门篇
这篇文章适合那些刚接触Kaggle.想尽快熟悉Kaggle并且独立完成一个竞赛项目的网友,对于已经在Kaggle上参赛过的网友来说,大可不必耗费时间阅读本文.本文分为两部分介绍Kaggle,第一部分简 ...
- 使用Kylin构建企业大数据分析平台的4种部署方式
本篇博客重点介绍如何使用Kylin来构建大数据分析平台.根据官网介绍,其实部署Kylin非常简单,称为非侵入式安装,也就是不需要去修改已有的 Hadoop大数据平台.你只需要根据的环境下载适合的Kyl ...
- 《基于Apache Kylin构建大数据分析平台》
Kyligence联合创始人兼CEO,Apache Kylin项目管理委员会主席(PMC Chair)韩卿 武汉市云升科技发展有限公司董事长,<智慧城市-大数据.物联网和云计算之应用>作者 ...
- 【转】使用Apache Kylin搭建企业级开源大数据分析平台
http://www.thebigdata.cn/JieJueFangAn/30143.html 本篇文章整理自史少锋4月23日在『1024大数据技术峰会』上的分享实录:使用Apache Kylin搭 ...
- 使用Apache Kylin搭建企业级开源大数据分析平台
转:http://www.thebigdata.cn/JieJueFangAn/30143.html 我先做一个简单介绍我叫史少锋,我曾经在IBM.eBay做过大数据.云架构的开发,现在是Kylige ...
- Net Core SignalR 测试,可以用于unity、Layair、白鹭引擎、大数据分析平台等高可用消息实时通信器。
SignalR介绍 SignalR介绍来源于微软文档,不过多解释.https://docs.microsoft.com/zh-cn/aspnet/core/signalr/introduction?v ...
- DKH大数据分析平台解决方案优势说明
大数据技术的发展与应用已经在深刻地改变和影响我们的日常生活与工作,可以预见的是在大数据提升为国家战略层面后,未来的几年里大数据技术将会被更多的行业应用. 相信很多人对于大数据技术的应用还是处于一个非常 ...
- 奥威软件Speed-BI荣获2016年度中国大数据最佳云平台奖
(原文转自:http://www.powerbi.com.cn/page110?article_id=210) 2016年12月16日,“科技原力觉醒,引领创新巅峰”—2016创新影响力年会暨国家产业 ...
随机推荐
- [网页设计]Ajax、Comet与Websocket--转
从http协议说起 1996年IETF HTTP工作组发布了HTTP协议的1.0版本 ,到现在普遍使用的版本1.1,HTTP协议经历了17 年的发展.这种分布式.无状态.基于TCP的请求/响应式.在 ...
- VS输入法问题
问题描述:启动VS,打开Winform等的界面设计,无法为控件输入中文,另外,运行程序,无法在TextBox等控件中输入中文: 本人的系统环境:Win7旗舰版,VS2008.VS2010和VS2012 ...
- PushBackInputStream与PushBackInputStreamReader的用法
举个例子:获取XX内容 PushBackInputStream pb=new PushBackInputStream(in,4);//4制定缓冲区大小 byte[] buf=new byte[4]; ...
- [iOS]为什么不要在init初始化方法里调用self.view
首先.如果你调用self.view的时候,就会调用view的getter方法, 这个时候,view是空的,那么系统就会自动给你创建一个view,然后就会触发ViewDidLoad方法.那么这个时候,如 ...
- ls命令详解
-a 列出目录下的所有文件,包括以 . 开头的隐含文件.-b 把文件名中不可输出的字符用反斜杠加字符编号(就象在C语言里一样)的形式列出.-c 输出文件的 i 节点的修改时间,并以此排序.-d 将目录 ...
- CentOS7修改服务器主机名方法
CentOS7下修改主机名 第一种:hostname 主机名 01.hostname 主机名称 这种方式,只能修改临时的主机名,当重启机器后,主机名称又变回来了. 第二种:hostnamectl se ...
- IE内存泄露与无法回收研究小结
一.内存泄露 之前确实看了很多资料,但这位大哥的话可谓画龙点睛,不是奉承他,一下子就打通了我的任督二脉,请看: trarck 写道 IE下的内存泄露原因就是循环引用,IE的垃圾回收器不能很 ...
- Database File Management ->> Shrink Data File
今天在开发环境遇到了一个问题,我们发现服务器上的硬盘空间满了,查看了下发现这个盘存放的数据库文件应该是来源一个并非很大的库才对.检查之后发现这个数据库下的某个数据文件占了盘符下70%的空间,而大部分数 ...
- MongoDB小记
mongodb的一个简单使用. package com.chuntent.mongo; import java.util.Map; import java.util.Map.Entry; import ...
- CMake入门指南-编译教程
CMake是一个比make更高级的编译配置工具,它可以根据不同平台.不同的编译器,生成相应的Makefile或者vcproj项目.通过编写CMakeLists.txt,可以控制生成的Makefile, ...