大数据分析的众包平台—Kaggle
众包(Jeff Howe,2006)是一种在互联网蓬勃发展的背景下产生的一种创新的生产组织形式。在这样的商业模式下,企业利用网络将工作分配出去,通过让更合适的人群参与其中来发现创意和解决技术问题。比较成功的众包例子有像wikipedia这样的知识贡献类平台,GitHub这样的IT类平台,也有我们要着重介绍的大数据分析类的众包平台Kaggle。
Figure 1 Kaggle的工作方式。

Kaggle的工作方式如图中右上角的流程所示。假设一个互联网广告公司收集了大量的关于用户广告点击行为的数据,想从这些数据中发现用户点击的规律、模式,希冀以此来优化广告投放、提高用户点击转化率。一种做法是,公司雇佣一个数据科学家团队来洞察数据,为决策提供支持。这种做法的成本可能比较高,小公司难以承受。Kaggle提供了另外一种方式。公司可以将他们的数据、问题的描述、以及期望的指标整理后发布到Kaggle上,通过举办竞赛的方式让网上的数据科学家参与解决。数据分析师们或独立、或组队参加比赛,利用自己的专业知识和数据分析工具得到优化模型。最后,这些结果经过原定指标的检验,被公布到排行版上;最好的结果将获得竞赛的奖金(几百美元到几百万美元不等)。而公司也能最终拥有数据分析的结果、模型等知识产权。图中左表列出了Kaggle上面一个问题的例子,这是关于Twitter对其用户的个性分析的案例。包含了训练集、测试集、示例代码和作为基准的随机森林模型。而右表则是排行版上前六位的团队以及他们在loss这个指标上的表现。
Kaggle的流行是由两方面的因素决定的。首先,随着数据量的爆炸性增长,尤其是互联网企业掌握的数据越来越多,如何利用这些数据成为了决策者们所关心的问题。大多数依靠互联网挣钱的企业技术门槛较低,竞争激励。像2010年兴起的团购,一时间中国大地上出现了5000多家类似的公司,大家有着同样的网站模板,相似的业务,却没有任何差异化的东西。如何提高技术壁垒,脱颖而出,数据驱动(data-driven)成为了大家关注的焦点。商家们需要收集用户的行为数据,分析不同用户群体的行为规律,从而为商品的定向投放,精准推荐提供有力支持。另一方面,数据科学家成为了21世纪最稀缺的资源。Kaggle总裁兼首席科学家Jeremy Howard认为一个伟大的数据科学家应具备创新、坚韧、好奇、深厚技术这四项素质。具备数据收集、数据改写、可视化、机器学习、计算机编程等技术的数据科学家使数据驱动决策并主导产品。根据McKinsey的预测,在未来6年,仅在美国本土就可能面临缺乏14万至19万具备深入分析数据能力人才的情况,同时具备通过分析大数据并为企业做出有效决策的数据的管理人员和分析师也有150万人的缺口。如何充分利用现有的数据科学家的专业知识来帮助有需要的企业实现数据驱动的业务支持,Kaggle正是基于这样的想法,建立起了一个联通领域和专业技能的桥梁。
众包方式的大数据分析绝不仅仅只有Kaggle一家,类似的还有CrowdAnalytix和TunedIT。而最早的学术界的Kaggle可以认为是从1997年开始的由ACM组织的KDD CUP(知识发现和数据挖掘竞赛)。KDD每年一次,涉及的领域从生物、营销、安全、医学,一直到最近火热的用户行为分析和社交网络分析。比如,今年(KDD2012)的分析任务就是由腾讯微博提供,通过对微博的社交分析,期望预测出最有可能的关注(Follow)关系。
现在已经是“大数据”的时代,所有的人都预测在这个领域内将来会产生一批伟大的公司。目前,在Kaggle上吸引了将近六万的参与者,竞赛的内容也从单纯的预测性分析拓展到所有关于数据的创意,比如如何实现工作职位网站上的数据可视化。可以说,聚集了如此多智慧和机会的大数据众包平台Kaggle一定会成为这些伟大公司的一员,让我们拭目以待。
大数据分析的众包平台—Kaggle的更多相关文章
- 大数据竞赛平台——Kaggle 入门
Reference: http://blog.csdn.net/witnessai1/article/details/52612012 Kaggle是一个数据分析的竞赛平台,网址:https://ww ...
- 大数据竞赛平台——Kaggle 入门篇
这篇文章适合那些刚接触Kaggle.想尽快熟悉Kaggle并且独立完成一个竞赛项目的网友,对于已经在Kaggle上参赛过的网友来说,大可不必耗费时间阅读本文.本文分为两部分介绍Kaggle,第一部分简 ...
- 使用Kylin构建企业大数据分析平台的4种部署方式
本篇博客重点介绍如何使用Kylin来构建大数据分析平台.根据官网介绍,其实部署Kylin非常简单,称为非侵入式安装,也就是不需要去修改已有的 Hadoop大数据平台.你只需要根据的环境下载适合的Kyl ...
- 《基于Apache Kylin构建大数据分析平台》
Kyligence联合创始人兼CEO,Apache Kylin项目管理委员会主席(PMC Chair)韩卿 武汉市云升科技发展有限公司董事长,<智慧城市-大数据.物联网和云计算之应用>作者 ...
- 【转】使用Apache Kylin搭建企业级开源大数据分析平台
http://www.thebigdata.cn/JieJueFangAn/30143.html 本篇文章整理自史少锋4月23日在『1024大数据技术峰会』上的分享实录:使用Apache Kylin搭 ...
- 使用Apache Kylin搭建企业级开源大数据分析平台
转:http://www.thebigdata.cn/JieJueFangAn/30143.html 我先做一个简单介绍我叫史少锋,我曾经在IBM.eBay做过大数据.云架构的开发,现在是Kylige ...
- Net Core SignalR 测试,可以用于unity、Layair、白鹭引擎、大数据分析平台等高可用消息实时通信器。
SignalR介绍 SignalR介绍来源于微软文档,不过多解释.https://docs.microsoft.com/zh-cn/aspnet/core/signalr/introduction?v ...
- DKH大数据分析平台解决方案优势说明
大数据技术的发展与应用已经在深刻地改变和影响我们的日常生活与工作,可以预见的是在大数据提升为国家战略层面后,未来的几年里大数据技术将会被更多的行业应用. 相信很多人对于大数据技术的应用还是处于一个非常 ...
- 奥威软件Speed-BI荣获2016年度中国大数据最佳云平台奖
(原文转自:http://www.powerbi.com.cn/page110?article_id=210) 2016年12月16日,“科技原力觉醒,引领创新巅峰”—2016创新影响力年会暨国家产业 ...
随机推荐
- interviewbit : Max Non Negative SubArrayBookmark Suggest Edit
Find out the maximum sub-array of non negative numbers from an array.The sub-array should be continu ...
- Project Euler 110:Diophantine reciprocals II 丢番图倒数II
Diophantine reciprocals II In the following equation x, y, and n are positive integers. For n = 4 th ...
- ubuntu14.04安装MATLAB R2014a
1. 首先现在matlab2014a,http://pan.baidu.com/s/1pJGF5ov [Matlab2014a(密码:en52).该文件下载解压后如下所示: 2. 解压解压包(用lin ...
- linux驱动模型<输入子系统>
在linux中提供一种输入子系统的驱动模型,其主要是实现在input.c中. 在输入子系统这套模型中,他把驱动分层分类.首先分为上下两层,上层为input.c .下层为驱动的实现,下层分为两部分,一部 ...
- MyBatis学习总结_13_Mybatis查询之resultMap和resultType区别
MyBatis的每一个查询映射的返回类型都是ResultMap,只是当我们提供的返回类型属性是resultType的时候,MyBatis对自动的给我们把对应的值赋给resultType所指定对象的属性 ...
- Java:网络编程之IP、URL
java.net 类 InetAddress 此类表示互联网协议 (IP) 地址. 会抛出异常 UnknownHostException 直接已知子类: Inet4Address ...
- warning:deprecated conversion from string constant to 'char *' 解决方案
#include <iostream> using namespace std; int fuc(char *a) { cout << a << endl; } i ...
- 将web项目deploy到tomcat的方法
如果已经把整个项目发布到tomcat的webapps文件夹下,就不用再配置tomcat的server.xml了(也就是不用配置<Context>节点) 并且,你的项目的WEB-INF/li ...
- [原]1856-More is better-基础并查集
思路:注意n为0的时候输出1,还有内存.这题是数据水了,要不我的Count[ ]数组,开10^5绝对会WA.离散化还没想清楚,想清楚了再更新代码.[水过代码下面是正经的AC代码,其实这道题不用离散化, ...
- [POJ1050]To the Max(最大子矩阵,DP)
题目链接:http://poj.org/problem?id=1050 发现这个题没有写过题解,现在补上吧,思路挺经典的. 思路就是枚举所有的连续的连续的行,比如1 2 3 4 12 23 34 45 ...