原文:http://vision.cloudera.com/24195/。

译文:

每天我都能看到大数据怎样改变我们生活的文章。数据科学家们正在生物医药领域找寻新的方法治愈癌症。帮助银行与欺诈做斗争,警察打击与毒品有关的犯罪,以及明星球员间的斗争。

看上去我须要的是一个象Hadoop的分析平台和一大堆数据,然后可操作的见解就会扑过来,对吗?嗯,不全然是。尽管Hadoop把困难的事情变easy了、把不可能的事情变得可能,可是我们仍然得弄清楚我们要寻找什么,一旦我们知道了答案还必须理解那意味着什么。

体积、速度和大数据的多样性让聚焦于某一点变得困难,而我们的洞察力由于无法忽略细节而变得更困难。

寻找有意义的模式并把它们转换成可操作的见解,须要大量的计算机、先进的软件。专家们使用这些工具告诉我们这些信息的意义。

这就是数据的科学。

数据科学的定义

与其它科学家一样,数据科学家先提出如果,然后做实验,并依据结果断定如果是否成立。

但在大数据领域,过程并没有这么简单。

首先。要在一大堆数据集中积累足够支持如果的数据。

第二,数据科学很多其它的是分析而不是实验,这意味着数据在第一步已经整理完成。控制实验是不可能的。

相反,数据科学家必须通过细致的建模。以逆向project的实验方法。

第三,数据科学家证明一个假说并从数据中发现实用的模式后,真正的工作才開始。

挑战在于把这样的模式变成一种数据产品。能够用于分析新数据或运行正在进行的预測分析。

一个有抱负的数据专家必须具备极高要求并具有多种技能:统计。编程。机器学习和多种技术(如Hadoop。R,可视化工具)。

此外。最好的数据专家不尽同样。他们通过各自领域内的(如生命科学,行为学,气象学)应用软件技巧、讲故事、好奇心、机制、持久性和心理素养等,为他们所服务的公司创造价值。数据专家的要求如此之高,这就是为什么麦肯锡全球研究院、哈佛商业评论和Gartner集团断定在未来几年的同类项目人才缺口达几十万的原因。

造成数据专家供应失衡的更复杂的原因在于无法对通过专业验证对数据专家的能力进行评估。少数大学开设了高级分析和数据科学专业,它要求数据人员花费大量的时间和资源以获得完整的学术背景。但这不足以验证他们具备数据分析领域的能力和经验。

如今尚无国际性的数据科学研究所。负责招聘的经理们大多数都没有数据科学经验。而一份简历或面试根本证明不了什么。

这个人才缺口和人才不能被验证的对立问题仅仅会变得更加严重。由于小企业也開始积累大数据并寻找该领域的人才。

解决方式的一部分是由实际的数据专家建立了一个正式的数据科学课程。

Cloudera提供了一个极好的为期三天的数据科学课程,教授基础知识。并训练学员在数据科学明星Jeff Hammerbacher 和 Josh Wills的视角下建立自己的推荐系统。

该解决方式的还有一个组成部分是公共数据科学比赛,通过竞赛让參与者积累经验并在现实的环境中证明自己的能力。

塑造行业的挑战

对一份起薪30万美元/年的工作而言,接受多少教育和实践才够呢?一个正式的行业认证将是最有价值的。它能给企业一个已知的尺度来衡量从业人员。

在Cloudera,我们借鉴我们的行业领导地位和现实世界的经验,通过早期的语料库来填补这一空白。我们最近推出了一个由两部分组成的Cloudera认证专家:数据专家(Cloudera Certified Professional: Data Scientist CCP:DS)的程序。它由数据科学要点考试和每年2次的数据科学挑战组成,从而帮助候选人证明他们的能力以及帮助雇主识别精英、发现高水平的数据专家。顺利通过认证的參与者将会是世界上最称职(和很性感)的数据专家。

除了认证,CCP:DS还包括了一个60道数据科学题库(帮助參与者自我评估)和一个免费的数据科学挑战套装。

该套装提供一个实时数据集、教程和具体的解释手冊,解释手冊的作用是为了得到真实世界数据问题的正确结果。须要集中在分类、集群和网络分析的协调过滤。

眼下的数学挑战今天開始(注:2014年3月31日),直到6月30日。它由Cloudra的数据科学总监SeanOwen设计,挑战要求应试者通过一个巨大的匿名医疗数据库找出医疗保险索赔可能产生的错误和异常。成功的參与者应该建立一个科学数据模型回答一系列问题,包含:

l 哪些医疗程序的成本有最高的相对方差?

l 平均索赔金额最高的哪三个供应商的程序数量最多?

l 从数量和程序类型来看,哪三个供应商和地区是与别人最不一样的?

l 审查1万名可能出现错误或异常的病人,描写叙述这些病人的特征。


Cloudra公司CCP:DS——认证数据专家的更多相关文章

  1. 成为数据专家,你只差一个Quick Insights的距离

    身处如今的大数据时代,你真的知道如何处理数据和分析数据吗?或许那些被你忽视的数据背后就暗藏着重要的商业灵感.并非人人都是数据专家,有时候你需要一些专业的软件来帮你处理数据.那么如何能快速.准确地从数据 ...

  2. 百度地图里面搜索到的公司商家电话导出表格?怎样将把百度地图里面搜索到的公司 电话 地址 等数据导出excel里?

    好多人在问:如何将百度地图里面搜索到的公司商家电话导出表格?怎样将把百度地图里面搜索到的公司 电话 地址 等数据导出excel里? 现在,很多人都在网络上找商家,联系业务. 百度地图里有很多的商家联系 ...

  3. Protobuf 完整解析 - 公司最常用的数据交互协议

    Google Protocol Buffer(简称 Protobuf)是一种轻便高效的结构化数据存储格式,平台无关.语言无关.可扩展,可用于通讯协议和数据存储等领域. 数据交互xml.json.pro ...

  4. Kubernetes-3.3:ETCD集群搭建及使用(https认证+数据备份恢复)

    etcd集群搭建 环境介绍 基于CentOS Linux release 7.9.2009 (Core) ip hostname role 172.17.0.4 cd782d0a790b etcd1 ...

  5. WireShark Wifi认证数据包分析(论文idea)

    1.使用 wireShark捕获802.11数据帧结构分成三种,管理帧.控制帧.数据帧. 使用的过滤语法: 过滤MAC 地址: Waln.bssid eq=8c:23:0c:44:21:0f 过滤特定 ...

  6. 一个牛公司的关于oracle数据的面试题

    我也忘记是从哪里download的了,为了加深记忆,也为了完成我的博客,我决定写进博客里,如果有错误,欢迎大家指正,谢谢. 问题一. 解释一下sum的作用? 答:求符合条件的记录某数值字段的和. 问题 ...

  7. PBOC2.0安全系列之—脱机认证之动态数据认证(DDA)

    动态数据认证: 一,什么是动态数据认证(DDA) 由于上篇<< PBOC2.0安全系列之—脱机认证之静态数据认证(SDA)>>已经对静态数据认证部分做了详细的分析,一些基本知识 ...

  8. PBOC2.0安全系列之—脱机认证之静态数据认证(SDA)

    一,什么是PBOC2.0 2005年3月13日,人民银行发布第55号文,正式颁发了<中国金融集成电路(IC)卡规范>(简称PBOC2.0).该规范补充完善电子钱包/存折应用:增加借/贷记应 ...

  9. 中小型公司数据仓库搭建——以mysql为例

    为了方便公司的数据分析平台的独立运行和数据挖掘的探索,今年上半年在公司搭建了支持数据平台和数据挖掘的数据仓库:现就数据仓库的创建工作总结如下,供大家参考: 首先介绍下数据仓库搭建的缘由: 公司创建两年 ...

随机推荐

  1. (转)ThinkPHP find方法 查询一条数据记录

    find() ThinkPHP find() 方法是和 select() 用法类似的一个方法,不同之处 find() 查询出来的始终只有一条数据,即系统自动加上了 LIMIT 1 限制. 当确认查询的 ...

  2. Photon的log使用

    添加log引用,设置log文件在Photon根目录下的log文件夹内. using ExitGames.Logging;using ExitGames.Logging.Log4Net; public ...

  3. SQL中 patindex函数的用法

    语法格式:PATINDEX ( '%pattern%' , expression ) 返回pattern字符串在表达式expression里第一次出现的位置,起始值从1开始算. pattern字符串在 ...

  4. 关于IO学习的几个函数

    这是最近学到的几个关于IO文件操作的几个小算法,今天总结出来. 1. 删除一个给定的目录,这上目录不为空目录,使用递归来实现 public void test04(File file) { File[ ...

  5. tomcat启动项目内存溢出问题

    catalina.bat文件的第二行加下面的即可: 注意最大内存设置,和系统的内存有关系 set JAVA_OPTS=%JAVA_OPTS% -Xms512m -Xmx1024m -XX:PermSi ...

  6. SQL Server主键自动生成_表and存储过程

    主键表: CREATE TABLE [dbo].[KEYCODE]( [KeyName] [varchar](12) NOT NULL, [KeyTableName] [varchar](40) NU ...

  7. CSS 布局Float 【1】

    1.HTML元素分类 HTML元素大题可分为内联(inline)元素和块(block)元素. 1.1 内联元素(inline) ①元素显示方式:"文本方式",1个挨着1个,不独自占 ...

  8. js 验证表单 js提交验证类

    附加:js验证radio是否选择 <script language="javascript">function checkform(obj){for(i=0;i< ...

  9. IDEA中添加各种依赖pom.xml文件内容

    刚实习的小白,今天准备进入项目,纳尼,前辈把框架什么的都搭建好了,默默的抹了一把辛酸泪,刚刚接触自学框架的时候,添加依赖的时候总是各种问题,让前辈发给我之后,才发现人家写的代码相当优美了.下面就是前辈 ...

  10. 初涉JavaScript模式 (10) : 函数 【进阶用法】

    写在前面 不知不觉写到第10篇了.这篇写起来很忐忑,终于和高级搭上边了(呵呵),这篇我们 主要 说一下 JS 方法的部分高级用法(我知道的),笔者水平有限,难免有错.废话不多少,进入正文. 初始化 我 ...