从今天开始,博主将用大概1000天的时间记录自己学习并成为初级数据科学家(数据分析师)的心路历程. 包括数据科学家所必需的的基础知识:数学,统计,计算机,商业,沟通能力等. 希望博主能够在2017前完成基本各个部分的汇总.形成一套数据科学家塑成指南. 下面是简要的数据科学家所具备的的知识结构:…
数据科学工作者(Data Scientist) 的日常工作内容包括什么 众所周知,数据科学是这几年才火起来的概念,而应运而生的数据科学家(data scientist)明显缺乏清晰的录取标准和工作内容.即使在2017年,数据科学家这个岗位的依然显得"既性感又暧昧". 我随手搜索了几家国内国外不同领域的数据科学家招聘广告(国内:阿里巴巴,百度 | 海外: IBM,道明银行,Manulife保险),通过简单的归纳总结,我们不难发现其实岗位要求有很大的重叠部分: 学历要求:硕士以上学历,博士…
数据分析师(Data Analyst):负责从数据中提取出有用的信息,以帮助公司形成业务决策.工作内容包括:对数据进行提取,清洗,分析(用描述统计量,趋势分析,多维度分析,假设检验等统计常用方法对数据进行分析),总结结论并提出建议.数据分析师通常从业务团队那里获取需要分析的具体问题,并提供相应的解决方案.高级数据分析师还需要了解各种模型(如线性回归,决策树等),并能调包实现这些模型. 需要掌握的技能有:熟悉业务,会使用excel,ppt等基本工具,了解统计分析方法,会使用SQL从数据库提取数据,…
转自– Warald (Email: iamxiaoning@gmail.com) 博客: http://www.1point3acres.com,微博:http://www.weibo.com/warald 开头:如果你极其讨厌编程.大学数学勉强合格,或者跟人交流能力巨挫,那这篇文章可能不适合你看,你也可以自动叉掉其他关于data science/scientist的文章.Warald会花一周时间集中介绍一下这门科学,用具体的例子谈一下数据科学家到底做哪些工作.读什么专业.需要什么样的技能,欢…
摘要:R是数据科学家中最流行的编程语言和环境之一,在Spark中加入对R的支持是社区中较受关注的话题.作为增强Spark对数据科学家群体吸引力的最新举措,最近发布的Spark 1.4版本在现有的Scala/Java/Python API之外增加了R API(SparkR).SparkR使得熟悉R的用户可以在Spark的分布式计算平台基础上结合R本身强大的统计分析功能和丰富的第三方扩展包,对大规模数据集进行分析和处理.本文将回顾SparkR项目的背景,对其当前的特性作总体的概览,阐述其架构和若干技…
原文:http://www.csdn.net/article/2015-10-16/2825926?reload=1 Olivier Grisel(OG)本人在InriaParietal工作,主要研发scikit-learn,使用Python语言编写的最流行的机器学习库之一.OG是机器学习.文本挖掘和自然语言处理领域的专家.大概在几周前,我们的Florian Douetteau (FD)对OG进行了一次访谈,很幸运,我得到这个机会去旁听. 在上一篇博文里(CSDN译文:[访谈] Olivier…
Coursera课程<数据科学家的工具箱> 约翰霍普金斯大学 Week3 Conceptual Issues Types of Questions Types of Data Science Questions 描述性分析(Descriptive) 在没有额外的统计建模的基础上,这些描述通常没什么普遍性. 美国的人口普查就是一个描述性分析的例子. 探索性分析(Exploratory) 在该分析类型中,我们试着去观察数据并发现之前未知的关系,因此这种分析有利于发现新的关联,同时也有助于确定今后的…
Interactive Data Language——交互式数据语言 目前,图像处理常用的ENVI就是用IDL开发的经典软件 广泛支持的平台: Microsoft Windows Open VMS SunOS Solaris AIX Digital UNIX HP-UX IRIX Linux(Intel x86) MacOS   应用领域: IDL还被广泛应用于地球科学.医学影像.图像处理.软件开发.大学教学.实验室研究.测试技术.天文.信号处理.防御工程.数学分析.统计等诸多领域.   IDL…
做项目的时候看了别人的blog,决定自己也随手记录下在做项目中遇到的好的小知识点. 最近在做Udacity的Data Scientist Nano Degree Project的Customer_Segements 项目,随手记录下感觉一些挺好用的自己没注意到小细节 - 统计DataFrame中每行的缺失值: missing_value_in_row = df.shape[1] - df.counts(axis = 1) missing_value_in_col = df.shape[o] -…
概述 这篇文章中,我们挑选了24个用于数据科学的Python库. 这些库有着不同的数据科学功能,例如数据收集,数据清理,数据探索,建模等,接下来我们会分类介绍. 您觉得我们还应该包含哪些Python库?让我们知道! 介绍 我是Python语言的忠实粉丝,它是我在数据科学方面学到的第一门编程语言.Python有三个特点: 它的易用性和灵活性 全行业的接受度:它是业内最流行的数据科学语言 用于数据科学的庞大数量的Python库 事实上,有如此多的Python库,要跟上它们的发展速度可能会变得非常困难…