http://www.zhihu.com/question/22119753

http://www.zhihu.com/question/20757000

******************************************

http://www.zhihu.com/question/29265587/answer/123961440

https://zhuanlan.zhihu.com/p/22842649

https://zhuanlan.zhihu.com/p/22419639?refer=growingio

如何快速成为数据分析师? - 张溪梦 Simon 的回答 - 知乎.htm

**********************************************

作者:此人已死

链接:http://www.zhihu.com/question/22119753/answer/54320521

来源:知乎

著作权归作者所有,转载请联系作者获得授权。

对于大部分人来说,数据分析基本上都是靠着自学完成,比如我就是一个典型的案列。题主是计算机出生,上手数据分析应该比较容易一点。我没接触过什么编程,目前也在搞SPARK,HADOOP等,也没觉得自己比别人差多少~~



我给出的这个回答基于我自己的学习路径,并且主要是以书本为主,尝试回答一下:一个新手如何系统的学习数据分析

下面我先给出书单:



这些书籍都有对应的中文版本。我喜欢将学习分阶段进行,这样学习起来有目标并且不会太累,每个阶段完成各自的任务就好。后面的星星代表每本书籍的重要度,星星越多表示该书越值得阅读。



初级阶段:

首先,我是赞成PYTHON ROCKS这句话。说多了你可能不理解,但是当你正真在工业上应用的时候,你就会发现PYTHON能做很多R不能做的事情。 因此强烈建议第一阶段以打基础,学习PYTHON为主。 那么怎么学?

《深入浅出数据分析》 是可以学习到最基础的统计、概率等理论知识,这些知识是你前进的基石,而且此书延续了head first系列的一贯作风,非常的有趣味,读起来不会感觉枯燥乏味!



接下来你应该好好的学一学PYTHON这门语言。我们说PYTHON可以做的事情太多了,数据分析只是它的一个功能而已。因此锁定目标,只学习有关数据分析部分的知识就行,其它涉及到什么WEB开发,网络编程的一律跳过,一定要集中精力去攻克你的目标,不要分神,有时候摊子铺大了就回不来了!!

那么《利用PYTHON进行数据分析》绝对是你学习PYTHON的不二之选(我指的是数据分析),这本书的作者是大名鼎鼎的pandas的作者,你可以想象这本书的权威性。因此去买一本,好好的研究一番,基本上你的数据处理能力能上好几个台阶。一定要重点学习numpy,pandas,matplotlib.




然后,SQL是你逃不掉的命,一定要写好,你既然是计算机专业,应该不需要我强调太多~

最后一本书你就当着小说读读就行,改善一下你程序员的思维,学会一点怎么在真实业务中应用数据分析技巧!记住:这是趣味书!



以上就是初级阶段,主要以看书为主,让自己对数据分析有一个初步的认识。

下面的中级,高级就需要配合视频和书本一起来学习了~



中级进阶:

这一部分是核心的地方,也是你能够和别人拉开距离的阶段。学的好,薪资蹭蹭的往上涨,学不好,那就多学几遍。

在这个阶段的核心任务就是:撸的了代码,算的上公示,看得懂业务! 中级阶段会涉及到大量的使用代码和模型去解决实际业务问题!



看清楚三点:代码、模型、案列

你要边学边用,这样才能学的更快,收货更多! 那么怎么学?

第一步,《数据挖掘导论》这本书先花一个月的时间好好的阅读下,知道数据挖掘的一个雏形,能够认识一些常用的模型和算法。能够搞清楚常用的监督和非监督学习,提到模型要能说出它的应用场景和优缺点。回答几个关于这本书的常见问题?

1. 阅读这本书是否需要一点课前知识?

答:要,但是不多。

2. 都有哪些课前知识?

答:微积分,概率论,线性代数,运筹学等等

3. 我的天!那我是不是先要去学习一下这些知识后再来看这本书?

答:千万别!!! 记得我前面说过:摊子铺大了你有时候就回不来了。

4. 那我怎么学?

答:很简单。直接看书,看不明白的就去google。比如说你看到SVM那里,不知道什么是拉格朗日,那么就去Google(其实这本书的附录也讲了什么是朗格朗日,甚至还讲解了怎么进行矩阵计算)。 总之,不要兜圈子,遇到什么就去补什么。



同时,在这里我强烈建议你去学习一下coursera上面的机器学习课程,你会对算法有一个更深的认识,关键是你能学会矩阵计算,梯度下降等常用技能:

https://www.coursera.org/learn/machine-learning







第二步,使用PYTHON结合数据挖掘知识进行实际案列操作。请使用《集体智慧编程》,这本书的评价我也给你们贴出来,豆瓣评分9分,质量自然不用我说。我唯一想强调的是:请你一定要全部代码自己写一遍,不要复制粘贴!!!!!!

集体智慧编程 (豆瓣)



如果有时间,请去学习一下关于PYTHON的课程:Introduction to Computer Science and Programming Using Python



第三步,欢迎使用《机器学习系统设计》这本书,你会接触到PYTHON里面最niubility的SCIKIT-LEARN机器学习包。虽然官网文档阅读性已经很佳,但是缺少一个系统的过程。而这本书就是教会你如何从真实的业务角度去思考运用机器学习模型。
同样的,请你自己敲代码,不懂的就去看官方文档,还是不懂的就去google。



第四步,想知道为什么豆瓣和亚马逊的推荐那么准确? 那么《推荐系统实战》绝对是一本最佳的书籍,作者将全部的算法使用PYTHON实现,无论是基于业务的推送还是基于协同过滤算法的推送都讲解的非常清楚!!如果你有兴趣了解,请毫不犹豫的上马拉弓~



第五步,你一定听说过R,一定也纠结过到底学习R还是PYTHON。那么我就粗暴的回答一下:都要学!,前期已PYTHON为主,后期一起学习R语言,不要问我为什么,纯属个人感觉。


《R IN ACTION》绝对绝对是入门的最好参考书,没有之一。跟着书上的代码敲一遍,模型计算都自己搞清楚(你有了前面的基础,这些学起来很轻松)。

最后,COURSERA上面的R语言课程很糟,谁听谁倒霉,不信你去试试?



高级部分下次再敲,累~~~

 

数据分析学习(zhuan)的更多相关文章

  1. Python数据分析学习目录

    python数据分析学习目录 Anaconda的安装和更新 矩阵NumPy pandas数据表 matplotlib-2D绘图库学习目录                      

  2. spart快速大数据分析学习提纲(一)

    Spart是什么 Spart是一个用来实现快速而而通用的集群计算平台. 在速度方面,Spart扩展了广泛使用的Mapreduce计算模型,而且高效的支持更多的计算模式,包括交互式查询和流处理.Spar ...

  3. Python数据分析学习-re正则表达式模块

    正则表达式 为高级的文本模式匹配.抽取.与/或文本形式的搜索和替换功能提供了基础.简单地说,正则表达式(简称为 regex)是一些由字符和特殊符号组成的字符串,它们描述了模式的重复或者表述多个字符,于 ...

  4. Python数据分析学习(二):Numpy数组对象基础

    1.1数组对象基础 .caret, .dropup > .btn > .caret { border-top-color: #000 !important; } .label { bord ...

  5. Python数据分析学习之Numpy

    Numpy的简单操作 import numpy #导入numpy包 file = numpy.genfromtxt("文件路径",delimiter=" ",d ...

  6. 【数据分析学习】Pandas学习记录

    import pandas as pd path = r'F:\数据分析专用\数据分析与机器学习\food_info.csv' with open(path, 'r') as f: data = pd ...

  7. 【数据分析学习】016-numpy数据结构

    通常对数据的矩阵进行操作,就用numpy操作,打开txt文件 使用help()去查询文档,可以看到官方的注释 import numpy path = r'F:\数据分析专用\数据分析与机器学习\wor ...

  8. Python数据分析学习(二)

    转摘:https://segmentfault.com/a/1190000015613967 本篇将继续上一篇数据分析之后进行数据挖掘建模预测,这两部分构成了一个简单的完整项目.结合两篇文章通过数据分 ...

  9. Python数据分析学习(一)

    转摘:https://segmentfault.com/a/1190000015440560 一.数据初探 首先导入要使用的科学计算包numpy,pandas,可视化matplotlib,seabor ...

随机推荐

  1. 20150608_Andriod 发布方法

    参考地址: http://www.jb51.net/article/42618.htm 第一步,在Eclipse中选择需要打包的项目,然后右键--选择Export,会弹出一个打包的提示框,如下图所示. ...

  2. 三种常见设计模式 - Factory

    创建型模型 一.简单工厂模式 靠 if else 或者 select case 等分支去控制不同对象的创建,难以维护 二.工厂方法模式  Factory 实现方式:将创建对象的方法定义成一个接口,通过 ...

  3. HDU(1853),最小权匹配,KM

    题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1853 Cyclic Tour Time Limit: 1000/1000 MS (Java/Other ...

  4. 第十六章:网络IPC:套接字

    16.1.引言 上一章考查了各种Unix系统所提供的经典进程间通信(IPC)机制:管道.先进先出.消息队列.信号量以及共享内存.通过这些机制,同一台计算机上运行的进程可以相互通信.本章将考查不同计算机 ...

  5. PHP redis负载均衡代码

    <?php /** * This is a Redis exntend class * jay.w */ class RedisClient { public static $instance ...

  6. CSS3那些不为人知的高级属性

    尽管现代浏览器已经支持了众多的CSS3属性,但是大部分设计师和开发人员貌似依然在关注于一些很“主流”的属性,如border-radius.box-shadow或者transform等.它们有良好的文档 ...

  7. ios事件传递

    http://blog.csdn.net/iefreer/article/details/4754482 本章描述了iPhone操作系统里的事件类型,并解释了如何处理它们.还讨论了怎么在一个应用程序里 ...

  8. flume ng之组件介绍

    1.channel 2.source 3.sink 4.直接读取文件Source,有哪两种方式? 5.Channel有几种方式? 6.Sink在设置存储数据时,数据较多,较少的情况下,该如何处理? F ...

  9. JavaScript的数据类型

    JavaScript的数据类型 1.JavaScript的数据类型包括:字符串.数值.布尔.数组.对象.Null.Undefined. 2.JavaScript拥有动态类型,这以为着同一个变量可用作不 ...

  10. MSM8974 fastboot烧写软件

    fastboot烧写是在aboot阶段做的,所以空板没有完整烧写aboot及其boot sequence前的image是没法使用fastboot的.在手机开机状态下,执行:        adb re ...