大数据学习路线copy自淘宝
一、hadoop视频学习(入门到精通)
二、数据挖掘(入门到精通)
三、Hadoop学习路线
1.开发前期准备
首先,如果你没有Java和Linux基础,建议你先简单学一下这两门课程,此宝贝里面都为你准备好了。
2.云计算前期了解
当你初步掌握了Java和Linux基础后,你就可以进入大数据的学习了,我们可以先对云计算有一个前期的了解,在前期了解云计算这个文件夹中,包含了6套云计算相关的视频,你不用全部听完,建议听前两个。
4.storm学习
本宝贝为大家准备3套Storm的学习视频,第一套是传智的Storm资料,课程是13年12月份,后两套是51上的课程,一套是视频教程(2013年11月),一套是项目视频(2014年5月),建议你有时间的话三套都进行学习。
6.Flume学习
Flume是Cloudera提供的一个高可用,高可靠的,分布式的海量日志采集,聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
本宝贝提供一套2013年10月的51 cto的flume学习课程,有这方面需要的可以进行学习。
四、数据挖掘资料
包括:
课程目标:
熟悉课程里所介绍的各种算法的细节
懂得如何使用这些算法去解决实际场景问题
熟悉了解常用的机器学习和数据挖掘软件
育成目标:
数据分析师,算法设计师,具备算法设计能力的高层次程序员
4.《快速数据挖掘平台RapidMiner》课程 |
第一周:数据挖掘基本知识RapidMiner工具介绍 第二周:数据准备:导入、预处理、导出 第三周:数据挖掘模型和方法 第四周:K-Means 聚类与辨别分析 第五周:线性回归与逻辑回归 第六周:决策树与神经网络 第七周:文本挖掘 第八周:WEB挖掘 第九周:协同过滤、推荐 第十周:时间序列分析 第十一周:离群点分析 第十二周:模型评估-交叉验证与模型优化化 第十三周:过程控制 第十四周:数据转换与执行命令 |
5.推荐系统课程 |
第1课 推荐系统概述 第2课 最流行的推荐系统:itemCF和userCF 第3课 大数据环境下的itemCF实现 第4课 基于频繁模式的推荐系统,套餐设计 第5课 文本挖掘与标签系统 第6课 基于内容的推荐系统 第7课 社交网络好友推荐,图算法,在图数据库Neo4j上的实现 第8课 用Cypher语言实现好友推荐 第9课 实时推荐系统 |
6.《大数据的统计学基础》课程 |
第1周 面向小白的统计学:描述性统计(均值,中位数,众数,方差,标准差,与常见的统计图表) 第2周 赌博设计:概率的基本概念,古典概型 第3周 每人脑袋里有个贝叶斯:条件概率与贝叶斯公式,独立性 第4周 啊!微积分:随机变量及其分布(二项分布,均匀分布,正态分布) 第5周 万事皆由分布掌握:多维随机变量及其分布 第6周 砖家的统计学:随机变量的期望,方差与协方差 第7周 上帝之手,统计学的哲学基础:大数定律、中心极限定理与抽样分布 第8周 点数成金,从抽样推测规律之一:点估计与区间估计 第9周 点数成金,从抽样推测规律之二:参数估计 第10周 对或错?告别拍脑袋决策:基于正态总体的设检验 第11周 扔掉正态分布:秩和检验 第12周 预测未来的技术:回归分析 第13周 抓住表象背后那只手:方差分析 第14周 沿着时间轴前进,预测电子商务业绩:时间序列分析简介 第15周 PageRank的背后:随机过程与马尔科夫链简介 |
授课对象:
这是一门数学课程,适合有志于转往大数据分析领域的非数学专业人士(例如IT人,业务人员等)补强数学基础,以更好地学习更高级的数据分析,数据挖掘,机器学习课程
==============================================================
《大数据的矩阵计算基础》课程内容:
课程简介:
炼数成金开设数据分析课程有一段时间了。在诸多课程里,常见到有学员根本不知道矩阵是何物,可能从来没学过,也可能学过忘光了,但作为数据分析里最常见的 数据结构类型,不理解矩阵,就看不懂公式,看不懂公式,就根本不懂数据分析的语言,学习起来犹如哑巴吃黄连有苦难言(《黑客帝国》里把那部控制一切的机器 称为Matrix——“矩阵”,这肯定不是无缘无故的)。至于像听Page-Rank,因子分析和主成分分析,推荐系统同现矩阵这些内容那就更像听天书。 由此我们萌发了开一门矩阵计算的基础课程,给大家补一下数学的念头!
课程内容:
版权声明:本文为博主原创文章,未经博主允许不得转载。
大数据学习路线copy自淘宝的更多相关文章
- 大数据学习路线,来qun里分享干货,
一.Linux lucene: 全文检索引擎的架构 solr: 基于lucene的全文搜索服务器,实现了可配置.可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面. 推荐一个大数据学习群 ...
- 大数据学习路线之linux系统基础搭建
学习大数据是必须掌握一定Linux知识的,工欲善其事,必先利其器.在学习之前,首先需要搭建Linux系统,本节将讲解VMware Workstation的安装和CentOS 7系统的安装. 1.2.1 ...
- 大数据学习路线:Zookeeper集群管理与选举
大数据技术的学习,逐渐成为很多程序员的必修课,因为趋势也是因为自己的职业生涯.在各个技术社区分享交流成为很多人学习的方式,今天很荣幸给我们分享一些大数据基础知识,大家可以一起学习! 1.集群机器监控 ...
- 大数据学习路线分享-Hbase shell的基本操作完整流程
HBase的命令行工具,最简单的接口,适合HBase管理使用,可以使用shell命令来查询HBase中数据的详细情况.安装完HBase之后,启动hadoop集群(利用hdfs存储),启动zookeep ...
- 大数据学习路线:Hadoop集群同步技术分享
今天给大家带来的技术分享是——Hadoop集群同步. 一.同步方式 选择一个机器,作为时间服务器(这里选择hadoop01),所有的机器与这台集群时间进行定时的同步,比如,每隔十分钟,同步一次时间. ...
- 写给需要的Javaer-大数据学习路线篇
已经更新100+篇~ 关注公众号,BAT大神带你飞~ 听说你还在写Java,看Spring,看Dubbo,今天SpringCloud, 明天Dubbo3.X新版本... 10个开发9个半在写Java后 ...
- 大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 图文详解
引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...
- 大数据学习(16)—— HBase环境搭建和基本操作
部署规划 HBase全称叫Hadoop Database,它的数据存储在HDFS上.我们的实验环境依然基于上个主题Hive的配置,参考大数据学习(11)-- Hive元数据服务模式搭建. 在此基础上, ...
- 大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机)
引言 在大数据学习系列之一 ----- Hadoop环境搭建(单机) 成功的搭建了Hadoop的环境,在大数据学习系列之二 ----- HBase环境搭建(单机)成功搭建了HBase的环境以及相关使用 ...
随机推荐
- 在VS2010下打开VS2008项目的解决办法
如何在vs2010中打开vs2008项目文件? 第一步:以记事本方式打开该项目的sln解决方案,找到这两行信息,分别如下:Microsoft Visual Studio Solution File, ...
- 《程序员代码面试指南》第二章 链表问题 在单链表和双链表中删除倒数第K个节点
题目 在单链表和双链表中删除倒数第K个节点 java代码 /** * @Description:在单链表和双链表中删除倒数第K个节点 * @Author: lizhouwei * @CreateDat ...
- Python 3 mysql 数据类型
Python 3 mysql 数据类型 存储引擎决定了表的类型,而表内存放的数据也要有不同的类型,每种数据类型都有自己的宽度,但宽度是可选的 详细参考: http://www.runoob.com/m ...
- P4965 薇尔莉特的打字机
题目 P4965 薇尔莉特的打字机 快到十二点了正在颓废突然发现了一道好题 虽然毒瘤,但确实是容斥原理的好题啊,做法也特别巧妙(标程 思路 题目大意(怕自己突然忘) n个初始字符,m个操作(加入或删除 ...
- web前端框架之自定义form表单验证
自定义form验证初试 .在后端创建一个类MainForm,并且在类中自定义host ip port phone等,然后写入方法,在post方法中创建MainForm对象,并且把post方法中的sel ...
- 单链表(C语言实现)
链表结构: SList.h //-------------------------------------------------------------------------- /* **功能:应 ...
- msm8909+android5.1分区及烧录的镜像文件介绍【转】
本文转载自: EMMC的分区及其保存的文件 Partition label filename 说明 PrimaryGPT gpt_main0.bin modem NON-HLOS.bin sbl1 s ...
- Docker Copy On Write
Container分成结构 Container最上面是一个可写的容器层,以及若干只读的镜像层组成,Container的数据就存放在这些层中,这样的分层结构最大的特性是Copy-On-Write: 1. ...
- EntityFramework 学习 一 DbContext
上一节中EDM自动生成SchoolEntities类,该类继承DbContext EntityFramework4.1之前的版本,EDM生成的类继承ObjectContext,使用ObjectCont ...
- HIVE- 数据倾斜
数据倾斜就是由于数据分布不均匀,数据大量集中到一点上,造成数据热点.大多数情况下,分为一下三种情况: 1.map端执行比较快,reduce执行很慢,因为partition造成的数据倾斜. 2.某些re ...