在学习hadoop之前,我就明确了要致力于大数据行业,成为优秀的大数据研发工程师的目标,有了大目标之后要分几步走,然后每一步不断细分,采用大事化小的方法去学习hadoop。下面开始叙述我是如何初学hadoop的。

  Hadoop学习两步走:linux学习、hadoop学习。

  在接触hadoop之前我有java基础,为此我的计划是首先学习Linux,然后学习hadoop生态系统,为此学习hadoop第一步计划就是学习linux了,然后linux又可以分为四个步骤走。

  linux任务第一个目标就是要熟练操作linux常用命令以及网络配置;

  第二个目标就是熟悉用户以及权限管理操作;

  第三个目标就是熟悉软件包以及系统命令管理,第四个就是要学习shell编程了。

  Linux系统学习完毕之后,紧接着就是第二个计划了学习Hadoop。

  Hadoop阶段分两步走。

  第一阶段能熟练搭建伪分布式集群以及完全分布式集群,我个人认为先搭建hadoop环境然后再学习hadoop这样效果更好。就如同看别人代码一样,我们先把别人代码能跑起来,然后再分析代码,如果代码都跑不起来,何谈代码分析,所以先让hadoop环境搭建起来,能正常运行wordcount程序,我们才能慢慢分析整个Hadoop生态系统,这样我们能对hadoop有个整体上的认识。

  Hadoop第二阶段就是基于第一阶段的基础上,再细分几大阶段:

  首先第一阶段整体上认识hadoop生态系统,了解MapReduce分布式计算框架、Yarn集群资源管理和调度平台、hdfs分布式文件系统、hive数据仓库、HBase实时分布式数据库、Flume日志收集工具、sqoop数据库ETL工具、zookeeper分布式协作服务、Mahout数据挖掘库;

  第二阶段学习MapReduce,MapReduce作为hadoop核心内容,要先易后难,首先了解Mapper、Reducer、Configuration、job等这些类,熟悉MapReduce流程图,然后写简单的单词统计代码,整体上对MapReduce认识,之后学习MapReduce运行机制,熟练掌握,MapReduce输入格式,MapReduce输出格式,以及MapReduce优化;

  第三阶段学习hadoop另一个核心内容HDFS,首先明白什么是hdfs,然后再分析hdfs的优点,然后再了解Hdfs的缺点有哪些,HDFS是如何存储数据的,采用什么样的架构,我们如何实现读取和写入HDFS中的文件,以及了解HDFS副本存放策略,同时熟练掌握HDFS的shell访问和java访问。

  第三阶段就是学习hadoop另一个核心内容:Yarn,首先我们要了解Yarn是什么,为什么使用Yarn,Yarn的构架,Yarn的原理。我个人认为,hadoop初学者只要掌握了提供海量数据存储的HDFS,分布式计算的MapReduce,以及集群资源管理和调度平台的yarn,基本上也就掌握了Hadoop最核心的东西,也为以后的hbase、hive学习打下了坚实的基础。

  以下是我个人初学hadoop学习历程的思维导图,仅供参考。

转载:http://www.chinacloud.cn/show.aspx?id=24165&cid=22

初学hadoop的个人历程的更多相关文章

  1. 初学Hadoop之单机模式环境搭建

    本文仅作为学习笔记,供大家初学Hadoop时学习参考.初学Hadoop,欢迎有经验的朋友进行指导与交流! 1.安装CentOS7 准备 CentOS系统镜像CentOS-7.0-1406-x86_64 ...

  2. 【Big Data - Hadoop - MapReduce】初学Hadoop之图解MapReduce与WordCount示例分析

    Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS) ...

  3. 初学Hadoop之图解MapReduce与WordCount示例分析

    Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS) ...

  4. 初学hadoop,windows下安装

    先bb一下,woc开始使用Cygwin来模拟linux配置hadoop,然后各种错误,找着找着发现原来2.0+的hadoop可以直接在windows下配置.当时真是1w头神兽飞过. 下载hadoop ...

  5. 初学Hadoop:利用VMWare+CentOS7搭建Hadoop集群

     一.前言 开始学习数据处理相关的知识了,第一步是搭建一个Hadoop集群.搭建一个分布式集群需要多台电脑,在此我选择采用VMWare+CentOS7搭建一个三台虚拟机组成的Hadoop集群. 注:1 ...

  6. 初学Hadoop之计算TF-IDF值

    1.词频 TF(term frequency)词频,就是该分词在该文档中出现的频率,算法是:(该分词在该文档出现的次数)/(该文档分词的总数),这个值越大表示这个词越重要,即权重就越大. 例如:一篇文 ...

  7. 初学Hadoop之中文词频统计

    1.安装eclipse 准备 eclipse-dsl-luna-SR2-linux-gtk-x86_64.tar.gz 安装 1.解压文件. 2.创建图标. ln -s /opt/eclipse/ec ...

  8. 初学Hadoop之WordCount词频统计

    1.WordCount源码 将源码文件WordCount.java放到Hadoop2.6.0文件夹中. import java.io.IOException; import java.util.Str ...

  9. 分享零基础学习Hadoop方法

    (我不是Hadoop专家,也只是一个初学者,这里我也只是就自己的学习体会,站在初学者的角度谈一下如何入门.) 首先我觉得应该思考这样一个问题:Hadoop对于我们来讲,是一种工具,那么Hadoop帮助 ...

随机推荐

  1. python 的简单抓取图片

    在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材. 我们最常规的做法就是通过鼠标右键,选择另存为.但有些图片鼠标右键的 ...

  2. mui时间选择器选择今天以后的时间

    <script type="text/javascript"> (function($) { $.init(); // var result = $('#result' ...

  3. javaweb乱码(tomcat服务器)

    et提交  :<Connector protocol="HTTP/1.1" port="80" redirectPort="8443" ...

  4. 控件禁用与启easyui用

    1.validatebox可以用的用法:前两种适用于单个的validatebox;第三种应用于整个form里面的输入框; <1>.$("#id").attr(" ...

  5. 嵌入式驱动开发之spi---spi串口通信调试

    一. 概念 SPI是 Serial Peripheral Interface(串型外部接口)的缩写.SPI接口有4根PIN脚,分别是:          * SPICLK     : 用于传输数据的同 ...

  6. java基础-集合笔记

    Iterator(foreach) 遍历时只能通过iterator去删除(添加)元素,不能直接通过集合对象删除或添加元素 Set HashSet底层是一个HashMap HashSet添加元素,先判断 ...

  7. 蓝桥杯 C/C++参考题目 取球概率(数学题,概率)

    口袋中有5只红球,4只白球.随机从口袋中取出3个球,则取出1个红球2个白球的概率是多大?类似这样的数学问题,在计算的时候往往十分复杂.但如果通过计算机模拟这个过程,比如进行100000次取球模拟,统计 ...

  8. java编译、编码、语言设置

    下面这两行加入,环境变量:特别是gradle在编译文件中含有中文时会遇到一些问题: JAVA_TOOL_OPTIONS -Dfile.encoding=UTF-8 -Duser.language=en ...

  9. Linux shell 1-初步认识

    1.什么是linux linux是一种操作系统,它可划分为以下四部分 1.linux内核(Linux系统的核心,负责管理系统内存,硬件驱动,文件系统等) 2.GNU工具(一组软件工具,提供一些类UNI ...

  10. python3连接Mongodb

    前提条件,安装过Mongondb,并且装一下Robomongo(为了更加直观地看到测试时数据的变化 ) 1.安装PyMySQL pip install pymongo 2.测试 import pymo ...