入门阶段

出于兴趣，及工作中的简单有用，大约经过1个月的时间，完毕了对Hadoop的基本认知。

在这个月中我干了例如以下几件事

1、大体看了《Hadoop权威指南》。把里面的代码手工码了一遍，并写了8篇学习笔记

2、配置了Hadoop1和Hadoop2集群。都是用4台虚拟机

3、听了一些Hadoop视频

基本认知例如以下

Hadoop是一种大数据处理框架，这样的大数据框架所能处理的场景实际是很很有限的，仅仅能是键值对数据，仅仅能是一行一行的固定格式化的数据，这样的特性决定了它很适合用来处理日志类文件。进行数据分析和挖掘。

Hadoop的核心是HDFS和MapReduce。HDFS是一种分布式的文件系统，MapReduce就是上面说的键值对计算模型。每次MapReduce计算任务都有一个固定的任务运行流程。所以对于小量数据分析来说（比方几万行数据），MapReduce事实上一点都不快。用其它的编程方式处理，事实上瞬间就完毕了，MapReduce的这样的工作方式仅仅适合处理大数据，当然，Hadoop本身就是为大数据而生的。

Hive被我略过了。认知肤浅，先忽略。

Hbase所谓使用的变态数据插入场景，可能实际工作非常难遇到，而且Mongo更易用，我做搜索推荐时。实际是使用Mongo存储中间数据及计算结果。

Cassandra，被略过了，工作中使用redis。而且redis3.0開始。支持分片了，简单易用，性能高效。

Pig，当前没有意愿花时间去学这样一个脚本语言。对于有大量基于Hadoop进行查询分析业务的公司，可能有使用的必要。

Sqoop，没有使用，先忽略。

Zookeeper，这真是个好东西，非常多开源框架都使用Zookeeper作为开分布式协调中心。比方Dubbo、Otter等。

从学习成本角度。横向比較的话，我感觉Hadoop能够说和MySql之类是一个量级的产品，非常快会用。可是想进阶，想精通，就须要在理论的基础上，在应用中不断的实践了。

进阶阶段

通过大量的日常工作中的Hadoop的使用。能够达到进阶阶段。

工作使用较少，我还是入门水平。期望有大量使用的机会，早日进阶。也让我知道在进阶阶段，我会对Hadoop是如何的一个认知，再回来补充这篇日志

Hadoop认知--在不同的阶段的更多相关文章

Hadoop配置文件
部分内容参考:http://www.linuxqq.net/archives/964.html http://slaytanic.blog.51cto.com/2057708/1100974/ ht ...
转载：Hadoop权威指南学习笔记
转自:http://pieux.github.io/blog/2013-05-08-learn-hadoop-the-definitive-guide.html 1 前言 Hadoop的内部工作机制: ...
有关hadoop分布式配置详解
linux配置ssh无密码登录配置ssh无密码登录,先要安装openssh,如下: yum install openssh-clients 准备两台linux服务器或虚拟机,设置两台linux的ho ...
Hadoop 2.4.0完全分布式平台搭建、配置、安装
一:系统安装与配置 Hadoop选择下载2.4.0 http://hadoop.apache.org / http://mirror.bit.edu.cn/apache/hadoop/common/h ...
hadoop 常用配置项
core-site.xml name value Description fs.default.name hdfs://hadoopmaster:9000 定义HadoopMaster的URI ...
Hadoop配置项整理(mapred-site.xml)【转】
本文转自:http://slaytanic.blog.51cto.com/2057708/1101360 name value Description hadoop.job.history.locat ...
Hadoop配置文件-mapred-site.xml
name value Description hadoop.job.history.location job历史文件保存路径,无可配置参数,也不用写在配置文件里,默认在logs的history文件 ...
hadoop 常用配置项【转】
hadoop 常用配置项[转] core-site.xml name value Description fs.default.name hdfs://hadoopmaster:9000 定义 ...
[转]HBase高可用性的新阶段
From:http://m.csdn.net/article_pt.html?arcid=2823943 Apache HBase是一个面向线上服务的数据库,其原生支持Hadoop的特性,使其成为那些 ...

随机推荐

JAVA的反射机制学习笔记（二）
上次写JAVA的反射机制学习笔记(一)的时候,还是7月22号,这些天就瞎忙活了.自己的步伐全然被打乱了~不能继续被动下去.得又一次找到自己的节奏. 4.获取类的Constructor 通过反射机制得到 ...
原型链（__proto__）
前面详细的解释了new的几个步骤,其中随意带过了一下原型链的概念,如果细读那篇文章,基本对原型也能有所理解. 原型有两个关键属性,一个是 __proto__ 一个是 prototype ,了解了这两个 ...
QT 4.2.2的安装（安装完还要再编译，注意设置Windows Path）
(安装篇)前奏: 提到C++的GUI Framework估计大多数人都会想到MFC.VCL,因为在十年前的COM时代,这两个大家伙几乎垄断了整个C++ windows平台上应用程序的开发市场, 但是最 ...
STM8S---IO复用配置(STVP方式)
1 说明 STM8S的IO复用用程序代码配置起来比較麻烦.通常是操作flash来操作option byte字节.配置寄存器更加麻烦,能够使用STM 标准外设驱动库来设置. 本文使用一种界面配置的方式来 ...
二进制搜索方法C++通用执行
算法很easy.直接附着到代码它 #include <iostream> using namespace std; template<typename T> int binar ...
Android 表格布局<TableLayout>
表格布局即,tableLayout,表格布局通过行.列的形式来管理UI组件,TablelLayout并不需要明确地声明包含多少行.多少列,而是通过TableRow,以及其他组件来控制表格的行数和列数, ...
pomelo源代码分析(一)
千里之行始于足下,一直说想了解pomelo,对pomelo有兴趣,但一直迟迟没有去碰,尽管对pomelo进行源代码分析,在网络上肯定不止我一个,已经有非常优秀的前辈走在前面,如http://golan ...
JavaBean在DAO设计模式简介
一.信息系统开发框架客户层-------显示层-------业务层---------数据层---------数据库 1.客户层:客户层是client,简单的来说就是浏览器. 2.显示层:JSP/Se ...
如何搭建NTP服务（转）
最近,在搭建Oracle RAC过程中,需要用到DNS和NTP,其中,DNS用于域名.IP管理,NTP用于时间同步.其实,很久以前搭建过这两种服务,但技术,本质上,符合“用进废退”的客观规律.用得越频 ...
SICP 解题集 — SICP 解题集
SICP 解题集 — SICP 解题集 SICP 解题集¶ 这个文档的目标是成为中文化的.完整的<计算机程序的构造和解释>一书的解题集. 这个解题集的特色是: 对于每道习题,除了习题答案之 ...