写在学习笔记之前的话:


寒假已经开始好几天了,似乎按现在的时间算,明天就要过年了。在家的这几天,该忙的也都差不多了,其实也都是瞎忙。接下来的几点,哪里也不去了,静静的呆在家里学点东西。所以学习一下Hadoop的相关知识,跟自己的研究方向毛关系没有啊,就当自己的兴趣爱好吧。

学习目标:


(1)掌握Hadoop基本知识,进行Hadoop的HDFS和MapReduce应用开发,搭建Hadoop集群。

(2)掌握HBase基本知识,搭建HBase集群,HBase的基本操作。

(3)掌握数据仓库基本知识,用Hive建立数据仓库,并进行多维数据分析。

Hadoop简介:


Hadoop的核心分为两部分:文件管理系统(HDFS)负责存储和管理文件,MapReduce是专门负责计算的另一个核心,计算的数据来自HDFS。这种计算是要用java代码调用Hadoop的API才能实现的,那么这样一来Hadoop的应用面就变得非常窄,当遇到了大的项目的时候,里面的各种关系就变得很复杂。在这个背景下就诞生了各种框架,也就是上面图中的各种框架,当然我们在实际应用中用到的一般都是这些框架,但是Hadoop的基本核心原理知识也是必须要理解的,不然在框架出现问题的时候就不能很好的解决。

(1)非结构化的数据,比如说软件运行的日志文件等,Flume等框架都是用来收集这些非结构化数据的。

(2)结构化的数据,这些数据是存储在关系型数据库中的,当然一些不够结构化的数据是能够转化成结构化的数据的,反之亦然。也就是说他们是能够互相转换的,用到的工具就是Sqoop这个框架。具体的应用就是公司随着业务的扩大,数据量也不断的增大,原先的关系型数据库已经满足不了现在的需求,所以就要Hadoop上场,这时就得把原来的关系型数据库的数据导出到Hadoop的HDFS中去,这时候就用到了Sqoop这个框架了。

(3)HBase处理OLTP在线事务处理,反应延时很小,HBase是hadoop的在线数据库。与之对应的是分析型事务处理,它的特点是对延时性要求不高。

(4)运维监控框架,Hue、Ganglla、Eclipse等负责监控内存、CPU的使用情况。

(5)High Level Interfaces,hadoop在计算的时候是使用Java代码调用hadoop的API实现的,这里高level的地方在于它不是使用java代码,而是使用SQL调用hadoop的API。

(6)More High Level Interfaces,封装了数据挖掘算法的框架,如mahout框架。

Hadoop学习笔记(1)概述的更多相关文章

  1. 十四、Hadoop学习笔记————Zookeeper概述与基本概念

    顺序一致性:严格按照顺序在zookeeper上执行 原子性:所有事物请求的结果,在整个集群的应用情况一致 单一视图:无论从哪个服务器进入集群,看到的东西都是一致的 可靠性:服务端成功响应后,状态会 一 ...

  2. Hadoop学习笔记—22.Hadoop2.x环境搭建与配置

    自从2015年花了2个多月时间把Hadoop1.x的学习教程学习了一遍,对Hadoop这个神奇的小象有了一个初步的了解,还对每次学习的内容进行了总结,也形成了我的一个博文系列<Hadoop学习笔 ...

  3. Hadoop学习笔记(7) ——高级编程

    Hadoop学习笔记(7) ——高级编程 从前面的学习中,我们了解到了MapReduce整个过程需要经过以下几个步骤: 1.输入(input):将输入数据分成一个个split,并将split进一步拆成 ...

  4. Hadoop学习笔记(6) ——重新认识Hadoop

    Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果.现是得开始稍微更深入地了解hadoop了. Hadoop包含了两大功 ...

  5. Hadoop学习笔记(2)

    Hadoop学习笔记(2) ——解读Hello World 上一章中,我们把hadoop下载.安装.运行起来,最后还执行了一个Hello world程序,看到了结果.现在我们就来解读一下这个Hello ...

  6. Hadoop学习笔记(5) ——编写HelloWorld(2)

    Hadoop学习笔记(5) ——编写HelloWorld(2) 前面我们写了一个Hadoop程序,并让它跑起来了.但想想不对啊,Hadoop不是有两块功能么,DFS和MapReduce.没错,上一节我 ...

  7. Hadoop学习笔记(3)——分布式环境搭建

    Hadoop学习笔记(3) ——分布式环境搭建 前面,我们已经在单机上把Hadoop运行起来了,但我们知道Hadoop支持分布式的,而它的优点就是在分布上突出的,所以我们得搭个环境模拟一下. 在这里, ...

  8. Hadoop学习笔记(2) ——解读Hello World

    Hadoop学习笔记(2) ——解读Hello World 上一章中,我们把hadoop下载.安装.运行起来,最后还执行了一个Hello world程序,看到了结果.现在我们就来解读一下这个Hello ...

  9. Hadoop学习笔记(1) ——菜鸟入门

    Hadoop学习笔记(1) ——菜鸟入门 Hadoop是什么?先问一下百度吧: [百度百科]一个分布式系统基础架构,由Apache基金会所开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序. ...

  10. Hadoop学习笔记(两)设置单节点集群

    本文描写叙述怎样设置一个单一节点的 Hadoop 安装.以便您能够高速运行简单的操作,使用 Hadoop MapReduce 和 Hadoop 分布式文件系统 (HDFS). 參考官方文档:Hadoo ...

随机推荐

  1. [Leetcode][Python]34: Search for a Range

    # -*- coding: utf8 -*-'''__author__ = 'dabay.wang@gmail.com' 34: Search for a Rangehttps://oj.leetco ...

  2. 数组-Find Minimum in Rotated Sorted Array

    排序数组在旋转后,可以分为前后两个排序子序列.在没有相同元素的情况下,前一个数组中的元素均大于后一个数组中的元素. 如果我们要找最小元素,则只要找到两个数组的分界点即可,即第二个子序列的开始元素. 由 ...

  3. Ubuntu14.04 Server Apache2+subversion环境搭建

    自从工作后,发现之前的代码开发太随便啦,于是经过不到两年的工作积累,打算在自己开发软件的过程中好好管理自己的项目.于是打算搭建自己的项目服务器,去年搭建过一次,但是由于没有记录,现在需要再来一遍,好多 ...

  4. 【leetcode系列】Valid Parentheses

    非常经典的问题,使用栈来解决,我这里自己实现了一个栈,当然也能够直接用java自带的Stack类. 自己实现的栈代码: import java.util.LinkedList; class Stack ...

  5. ceph 块设备

    数据的存储设备? 数据的存储有3种形式,1种是直接以二进制数据的形式存储在裸设备(包括块设备)上,另外一种是以文件的形式经过文件系统管理进行存储.第三种就是以对象的形式进行对象存储.本篇讨论围绕着块设 ...

  6. Asp.net 获取图片列表并打包下载

    先引用:ICSharpCode.SharpZipLib.dll 后台代码: using System.IO; using ICSharpCode.SharpZipLib.Zip; using ICSh ...

  7. vs 中 vim vax 快捷键

    高效率移动 在插入模式之外 基本上来说,你应该尽可能少的呆在插入模式里面,因为在插入模式里面VIM就像一个“哑巴”编辑器一样.很多新手都会一直呆在插入模式里面,因为这样易于使用.但VIM的强大之处在于 ...

  8. 【转】在Spring中基于JDBC进行数据访问时怎么控制超时

    http://www.myexception.cn/database/1651797.html 在Spring中基于JDBC进行数据访问时如何控制超时 超时分类 超时根据作用域可做如下层级划分: Tr ...

  9. php install

    ./configure --prefix=/home/allen.mh/local/php --with-gd=/home/allen.mh/local/gd --with-jpeg-dir=/hom ...

  10. Hibernate学习之hibernate执行顺序

    Hibernate 执行的顺序如下:  (1) 生成一个事务的对象,并标记当前的 Session 处于事务状态(注:此时并未启动数据库级事务).  (2) 应用使用 s.save 保存对象,这个时候  ...