Hadoop学习笔记(1) 初识Hadoop

1. Hadoop提供了一个可靠的共享存储和分析系统。HDFS实现存储，而MapReduce实现分析处理，这两部分是Hadoop的核心。

2. MapReduce是一个批量查询处理器，并且它能够在合理的时间范围内处理针对整个数据集的即时查询。

3. MapReduce适合一次写入、多次读取数据的应用，而关系型数据库更适合持续更新的数据集。二者的比较如表所述：

　　　　　　　　　　　　　　　　　　　　表1 关系型数据库和MapReduce的比较

	传统关系型数据库	MapReduce
数据大小	GB	PB
访问	交互式和批处理	批处理
更新	多次读写	一次写入、多次读取
结构	静态模式	动态模式
完整性	高	低
横向扩展	非线性	线性

4. MapReduce对半结构化和非结构化数据非常有效(如文本或图像)，因为MapReduce输入的键和值并不是数据固有的属性，而是由分析数据的人员来选择的。而关系型数据往往是规范的，以保持数据的完整性且不含冗余。

　　MapReduce是一种线性可伸缩的编程模型。程序员编写两个函数：map和reduce，在每个函数定义一个键/值对集合到另一个键/值对集合的映射。这些函数无需关注数据集及其所用集群的大小，因此可以原封不动地应用到小规模或大规模数据集。

　　数据本地化特性是MapReduce的核心特征，MapReduce的设计目标是服务于那些只需数分钟或数小时即可完成的作业，并且运行于内部通过高速网络连接的单一数据中心内，并且该数据中心内的计算机需要由可靠的、定制的硬件构成。

5. Apache Hadoop的生态圈

　　1) Common: 一组分布式文件系统和通用I/O的组件与接口。

　　2) Avro：一种支持高效、跨语言的RPC以及永久存储数据的序列化系统。

　　3) MapReduce：分布式数据处理模型和执行环境，运行于大型商用集群。

　　4) HDFS：分布式文件系统，运行于大型商用集群。

　　5) Pig：一种数据流语言和运行环境，用以检索非常大的数据集。

　　6) Hive：分布式、按列存储数据库，管理HDFS中存储的数据，并提供基于SQL的查询语言用以查询数据。

　　7) HBase：分布式、按列存储的数据库，使用HDFS作为底层存储，同时支持MapReduce的批量式和点查询。

　　8) ZooKeeper：分布式、可用性高的协调服务。

　　9) Sqoop：在数据库和HDFS之间高效传输数据的工具。

Hadoop学习笔记(1) 初识Hadoop的更多相关文章

大数据学习笔记之初识Hadoop
1.Hadoop概述 1.1 Hadoop名字的由来 Hadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名 Hadoop的官网:http://hadoop.apache.org . 1.2 ...
Hadoop学习笔记—4.初识MapReduce
一.神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算.对于大数据量的计算,通常采用的处理手法就是并行计算.但对许多开发者来 ...
hadoop学习笔记--找到执行hadoop的入口
参与个hadoop项目,之前没搞过,赶紧学习: 照葫芦画瓢,得到代码是hdfs2local.sh脚本和LiaoNingFilter.jar包,迫不及待用jd-gui打开jar包,搜索到main(在MA ...
Hadoop学习笔记之一：Hadoop IPC
因为某些原因需要把前一段时间对Hadoop(版本基于0.20.2)的学习积累搬到这里,成为一个系列.写得会很简单,只为必要时给自己提醒. IPC框架所有Hadoop协议接口的实现都依赖Hadoop ...
Hadoop学习篇 2 初识 Hadoop
在一个全配置的集群上,运行Hadoop意味着在网络分布的不同服务器上运行一组守护进程 (daemons),这些守护进程或运行在单个服务器上,或运行与多个服务器上,他们包括: (1) NameNode( ...
Hadoop学习1（初识hadoop）
Hadoop生态系统的特点 1)源代码开源 2)社区活跃,参与者多 3)涉及分布式存储和计算的各方面 4)已得到企业界的验证 Hadoop构成 1) 分布式文件系统HDFS(Hadoop Distri ...
Hadoop学习笔记系列
Hadoop学习笔记系列一.为何要学习Hadoop? 这是一个信息爆炸的时代.经过数十年的积累,很多企业都聚集了大量的数据.这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼 ...
Hadoop学习笔记—22.Hadoop2.x环境搭建与配置
自从2015年花了2个多月时间把Hadoop1.x的学习教程学习了一遍,对Hadoop这个神奇的小象有了一个初步的了解,还对每次学习的内容进行了总结,也形成了我的一个博文系列<Hadoop学习笔 ...
Hadoop学习笔记(7) ——高级编程
Hadoop学习笔记(7) ——高级编程从前面的学习中,我们了解到了MapReduce整个过程需要经过以下几个步骤: 1.输入(input):将输入数据分成一个个split,并将split进一步拆成 ...

随机推荐

Python【第二章】：Python的数据类型
基本数据类型一.整型如: 18.73.84 二.长整型如:2147483649.9223372036854775807 三.浮点型如:3.14.2.88 四.字符串如:'wupeiqi'.' ...
BUG处理方案设计
简介当应用程序发布上线后,用户在使用的过程中可能会出现异常情况.对于这样的状况,如果能及时获取用户的异常信息,便能及早的分析和解决问题. 需要收集的信息 1. bug日志: 2.应用程序的版本号 3 ...
linux下压缩，解压缩的方法
linux zip命令 zip -r myfile.zip ./* 将当前目录下的所有文件和文件夹全部压缩成myfile.zip文件,-r表示递归压缩子目录下所有文件. 2.unzip unzip - ...
Java实现的二分查找算法
二分查找又称折半查找,它是一种效率较高的查找方法. 折半查找的算法思想是将数列按有序化(递增或递减)排列,查找过程中采用跳跃式方式查找,即先以有序数列的中点位置为比较对象,如果要找的元素值小于该中点 ...
Node实践之二
先从一个简单的demo说起,用cmd打开命令提示符,输入echo Hello,大家是不是看到终端上显示出了Hello字样,事实上这就是一个简单的事件. 回到正题,相信提到node.js,免不了让人想起 ...
Wifi代替数据线调试
我们通常都是使用USB线连接设备和电脑进行的程序调试. 有的程序本身就要使用USB口,例如一个文件浏览器,它可以列出通过USB接口接入的U盘. 在调试这样的应用的时候,USB接口被占用了,但设备也只有 ...
iframe框架在IE浏览器，360兼容浏览器下将白色背景设为透明色
<IFRAME ID="Frame1" SRC="transparentBody.htm"></IFRAME> iframe在大部分浏览 ...
log4j的使用详细解析
1 Log4j配置说明 1.1 配置文件Log4j可以通过java程序动态设置,该方式明显缺点是:如果需要修改日志输出级别等信息,则必须修改java文件,然后重新编译,很是麻烦: log4j也可以通过 ...
[Network] HTML、XML和JSON学习汇总
写在前面:楼主也是刚刚接触这方面的知识,之前完全是零基础,后来经朋友推荐了几个不错的博文,看完以后豁然开朗.但是此博文更加偏重于基础知识介绍(其实更深的楼主也还不了解,这方面的大神请绕道),只是分享个 ...
关于Javascript的使用参考
DOM编程>1.js重要的作用就是可以让用户可以与网页元素进行交互操作-->JS精华之所在 >2.DOM编程也是ajax的基础 >3.DOM(文档对象模型),是HTML与XML ...

Hadoop学习笔记(1) 初识Hadoop

Hadoop学习笔记(1) 初识Hadoop的更多相关文章

随机推荐

热门专题