hadoop(1)入门

hadoop入门(一)

一、概述

1.什么是hadoop

hadoop不仅是一个用于存储分布式文件系统,还是设计用来在有通用计算设备组成的大型集群上执行的分布式应用的基础框架。

hadoop框架最核心的设计是mapreduce和HDFS

1.2为什么要选择hadoop

1)扩容：能可靠的处理和存储PB级数据

2)成本：可以通过普通机器组成服务器群来分发和处理数据,这些服务器总计可大上千节点

3)高效：通过分发数据,hadoop可以并行处理这些数据，使它们特别快速

4)可靠：hadoop可以通过机器感知进行数据备份，并且任务失败后可以重新计算

12.2使用场景

主要用于海量数据分析

二、分布式文件系统HDFS

1.1Namedata:名称节点

1)维护HDFS文件系统,是HDFS的主节点

2)接收客户端的请求:上传文件、下载文件、创建文件等等

3)记录客户端操作的日志（edits文件），保存HDFS最新状态

-edits文件保存了自最后一次检查点之前针对HDFS的所有操作，如：增加文件，重命名，删除文件

-保存目录：$HADOOP_HOME/tmp/dfs/name/current

-可以使用hdfs ove -i 命令将日志（二进制）输出为XML文件

4）维护文件元信息，将内存中不常用的元信息存储到硬盘上（fsimage文件）

-fsimage是HDFS文件系存于元数据的检查点，里面记录了自最后一次检查点之前HDFS中多有目录和文件的序列化信息

-保存目录：$HADOOP_HOME/tmp/dfs/name/current

-可以使用hdfs oiv -i 命令将日志（二进制）输出为文本

1.2DataNode:数据节点

1）以数据块为单位，保存数据

hadoop1.0的数据块单位为64M

hadoop2.0的数据块单位为128M

2）在全分布式模式下，至少两个DataNode节点

3）数据保存的目录:由hadoop.tmp.dir决定

1.2SecondayNameNode:第二人称节点

1.主要作用是日志合并

2.日志合并的过程

1.3HDFS存在的问题

1.NameNode单点故障，难以应用二在线场景

解决方案：hadoop1.0没有解决方法

hadoop2.0使用Zookeeper实现NameNod的HA功能

2.NameNode压力过大，且内存受限，影响系统扩展性

解决方案

hadoop1.0 中没有解决方案

hadoop2.0 使用NameNode的联盟实现其水平扩展

1.4YARN：分布式计算(MapReduce)

ResourceManager(资源管理器)

1.接收客户端的请求：执行任务

2.分配资源

3.分配任务

NodeManager(节点管理器:运行任务MapReduce)

1.从Data上获取数据，执行任务

hadoop(1)入门的更多相关文章

Hadoop快速入门
目的这篇文档的目的是帮助你快速完成单机上的Hadoop安装与使用以便你对Hadoop分布式文件系统(HDFS)和Map-Reduce框架有所体会,比如在HDFS上运行示例程序或简单作业等. 先决条件 ...
hadoop pig入门总结
在这里贴一个pig源码的分析,做pig很长时间没做笔记,不包含任何细节,以后有机会再说吧 http://blackproof.iteye.com/blog/1769219 hadoop pig入门总结 ...
Hadoop高速入门
Hadoop高速入门先决条件支持平台 GNU/Linux是产品开发和执行的平台. Hadoop已在有2000个节点的GNU/Linux主机组成的集群系统上得到验证. Win32平台是作为开发平台支 ...
详细的Hadoop的入门教程-完全分布模式Fully-Distributed Operation
1. 前面在伪分布模式下已经创建了一台机器,为了统一命名,hostname更名为hadoop01.然后再克隆2台机器:hadoop02. hadoop03:将第一台机器hadoop01上的伪分布停止, ...
1.2 Hadoop快速入门
1.2 Hadoop快速入门 1.Hadoop简介 Hadoop是一个开源的分布式计算平台. 提供功能:利用服务器集群,根据用户定义的业务逻辑,对海量数据的存储(HDFS)和分析计算(MapReduc ...
Hadoop大数据学习视频教程大数据hadoop运维之hadoop快速入门视频课程
Hadoop是一个能够对大量数据进行分布式处理的软件框架. Hadoop 以一种可靠.高效.可伸缩的方式进行数据处理适用人群有一定Java基础的学生或工作者课程简介 Hadoop是一个能够对大量数据进 ...
hadoop MapReduce 入门
原创播客,如需转载请注明出处.原文地址:http://www.cnblogs.com/crawl/p/7687120.html ------------------------------------ ...
大数据之Hadoop技术入门汇总
今天,小编对Hadoop入门学习知识进行了汇总,帮助大家更好地入手大数据.小编关于Hadoop入门总共发写了12篇原创文章,文章是参照尚硅谷大数据视频教程来进行撰写的. 今天,小编带你解锁正确的阅读顺 ...
Hadoop.之.入门部署
一.课程目标 ->大数据是什么?大数据能做什么? ->什么是Hadoop?Hadoop的设计思想? ->Hadoop如何解决大数据的问题?(什么是hdfs与yarn.MapReduc ...

随机推荐

Android BitmapFactory.decodeFile(filePath, options) 返回 Null 6.0权限
今天在做拍照上传的时候遇到个问题,根据路径获取Bitmap 失败,一直返回空,以为这个路径获取Bitmap代码久经考验,不怀疑它,找参数传入是否正确,初步怀疑是 filePath 没传进去,打印 fi ...
Android图片压缩，不失真，上线项目
当然了,图片压缩是利用了libjpeg库的基础上,牛逼的同学可以自行生成so.jar.在此给出一个链接: http://www.cnblogs.com/hrlnw/p/4403334.html 在生成 ...
掌握Spark机器学习库-05-spark中矩阵与向量的使用
1)介绍矩阵: Matrix,看做二维表,基本运算(+,-,*,T) 向量: Vectors,方向和大小,基本运算,范数 2)spark中向量的使用(主要使用breeze.linalg) 3)spa ...
Objective-C Foundation 框架 Example ：Looking for Files 查找文件
Objective-C Foundation 框架 Example :Looking for Files 查找文件 NSFileManager. The NSFileManager class ...
大写URL转小写
添加LowercaseRoutesMVC.dll引用.通过“管理—NuGet程序包”搜索LowercaseRoutesMVC,然后点击安装.安装成功后会自动引用LowercaseRoutesMVC.d ...
patest_1003_Emergency (25)_(dijkstra+dfs)
1003. Emergency (25) 时间限制 400 ms 内存限制 65536 kB 代码长度限制 16000 B 判题程序 Standard 作者 CHEN, Yue As an emerg ...
mycat+ mysql集群分库分表
mycat介绍Mycat数据库分库分表中间件国内最活跃的.性能最好的开源数据库中间件!Mycat关键特性关键特性支持SQL92标准支持MySQL.Oracle.DB2.SQL Server.Postg ...
jQuery 价格显示前面位数与后面两位显示不同样式（一大一小）
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
HDU - 2612 Find a way（BFS搜索）
题目: 链接思路: 用BFS分别以‘Y’和‘M’的位置为起点进行两次搜索,并把这两次的搜索结果在一个二维数组中保存下来,在对地图遍历遇到‘@’更行最小值. PS: 如果用‘Y’和‘M’点分别去搜每个 ...
C++ 标准模板库介绍（STL）
1. STL 基本介绍 C++ STL(标准模板库)是惠普实验室开发的一系列软件的统称,是一套功能强大的 C++ 模板类.STL的目的是为了标准化组件,这样就不用重新开发,让后来者可以使用现成的组件, ...

hadoop(1)入门

hadoop(1)入门的更多相关文章

随机推荐

热门专题