五十九.大数据、Hadoop 、 Hadoop安装与配置 、 HDFS
//同步的主机都要安装rsync
hadoop]# ssh node2 yum –y install rsync
hadoop]# ssh node3 yum –y install rsync
01:大数据运维:运维+大数据管理软件的技能
指无法在一定时间内用常规软件工具进行捕捉、管理和处理数据集合,需要新处理模式才具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
是指从各种各样类型的数据中,快速获得有价值的信息。
大数据的作用:
调整相关经营策略
预测相关发展趋势
大规模数据处理
大数据相关特性:
大体量:volume
多样性:variety
时效性:velocity
准确性:veracity
大价值:value
02:Hadoop
是一种分析和处理海量数据的软件平台,Java开发,提供分布式基础架构。
高可靠性、高扩展性、高校性、高容错性、低成本。
常用组件:
HDFS:分布式文件系统(核心组件,存储)
MapReduce0(分布式计算框架)(核心组件)
Yarn:集群资源管理系统(核心组件,集群资源管理系统)
Zookeeper:分布式写作服务
Hbase:分布式列存储数据库
Hive:基于Hadoop数据仓库
Sqoop:数据同步工具
Pig:基于Hadoop的数据流系统
Mahout:数据挖掘算法库
Flume:日志收集工具
03:HDFS(分布式文件系统)
Client:切分文件,访问HDFS,与NameNode交互,获取文件位置信息;与DataNode交互,读取和写入数据。
角色:
Namenode:Master主节点,管理HDFS的名称空间和数据块映射信息,配置副本策略,处理所有客户端请求。
Secondarynode:主节点小秘,定期合并fsimage(数据块命名空间、存储信息)和fsedits(修改后的数据块:源数据+新数据,类似前端盘),推送给NameNode;紧急情况下,可辅助恢复NameNode。
Datanode:数据存储节点,存储世界的数据;汇报存储信息给NameNode。
Block:128MB,每块可以多个副本。
HDFS结构:(NameNode一般一台)
存数据:Client(数据切块)-> ..数据存哪..->NameNode-> ..DateNode..Client->DataNode(存储数据)
取数据:Client(数据切块)-> ..数据在哪..->NameNode-> ..DateNode..Client->DataNode(获取数据)
04:MapReduce结构 分布式计算框架
把一个复杂的问题,分解成若干个简单的问题,多台机器共同计算,最终合并汇总。
角色:
JobTracker:切分任务段,数据总监控、错误处理等(管理节点,一台)
TaskTracker:分单任务(多台,干活)
Map Task:解析每条数据记录,传递给用户编写的map()并执行,将输出结果写入本地磁盘。(如果map-only)作业,直接写入HDFS)
Reducer Task:从Map Task的执行结果中,远程读取输入数据,对数据进行排序,将数据按照分组传递给用户编写的reduce函数执行。
05:Yarn结构:Hadoop的一个通用资源管理系统
角色:
ResourceManager:Master,皇上,处理客户端请求,启动、监控ApplicationMaster,监控NodeManager,资源分配与调度。
NodeManager:钦差大臣,皇上安排的助手,每个结点上资源管理,处理ResourceManager的命令,处理来自ApplicationMaster的命令。(每个ApplicationMaster有多个Container在NodeMaster上运行)
ApplicationMaster:数据切分,为应用程序申请资源,并分配给内部任务,任务监控与容错(表示每个应用)。
Container:对任务运行环境的抽象,封装了CPU、内存等;多维资源以及环境变量、启动命令等任务运行相关的信息资源分配与调度。
06:Hadoop三种模式
单机模式:一台机器部署
伪分布式:所有的角色都安装在一台机器上,学习和测试(类似数据库的多实例)
完全分布式:多台机器部署
##########################
五十九.大数据、Hadoop 、 Hadoop安装与配置 、 HDFS的更多相关文章
- CentOS6安装各种大数据软件 第九章:Hue大数据可视化工具安装和配置
相关文章链接 CentOS6安装各种大数据软件 第一章:各个软件版本介绍 CentOS6安装各种大数据软件 第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件 第三章:Linux基础 ...
- ubuntu在虚拟机下的安装 ~~~ Hadoop的安装及配置 ~~~ Hdfs中eclipse的安装
前言 Hadoop是基于Java语言开发的,具有很好跨平台的特性.Hadoop的所要求系统环境适用于Windows,Linux,Mac系统,我们推荐选择使用Linux或Mac系统.而Linux系统则 ...
- 大数据和Hadoop生态圈
大数据和Hadoop生态圈 一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hadoop ...
- 大数据:Hadoop入门
大数据:Hadoop入门 一:什么是大数据 什么是大数据: (1.)大数据是指在一定时间内无法用常规软件对其内容进行抓取,管理和处理的数据集合,简而言之就是数据量非常大,大到无法用常规工具进行处理,如 ...
- Hadoop专业解决方案-第1章 大数据和Hadoop生态圈
一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hadoop生态圈小组已经翻译完成,在此 ...
- 分享知识-快乐自己:大数据(hadoop)环境搭建
大数据 hadoop 环境搭建: 一):大数据(hadoop)初始化环境搭建 二):大数据(hadoop)环境搭建 三):运行wordcount案例 四):揭秘HDFS 五):揭秘MapReduce ...
- 大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用 ...
- 大数据测试之hadoop集群配置和测试
大数据测试之hadoop集群配置和测试 一.准备(所有节点都需要做):系统:Ubuntu12.04java版本:JDK1.7SSH(ubuntu自带)三台在同一ip段的机器,设置为静态IP机器分配 ...
- 大数据与Hadoop
figure:first-child { margin-top: -20px; } #write ol, #write ul { position: relative; } img { max-wid ...
随机推荐
- Largest Submatrix 3 CodeForces - 407D (dp,好题)
大意: 给定矩阵, 求选出一个最大矩形, 满足矩形内每个元素互不相同. 考虑枚举上下左三个边界, 求出最大右边界的位置. 注意到固定上边界, 下边界递推时, 每个左边界对应最大右边界是单调不增的. 所 ...
- C#xml泛型序列化
using System; using System.Collections.Generic; using System.IO; using System.Text; using System.Web ...
- (二十七)JSP标签之核心标签
一.诞生 JSTL标签库的使用是为弥补html标签的不足,规范自定义标签的使用而诞生的.使用JSLT标签的目的就是不希望在jsp页面中出现java逻辑代码. 二.JSTL 分类 核心标签(用得最多) ...
- 再谈.NET委托(delegate、Func<>)
为了演示委托,我们先来定义一个方法:public static bool IsTen(int i){ return i == 10 ? true : false;} 如果要用自定义委托,则需要声 ...
- Javascript--HTML DOM基础知识
1.HTML DOM是什么,以及它的作用: w3c对DOM有一系列的解释和定义,用自己理解的话来说就是:HTML DOM是html的标准对象模型,可以使JavaScript去操作(获取,修改,删除,添 ...
- SpringBoot中使用POI,快速实现Excel导入导出
导出Excel 整体来说,Excel有.xls和.xlsx,那么在POI中这两个也对应两个不同的类,但是类名不同,方法基本都是一致的,因此我这里将只介绍.xls一种. 整体来说,可以分为如下七个步骤: ...
- 2.Buffer 缓冲区
/*缓冲区(Buffer)*/ Buffer 就像一个数组,可以保存多个相同类型的数据.根据数据类型不同(boolean 除外),有以下Buffer常用子类: /*ByteBuffer*/(常用) . ...
- linux同步onedrive文件
定时任务 # 开机自启动 @reboot /root/system/start.sh # 从零点开始每小时执行一次任务 0 0 0/1 * * ? nohup rclone sync onedrive ...
- H265编码等级以及图像的基础知识
1. H265编码等级 H264编码profile & level控制 .H265编码初探 H265 profile H265 Profile & Level & Tier 介 ...
- linux 服务器常规巡检并生成报表(一)
背景 最近接到一个需求要求每天巡检各台业务设备,并导出报表,但一想到设备有N台,一台台每天巡检这样的重复劳作实在是太伤神了,因此决定写一个脚本来搞定这件事. 首先,第一个要解决的问题是批量服务器执行命 ...