大数据：Hadoop（简介）

一、简介

定义：开源的，做分布式存储与分布式计算的平台；
功能：搭建大型数据仓库，对PB级数据进行存储、处理、分析、统计等业务；（如日志分析、数据挖掘）

Hadoop工作模块

Common：提供框架和工具，对其它Hadoop模块的支持；
Distributed File System（HDFS：分布式文件系统）：负责数据的存储；
YARN：作业的调度及资源管理；
MapReduce：基于YARN的并行处理框架；

二、Hadoop 功能模块

　1）HDFS（分布式文件系统）

特点

可扩展，可容错、可海量的存储数据；
将文件切分成指定大小的数据块（一般默认128M），并以多副本的存储在多个机器上；（达到容错目的）
数据切分、多副本、容错等操作对用户是透明的；

实例简介

有 8 个节点（一般指单个服务器，一个独立的磁盘）；
part-0（Filename）：文件名；
r:2（numReplicas）：表示 part-0 文件有 2 个副本；
{1, 3}（block-ids）：表示 part-0 文件被切分为 1 和 3 两部分；

对多个 block 进行编号，保证读取文件的数据时，不同数据被读取的顺序不变；

　2）YARN（Yet Another Resource Negotiator）

功能：负责整个集群资源的管理和调度；
特点：可扩展（如：计算能力不足时可添加机器）、可容错、多框架资源统一调度（可以跑不同的框架，进而可以进行针对不同的业务）；

实例简介

可多个不同类型的框架同时进行；

　3）MapReduce

功能：分布式计算框架；
特点：可扩展、可容错、做海量数据离线处理（不能实时处理）；

实例简介
计算过程：（例：world count process，统计文章中所有单词的出现次数）

Input：输入操作文件；
Splitting：将操作文件分割为 3 部分；（一般会分别放在 3 台机器上进行操作计算，可提高效率）
Mapping：以空格为分隔符，将每部分文章拆分成单个词汇；

三、Hadoop 优势及其生态系统

　1）Hadoop 的优势

高可靠性

存储方面：数据块多副本；（防止数据块丢失）
计算方面：如果出现错误，会重新调度作业进行计算；

扩展性

　　存储/计算资源不够时，可以添加横向的线性扩展机器；

　　一个集群中可以包含数以千计的节点；

其它

可以存储在廉价的机器上，降低成本；
具有成熟的生态圈；

　2）Hadoop 生态系统

狭义的 Hadoop：一个适合大数据分布式存储（HDFS）、分布式计算（MapReduce）和资源调度（YARN）的平台；
广义的 Hadoop：指Hadoop生态系统，Hadoop 生态系统是一个很庞大的概念，hadoop 是其中最重要最基础的一部分；生态系统中的每一个子系统只解决某一个特定的问题域（甚至可能很窄），不搞统一型的一个全能系统，而是小而精的多个小系统；

Hive：通过 SQL 语句进行统计分析；（Hive 的执行引擎将 SQL 语句转换为Map Reduce，提交到集群上进行计算）
R Connectors：R 语言，一般做统计分析；
Pig：通过脚本方式进行统计分析；（将脚本转换为 Map Reduce，一般做离线处理）
Ooize：配置具有依赖关系的数据，一步步有序的执行；（执行顺序排列好后，不能乱序执行）
Zookeeper：管理多种框架，做分布式的协调服务；（如果某个执行框架出现问题，可做单点的切换，执行其他框架）
Flume：日志收集框架；（分布式的，使用配置文件，收集多个服务器上的运行日志）
Sqoop：数据传输交换工具，用于传统的关系型数据库与 Hadoop 之间进行数据传输，双向的；（可将传统数据库中的数据直接抽取到 HDFS、Hive 或者 Hbase 中）
Hbase：实时查询数据；是针对结构化数据的一个可伸缩、可扩展、高性能、面向列的一个数据库，或者说是Hadoop 中的一个数据库；

一般使用不同框架解决特定域的问题；

生态系统特点：所有框架都是开源的，可根据源码做定制化开发，并且社区活跃；

大数据：Hadoop（简介）的更多相关文章

成都大数据Hadoop与Spark技术培训班
成都大数据Hadoop与Spark技术培训班中国信息化培训中心特推出了大数据技术架构及应用实战课程培训班,通过专业的大数据Hadoop与Spark技术架构体系与业界真实案例来全面提升大数据工程师 ...
王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第十一讲Hadoop图文训练课程：MapReduce的原理机制和流程图剖析
这一讲我们主要剖析MapReduce的原理机制和流程. “云计算分布式大数据Hadoop实战高手之路”之完整发布目录云计算分布式大数据实战技术Hadoop交流群:312494188,每天都会在群中发 ...
云计算分布式大数据Hadoop实战高手之路第七讲Hadoop图文训练课程：通过HDFS的心跳来测试replication具体的工作机制和流程
这一讲主要深入使用HDFS命令行工具操作Hadoop分布式集群,主要是通过实验的配置hdfs-site.xml文件的心跳来测试replication具体的工作和流程. 通过HDFS的心跳来测试repl ...
云计算分布式大数据Hadoop实战高手之路第八讲Hadoop图文训练课程：Hadoop文件系统的操作实战
本讲通过实验的方式讲解Hadoop文件系统的操作. “云计算分布式大数据Hadoop实战高手之路”之完整发布目录云计算分布式大数据实战技术Hadoop交流群:312494188,每天都会在群中发布云 ...
14周事情总结-机器人-大数据hadoop
14周随着考试的进行,其他该准备的事情也在并行的处理着,考试内容这里不赘述了首先说下,关于机器人大赛的事情,受益颇多,机器人的制作需要机械和电控两方面昨天参与舵机的测试,遇到的问题:舵机不动排查 ...
大数据Hadoop学习之搭建hadoop平台（2.2）
关于大数据,一看就懂,一懂就懵. 一.概述本文介绍如何搭建hadoop分布式集群环境,前面文章已经介绍了如何搭建hadoop单机环境和伪分布式环境,如需要,请参看:大数据Hadoop学习之搭建had ...
大数据hadoop面试题2018年最新版（美团）
还在用着以前的大数据Hadoop面试题去美团面试吗?互联网发展迅速的今天,如果不及时更新自己的技术库那如何才能在众多的竞争者中脱颖而出呢? 奉行着"吃喝玩乐全都有"和"美 ...
搭建大数据hadoop完全分布式环境遇到的坑
搭建大数据hadoop完全分布式环境,遇到很多问题,这里记录一部分,以备以后查看. 1.在安装配置完hadoop以后,需要格式化namenode,输入指令:hadoop namenode -forma ...
我搭建大数据Hadoop完全分布式环境遇到的坑---hadoop： command not found
搭建大数据hadoop环境,遇到很多问题,这里记录一部分,以备以后查看. [遇到问题].在安装配置完hadoop以后,需要格式化namenode,输入指令:hadoop namenode -forma ...
[转帖]大数据hadoop与spark的区别
大数据hadoop与spark的区别 https://www.cnblogs.com/adnb34g/p/9233906.html Posted on 2018-06-27 14:43 左手中倒影阅 ...

随机推荐

Python之那些好玩的图画
前言: matplotlib 是Python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图.本文将以例子的形式分析matplot中支持的,分析中常用的几种图.其 ...
springcloud的Hystrix turbine断路器聚合监控实现（基于springboot2.02版本）
本文基于方志朋先生的博客实现:https://blog.csdn.net/forezp/article/details/70233227 一.准本工作 1.工具:Idea,JDK1.8,Maven3. ...
【计算机视觉】stitching_detail算法介绍
已经不负责图像拼接相关工作,有技术问题请自己解决,谢谢. 一.stitching_detail程序运行流程 1.命令行调用程序,输入源图像以及程序的参数 2.特征点检测,判断是使用surf还是orb, ...
spring boot 从开发到部署上线（简明版）
我们组有一个优良传统--借鉴于"冰桶挑战赛"的形式,采取点名的方式,促进团队成员每天利用一小段时间,不断的完善团队 wiki 的小游戏. 但有时候忙于业务,可能会忘记,所以我写了一 ...
dp + 预处理前缀和 - HNU 13248 Equator
Equator Problem's Link: http://acm.hnu.cn/online/?action=problem&type=show&id=13248&cour ...
scratch教程：学做控制类积木
少儿编程中scratch很容易被小孩所接受,不管是从外观还是教程中,都符合少儿的兴趣,为此现在只要是开少儿编程课都会有scratch课程,今天娜娜姐小码王scratch培训机构就为大家分享,scrat ...
Codeforces Round #557 (Div. 1) 简要题解
Codeforces Round #557 (Div. 1) 简要题解 codeforces A. Hide and Seek 枚举起始位置\(a\),如果\(a\)未在序列中出现,则对答案有\(2\ ...
Java的常用API之System类简介
Syetem类 java.lang.System类中提供了大量的静态方法,可以获取与系统相关的信息或系统级操作,在System类的API文档中,常用的方法有: public static long c ...
hystrix完成对redis访问的资源隔离
相对来说,考虑的比较完善的一套方案,分为事前,事中,事后三个层次去思考怎么来应对缓存雪崩的场景 1.事前解决方案发生缓存雪崩之前,事情之前,怎么去避免redis彻底挂掉 redis本身的高可用性,复 ...
K8S学习笔记之使用Fluent-bit将容器标准输入和输出的日志发送到Kafka
0x00 概述 K8S内部署微服务后,对应的日志方案是不落地方案,即微服务的日志不挂在到本地数据卷,所有的微服务日志都采用标准输入和输出的方式(stdin/stdout/stderr)存放到管道内,容 ...

大数据：Hadoop（简介）

一、简介

二、Hadoop 功能模块

1）HDFS（分布式文件系统）

特点

实例简介

2）YARN（Yet Another Resource Negotiator）

实例简介

3）MapReduce

实例简介

三、Hadoop 优势及其生态系统

1）Hadoop 的优势

高可靠性

扩展性

其它

2）Hadoop 生态系统

一般使用不同框架解决特定域的问题；

大数据：Hadoop（简介）的更多相关文章

随机推荐

热门专题

　1）HDFS（分布式文件系统）

　2）YARN（Yet Another Resource Negotiator）

　3）MapReduce

　1）Hadoop 的优势

　2）Hadoop 生态系统