大数据Hadoop学习之了解Hadoop（1）

关于大数据，一看就懂，一懂就懵。

大数据的发展也有些年头了，如今正走在风口浪尖上，作为小白，我也来凑一份热闹。

大数据经过多年的发展，有着不同的实现方案和分支，不过，要说大数据实现方案中的翘楚，那就是Hadoop了，因其开源、稳定等因素，受到了业界的承认和欢迎，那我们就来窥视一下Hadoop。

一、什么是Hadoop？

　　1、 Hadoop是Apache软件基金组织的一个顶级项目，是开发可靠、可扩展、分布式计算的开源软件。

　　　　Apache Hadoop软件库是一个框架，允许在使用简单编程模型的计算机集群上对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台机器，每台机器都提供本地计算和存储。库本身不是依靠硬件来提供高可用性的，而是设计用于检测和处理应用程序层的故障，因此在一组计算机上提供高可用性服务。

　　2、Hadoop项目包括以下模块

Hadoop Common：支持其他Hadoop模块的常用工具。
Hadoop分布式文件系统（HDFS）：提供对应用程序数据的高吞吐量访问的分布式文件系统。
Hadoop YARN：作业调度和集群资源管理的框架。
Hadoop MapReduce：用于并行处理大型数据集的基于YARN的系统

关于这些模块的具体内容，在后期的文章中会一一详细介绍。

　　3、与Hadoop相关的其他Apache项目如下：

　　　　Ambari：用于配置，管理和监控Apache Hadoop集群的基于Web的工具，其中包括支持Hadoop HDFS，Hadoop MapReduce，Hive，HCatalog，HBase，ZooKeeper，Oozie，Pig和Sqoop。Ambari还提供了一个用于查看集群健康状况的仪表板，如热图和可视化查看MapReduce，Pig和Hive应用程序以及以用户友好的方式诊断其性能特征的功能。

　　　　Avro：数据序列化系统。

　　　　Cassandra：可扩展的多主数据库，无单点故障。

　　　　Chukwa：用于管理大型分布式系统的数据收集系统。

　　　　HBase：可扩展的分布式数据库，支持大型表格的结构化数据存储。

　　　　Hive：提供数据摘要和即席查询的数据仓库基础设施。　　

　　　　Mahout：可扩展的机器学习和数据挖掘库。

　　　　Pig：用于并行计算的高级数据流语言和执行框架。

　　　　Spark：一种用于Hadoop数据的计算引擎，具有快速性和通用性。Spark提供了一个简单而富有表现力的编程模型，支持各种应用，包括ETL，机器学习，流处理和图形计算。

　　　　Tez：一种基于Hadoop YARN的通用数据流编程框架，它提供了强大且灵活的引擎来执行任意DAG的任务来处理批量和交互式用例的数据。Tez被Hadoop，Pig和Hadoop生态系统中的其他框架以及其他商业软件（例如ETL工具）所采用，以替代Hadoop MapReduce作为底层执行引擎。

　　　　ZooKeeper：分布式应用程序的高性能协调服务。

　　这就是Hadoop，一个动物园，提供了一些基础设施，比如Hadoop分布式文件系统HDFS、yarn、MapReduce、Hadoop common；里面有这许多动物，比如蜜蜂（hive）、猪（pig）、黑斑羚（impala）；当然还要有动物园管理员（zookeeper），管理着动物园的生态平衡。

二、如何查看Hadoop各版本

　　hadoop使用<major>.<minor>.<maintenance>格式来表示版本格式，即"<主要>.<次要>.<维护>"，例如Hadoop2.7.3，则表示主要版本为2、次要版本为7、维护版本为3。当然，在版本格式后面还有其他后缀，比如“-alpha2”或“-beta1”，表示API兼容性保证和发布质量。例如hadoop-3.0.0-alpha1和hadoop-3.0.0-beta1。

　　　　1、主要版本用于引入实质性，可能不兼容的更改。其示例包括在Hadoop 2中使用YARN和MapReduce 2替换MapReduce 1，以及在Hadoop 3中将所需的Java运行时版本从JDK7更改为JDK8，主要版本标志着有重大更新。

　　　　2、次要版本用于在主要发行版中引入新的兼容功能。

　　　　3、维护版本包括错误修复或低风险更改。

　　了解上述这些之后，可以通过Hadoop各版本名称来判断Hadoop的版本重要性，在学习或者项目中选择相应的版本来使用，不过，选择稳定版能够减少许多不可预知的错误，Hadoop各版本文档首页都会介绍该版本是否是稳定版。

大数据Hadoop学习之了解Hadoop（1）的更多相关文章

大数据开发学习之构建Hadoop集群-(0)
有多种方式来获取hadoop集群,包括从其他人获取或是自行搭建专属集群,抑或是从Cloudera Manager 或apach ambari等管理工具来构建hadoop集群等,但是由自己搭建则可以了解 ...
大数据Hadoop学习之搭建hadoop平台（2.2）
关于大数据,一看就懂,一懂就懵. 一.概述本文介绍如何搭建hadoop分布式集群环境,前面文章已经介绍了如何搭建hadoop单机环境和伪分布式环境,如需要,请参看:大数据Hadoop学习之搭建had ...
大数据系列（5）——Hadoop集群MYSQL的安装
前言有一段时间没写文章了,最近事情挺多的,现在咱们回归正题,经过前面四篇文章的介绍,已经通过VMware安装了Hadoop的集群环境,相关的两款软件VSFTP和SecureCRT也已经正常安装了. ...
大数据系列（4）——Hadoop集群VSFTP和SecureCRT安装配置
前言经过前三篇文章的介绍,已经通过VMware安装了Hadoop的集群环境,当然,我相信安装的过程肯定遇到或多或少的问题,这些都需要自己解决,解决的过程就是学习的过程,本篇的来介绍几个Hadoop环 ...
大数据系列（3）——Hadoop集群完全分布式坏境搭建
前言上一篇我们讲解了Hadoop单节点的安装,并且已经通过VMware安装了一台CentOS 6.8的Linux系统,咱们本篇的目标就是要配置一个真正的完全分布式的Hadoop集群,闲言少叙,进入本 ...
大数据系列（2）——Hadoop集群坏境CentOS安装
前言前面我们主要分析了搭建Hadoop集群所需要准备的内容和一些提前规划好的项,本篇我们主要来分析如何安装CentOS操作系统,以及一些基础的设置,闲言少叙,我们进入本篇的正题. 技术准备 VMwa ...
大数据攻城狮之Hadoop伪分布式篇
对于初学大数据的萌新来说,初次接触Hadoop伪分布式搭建的同学可能是一脸萌笔的,那么这一次小编就手把手的教大家在centos7下搭建Hadoop伪分布式. 底层环境: VMware Workstat ...
一文看懂大数据的技术生态圈，Hadoop，hive，spark都有了
一文看懂大数据的技术生态圈,Hadoop,hive,spark都有了转载: 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你可以把它 ...
大数据学习---大数据的学习【all】
大数据介绍什么是大数据以及有什么特点大数据:是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合. 大数据是一种方法论:“一切都被记录,一切都被数字化,从数据中寻找需求,寻找知 ...
[转帖]hadoop学习笔记：hadoop文件系统浅析
hadoop学习笔记:hadoop文件系统浅析 https://www.cnblogs.com/sharpxiajun/archive/2013/06/15/3137765.html 1.什么是分布式 ...

随机推荐

如何优雅地在React项目中使用Redux
前言或许你当前的项目还没有到应用Redux的程度,但提前了解一下也没有坏处,本文不会安利大家使用Redux 概念首先我们会用到哪些框架和工具呢? React UI框架 Redux 状态管理工具,与 ...
CSS3渐变相关
背景渐变 background: -moz-linear-gradient( top,#f24652,#da2c3c); background: -o-linear-gradient(top,#f24 ...
栈stack（2）：栈的链表实现
定义从上一篇我们知道,栈(stack)是一个只允许一端进行删除插入操作的线性表.同时,我们联想到线性表的链式结构,其特点是用一组任意的存储单元存储线性表的数据元素,因此我们选择使用链表去实现栈,规定 ...
[array] leetcode - 33. Search in Rotated Sorted Array - Medium
leetcode - 33. Search in Rotated Sorted Array - Medium descrition Suppose an array sorted in ascendi ...
【Linux】Linux学习笔记（完结）
前言在工作中发现Linux系统的重要性,于是计划重温下Linux,顺便记录笔记方便之后查阅. 磁盘分区在Linux系统中,每个设备都被当成一个文件来对待:如IDE接口的硬盘文件名为/dev/hd[ ...
使用Vue2完成“小红书” app
小红书项目说明整体页面格调.功能和原版 app 无限接近.具体页面细节可以下载 “小红书” app查看. 图片素材:https://pan.baidu.com/s/1qYOcx7e 整体要求: · ...
MIG IP控制DDR3读写测试
本文设计思想采用明德扬至简设计法.在高速信号处理场合下,很短时间内就要缓存大量的数据,这时片内存储资源已经远远不够了.DDR SDRAM因其极高的性价比几乎是每一款中高档FPGA开发板的首选外部存储芯 ...
JavaScript的DOM编程--05--获取文本节点
获取文本节点: 1). 步骤: 元素节点 --> 获取元素节点的子节点 2). 若元素节点只有文本节点一个子节点, 例如 <li id="bj" name=" ...
UWP 手绘视频创作工具技术分享系列 - 手绘视频与视频的结合
本篇作为技术分享系列的第三篇,详细讲一下手绘视频中结合视频的处理方式. 随着近几年短视频和直播行业的兴起,视频成为了人们表达情绪和交流的一种重要方式,人们对于视频的创作.编辑和分享有了更多的需求.而视 ...
sql优化原则与技巧
加快sql查询是非常重要的技巧,简单来说加快sql查询的方式有以下几种:一.索引的引用 1.索引一般可以加速数据的检索速度,加速表与表之间的链接,提高性能,所以在对海量数据进行处理时,考虑到信息量比较 ...

大数据Hadoop学习之了解Hadoop（1）

大数据Hadoop学习之了解Hadoop（1）的更多相关文章

随机推荐

热门专题