Hadoop：什么是Hadoop??

官方讲解：

Apache Hadoop 为可靠的，可扩展的分布式计算开发开源软件。Apache Hadoop软件库是一个框架，它允许使用简单的编程模型跨计算机群集分布式处理大型数据集（海量的数据）。

个人理解：

Hadoop就是一些模块的相对简称!! 那Hadoop到底指的哪些模块？？以及他们是干嘛的？？

Hadoop内的一些模块指的是这些：

Hadoop Common：支持其他Hadoop模块的常用工具。

Hadoop 分布式文件系统（HDFS）：一种分布式文件系统，可提供对应用程序数据的高吞吐量访问。

Hadoop YARN：作业调度和集群资源管理的框架。

Hadoop MapReduce：一种用于并行处理大型数据集的基于YARN的系统。

而他们是干什么的？如下：

（1）hdfs：就是一个文件系统，可以存储海量的数据。

（2）mapreduce：从海量的数据中，通过一定的算法，计算出有用信息。

（3）hive：就是sql语句解释器，接收用户输入的sql语句，然后将该sql语句翻译成复杂的mapreduce程序，并发布到mr集群中进行运算，也是计算出有用的信息。

（4）hbase：mysql是基于linux/window的文件系统的数据库，而hbase就是基于hdfs文件系统的数据库。

（5）flume：就是一个水泵，将水从一个源水坑，抽到到另一个目的水坑中。当然flume抽的是 “数据”。将数据从一个文件中抽取到另一个文件中。

（6）sqoop：将hdfs文件系统的文件，导出到linux文件系统的文件中。就像“豌豆荚”应用程序，实现 android系统与window系统之间文件的导入导出。

（7）ooize/azkaban：一个完整的业务（work）是由多个任务（task）相互配合完成的。该组件就是负责协调各个task的执行顺序。

**** 其中重点组件如下（重点！！这是你该学的！）****：

HDFS：分布式文件系统

MAPREDUCE：分布式运算程序开发框架

HIVE：基于大数据技术（文件系统+运算框架）的SQL数据仓库工具

HBASE：基于HADOOP的分布式海量数据库

ZOOKEEPER：分布式协调服务基础组件

Mahout：基于mapreduce/spark/flink等分布式运算框架的机器学习算法库

Oozie：工作流调度框架

Sqoop：数据导入导出工具

Flume：日志数据采集框架

Hadoop的核心组件( 注意!! 是核心组件! 就是最重要的几个东西!! )有:

HDFS（分布式文件系统）

YARN（运算资源调度系统）

MAPREDUCE（分布式运算编程框架）

Hadoop：什么是Hadoop??的更多相关文章

【从零开始学习Hadoop】--1.Hadoop的安装
第1章 Hadoop的安装1. 操作系统2. Hadoop的版本3. 下载Hadoop4. 安装Java JDK5. 安装hadoop6. 安装rsync和ssh7. 启动hadoop8. 测试had ...
从零自学Hadoop(11)：Hadoop命令上
阅读目录序概述 Hadoop Common Commands User Commands Administration Commands File System Shell 引用系列索引本文版 ...
从零自学Hadoop(12)：Hadoop命令中
阅读目录序 HDFS Commands User Commands Administration Commands Debug Commands 引用系列索引本文版权归mephisto和博客园共 ...
Hadoop：部署Hadoop Single Node
一.环境准备 1.系统环境 CentOS 7 2.软件环境 OpenJDK # 查询可安装的OpenJDK软件包[root@server1] yum search java | grep jdk... ...
【hadoop】——修改hadoop FileUtil.java，解决权限检查的问题
在Hadoop Eclipse开发环境搭建这篇文章中,第15.)中提到权限相关的异常,如下: 15/01/30 10:08:17 WARN util.NativeCodeLoader: Unable ...
Maven构建Hadoop Maven构建Hadoop工程
一.安装maven linux eclipse3.6.1 maven安装二:官网依赖库我们可以直接去官网查找我们需要的依赖包的配置pom,然后加到项目中. 官网地址:http://mvnrepos ...
hadoop入门：hadoop使用shell命令总结
第一部分:Hadoop Bin后面根据项目的实际需要Hadoop Bin 包括:Hadoop hadoop的Shellhadoop-config.sh 它的作用是对一些变量进行赋值 HAD ...
何时使用hadoop fs、hadoop dfs与hdfs dfs命令(转)
hadoop fs:使用面最广,可以操作任何文件系统. hadoop dfs与hdfs dfs:只能操作HDFS文件系统相关(包括与Local FS间的操作),前者已经Deprecated,一般使用后 ...
学习hadoop，搭建hadoop遇到一些特殊问题
我执行下面步骤: 1. 动态增加DataNode节点和TaskTracker节点以host9为例在host9上执行: 指定主机名 vi /etc/hostname 指定主机名到IP地址的映射 ...
何时使用hadoop fs、hadoop dfs与hdfs dfs命令
hadoop fs:使用面最广,可以操作任何文件系统. hadoop dfs与hdfs dfs:只能操作HDFS文件系统相关(包括与Local FS间的操作),前者已经Deprecated,一般使用后 ...

随机推荐

spring mvc下实现通过邮箱找回密码功能
1功能分析通过spring mvc框架实现通过邮箱找回密码. 2 实现分析主要是借助某个邮箱的pop3/smtp服务实现的邮件代发功能. 3 源码分析 3.1首先在用户表对应的javabean中加 ...
10.11 arping：发送arp请求
arping命令是用于发送arp请求到一个相邻主机的工具,arping使用arp数据包检查局域网内所有设备的硬件地址. arping 命令的参数选项及说明 -c <次数> ...
5分钟安装docker教程
Centos安装docker需要操作系统是 CentOS 7 or 8,必须启用centos extras存储库.默认情况下,此存储库处于启用状态,但如果已禁用它,则需要重新启用它. 卸载旧版本老版 ...
JS轮播图（网易云轮播图）
JS 轮播图写在前面最聪明的人是最不愿浪费时间的人.--但丁实现功能图片自动切换鼠标移入停止自动播放,显示按钮点击按钮,实现前后翻鼠标移入小圆圈,可以跳转到对应图片点击左右两侧图片部分 ...
4. springmvc底层原理2
Spring mvc 是子容器 Spring 是父容器 =================================================================== pub ...
nginx 的访问日志切割
1. 高级用法–使用 nginx 本身来实现当 nginx 在容器里,把 nginx 日志挂载出来的时候,我们发现就不适合再使用 kill -USR1 的方式去分割日志这时候当然就需要从 nginx ...
CMOS图像传感器同时感知和处理光学图像
CMOS图像传感器同时感知和处理光学图像概述近年来,机器视觉技术有了巨大的飞跃,现在已经成为各种智能系统的一个组成部分,包括自主车辆和机器人.通常,视觉信息由基于帧的摄像机捕获,转换成数字格式,然 ...
CloudHub概述
CloudHub概述 CloudHub CloudHub是cloudcore的一个模块,是Controller和Edge端之间的中转.它同时支持基于websocket的连接以及QUIC协议访问.Edg ...
深度学习加速器堆栈Deep Learning Accelerator Stack
深度学习加速器堆栈Deep Learning Accelerator Stack 通用张量加速器(VTA)是一种开放的.通用的.可定制的深度学习加速器,具有完整的基于TVM的编译器堆栈.设计了VTA来 ...
windows10下JDK9的环境配置
JDK版本:jdk-9.0.4_windows-x64_bin.exe windows版本:windows10 专业版 64位需要在系统变量中新建如下3个变量: JAVA_HOME=jdk安装路径J ...

Hadoop：什么是Hadoop??

Hadoop：什么是Hadoop??的更多相关文章

随机推荐

热门专题