Hadoop中重要概念简要总结

冬色 2024-11-01 22:12:34 原文

Hadoop是一个利用大规模计算机集群，可处理大量数据的分布式并行框架。
Hadoop 官网
Hadoop的核心设计包括HDFS和MapReduce。

HDFS

HDFS(Hadoop Distributed File System)是一种分布式文件系统。
主要特点：1.高容错性；2.高吞吐量访问；3.线性扩展（扩充容量只是增加DataNode数量，可在不停止系统的情况下做扩展）
HDFS架构图：

一篇优秀的介绍HDFS原理的blog：HDFS的运行原理

MapReduce

MapReduce是一种分布式计算框架，被用于并行计算海量数据。其核心步骤包括Map(任务处理)和Reduce(结果汇总)两部分。

上图来自知乎用户流通回答。用于海量处理的计算机分为两种，一种是Master，负责调度；另一种是Worker，包括Map和Reduce，Map将数据处理完毕后，将结果传送给Reduce汇总，如上图。

Pig

Pig是构建在MapReduce之上的一种SQL-like的高级查询语言。

Hive

Hive是构建在Hadoop集群之上的数据仓库应用，可以将结构化的数据文件映射为一张数据库表，其提供了SQL-like的HQL作为数据访问接口。

介绍Hive的一篇blog：hive介绍

Mahout

Mahout是一个分布式机器学习算法集合。包括分布式协调过滤的实现，分类和聚类等。是一种很强大的数据挖掘工具。
介绍Mahout的blog：Mahout学习

HBase

HBase是一种构建在HDFS之上的分布式、面向列的key-value存储系统（可以称为key-value数据库）。用于解决Hadoop只能批量处理，并且以顺序方式访问数据的问题。HBase提供快速随机访问海量结构化数据。
HBase教程

Sqoop

Sqoop是一种用于Hadoop与传统数据库（如Mysql）之间进行数据传递的工具。

Flume

Flume，日志系统，是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。

Chukwa

类似于Flume，另一种Hadoop日志系统。有篇blog比较了hadoop的一些日志系统：开源日志系统比较：scribe、chukwa、kafka、flume

Hadoop中重要概念简要总结的更多相关文章

Hadoop中的各种排序
本篇博客是金子在学习hadoop过程中的笔记的整理,不论看别人写的怎么好,还是自己边学边做笔记最好了. 1:shuffle阶段的排序(部分排序) shuffle阶段的排序可以理解成两部分,一个是对sp ...
hadoop中Text类与 java中String类的区别
hadoop 中的Text类与java中的String类感觉上用法是相似的,但两者在编码格式和访问方式上还是有些差别的,要说明这个问题,首先得了解几个概念: 字符集: 是一个系统支持的所有抽象字符的 ...
Hadoop中Writable类之二
1.ASCII.Unicode.UFT-8 在看Text类型的时候,里面出现了上面三种编码,先看看这三种编码: ASCII是基于拉丁字母的一套电脑编码系统.它主要用于显示现代英语和其他西欧语言.它是现 ...
浅析 Hadoop 中的数据倾斜
转自:http://my.oschina.net/leejun2005/blog/100922 最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一 ...
【转帖】Hadoop — HDFS的概念、原理及基本操作
Hadoop — HDFS的概念.原理及基本操作 https://www.cnblogs.com/swordfall/p/8709025.html 分类: Hadoop undefined 1. HD ...
在HADOOP中使用MRUNIT进行单元测试
在HADOOP中使用MRUNIT进行单元测试前提 1. 了解JUnit4.x的使用. 2. 了解Mock的概念在单元测试中的应用. 3. 了解Hadoop中MapReduce的编程模型. 如果您对J ...
Hadoop 中HDFS、MapReduce体系结构
在网络环境方面,作为分布式系统,Hadoop基于TCP/IP进行节点间的通信和传输. 在数据传输方面,广泛应用HTTP实现. 在监控.通知方面,Hadoop等分布式大数据软件则广泛使用异步消息队列等机 ...
Hadoop 中利用 mapreduce 读写 mysql 数据
Hadoop 中利用 mapreduce 读写 mysql 数据有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv.uv 数据,然后为了实时查询的需求,或者一些 OLAP ...
Hadoop中客户端和服务器端的方法调用过程
1.Java动态代理实例 Java 动态代理一个简单的demo:(用以对比Hadoop中的动态代理) Hello接口: public interface Hello { void sayHello(S ...

随机推荐

高CPU、数据库无法读写
高CPU.数据库无法读写的真凶有兴趣的同学可以参考如下系列文章,都是针对dump分析的实战和总结: Windbg DUMP分析(原创汇总) http://www.cnblogs.com/Love ...
webtool小问题
webtool小问题 erlang的观察工具如crashdump,appmon,cover等工具有二种不同的界面:gs(wx)和web.这些tool都遵循一定的接口,用户可以自行扩展这些功能,使的能够 ...
【hdu2457】ac自动机 + dp
传送门题目大意: 给你一个字符主串和很多病毒串,要求更改最少的字符使得没有一个病毒串是主串的子串. 题解: ac自动机 + dp,用病毒串建好ac自动机,有毒的末尾flag置为true 构建fail ...
scala 伴生对象与伴生类
package cn.scala_base.oop.scalaobject import java.security.cert.Extension /** * object的构造器必须是无参的,且且构 ...
Swift 中的Closures(闭包)详解
Swift 中的Closures(闭包)详解在Swift没有发布之前,所有人使用OC语言编写Cocoa上的程序,而其中经常被人们讨论的其中之一 -- Block 一直备受大家的喜爱.在Swift中, ...
CUDA多个流的使用
CUDA中使用多个流并行执行数据复制和核函数运算可以进一步提高计算性能.以下程序使用2个流执行运算: #include "cuda_runtime.h" #include < ...
概率论经典问题 —— 三个事件 A、B、C 独立 ≠ 三个事件两两独立
三个事件 A.B.C 相互独立?三个事件两两独立? A:第一次正面朝上: B:第二次正面朝上: C:第一次和第二次结果不同: P(AB)=P(A)P(B): P(AC)=1/4=P(A)P(C)(不是 ...
springCloud跨域访问
转自:http://blog.csdn.net/wangkang80/article/details/72829390 什么是跨域? 假设你在http://xxx.com/test/下有一个js文件, ...
Leetcode 268 Missing Number 位运算
题意:先将0, 1, 2, ..., n放入数组,然后去掉其中一个值,找到那个值. 这题与singe number 是一个类型,变形的地方就是首先需要将0, 1, 2, ..., n再次放入这个数组, ...
《STL源代码分析》---stl_stack.h读书笔记
Stack堆栈是频繁使用FILO数据结构,FILO指first in last out,最后出来. 因为只有一个堆叠端口,这也是在口腔进入口. 可以在堆栈中只能操作,你不能访问其它元件的堆叠.器. S ...