大数据框架hadoop服务角色介绍

翻了一下最近一段时间写的分享，DKHadoop发行版本下载、安装、运行环境部署等相关内容几乎都已经写了一遍了。虽然有的地方可能写的不是很详细，个人理解水平有限还请见谅吧！我记得在写DKHadoop运行环境部署的时候，遗漏了hadoop服务角色的内容，本篇特地补上这部分内容吧，不然总觉得不舒服。

要在集群中运行DKHadoop服务，需要指定集群中的一个或多个节点执行该服务的特定功能，角色分配是必须的，没有角色集群将无法正常工作，在分配角色前，需要了解这些角色的含义。

Hadoop服务角色：

1. zookeeper角色：ZooKeeper服务是指包含一个或多个节点的集群提供服务框架用于集群管理。对于集群，Zookeeper服务提供的功能包括维护配置信息、命名、提供HyperBase的分布式同步，推荐在 ZooKeeper集群中至少有3个节点。

2. JDK角色：JDK是 Java 语言的软件开发工具包， JDK是整个Java开发的核心，它包含了Java的运行环境，Java工具和Java基础的类库。

3. Apache-Flume角色：Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接收方（可定制）的能力。

4. Apache-Hive角色：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。

5. Apache-Storm角色：Storm是内存级计算，数据直接通过网络导入内存。读写内存比读写磁盘速度快n个数量级。当计算模型比较适合流式时，Storm的流式处理，省去了批处理的收集数据的时间.

6. Elasticsearch角色：Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索、稳定、可靠、快速，安装使用方便。

7. NameNode角色：HDFS系统中的节点用于维护文件系统中所有文件的目录结构并跟踪文件数据存储于哪些数据节点。当客户端需要从HDFS 文件系统中获得文件时，它通过和NameNode通讯来知道客户端哪个数据节点上有客户端需要的文件。一个Hadoop集群中只能有一个NameNode。NameNode不能被赋予其他角色。

8. DataNode角色：在HDFS中，DataNode是用来存储数据块的节点。

9. Secondary NameNode 角色：为NameNode上的数据创建周期性检查点的节点。节点将周期性地下载当前NameNode镜像和日志文件，将日志和镜像文件合并为一个新的镜像文件然后上传到NameNode。被分配了NameNode角色的机器不应再被分配Secondary NameNode 角色。

10. Standby Namenode角色：Standby模式的NameNode元数据（Namespcae information 和 Block 都是和Active NameNode中的元数据是同步的，一但切换成Active模式，马上就可以提供NameNode服务。

11. JournalNode角色：Standby NameName和Active NameNode通过JournalNode通信，保持信息同步。

12. HBase角色：HBase是一个分布式的、面向列的开源数据库。HBase在Hadoop之上提供了类似于BigTable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

13. Kafka角色：Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop的一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消费。

14. Redis角色：Redis是一个开源的使用C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。

15. Scala角色：Scala是一门多范式的编程语言，一种类似Java的编程语言，设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。

16. Sqoop角色：Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导入到关系型数据库中。

17. Impala角色：Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性。相比之下，Impala的最大特点也是最大卖点就是它的快速。

18. Crawler角色：Crawler是大快DKHadoop专有组件，爬虫系统，爬取动态静态数据。

19. Spark角色：Spark是一种与Hadoop相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。Spark 是在Scala语言中实现的，它将Scala用作其应用程序框架。与Hadoop不同，Spark和Scala能够紧密集成，其中的Scala可以像操作本地集合对象一样轻松地操作分布式数据集。

20. HUE角色：HUE是一组可与您的Hadoop集群交互的网络应用程序。HUE应用能让您浏览HDFS和工作,管理Hive metastore,运行Hive，浏览HBase Sqoop出口数据,提交MapReduce程序,构建自定义的搜索引擎与Solr一起调度重复性的工作流。

大数据框架hadoop服务角色介绍的更多相关文章

老李分享：大数据框架Hadoop和Spark的异同 1
老李分享:大数据框架Hadoop和Spark的异同 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.如果对课程感兴趣,请大家咨 ...
老李分享：大数据框架Hadoop和Spark的异同
poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.如果对课程感兴趣,请大家咨询qq:908821478,咨询电话010-845052 ...
[转载] 2 分钟读懂大数据框架 Hadoop 和 Spark 的异同
转载自https://www.oschina.net/news/73939/hadoop-spark-%20difference 谈到大数据,相信大家对Hadoop和Apache Spark这两个名字 ...
2分钟读懂大数据框架Hadoop和Spark的异同
转自:https://www.cnblogs.com/reed/p/7730313.html 谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生.但我们往往对它们的理解只是 ...
大数据及hadoop相关知识介绍
一.大数据的基本概念 1.1什么是大数据互联网企业是最早收集大数据的行业,最典型的代表就是Google和百度,这两个公司是做搜索引擎的,数量都非常庞大,每天都要去把互联网上的各种各样的网页信息抓取下 ...
老李分享：大数据框架Hadoop和Spark的异同 2
Spark数据处理速度秒杀MapReduce Spark因为其处理数据的方式不一样,会比MapReduce快上很多.MapReduce是分步对数据进行处理的: ”从集群中读取数据,进行一次处理,将结果 ...
大数据框架hadoop的序列化机制
Java内建序列化机制在Windows系统上序列化的Java对象,可以在UNIX系统上被重建出来,不需要担心不同机器上的数据表示方法,也不需要担心字节排列次序. 在Java中,使一个类的实例可被序列 ...
哈，我自己翻译的小书，马上就完成了，是讲用python处理大数据框架hadoop,spark的
花了一些时间, 但感觉很值得. Big Data, MapReduce, Hadoop, and Spark with Python Master Big Data Analytics and Dat ...
大数据框架：Spark vs Hadoop vs Storm
大数据时代,TB级甚至PB级数据已经超过单机尺度的数据处理,分布式处理系统应运而生. 知识预热「专治不明觉厉」之“大数据”: 大数据生态圈及其技术栈: 关于大数据的四大特征(4V) 海量的数据规模( ...

随机推荐

Oracal
增删改查 1.增加数据表 Create table users ( userid VARCHAR2(4), username VARCHAR2(20), userpass VARCHAR2(20), ...
Spring Boot 揭秘与实战（五）服务器篇 - Tomcat 代码配置
Spring Boot 内嵌的 Tomcat 服务器默认运行在 8080 端口.如果,我们需要修改Tomcat的端口,我们可以在 src/main/resources/application.prop ...
hadoop day 1
hadoop是什么? 解决的问题: 海量数据的存储(HDFS):供hbase,mapreduce进行处理海量数据的分析(MapReduce) 资源管理调度(YARN) 搜索引擎: 爬虫系统+站内搜索 ...
arch/arm/Makefile:382: recipe for target 'kernel.img' failed
/********************************************************************** * arch/arm/Makefile:382: rec ...
使用Git来撤销修改
首先进入一个有Git管理的文件夹下: 当我们在文件编写过程中出现了一个错误怎么办呢?如下: 但是此时你并没有将文件提交缓冲区,你可以去手动打卡文件删除这个错误. 当然你也可以查看一下状态: 发现这个文 ...
Templates中的标签if
1.什么是标签每个标签标示的是不同的服务器端的功能 2.常用标签 1. if 标签 1.基本if结构 {% if 条件 %} % endif %} 2.if ... else ... 结构 {% i ...
background-position 的设置
不应该按移动端的实际宽度或高度设置,应该按切出来图片的宽度设置,比如精灵图中有两个图片,各宽500px,那position应该设置为500px 0:而不是250px 0
20155208徐子涵 2016-2017-2 《Java程序设计》第6周学习总结
20155208徐子涵 2016-2017-2 <Java程序设计>第6周学习总结教材学习内容总结 10.1.1 1.Java将输入/输出抽象化为串流,数据有来源及目的地,衔接两者的是串 ...
try catch之ajax调错
linux 执行脚本
crontab -e 直接编辑定时脚本保存后,在/var/spool/cron/下自动生成一个以用户名命名的脚本文件.

大数据框架hadoop服务角色介绍

大数据框架hadoop服务角色介绍的更多相关文章

随机推荐

热门专题