Hadoop生态圈-Cloudera Manager的基本使用 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 1>.ClouderaManager功能 1.1>.管理监控集群主机(主要监控硬件和软件的信息): 1.2>.同一管理配置(主要是针对服务,比如hdfs,hbase等等): 1.3>.管理维护Hadoop平台系统: 2>.ClouderaManager的一些常见名词 2.1>.主机-host 2.2>.机架-rack 2.3>.集…
Hadoop生态圈-Cloudera Manager扫盲篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 在讨论CDH.cloueramamager之前,我要问大家几个问题: 1>.4000台服务器的集群(已经安装好linux操作系统且分配好IP地址),最少花费多长时间来搭建好Hadoop集群(包括Hive,HBase,Flume,Kafka,Spark等Hadoop生态圈组件)? 2>.如果给你一天时间,你是否可以完成以上工作呢? 3>.对于以上集群进行hadoop…
转载:http://fenriswolf.me/2012/12/06/cloudera-manager-free-edition-4-1-和-cdh-4-1-2-简易安装教学/ 安装及管理一个大的Hadoop cluster 并不是只要下载tar files 解压缩并启动services 这么简单.安装及管理一个大的Hadoop cluster 并不是只要下载tar files 解压缩并启动services 这么简单. 后续有非常多设定.监控等麻烦的事要处理.后续有非常多设定.监控等麻烦的事要处…
最近一段时间团队接到的项目需要处理的数据量非常大,之前的处理方式难以满足现有需求.最近两周前前后后折腾了不少,在搭建了hadoop+hbase+hive+spark的一个集群后,由于感觉管理和监控太麻烦就把它给干掉了,转而折腾CDH. 安装CDH前需要安装Cloudera Manager,官方文档提供的A,B,C三种安装方式.方式A傻瓜式的安装部署,安装时最好祈祷一次成功,否则卸载时时候非常麻烦.本文主要介绍方式C的部署. 系统环境以及相关软件版本 机器数量:4台PC,名称分别为Master,…
Hadoop生态圈-基于yum源的方式部署Cloudera Manager5.15.1 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 我之前分享过关于离线方式部署Cloudera Manager5.15.1的笔记.本篇博客给大家分享基于yum源的方式部署Cloudera Manager.由于我的台式机内存有限,本次实验就采用三台虚拟机进行实验. 一.集群大数据生态圈集群环境准备(温馨提示:最好保持集群中的每台机器的硬件配置和软件配置都一致.即每台机器最好都配置一致!) 1>.…
Hadoop生态圈-离线方式部署Cloudera Manager5.15.1 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 到目前位置,Cloudera Manager和CDH最新版本是cdh5.15.1版本,发布日期是2018-8-17,我们可以在本篇博客的截图中可以看到具体信息,我们以当前的最新版本为例,如果你想要安装其他版本,就参考我这个最新版本的流程来安装即可!帮大家踩了不少的坑,我要特别声明一点,本篇博客部署的环境采用的是CentOS7.2.x发行版本.如果你是Ce…
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍 简介 我们在上篇文章中已经了解了CDH,为了后续的学习,我们本章就来安装CDH5.8.CDH5.8是目前比较新的版本,自带hadoop2.0以上的hadoop,而且已经包含了很多组件,也是我们接下来需要学习的hadoop生态圈中的组件. 环境 Cloudera Manager是为了简化hadoop及其组件的部署,但是由于包含的组件较多,对内存要求也比较大.所以我们尽…
一.包管理工具及CentOS的yum 1.包管理工具如何发现可以用的包 包管理工具依赖一系列软件源,工具下载源的信息存储在配置文件中,其位置随某包管理工具不同而变化 使用yum的RedHat/CentOS存储在:/etc/yum.repos.d 使用apt-get的Debian/Ubuntu在:/etc/apt/apt.conf (额外的源采用*.list文件指定,存储在/etc/apt/sources.list.d目录下) 例如在,CentOS下面: [root@lemon ~]# ls -l…
Cloudera Manager Cloudera Manager 分为两个部分:CDH和CM. CDH是Cloudera Distribution Hadoop的简称,顾名思义,就是cloudera公司发布的Hadoop版本,封装了Apache Hadoop,提供Hadoop所有的服务,包括HDFS,YARN,MapReduce以及各种相关的components:HBase, Hive, ZooKeeper,Kafka等. CM是cloudera manager的简称,是CDH的管理平台,主要…
Cloudera Manager 4.6 安装详解 1. Cloudera Manager介绍 1.1. 功能介绍 Cloudera Manager是一个针对hadoop集群的管理工具,功能包括:cdh的安装,集群的活动监控.各个性能指标的监控,以及各个组件的管理等. 1.2. 架构介绍 Cloudera Manager分为客户端(Cloudera Manager Agent)和服务端(Cloudera Manager Server),客户端会把采集到的数据发送到服务端,服务端把这些数据存放在数…
   决定选择 Cloudera Manager 进行安装,阅读官方文档,掌握大概脉络.         Cloudera Manager在集群已经实现ssh免秘钥登录,能够访问网络资源和本地资源的情况下,可以自动安装和配置CDH(Cloudera  distributed hadoop),以及管理在这个集群上面的服务.        Cloudera Manager安装软件包括: A small self-executing Cloudera Manager installation prog…
步骤5:设置Cloudera Manager数据库 Cloudera Manager Server包含一个可以为自己创建和配置数据库的脚本.该脚本可以: 创建Cloudera Manager Server数据库配置文件. (MariaDB,MySQL和PostgreSQL)为Cloudera Manager Server创建和配置数据库以供使用. (MariaDB,MySQL和PostgreSQL)为Cloudera Manager Server创建和配置用户帐户. 虽然脚本可以创建数据库,但以…
第3步:安装Cloudera Manager Server 在此步骤中,您将在Cloudera Manager主机上安装JDK和Cloudera Manager Server软件包. 安装Cloudera Manager Server软件包 在安装了数据库的主机上或有权访问数据库的主机上安装Cloudera Manager Server软件包.此主机不必是要使用Cloudera Manager管理的群集中的主机.在Cloudera Manager Server主机上,键入以下命令以安装Cloud…
安装Cloudera Manager,CDH和托管服务 建议使用此过程为生产环境安装Cloudera Manager和CDH.对于非生产“易于安装”,请参阅安装概念证明群集. 在开始安装之前,请确保已查看“ 安装前”中所述的要求和其他注意事项. 安装过程的一般步骤如下: 第1步:配置存储库 第2步:安装JDK 第3步:安装Cloudera Manager Server 第4步:安装数据库 步骤5:设置Cloudera Manager数据库 第6步:安装CDH和其他软件 第7步:设置群集…
步骤1:为Cloudera Manager配置存储库 使用包管理工具安装Cloudera Manager yum 对于RHEL兼容系统, zypper对于SLES,和 apt-get对于Ubuntu.这些工具依赖于对存储库的访问来安装软件.Cloudera为CDH和Cloudera Manager安装文件维护可通过Internet访问的存储库.您还可以为无法访问Internet的主机创建自己的内部存储库. 有关为Cloudera Manager创建内部存储库的更多信息,请使用内部包存储库. 要使…
使用Cloudera Manager模板创建CDH群集 您可以通过从Cloudera Manager管理的现有CDH群集导出群集模板来创建新的CDH群集.然后,您可以修改模板并使用它在新的主机集上创建具有相同配置的新集群.使用群集模板: 用于开发人员,测试和生产环境的重复群集. 快速为特定工作负载创建集群. 重现生产群集以进行测试和调试. 按照以下常规步骤创建模板和新集群: 从源群集导出群集配置.导出的配置是一个JSON文件,详细说明了群集的所有配置.JSON文件包含一个 实例化 包含在创建新集…
下图概述了Cloudera Manager,Cloudera Navigator和Cloudera Management Service角色使用的一些端口: Cloudera Manager和Cloudera Navigator使用的端口 当对等网络分发为包裹启用,Cloudera的管理代理可以获取来自Cloudera的管理服务器或从其他代理包裹,如下所示: 用于对等包裹分发的端口 有关更多详细信息,请参阅下表.列出的所有端口都是TCP. 在下表中,Internal表示该端口仅用于组件之间的通信…
https://blog.csdn.net/zzq900503/article/details/52982828 简介 我们在上篇文章中已经了解了CDH,为了后续的学习,我们本章就来安装CDH5.8.CDH5.8是目前比较新的版本,自带hadoop2.0以上的hadoop,而且已经包含了很多组件,也是我们接下来需要学习的hadoop生态圈中的组件. 环境 Cloudera Manager是为了简化hadoop及其组件的部署,但是由于包含的组件较多,对内存要求也比较大.所以我们尽量要保持主节点ma…
https://blog.csdn.net/zzq900503/article/details/52982828 https://www.cnblogs.com/felixzh/p/9082344.html 简介 我们在上篇文章中已经了解了CDH,为了后续的学习,我们本章就来安装CDH5.8.CDH5.8是目前比较新的版本,自带hadoop2.0以上的hadoop,而且已经包含了很多组件,也是我们接下来需要学习的hadoop生态圈中的组件. 环境 Cloudera Manager是为了简化had…
Hadoop生态圈-通过CDH5.15.1部署spark1.6与spark2.3.0的版本兼容运行 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 在我的CDH5.15.1集群中,默认安装的spark是1.6版本,开发的同事跟我抱怨,说之前的大数据平台(在ucloud上,属于云服务)用的就是spark1.6,好多java的API都用不了,有很多高级的功能没法在1.6版本上使用,因此被迫需要升级spark版本,他们要求升级到2.3.0或以上版本,经查阅相关资料,才总结了我部署sp…
Hadoop生态圈-Oozie部署实战 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Oozie简介 1>.什么是Oozie Oozie英文翻译为:驯象人.一个基于工作流引擎的开源框架,由Cloudera公司贡献给Apache,提供对Hadoop Mapreduce.Pig Jobs的任务调度与协调.Oozie需要部署到Java Servlet容器中运行.主要用于定时调度任务,多任务可以按照执行的逻辑顺序调度. 2>.Oozie的功能模块介绍 >.Workflow…
Hadoop生态圈-大数据生态体系快速入门篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.大数据概念 1>.什么是大数据 大数据(big data):是指无法在一定时间范围内用常规软件进行捕捉,管理和处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量,高增长率和多样化的信息资产. 大数据技术主要解决两个问题,即海量的存储和海量的数据的分析计算. 2>.数据存储单位介绍 按照顺序给出数据存储单位如:Bit,Byte,KB,MB,GB,T…
本文由知乎<大数据应用与实践>专栏 李呈祥授权发布,版权所有归作者,转载请联系作者! 新世纪以来,互联网及个人终端的普及,传统行业的信息化及物联网的发展等产业变化产生了大量的数据,远远超出了单台机器能够处理的范围,分布式存储与处理成为唯一的选项.从2005年开始,Hadoop从最初Nutch项目的一部分,逐步发展成为目前最流行的大数据处理平台.Hadoop生态圈的各个项目,围绕着大数据的存储,计算,分析,展示,安全等各个方面,构建了一个完整的大数据生态系统,并有Cloudera,HortonW…
一篇了解大数据架构及Hadoop生态圈 阅读建议,有一定基础的阅读顺序为1,2,3,4节,没有基础的阅读顺序为2,3,4,1节. 第一节 集群规划 大数据集群规划(以CDH集群为例),参考链接: https://www.cloudera.com/documentation/enterprise/latest/topics/cm_ig_host_allocations.html https://blog.csdn.net/xuefenxi/article/details/81563033 Clou…
原文地址:大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍   1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储. 具有可靠.高效.可伸缩的特点. Hadoop的核心是YARN,HDFS和Mapreduce 下图是hadoop生态系统,集成spark生态圈.在未来一段时间内,hadoop将于spark共存,hadoop与spark 都能…
Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储. 具有可靠.高效.可伸缩的特点. Hadoop的核心是YARN,HDFS和Mapreduce 下图是hadoop生态系统,集成spark生态圈.在未来一段时间内,hadoop将于spark共存,hadoop与…
CDH (Cloudera’s Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境. Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务安装和监控管理的组件,对集群中主机.Hadoop.Hive.Spark等服务的安装配置管理做了极大简化. 相关包的下载地址: Cloudera Manager…
关于CDH和Cloudera Manager CDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境. Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务安装和监控管理的组件,对集群中主机.Hadoop.Hive.Spark等服务的安装配置管理做了极大简化. 系统环…
CDH 特性 免费版 付费版 Deployment, Configuration & Management 系统管理 Automated Deployment & Hadoop Readiness Checks 自动化部署及快速检查 • • Install the complete CDH stack in minutes and ensure optimal settings 安装完整的CDH及优化配置 Service Management 服务管理 • • Configure and…
转载自 http://www.aboutyun.com/thread-9189-1-1.html 问题导读1.CM的安装目录在什么位置? 2.hadoop配置文件在什么位置? 3.Cloudera manager运行所需要的信息存在什么位置? 4.CM结构和功能是什么? 1. 相关目录 /var/log/cloudera-scm-installer : 安装日志目录. /var/log/* : 相关日志文件(相关服务的及CM的). /usr/share/cmf/ : 程序安装目录. /usr/l…