重要: CDH需要IPv4.不支持IPv6.提示:粘合时,请使用bond0 IP地址,因为它代表所有聚合链接. 按如下方式配置群集中的每个主机,以确保所有成员可以相互通信: 将主机名设置为唯一名称(不是 localhost). sudo hostnamectl set-hostname foo-1.example.com 编辑 /etc/hosts文件使用群集中每个主机的IP地址和完全限定的域名(FQDN).您也可以添加非限定名称. 1.1.1.1 foo-1.example.com foo-1…
配置单用户模式 在传统的Cloudera Manager部署中,管理每台主机上的Hadoop进程的Cloudera Manager Agent以root用户身份运行.但是,某些环境会限制对root帐户的访问. Cloudera Manager 5.3及更高版本提供单用户模式,满足此类环境的要求.在单用户模式下,Cloudera Manager Agent和由Cloudera Manager管理的服务运行的所有进程将作为单个已配置的用户和组启动.单用户模式优先考虑Hadoop与系统其余部分之间的隔…
推荐的群集主机和角色分配 要点:本主题描述了Cloudera Manager管理的CDH群集的建议角色分配.您为部署选择的实际分配可能会有所不同,具体取决于工作负载的类型和数量,群集中部署的服务,硬件资源,配置和其他因素. 使用Cloudera Manager安装向导安装CDH时,Cloudera Manager会尝试根据主机中可用的资源在群集主机(分配给网关主机的角色除外)之间分配角色.您可以在向导中显示的“ 自定义角色分配”页面上更改这些分配.您也可以稍后使用Cloudera Manager…
步骤7:使用向导设置群集 完成“ 群集安装”向导后,“ 群集设置”向导将自动启动.以下部分将指导您完成向导的每个页面: 选择服务 分配角色 设置数据库 查看更改 首次运行命令 恭喜! 选择服务 “ 选择服务”页面允许您选择要安装和配置的服务.确保您具有要使用的服务的相应许可证密钥.您可以选择: 核心Hadoop(Core Hadoop) HDFS,YARN(包含MapReduce 2),ZooKeeper,Oozie,Hive和Hue 核心与HBase(Core with HBase) HDFS…
步骤5:设置Cloudera Manager数据库 Cloudera Manager Server包含一个可以为自己创建和配置数据库的脚本.该脚本可以: 创建Cloudera Manager Server数据库配置文件. (MariaDB,MySQL和PostgreSQL)为Cloudera Manager Server创建和配置数据库以供使用. (MariaDB,MySQL和PostgreSQL)为Cloudera Manager Server创建和配置用户帐户. 虽然脚本可以创建数据库,但以…
为Cloudera Software安装和配置MySQL 要使用MySQL数据库,请按照以下过程操作.有关MySQL数据库兼容版本的信息,请参阅CDH和Cloudera Manager支持的数据库. 安装MySQL服务器 配置和启动MySQL服务器 安装MySQL JDBC驱动程序 为Cloudera软件创建数据库 设置Cloudera Manager数据库 安装MySQL服务器 注意: 如果您已经设置了MySQL数据库,则可以跳到配置和启动MySQL服务器部分,以验证您的MySQL配置是否满足…
步骤1:为Cloudera Manager配置存储库 使用包管理工具安装Cloudera Manager yum 对于RHEL兼容系统, zypper对于SLES,和 apt-get对于Ubuntu.这些工具依赖于对存储库的访问来安装软件.Cloudera为CDH和Cloudera Manager安装文件维护可通过Internet访问的存储库.您还可以为无法访问Internet的主机创建自己的内部存储库. 有关为Cloudera Manager创建内部存储库的更多信息,请使用内部包存储库. 要使…
使用Cloudera Manager模板创建CDH群集 您可以通过从Cloudera Manager管理的现有CDH群集导出群集模板来创建新的CDH群集.然后,您可以修改模板并使用它在新的主机集上创建具有相同配置的新集群.使用群集模板: 用于开发人员,测试和生产环境的重复群集. 快速为特定工作负载创建集群. 重现生产群集以进行测试和调试. 按照以下常规步骤创建模板和新集群: 从源群集导出群集配置.导出的配置是一个JSON文件,详细说明了群集的所有配置.JSON文件包含一个 实例化 包含在创建新集…
CDH基于包的安装所需的权限 以下部分描述了使用Cloudera Manager进行基于软件包的CDH安装的用户权限要求.这些要求是安装和管理包和服务的标准UNIX系统要求. 所需特权 sudo由Cloudera Manager运行的命令   所需特权 重要说明:除非另有说明,否则在需要root或sudo 访问权限时,可以使用提供root / sudo权限的其他系统(如PowerBroker). 基于包的CDH安装所需的权限 任务 需要权限 安装Cloudera Manager Server r…
第3步:安装Cloudera Manager Server 在此步骤中,您将在Cloudera Manager主机上安装JDK和Cloudera Manager Server软件包. 安装Cloudera Manager Server软件包 在安装了数据库的主机上或有权访问数据库的主机上安装Cloudera Manager Server软件包.此主机不必是要使用Cloudera Manager管理的群集中的主机.在Cloudera Manager Server主机上,键入以下命令以安装Cloud…
第2步:安装Java Development Kit 要安装Oracle JDK,您可以使用Cloudera Manager安装Cloudera提供的版本,也可以直接安装Oracle的其他版本. 继续阅读: 要求 使用Cloudera Manager安装JDK 手动安装JDK 要求 已安装的JDK必须是受支持的版本,如CDH和Cloudera Manager支持的JDK版本中所述. 在相同版本的JDK的Oracle必须安装在每个群集主机上. 必须安装JDK / usr / java / jdk-…
第6步:安装CDH和其他软件 设置Cloudera Manager数据库后,启动Cloudera Manager Server,然后登录Cloudera Manager Admin Console: 启动Cloudera Manager Server: RHEL 7兼容: sudo systemctl start cloudera-scm-server 兼容RHEL 6,Ubuntu,SLES: sudo service cloudera-scm-server start 等待几分钟,以启动Cl…
安装Cloudera Manager,CDH和托管服务 建议使用此过程为生产环境安装Cloudera Manager和CDH.对于非生产“易于安装”,请参阅安装概念证明群集. 在开始安装之前,请确保已查看“ 安装前”中所述的要求和其他注意事项. 安装过程的一般步骤如下: 第1步:配置存储库 第2步:安装JDK 第3步:安装Cloudera Manager Server 第4步:安装数据库 步骤5:设置Cloudera Manager数据库 第6步:安装CDH和其他软件 第7步:设置群集…
创建群集主机的虚拟映像 您可以使用预先部署的Cloudera软件创建虚拟机映像,例如PXE启动映像,Amazon AMI和Azure VM映像,这些映像可用于快速启动虚拟机.这些图像使用parcel来安装CDH软件.本主题描述了创建Cloudera Manager主机和工作主机映像的过程以及如何从这些映像实例化主机. 继续阅读: 创建预部署的Cloudera Manager主机 实例化Cloudera Manager映像 创建预部署的工作主机 实例化工作者主机 创建预部署的Cloudera Ma…
配置自定义Java主目录位置 注意: Cloudera强烈建议安装JDK/ usr / java / jdk-version,允许Cloudera Manager自动检测并使用正确的JDK版本.如果在其他任何位置安装JDK,则必须按照这些说明使用所选位置配置Cloudera Manager.以下过程仅更改Cloudera Management Services和CDH群集进程的JDK位置.它不会影响其他非Cloudera进程或网关角色使用的JDK . 虽然不推荐,但Cloudera服务所需的Or…
本主题描述如何在Cloudera Manager部署中创建内部包存储库和直接主机以使用该存储库.您可以创建永久或临时存储库. 完成这些步骤后,您可以安装特定版本的Cloudera Manager或在未连接到Internet的主机上安装Cloudera Manager. 继续阅读: 创建永久内部存储库 创建临时内部存储库 修改客户端以使用内部存储库 创建永久内部存储库   安装Web服务器 存储库通常使用网络内主机上的HTTP进行托管.如果组织中已有Web服务器,则可以移动存储库目录,该目录将包括…
Cloudera托管两种类型的软件存储库,您可以使用它们来安装诸如Cloudera Manager或CDH-parcel存储库和软件包存储库之类的产品. 在大多数情况下,这些存储库是有效的解决方案,但有时需要自定义安装解决方案.使用Cloudera托管的软件存储库需要通过Internet进行客户端访问.典型安装使用最新的可用软件.在某些情况下,这些行为可能并不可取,例如: 您需要安装较旧的产品版本.例如,在CDH群集中,所有主机必须运行相同的CDH版本.完成初始安装后,您可能希望添加主机.这可能…
使用内部包裹存储库 您可以通过托管内部存储库或手动将存储库文件复制到Cloudera Manager主机来为Cloudera Manager创建parcel存储库. 继续阅读: 托管内部包裹存储库 配置Cloudera Manager Server以使用托管存储库的宗地URL 使用本地包裹存储库 托管内部包裹存储库 要托管内部存储库,必须在Cloudera Manager主机可访问的内部主机上安装或使用现有Web服务器,然后将存储库文件下载到Web服务器主机. 安装Web服务器 存储库通常使用网…
列出的所有端口都是TCP. 在下表中,每个端口的“ 访问要求”列通常是“内部”或“外部”.在此上下文中,“内部”表示端口仅用于组件之间的通信; “外部”表示该端口可用于内部或外部通信. Component Service Qualifier Port Access Requirement Configuration Comment Hadoop HDFS DataNode 50010 External dfs.datanode.address DataNode HTTP server port…
Cloudera Manager的存储空间规划 最低要求角色: 完全管理员 Cloudera Manager跟踪许多后台进程中的服务,作业和应用程序的度量标准.所有这些指标都需要存储.根据组织的大小,此存储可以是本地或远程,基于磁盘的,也可以是数据库,由您或其他位置的其他团队管理. 大多数系统管理员都知道常见的位置 /var/log/并且这些地点需要有足够的空间.本主题可帮助您规划Cloudera Manager Server和Cloudera Management Service用于存储度量标…
DistCp使用的端口 列出的所有端口都是TCP. 在下表中,每个端口的“ 访问要求”列通常是“内部”或“外部”.在此上下文中,“内部”表示端口仅用于组件之间的通信; “外部”表示该端口可用于内部或外部通信. 已弃用(但仍然有效) Component Service Qualifier Port Access Requirement Configuration Comment Hadoop HDFS NameNode 8020 External fs.default. name or fs.de…
Impala使用的端口 Impala使用下表中列出的TCP端口.在部署Impala之前,请确保在每个系统上打开这些端口. Component Service Port Access Requirement Comment Impala Daemon Impala Daemon Frontend Port 21000 External 用于传输命令和接收结果 impala-shell和Cloudera ODBC驱动程序的1.2版. Impala Daemon Impala Daemon Front…
端口 Cloudera Manager,CDH组件,托管服务和第三方组件使用下表中列出的端口.在部署Cloudera Manager,CDH和托管服务以及第三方组件之前,请确保在每个系统上打开这些端口.如果您使用的是防火墙,例如iptables的 要么 firewalld,并且无法打开所有列出的端口,必须完全禁用防火墙以确保完整功能. 在随后的小节的表中,每个端口的“访问要求”列通常是“内部”或“外部”.在此上下文中,“内部”表示该端口仅用于组件之间的通信(例如HA配置中的JournalNode…
下图概述了Cloudera Manager,Cloudera Navigator和Cloudera Management Service角色使用的一些端口: Cloudera Manager和Cloudera Navigator使用的端口 当对等网络分发为包裹启用,Cloudera的管理代理可以获取来自Cloudera的管理服务器或从其他代理包裹,如下所示: 用于对等包裹分发的端口 有关更多详细信息,请参阅下表.列出的所有端口都是TCP. 在下表中,Internal表示该端口仅用于组件之间的通信…
Apache Flume和Apache Solr使用的端口 Apache Flume用于与Apache Solr通信的端口可能会有所不同,具体取决于您的配置以及是否使用安全性(例如,SSL).使用Flume写入HDFS和Solr接收器的典型群集使用下面列出的端口: 端口 描述 41414 HTTP端口 - Flume Web服务器侦听请求的端口.Flume持续使用此端口. 7184 Cloudera Manager事件发布端口 - 事件服务器侦听事件发布的端口.Flume持续使用此端口. 802…
第三方组件使用的端口 在下表中,每个端口的“ 访问要求”列通常是“内部”或“外部”.在此上下文中,“内部”表示端口仅用于组件之间的通信; “外部”表示该端口可用于内部或外部通信. Component Service Qualifier Port Protocol Access Requirement Configuration Comment Ganglia ganglia-gmond 8649 UDP/TCP Internal ganglia-web 80 TCP External Via A…
Cloudera Search使用的端口 在下表中,每个端口的“ 访问要求”列通常是“内部”或“外部”.在此上下文中,“内部”表示端口仅用于组件之间的通信; “外部”表示该端口可用于内部或外部通信. Component Service Port Protocol Access Requirement Comment Cloudera Search Solr search/update 8983 http External All Solr-specific actions, update/que…
列出的所有端口都是TCP. 在下表中,每个端口的“ 访问要求”列通常是“内部”或“外部”.在此上下文中,“内部”表示端口仅用于组件之间的通信; “外部”表示该端口可用于内部或外部通信. 零件 服务 港口 访问要求 组态 评论 Cloudera Navigator密钥受托服务器( Cloudera Navigator Key Trustee Server) HTTPS(密钥管理) 11371 外部 密钥受托者服务器服务 > 配置 > 类别 > 端口和地址 > 密钥受托者服务器端口 N…
博主会用三篇文章为大家详细说明hadoop的三种模式: 本地模式 伪分布模式 完全分布模式 完全分布式模式: 前面已经说了本地模式和伪分布模式,这两种在hadoop的应用中并不用于实际,因为几乎没人会将整个hadoop集群搭建在一台服务器上(hadoop主要是围绕:分布式计算和分布式存储,如果以一台服务器做,那就完全违背了hadoop的核心方法).简单说,本地模式是hadoop的安装,伪分布模式是本地搭建hadoop的模拟环境.(当然实际上并不是这个样子的,小博主有机会给大家说!) 那么在had…
1.Hadoop运行模式Hadoop有三种运行模式,分别如下:单机(非分布式)模式伪分布式(用不同进程模仿分布式运行中的各类节点)模式完全分布式模式注:前两种可以在单机运行,最后一种用于真实的集群环境,通常用在生产环境上.我们可以搭建本地的伪分布式模式来模拟分布式环境的执行. 2.Hadoop的安装及配置环境:Ubuntu10.10,Hadoop 0.21.0安装步骤如下:1.准备工作:1).安装ssh server,如何安装ssh server请看http://www.tieguanyin16…