一.简介 MySQL是一个关系型数据库系统,由瑞典MySQL AB 公司开发,目前属于 Oracle 旗下产品.MySQL 是最流行的关系型数据库管理系统之一,在 WEB 应用方面,MySQL是最好的 RDBMS (Relational Database Management System,关系数据库管理系统) 应用软件. 大数据组件中,hive需要使用mysql作为metastore的存储的地方,hue也需要使用mysql存储数据,所以这项安装技能还是必备的 二.使用yum方式安装 1.首先卸…
一.简介 hive是基于hadoop的一种数据仓库工具,可以将结构化的文件映射成为数据库的一张表,并提供简单sql查询功能,底层实现是转化为MapReduce任务计算. 二.安装 (1)下载 从cdh下载页下载 http://archive.cloudera.com/cdh5/cdh/5/ hive-1.1.0-cdh5.11.1.tar.gz 下载好后上传至服务器的/home/hadoop/software,并解压至/home/hadoop/app目录下 mv hive-1.1.0-cdh5.…
大数据平台搭建(hadoop+spark) 一.基本信息 1. 服务器基本信息 主机名 ip地址 安装服务 spark-master 172.16.200.81 jdk.hadoop.spark.scala spark-slave01 172.16.200.82 jdk.hadoop.spark spark-slave02 172.16.200.83 jdk.hadoop.spark spark-slave03 172.16.200.84 jdk.hadoop.spark 2. 软件基本信息 软…
CDH构建大数据平台-使用自建的镜像地址安装Cloudera Manager 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.   一.搭建CM私有仓库 详情请参考我的笔记: https://www.cnblogs.com/yinzhengjie/p/10412455.html. 1>.安装web服务器并启动  [root@node105 ~]# yum -y install httpd Loaded plugins: fastestmirror Loading mirror s…
一.安装说明 CM是由cloudera公司提供的大数据组件自动部署和监控管理工具,相应的和CDH是cloudera公司在开源的hadoop社区版的基础上做了商业化的封装的大数据平台. 采用离线安装模式,虽然在线安装比较简单,但是速度感人,原因大家都懂,这里我使用的各软件版本信息为: 操作系统:CentOS6.8 CDH版本:5.7.1:CDH-5.7.1-1.cdh5.7.1.p0.11-el5.parcel.sha CDH-5.7.1-1.cdh5.7.1.p0.11-el6.parcel m…
一.概述 Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”),基于Web的用户界面,支持大多数Hadoop组件,包括HDFS.MapReduce.Hive.Pig. Hbase.Zookeeper.Sqoop,简化了大数据平台的安装.使用难度. 二.安装部署 | 序号 | IP地址 | 主机名 |系统版本| | -------- | -------- | -------- | | 1 | 172.20.2.222…
一.概述 Apache Ambari是一个基于Web的支持Apache Hadoop集群的供应.管理和监控的开源工具,Ambari已支持大多数Hadoop组件,包括HDFS.MapReduce.Hive.Pig. Hbase.Zookeeper.Sqoop和Hcatalog等.提供Web UI进行可视化的集群管理,简化了大数据平台的安装.使用难度. 二.安装部署 2.1 主机规划 | 序号 | IP地址 | 主机名 |系统版本| | -------- | -------- | --------…
本系列文章主要阐述大数据计算平台相关框架的搭建,包括如下内容: 基础环境安装 zookeeper集群的搭建 kafka集群的搭建 hadoop/hbase集群的搭建 spark集群的搭建 flink集群的搭建 elasticsearch集群的搭建 alluxio集群的搭建 1.zookeeper简介 Zookeeper是一个分布式的.开源的分布式应用协调服务,它暴露了一组简单的基础原件,分布式应用可以在这些原件之上实现更高级别的服务,主要使用场景和功能如下: Naming service Con…
一.前言 由于线下测试的需要,需要在公司线下(测试)环境搭建大数据集群. 那么CDH是什么? hadoop是一个开源项目,所以很多公司再这个基础上进行商业化,不收费的hadoop版本主要有三个,分别是: (1)Apache,最原始的版本,所有发行版均基于这个版本进行改进 缺点:版本部署混乱,部署过程繁杂,升级过程繁杂,兼容性差,安全性差 (2)CDH版本,在Apache基础上,进行了封装,处理了不同版本的兼容问题.有用户管理界面 (3)Hotnowork版本. 由于公司测试环境的内存有限(8G)…
本系列文章主要阐述大数据计算平台相关框架的搭建,包括如下内容: 基础环境安装 zookeeper集群的搭建 kafka集群的搭建 hadoop/hbase集群的搭建 spark集群的搭建 flink集群的搭建 elasticsearch集群的搭建 alluxio集群的搭建 1.kafak简介 Kafka是一个分布式.分区的.多副本的.多订阅者的消息队列,以高吞吐量著称,主要用于实时数据的传输和处理,总体架构如下 更多内容请阅读官网 http://kafka.apache.org/document…