1.要求和支持的版本

(PS:我使用的环境,都用加粗标识了。)

1.1 支持的操作系统版本

操作系统 版本
RHEL/CentOS/OL with RHCK kernel 7.6, 7.5, 7.4, 7.3, 7.2,6.10, 6.9 , 6.8
Oracle Linux (OL) 7.4, 7.3, 7.2 (UEK default)
SUSE Linux Enterprise Server
SLES 12 SP4, 12 SP3, 12 SP2
Ubuntu
Ubuntu 16.04 LTS (Xenial)

​ (系统版本要求)

1.2硬件要求

组件 存储 说明
Partition hosting /usr 1 GB
Partition hosting /var 5 GB to 1 TB Scales according to number of nodes managed. See table below.
Partition hosting /opt 15 GB minimum Usage grows as the number of parcels downloaded increases.
Cloudera Manager Database Server 5 GB If the Cloudera Manager Database is shared with the Service Monitor and Host Monitor, more storage space is required to meet the requirements for those components.

​ (系统空间要求)

1.3 支持的MySql版本

MySQL版本 Cloudera Enterprise 6.x
5.1(RHEL / CentOS / OEL 6的默认设置)
5.5(Debian 8.9的默认设置)
5.6
5.7(Ubuntu 16.04、18.04 LTS的默认设置)

​ (MySql版本要求)

1.4支持的JDKs

Cloudera企业版 支持的Oracle JDK 支持的OpenJDK
5.3 -5.15 1.7、1.8 没有
5.16 和更高的5.x版本 1.7、1.8 1.8
6.0 1.8 没有
6.1 1.8 1.8
6.2 1.8 1.8
6.3 1.8 1.8、11.0.3或更高

​ (从上图可以看到6.0支持的是1.8版本)

1.5 推荐使用的JDK

Oracle JDK版本 笔记
1.8u181 推荐/最新版本经过测试
1.8u162 推荐的
1.8u141 推荐的
1.8u131 推荐的
1.8u121 推荐的
1.8u111 推荐的
1.8u102 推荐的
1.8u91 推荐的
1.8u74 推荐的
1.8u31 最低要求

​ (推荐的MySql版本)

1.6CM和CDH兼容性

1.6.1 版本支持

当前的Cloudera Manager版本 支持的Cloudera Manager升级路径 支持的CDH升级路径
6.0 6.3.x6.2.x6.1.x6.0.x维护版本 6.0.x维护版本CDH 5.7-5.14的任何次要版本

1.6.2 Cloudera Manager 6.0.0下载地址

类型 位置 (基本网址) 回购文件
兼容RHEL 7 https://archive.cloudera.com/cm6/6.0.0/redhat7/yum/ cloudera-manager.repo
兼容RHEL6 https://archive.cloudera.com/cm6/6.0.0/redhat6/yum/ cloudera-manager.repo
SLES 12 https://archive.cloudera.com/cm6/6.0.0/sles12/yum/ cloudera-manager.repo
Ubuntu Xenial(16.04) https://archive.cloudera.com/cm6/6.0.0/ubuntu1604/apt/ cloudera-manager.lis

1.6.5 CDH 6.0.0下载地址

储存库类型 位置 (基本网址)
包裹 https://archive.cloudera.com/cdh6/6.0.0/parcels/
兼容RHEL 7 https://archive.cloudera.com/cdh6/6.0.0/redhat7/yum/
兼容RHEL 6 https://archive.cloudera.com/cdh6/6.0.0/redhat6/yum/
SLES 12 https://archive.cloudera.com/cdh6/6.0.0/sles12/yum/
Ubuntu Xenial(16.04) https://archive.cloudera.com/cdh6/6.0.0/ubuntu1604/apt/

2.环境搭建

PS:推荐能使用高版本就使用高版本进行搭建,因为很多老版本都逐渐被淘汰。这也是我花费了三天多时间,使用老版本centos6.5进行搭建遇到了很多坑,最终还是没搭建好总结的一个经验。原因就是你想安装某个软件,官方都不支持下载了,你还得到处找,然后匹配,有一点不匹配就会导致内核不支持,你要是再升级内核,就又得找,然后去安装去实验,麻烦的一批。跟不上时代了,你连哭的地都没有。就相当于互联网时代能在网上购票了,你还去排很长的队去现场买票,那么你就得乘坐交通工具去吧,跑很远的路,等有一天停止人工售票了,你难道还去找门子让别人帮你买票么?话说回来了,也就是软件停更了,你难道还去各个网站去找老版本么?

2.1安装Centos7.6

主机名 cdh1 cdh2 cdh3
IP地址 192.168.40.104 192.168.40.105 192.168.40.106
其它环境 MySql,JDK JDK JDK

首先去网站 http://archive.kernel.org/centos-vault/7.6.1810/isos/x86_64/ 把CentOS-7-x86_64-DVD-1810.iso 下载到本地。

下载VMWare虚拟机软件。使用VMWare进行安装,一共需要安装三台,主机名和ip配置如上所示。

PS:先安装一台,然后照着下面设置,设置完后克隆下修改主机名和ip就可以了。

安装步骤可参考: https://blog.csdn.net/babyxue/article/details/80970526

下面说下安装完成后如何配置IP地址和修改主机名:

  • 安装vim(找个文件实验一下有没有,有的话忽略这步)

    yum -y install vim*

网络和主机名设置
# cd /etc/sysconfig/network-scripts
# vi ifcfg-ens33 --这里改为你自己的名称

修改内容如下:

#标记显示固定ip
BOOTPROTO=static
DEFROUTE=yes
PEERDNS=yes
PEERROUTES=yes
IPV4_FAILURE_FATAL=no
IPV6INIT=yes
IPV6_AUTOCONF=yes
IPV6_DEFROUTE=yes
IPV6_PEERDNS=yes
IPV6_PEERROUTES=yes
IPV6_FAILURE_FATAL=no
NAME=eno16777736
UUID=c2cc280c-e0a6-4694-b062-e43b5f44db61
#网卡名
DEVICE=eno16777736
ONBOOT=yes
#ip地址,这个以cdh1举例,我设定的为104,后面的cdh2,cdh3可以分别设置为105,106
IPADDR=192.168.40.104
#网关地址
GATEWAY=192.168.40.2
NETMASK=255.255.255.0
DNS1=114.144.144.114
DNS2=8.8.8.8
  • 修改主机别名

​ vim /etc/hostname 修改为cdh1

​ PS:其它主机照着配置即可。 设置完后重启生效。

  • 修改host文件映射别名

    vim /etc/hosts 添加

    192.168.40.104 cdh1

    192.168.40.105 cdh2

    192.168.40.106 cdh3

设置cdh1对其它主机免密钥。

在cdh1主机执行以下命令。

ssh-keygen -t rsa #一路回车即可

ssh-copy-id localhost #对本机免密钥,会提示输入本机密码

ssh-copy-id cdh2 #会提示输入cdh2的密码

ssh-copy-id cdh3 #会提示输入cdh3的密码

关闭防火墙

禁止开机启动

[root@cdh1 ~]# systemctl disable firewalld

Removed symlink /etc/systemd/system/multi-user.target.wants/firewalld.service.

Removed symlink /etc/systemd/system/dbus-org.fedoraproject.FirewallD1.service.

SELINUX关闭

setenforce 0

vi /etc/selinux/config (SELINUX=disabled)

  • 克隆到其它主机,并记得修改下主机名和ip

2.2安装MySql

建立一个mysql目录

[root@cdh1 etc]# mkdir -p /opt/mysql

[root@cdh1 etc]#cd /opt/mysql

下载安装

$ wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm

$ sudo rpm -ivh mysql-community-release-el7-5.noarch.rpm

$ sudo yum update

$ sudo yum install mysql-server

$ sudo systemctl start mysqld

给root用户设置密码,授权,删除多余用户

[root@cdh1 mysql]# mysql

mysql> use mysql; --切库

mysql> select Host,User,Password,authentication_string from user; --查询下

mysql> grant all privileges on . to 'root'@'%' identified by '123456' WITH GRANT OPTION; --创建一个新root用户,并授权可以远程登陆

mysql> update user set authentication_string=password('123456') where user='root' and host='%'; --给用户添加远程登陆密码

mysql> select Host,User,Password,authentication_string from user; --再查询下,可以看的多了个一个root用户

+-----------+------+-------------------------------------------+-----------------------+

| Host | User | Password | authentication_string |

+-----------+------+-------------------------------------------+-----------------------+

| localhost | root | | |

| cdh1 | root | | |

| 127.0.0.1 | root | | |

| ::1 | root | | |

| localhost | | | NULL |

| cdh1 | | | NULL |

| % | root | *6BB4837EB74329105EE4568DDA7DC67ED2CA2AD9 | |

+-----------+------+-------------------------------------------+-----------------------+

mysql> flush privileges; --刷新权限

mysql> quit; --退出

[root@VM_0_10_centos ~]# systemctl restart mysqld --重启下,登陆

[root@VM_0_10_centos ~]# mysql -uroot -p

Enter password:

然后这个时候通常会提示以下错误:

ERROR 1045 (28000): Access denied for user 'root'@'cdh1' (using password: YES)。

网上查了很多解决方案,都让设置my.cnf配置文件,然后修改密码。但是这里并不是密码问题,而是上面的一些没密码的用户干扰的。把没密码的用户都删掉,反正也没用,然后就可以了。如下:

delete from mysql.user where Password ='' or Password is null;

flush privileges; --刷新权限

systemctl restart mysql --重启mysql,然后再登陆就可以登陆了,如下所示。

[root@cdh1 mysql]# mysql -uroot -p

Enter password:

Welcome to the MySQL monitor. Commands end with ; or \g.

Your MySQL connection id is 2

Server version: 5.6.47 MySQL Community Server (GPL)

Copyright (c) 2000, 2020, Oracle and/or its affiliates. All rights reserved.

Oracle is a registered trademark of Oracle Corporation and/or its

affiliates. Other names may be trademarks of their respective

owners.

Type 'help;' or '\h' for help. Type '\c' to clear the current input statement.

mysql>

2.3安装JDK8

2.3.1.首先下载

由于官网太慢了,还有有好心人把包搬到了Github上,这样我们就方便下载了。

https://github.com/frekele/oracle-java/releases

根据上面的推荐,这里我选择的1.8u181版本。

2.3.2.通过FTP上传到cdh1上面

PS:官方规定一定要上传到/usr/java目录下,没有就创建

在cdh1下面创建一个mysql目录

[root@cdh1 etc]# cd /usr/java/

通过FTP将下载好的jdk-8u181-linux-x64.tar.gz上传到目录并解压

tar -xvf jdk-8u181-linux-x64.tar.gz

2.3.3.配置环境

[root@cdh1 jdk1.8.0_181]# vim /etc/profile

在文件下方添加如下内容:

export JAVA_HOME=/usr/java/jdk1.8.0_181
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/jre/lib/ext:$JAVA_HOME/lib/tools.jar

然后重启系统,使用命令java -version命令验证即可

[root@cdh1 ~]# java -version
java version "1.8.0_181"
Java(TM) SE Runtime Environment (build 1.8.0_181-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.181-b13, mixed mode)

其它机器按照类似步骤配置即可。

2.4系统环境准备

2.4.1安装NTP

PS:NTP是个时间管理器,用于同步时间。

$ yum -y install ntp

$ systemctl enable ntpd #启用NTP

$ systemctl start ntpd #运行NTP

$ systemctl enable ntpd.service #设置开机启动

2.5为CM配置Repository(就是rpm仓库)

2.5.1 在cdh1,cdh2,cdh3安装ClouderaManager

sudo wget <repo_file_url> -P /etc/yum.repos.d/

根据1.6.2推荐,repo_file_url这里写: https://archive.cloudera.com/cm6/6.0.0/redhat7/yum/cloudera-manager.repo

$ sudo wget https://archive.cloudera.com/cm6/6.0.0/redhat7/yum/cloudera-manager.repo -P /etc/yum.repos.d/

2.5.2 导入存储库签名GPG密钥:

RHEL 7 compatible:

$ sudo rpm --import https://archive.cloudera.com/cm6/6.0.0/redhat7/yum/RPM-GPG-KEY-cloudera

2.6 安装Cloudera Manager服务

2.6.1在cdh1服务器安装server,daemons,agent

$ sudo yum install cloudera-manager-daemons cloudera-manager-agent cloudera-manager-server

2.6.2在cdh2,cdh3服务器安装daemons,agent

$ sudo yum install cloudera-manager-daemons cloudera-manager-agent

2.6.3 在所有主机上指定server服务器地址和端口

$ vim /etc/cloudera-scm-agent/config.ini

server_host配置CM Server服务器名,server_port配置CM Server端口

这里都要配置成:

server_host=cdh1

server_port=7182

2.6.4启动所有服务器的代理

$ sudo systemctl start cloudera-scm-agent

2.7配置MySql

2.7.1 停止服务器

sudo systemctl stop mysqld

2.7.2移除老的日志文件

例如将 /var/lib/mysql/ib_logfile0 和 /var/lib/mysql/ib_logfile1 移出 /var/lib/mysql/ 到别的地方备份。

2.7.3 更新 my.cnf 符合以下要求

设置缓存,死锁,最大连接数

vim /etc/my.cnf

  • 为防止死锁设置隔离级别为 READ-COMMITTED.

  • 设置存储引擎为InnoDB,而不是MyISAM

    PS:InnoDB和MyISAM是许多人在使用MySQL时最常用的两个表类型,这两个表类型各有优劣,视具体应用而定。基本的差别为:MyISAM类型不支持事务处理等高级处理,而InnoDB类型支持。MyISAM类型的表强调的是性能,其执行数度比InnoDB类型更快,但是不提供事务支持,而InnoDB提供事务支持以及外部键等高级数据库功能。

​ 可以使用命令查看用的哪个引擎:

mysql> show table status from [YourDatabaseName];

  • service服务器(这里是cdh1)设置innodb_flush_method属性为 O_DIRECT 以提供更大吞吐量。

  • 根据服务器集群设置 max_connections 属性

    • 少于50台主机-您可以在同一台主机上存储多个数据库(例如,活动监视器和服务监视器)。如果这样做,您应该:

    • 将每个数据库放在其自己的存储卷上。

    • 每个数据库允许100个最大连接,然后添加50个额外的连接。例如,对于两个数据库,将最大连接数设置为250。如果在一个主机上存储五个数据库(Cloudera Manager Server,Activity Monitor,Reports Manager,Cloudera Navigator和Hive metastore的数据库),则将最大连接数设置为550。

    • 超过50台不要在同一个主机上存储多个数据库。每个数据库应配置单独的主机。

    • 超过1000台应设置max_allowed_packet为16M。

    下面是一个推荐配置表:

    [mysqld]
    datadir=/var/lib/mysql
    socket=/var/lib/mysql/mysql.sock
    transaction-isolation = READ-COMMITTED
    # Disabling symbolic-links is recommended to prevent assorted security risks;
    # to do so, uncomment this line:
    symbolic-links = 0 key_buffer_size = 32M
    max_allowed_packet = 32M
    thread_stack = 256K
    thread_cache_size = 64
    query_cache_limit = 8M
    query_cache_size = 64M
    query_cache_type = 1 max_connections = 550
    #expire_logs_days = 10
    #max_binlog_size = 100M #log_bin should be on a disk with enough free space.
    #Replace '/var/lib/mysql/mysql_binary_log' with an appropriate path for your
    #system and chown the specified folder to the mysql user.
    log_bin=/var/lib/mysql/mysql_binary_log #In later versions of MySQL, if you enable the binary log and do not set
    #a server_id, MySQL will not start. The server_id must be unique within
    #the replicating group.
    server_id=1 binlog_format = mixed read_buffer_size = 2M
    read_rnd_buffer_size = 16M
    sort_buffer_size = 8M
    join_buffer_size = 8M # InnoDB settings
    innodb_file_per_table = 1
    innodb_flush_log_at_trx_commit = 2
    innodb_log_buffer_size = 64M
    innodb_buffer_pool_size = 4G
    innodb_thread_concurrency = 8
    innodb_flush_method = O_DIRECT
    innodb_log_file_size = 512M [mysqld_safe]
    log-error=/var/log/mysqld.log
    pid-file=/var/run/mysqld/mysqld.pid sql_mode=STRICT_ALL_TABLES
  • 确保数据库启用

    $ sudo systemctl enable mysqld

  • 启动数据库

    $ sudo systemctl start mysqld

2.7.4安装MySql JDBC驱动程序

在所有数据据服务器安装JDBC程序。官网推荐安装5.1版本。安装步骤如下:

其中可以先在cdh1安装,然后复制到cdh2和cdh3即可(cdh2和cdh3安装了,就可以使用cdh1数据库了。):

  • 下载JDBC驱动程序

    [root@cdh1 mysql]# cd /opt/mysql

    [root@cdh1 mysql]# mkdir jdbcDriver

    [root@cdh1 mysql]# cd jdbcDriver

    [root@cdh1 jdbcDriver]# wget https://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.46.tar.gz

  • 放入到/usr/share/java目录下

    [root@cdh1 jdbcDriver]# tar -xf mysql-connector-java-5.1.46.tar.gz

    [root@cdh1 jdbcDriver]# cd mysql-connector-java-5.1.46

    [root@cdh1 mysql-connector-java-5.1.46]# sudo mkdir -p /usr/share/java --创建java目录

    [root@cdh1 mysql-connector-java-5.1.46]# cp mysql-connector-java-5.1.46.jar /usr/share/java/mysql-connector-java.jar --将驱动复制到/usr/share/java目录,并重命名

2.7.5为cloudera创建数据库
  • 登陆数据库

    systemctl start mysqld

    $ mysql -u root -p

    Enter password:

  • 创建数据库

    语法参考:

    • 创建数据库:

    mysql>CREATE DATABASE DEFAULT CHARACTER SET DEFAULT COLLATE utf8_general_ci;

    Query OK, 1 row affected (0.00 sec)

    • 给用户授权:

    GRANT ALL ON .* TO ''@'%' IDENTIFIED BY '';

    Query OK, 0 rows affected (0.00 sec)

    flush privileges;

    需要创建的表:

Service Database User
Cloudera Manager Server scm scm
Activity Monitor amon amon
Reports Manager rman rman
Hue hue hue
Hive Metastore Server metastore hive
Sentry Server sentry sentry
Cloudera Navigator Audit Server nav nav
Cloudera Navigator Metadata Server navms navms
Oozie oozie oozie

拿Cloudra Manager Server举例:

  • 创建数据库scm,hive,hue,oozie

$ mysql> CREATE DATABASE scm DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;

$ mysql> CREATE DATABASE metastore DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;

$ mysql> CREATE DATABASE hue DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;

$ mysql> CREATE DATABASE oozie DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;

  • 给用户授权

mysql> GRANT ALL ON scm.* TO 'scm'@'%' IDENTIFIED BY '123456' WITH GRANT OPTION;

mysql> GRANT ALL ON metastore.* TO 'hive'@'%' IDENTIFIED BY '123456' WITH GRANT OPTION;

mysql> GRANT ALL ON hue.* TO 'hue'@'%' IDENTIFIED BY '123456' WITH GRANT OPTION;

mysql> GRANT ALL ON oozie.* TO 'oozie'@'%' IDENTIFIED BY '123456' WITH GRANT OPTION;

mysql>use mysql; --注意切换数据库哦

mysql> update user set authentication_string=password('123456') where user='scm' and host='%'; --自己创建的用户是没有密码的,手动更新

mysql> update user set authentication_string=password('123456') where user='hive' and host='%'; --自己创建的用户是没有密码的,手动更新

mysql> update user set authentication_string=password('123456') where user='hue' and host='%'; --自己创建的用户是没有密码的,手动更新

mysql> update user set authentication_string=password('123456') where user='oozie' and host='%'; --自己创建的用户是没有密码的,手动更新

mysql> flush privileges; --刷新权限

  • 确认下是否创建成功

mysql>SHOW DATABASES;

mysql>SHOW GRANTS FOR 'scm'@'%';

mysql>SHOW GRANTS FOR 'hive'@'%';

mysql>SHOW GRANTS FOR 'hue'@'%';

mysql>SHOW GRANTS FOR 'oozie'@'%';

**PS:%授权用户本地登陆的时候需要指定主机: mysql -u用户名 -p密码 -h192.168.9.111 **

2.8设置Cloudea Manager数据库

假如2.7.5你已经配置好的数据库,执行下面:

sudo /opt/cloudera/cm/schema/scm_prepare_database.sh -h 主机名或IP

例如:

sudo /opt/cloudera/cm/schema/scm_prepare_database.sh mysql scm scm -h cdh1

如果2.7.5没有配置,执行下面

sudo /opt/cloudera/cm/schema/scm_prepare_database.sh [选项] <数据库类型> <数据库名称> <数据库用户> <密码>

例如:

sudo /opt/cloudera/cm/schema/scm_prepare_database.sh mysql scm -uroot -p123456

2.9安装CDH和其它软件

2.9.1启动Cloudra Manager服务器

注意:建议先参考2.9.3里面的图8,将文件下载到本地,然后上传到服务器,再进行下面操作,不然访问外国的网站很慢,会导致无法下载,很麻烦,这个坑我帮你踩过了,别怪没提醒哦~

$ sudo systemctl start cloudera-scm-server

等待几分钟,以启动Cloudera Manager Server。要观察启动过程,请在Cloudera Manager Server主机上运行以下命令:

$ sudo tail -f /var/log/cloudera-scm-server/cloudera-scm-server.log

当出现一下内容时证明安装成功了:

INFO WebServerImpl:com.cloudera.server.cmf.WebServerImpl: Started Jetty server.

2.9.2登陆UI系统

访问地址: http://<server_host>:7180

这里是:

http://cdh1:7180

默认登陆账号和密码都是admin

2.9.3进入系统,开始安装流程

注意:可以提前参考地——步,将文件下载到本地,然后上传到服务器,

图1:

图2:

图3:

图4:

图5:

图6:

图7:

图8:

PS:如果下载比较慢的话,可以手动下载到本地(本地也慢的话,可以使用一台国外云服务器进行下载,下载完后再通过FTP下载到本地),然后上传到Manager Server服务器的/opt/cloudera/parcel-repo 下面。然后注意注意,这里需要重启manager service服务。然后重新登陆,不然它还会自动下载!!!

重启完后继续,报了异常:主机运行不良。查了下 解决方案,删除cm_guid 文件,然后重启agent服务。

rm -f /var/lib/cloudera-scm-agent/cm_guid --移除

sudo systemctl restart cloudera-scm-server

sudo systemctl restart cloudera-scm-agent

登陆数据库,删除上面创建的scm数据库里面的所有的表。

sudo tail -f /var/log/cloudera-scm-server/cloudera-scm-server.log

然后再重新登陆。挺费时间的,毕竟重启一次很慢,不过也没办法啦~

图9:

图10:

图11:

PS:上面提示红色表示有错误,黄色表示警告,绿色表示正常。查询错误不用管,等集群运行一会有数据了就显示了。

上面可能遇到的问题及解决方案:

问题1:Could not create the Java Virtual Machine。。。。

解决方案:这个是虚拟机内存太小造成的,改大些就好了。参考链接

问题2: Actually, the** Job History server** would be owned by mapred and if you want to see the exact permissions you should refer to:

解决方案:这个是没有权限造成的。参考链接

问题3: 此角色的主机的运行状况为存在隐患。 以下运行状况测试存在隐患: 正在交换。

原理参考 解决方案就是加大电脑内存,然后加大虚拟机内存。(PS:所以想学大数据,先装内存条吧,哈哈哈~)

解决后来张图:

上面将HDFS,Zookeeper和Yarn安装完了。接下来安装下Hive,oozie和hue,注意最后安装hue,因为hue会基于以前安装的内容渲染UI。

安装Hive

oozie简介

oozie是一个工作流,可以将多种任务拼接在一起自动执行。

oozie wordflow是作业操作的有向无环图。

oozie coordinator 作业由时间和数据触发的oozie workflow周期性作业。

安装oozie

oozie问题

首次打开页面可能会提示:

Oozie web console is disabled.

To enable Oozie web console install the Ext JS library.

Refer to Oozie Quick Start documentation for details.

解决方法:

下载ext2.2.zip包

链接:https://pan.baidu.com/s/1VvzuFTA4eUsc2qe0AoFe6Q

提取码:lyff

放在/var/lib/oozie/ 下解压即可。

hue简介

hue是大数据的一个图形界面工具。

安装hue

impala简介

针对hbase和hdfs的大数据进行查询,并基于hive的metastore进行找数据。它和hive相似,但是为了提高速度,用内存存储结果。

因为内存是有限的,所以一般impala和hive结合使用。

安装impala

impala架构图

impala使用

在控制台,使用impala-shell 进入,然后操作语句和Hive一样,使用SQL即可。

参考: https://www.w3cschool.cn/impala/impala_shell.html

题外话:

当我上传博客到博客园时,因为我的博客是Markdown写的,为了方便上传,把图片都放到路过图床了,上传完毕后,我的图片居然都不显示,然后登陆路过图床排查原因,果然,上传的图片都失效了,包括之前的图片也不能看了,哎~ 免费没好货啊,担心的事情这么快就发生了,我想着图片怎么能用几年,这才几个月啊。我体会到要找活得长久的,技术好的公司的图床,要不没几年倒闭了或者图床被攻击了,你就哭去吧。最后我买了腾讯的对象存储,这个公司和技术不用质疑了,嗯!掏钱就行了,不过能买来心安也不错。 另外悟出来一点就是买公司产品,还是买大公司的好,小公司几天倒闭了,你的用户数据,财务数据怎么办?所以强者越强,弱者越弱,越弱越没人搭理,越强吸引的人才就多,公司产品就能做的越好,公司也就能做的越长久。

系列传送门

入门大数据---安装ClouderaManager,CDH和Impala,Hue,oozie等服务的更多相关文章

  1. 给Clouderamanager集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解)

    这个很简单,在集群机器里,选择就是了,本来自带就有Impala的. 扩展博客 给Ambari集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解)

  2. 给Ambari集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解)

    不多说,直接上干货! Impala和Hive的关系(详解) 扩展博客 给Clouderamanager集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解) 参考 horton ...

  3. 入门大数据---Hadoop是什么?

    简单概括:Hadoop是由Apache组织使用Java语言开发的一款应对大数据存储和计算的分布式开源框架. Hadoop的起源 2003-2004年,Google公布了部分GFS和MapReduce思 ...

  4. 入门大数据---Flink学习总括

    第一节 初识 Flink 在数据激增的时代,催生出了一批计算框架.最早期比较流行的有MapReduce,然后有Spark,直到现在越来越多的公司采用Flink处理.Flink相对前两个框架真正做到了高 ...

  5. 大数据时代快速SQL引擎-Impala

    背景 随着大数据时代的到来,Hadoop在过去几年以接近统治性的方式包揽的ETL和数据分析查询的工作,大家也无意间的想往大数据方向靠拢,即使每天数据也就几十.几百M也要放到Hadoop上作分析,只会适 ...

  6. 转:大数据时代快速SQL引擎-Impala

    本文来自:http://blog.csdn.net/yu616568/article/details/52431835 如有侵权 可立即删除 背景 随着大数据时代的到来,Hadoop在过去几年以接近统 ...

  7. 大数据平台搭建 - cdh5.11.1 - hue安装及集成其他组件

    一.简介 hue是一个开源的apache hadoop ui系统,由cloudear desktop演化而来,最后cloudera公司将其贡献给了apache基金会的hadoop社区,它基于pytho ...

  8. 入门大数据---Spark_Streaming整合Flume

    一.简介 Apache Flume 是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中.Spark Straming 提供了以下两种方式用于 ...

  9. 入门大数据---SparkSQL外部数据源

    一.简介 1.1 多数据源支持 Spark 支持以下六个核心数据源,同时 Spark 社区还提供了多达上百种数据源的读取方式,能够满足绝大部分使用场景. CSV JSON Parquet ORC JD ...

随机推荐

  1. SpringCloud Eureka Client和Server侧配置及Eureka高可用配置

    一.Eureka注册中心和客户端配置Demo. 1.Server端 a.使用Idea创建Spring项目,如下所示: b.相关配置 application.yaml配置文件如下: # eureka本身 ...

  2. 看不见远程新建git分支

    再网页上新建了一个git分支.然后在本地跑git branch -r(查看远程分支)/ git branch -a(查看所有分支)两个命令,都没有看到新建的那个分支.这是为啥呢??? 原因是因为:gi ...

  3. Java实现 蓝桥杯 算法训练 多阶乘计算

    试题 算法训练 多阶乘计算 问题描述 我们知道,阶乘n!表示n*(n-1)(n-2)-21, 类似的,可以定义多阶乘计算,例如:5!!=531,依次可以有n!..!(k个'!',可以简单表示为n(k) ...

  4. Java实现 LeetCode 609 在系统中查找重复文件(阅读理解+暴力大法)

    609. 在系统中查找重复文件 给定一个目录信息列表,包括目录路径,以及该目录中的所有包含内容的文件,您需要找到文件系统中的所有重复文件组的路径.一组重复的文件至少包括二个具有完全相同内容的文件. 输 ...

  5. 初学python笔记

    一.关于python ① 由荷兰人Guido van Rossum(龟叔)于1989年圣诞节为打发无聊时间所编写的编程语言. ② python的特点:优雅 明确 简单.代码量少,运行速度快. 缺点:运 ...

  6. php symfony/var-dumper 打印插件

    $records = array( array( 'id' => 2135, 'first_name' => 'John', 'last_name' => 'Doe', ), arr ...

  7. zabbix内存百分比监控告警

    本文结合配置内存不足10%触发报警的需求,zabbix给我们提供的模板,里面都已经配置好了item和trigger.但是给我们的模板是当内存小于20M的时候才会触发报警,这样不能满足我们的需求,我们需 ...

  8. 双向链表都不懂,还说懂Redis?

    目录 redis源码分析系列文章 前言 API使用 lpush左侧插入数据 rpush右侧插入数据 删除某个数据 修改某个数据 具体逻辑图 双向链表的定义 节点ListNode 整体架构 双向链表的实 ...

  9. 详解 Seata Golang 客户端 AT 模式及其使用

    源码seata-golang 概述   我们知道 Seata Java Client 的 AT 模式,通过代理数据源,实现了对业务代码无侵入的分布式事务协调机制,将与 Transaction Coor ...

  10. InnoDB存储引擎的事务

    事务的任务是保证一系列更新语句的原子性,锁的任务是解决并发访问可能导致的数据不一致问题.如果事务与事务之间存在并发操作,此时可以通过隔离级别实现事务的隔离性,从而实现数据的并发访问. 1 原子性(At ...