hadoop的kerberos认证

言归正传，介绍过hadoop的simple认证和kerberos后，我们在这一章介绍hadoop的kerberos认证

我们还使用hadoop集群的机器。

OS 版本: Centos6.4

Kerberos版本: krb5-1.10.3

环境配置

机器名	Ip地址	功能	安装模块
ganglia.localdomain	192.168.124.140	Kerberos server	krb5-libs krb5-server krb5-workstation krb5-devel
hadoop1.localdomain	192.168.124.135	Namenode Datanode Jobtracker tasktracker	krb5-libs krb5-workstation krb5-appl-clients
hadoop2.localdomain	192.168.124.136	Datanode tasktracker	Krb5-libs Krb5-workstation krb5-appl-servers
hadoop3.localdomain	192.168.124.137	Datanode tasktracker	Krb5-libs Krb5-workstation krb5-appl-servers

kerberos的安装，这里就不介绍了，我们创建了一个LOCALDOMAIN域的数据库

我们还是要给出配置文件的信息给大家参考

vi /etc/krb5.conf 主要修改realm

[logging]
default = FILE:/var/log/krb5libs.log
kdc = FILE:/var/log/krb5kdc.log
admin_server = FILE:/var/log/kadmind.log

[libdefaults]
default_realm = LOCALDOMAIN
dns_lookup_realm = false
dns_lookup_kdc = false
ticket_lifetime = 24h
renew_lifetime = 7d
forwardable = true

[realms]
LOCALDOMAIN = {
kdc = ganglia.localdomain
admin_server = ganglia.localdomain
}

[domain_realm]
.example.com = LOCALDOMAIN
example.com = LOCALDOMAIN

vi /var/kerberos/krb5kdc/kdc.conf

[kdcdefaults]
kdc_ports = 88
kdc_tcp_ports = 88

[realms]
LOCALDOMAIN = {
#master_key_type = aes256-cts
acl_file = /var/kerberos/krb5kdc/kadm5.acl
dict_file = /usr/share/dict/words
admin_keytab = /var/kerberos/krb5kdc/kadm5.keytab
max_renewable_life=10d
supported_enctypes = aes256-cts:normal aes128-cts:normal des3-hmac-sha1:normal arcfour-hmac:normal des-hmac-sha1:normal des-cbc-md5:normal des-cbc-crc:normal
}

vi /var/kerberos/krb5kdc/kadm5.acl

*/admin@LOCALDOMAIN *

在hadoop中，kerberos需要创建principle和生成keytab文件。

1. 创建principle

hadoop的kerberos认证，需要三种principle: hadoop, host, HTTP

addprinc -randkey hadoop/hadoop1.localdomain@LOCALDOMAIN

addprinc -randkey hadoop/hadoop2.localdomain@LOCALDOMAIN

addprinc -randkey hadoop/hadoop3.localdomain@LOCALDOMAIN

addprinc -randkey host/hadoop1.localdomain@LOCALDOMAIN

addprinc -randkey host/hadoop2.localdomain@LOCALDOMAIN

addprinc -randkey host/hadoop3.localdomain@LOCALDOMAIN

addprinc -randkey HTTP/hadoop1.localdomain@LOCALDOMAIN

addprinc -randkey HTTP/hadoop2.localdomain@LOCALDOMAIN

addprinc -randkey HTTP/hadoop3.localdomain@LOCALDOMAIN

使用listprincs查看一下结果

2. 创建keytab文件:hadoop.keytab

ktadd -norandkey -k /root/hadoop.keytab hadoop/hadoop1.localdomain@LOCALDOMAIN

ktadd -norandkey -k /root/hadoop.keytab hadoop/hadoop2.localdomain@LOCALDOMAIN

ktadd -norandkey -k /root/hadoop.keytab hadoop/hadoop3.localdomain@LOCALDOMAIN

ktadd -norandkey -k /root/hadoop.keytab host/hadoop1.localdomain@LOCALDOMAIN

ktadd -norandkey -k /root/hadoop.keytab host/hadoop2.localdomain@LOCALDOMAIN

ktadd -norandkey -k /root/hadoop.keytab host/hadoop3.localdomain@LOCALDOMAIN

ktadd -norandkey -k /root/hadoop.keytab HTTP/hadoop1.localdomain@LOCALDOMAIN

ktadd -norandkey -k /root/hadoop.keytab HTTP/hadoop2.localdomain@LOCALDOMAIN

ktadd -norandkey -k /root/hadoop.keytab HTTP/hadoop3.localdomain@LOCALDOMAIN

查看一下结果

klist -kt /root/hadoop.keytab

将/root/hadoop.keytab 上传到hadoop1,hadoop2和hadoop3上

修改三个bug

Jdk，需要下载jce（Java Cryptography Extension）1.6.32不需要安装，低一点的版本需要。http://www.oracle.com/technetwork/java/javase/downloads/index.html
时间同步问题，kdc和运行hadoop的服务器，时间必须是同步的，如果在虚拟机中运行，如果时间不一致，也会造成credential失效。
Kdc默认不支持renew功能的，运行kinit 后”valid starting" and "renew until"的值是相同的时间，或者运行kinit –R后出现 kinit: Ticket expired while renewing credentials

有两种方法可以解决此问题，第一种方式就是在创建domain之前，在kdc.conf中增加 max_renewable_life = 7d，然后创建domain。第二种方式使用modprinc修改所有的principle，modprinc -maxrenewlife 7days krbtgt/ganglia.localdoamin/LOCALDOMAIN

modprinc -maxrenewlife 7days K/M/LOCALDOMAIN

modprinc -maxrenewlife 7days hadoop/hadoop1.localdomain/LOCALDOMAIN

modprinc -maxrenewlife 7days hadoop/hadoop2.localdomain/LOCALDOMAIN

modprinc -maxrenewlife 7days hadoop/hadoop3.localdomain/LOCALDOMAIN

modprinc -maxrenewlife 7days host/hadoop1.localdomain/LOCALDOMAIN

modprinc -maxrenewlife 7days host/hadoop2.localdomain/LOCALDOMAIN

modprinc -maxrenewlife 7days host/hadoop3.localdomain/LOCALDOMAIN

modprinc -maxrenewlife 7days HTTP/hadoop1.localdomain/LOCALDOMAIN

modprinc -maxrenewlife 7days HTTP/hadoop2.localdomain/LOCALDOMAIN

modprinc -maxrenewlife 7days HTTP/hadoop3.localdomain/LOCALDOMAIN

配置hadoop

vi conf/core-site.xml

<name>hadoop.tmp.dir</name>

<value>/home/hadoop/repo4/tmp</value>

<description>A base for other temporary directories.</description>

</property>

<name>fs.default.name</name>

<value>hdfs://hadoop1.localdomain:9000</value>

</property>

<name>hadoop.security.authorization</name>

</property>

<name>hadoop.security.authentication</name>

<value>kerberos</value>

</property>

</configuration>

修改conf/hadoop-env.sh，增加下面一句

export HADOOP_SECURE_DN_USER=hadoop

启动hdfs

在hadoop1上运行: bin/hadoop namenode

在hadoop1,hadoop2和hadoop3上运行: sudo bin/hadoop datanode

如果按照上面的步骤做，应该是可以能够启动hdfs的。

下面我们再配置一下mapred

vi conf/hdfs-site.xml

<name>dfs.replication</name>

</property>

<value>/home/hadoop/repo4/name</value>

</property>

<value>/home/hadoop/repo4/data</value>

</property>

<name>dfs.webhdfs.enabled</name>

</property>

<name>dfs.web.authentication.kerberos.principal</name>

<value>HTTP/_HOST@LOCALDOMAIN</value>

</property>

<name>dfs.namenode.kerberos.https.principal</name>

<value>host/_HOST@KERBEROS_HADOOP</value>

</property>

<name>dfs.web.authentication.kerberos.keytab</name>

<value>/home/hadoop/hadoop-1.2.1/conf/hadoop.keytab</value>

</property>

<name>dfs.namenode.keytab.file</name>

<value>/home/hadoop/hadoop-1.2.1/conf/hadoop.keytab</value>

</property>

<name>dfs.namenode.kerberos.principal</name>

<value>hadoop/_HOST@LOCALDOMAIN</value>

</property>

<name>dfs.namenode.kerberos.https.principal</name>

<value>host/_HOST@LOCALDOMAIN</value>

</property>

<name>dfs.secondary.namenode.keytab.file</name>

<value>/home/hadoop/hadoop-1.2.1/conf/hadoop.keytab</value>

</property>

<name>dfs.secondary.namenode.kerberos.principal</name>

<value>hadoop/_HOST@LOCALDOMAIN</value>

</property>

<name>dfs.secondary.namenode.kerberos.https.principal</name>

<value>host/_HOST@LOCALDOMAIN</value>

</property>

<name>dfs.datanode.keytab.file</name>

<value>/home/hadoop/hadoop-1.2.1/conf/hadoop.keytab</value>

</property>

<name>dfs.datanode.kerberos.principal</name>

<value>hadoop/_HOST@LOCALDOMAIN</value>

</property>

<name>dfs.datanode.kerberos.https.principal</name>

<value>host/_HOST@LOCALDOMAIN</value>

</property>

<name>dfs.datanode.address</name>

</property>

<name>dfs.datanode.http.address</name>

</property>

</configuration>

修改conf/mapred-site.xml

<name>mapred.job.tracker</name>

<value>http://hadoop1.localdomain:9001</value>

</property>

<name>mapreduce.jobtracker.kerberos.principal</name>

<value>mapred/_HOST@LOCALDOMAIN</value>

</property>

<name>mapreduce.jobtracker.kerberos.https.principal</name>

<value>host/_HOST@LOCALDOMAIN</value>

</property>

<name>mapreduce.jobtracker.keytab.file</name>

<value>/home/hadoop/hadoop-1.2.1/conf/mapred.keytab</value>

</property>

<name>mapreduce.tasktracker.kerberos.principal</name>

<value>mapred/_HOST@LOCALDOMAIN</value>

</property>

<name>mapreduce.tasktracker.kerberos.https.principal</name>

<value>host/_HOST@LOCALDOMAIN</value>

</property>

<name>mapreduce.tasktracker.keytab.file</name>

<value>/home/hadoop/hadoop-1.2.1/conf/mapred.keytab</value>

</property>

<name>mapred.task.tracker.task-controller</name>

<value>org.apache.hadoop.mapred.LinuxTaskController</value>

</property>

<name>mapreduce.tasktracker.group</name>

<value>hadoop</value>

</property>

</configuration>

修改后xml配置文件后，还需要做如下几步

1. 修改tasktracker的配置文件

先修改conf/taskcontroller.cfg

mapred.local.dir=/home/hadoop/repo4/mapred/local

hadoop.log.dir=/home/hadoop/hadoop-1.2.1/logs

mapreduce.tasktracker.group=hadoop

banned.users=hdfs

在创建mapred.local.dir和hadoop.log.dir指定的目录

2. 启动一下tasktracker来看一下 bin/hadoop tasktracker

出现了第一个异常: /etc/hadoop/taskcontroller.cfg not found,原因是bin/tasktracker默认使用etc/hadoop位置的taskcontroller.cfg

我们将taskcontroller.cfg复制到/etc/hadoop

sudo mkdir /etc/hadoop

sudo scp conf/taskcontroller.cfg /etc/hadoop/

3. 启动tasktracer: bin/hadoop tasktracker

可执行文件task-controller的所属者必须是root

我们改变一下文件的所属者

sudo chown root:root bin/task-controller

4. 继续启动tasktracker: bin/hadoop tasktracker

异常继续出现：配置的组必须等于task-controller所属组

我们继续改变一下文件的所属着和所属组

sudo chown root:hadoop bin/task-controller

5. 继续启动tasktracker: bin/hadoop tasktracker

检查其他用户还有异常：task-controller其他用户不能有写和执行权限

运行命令去改变用户权限

sudo chmod o-rx bin/task-controller

6. 继续启动tasktracker: bin/hadoop tasktracker

task-controller还需要被设置setuid标志位

运行命令去设置setuid标志位

sudo chmod u+s bin/task-controller

7. 继续启动tasktracker: bin/hadoop tasktracker

用户的id比1000小

Cat /etc/passwd，查看一下用户id，然后设置参数min.user.id，通常普通用户创建，都是从500开始，因为我们可以修改sudo vi /etc/hadoop/taskcontroller.cfg

min.user.id=500

测试一下mapred程序，我们还是用wordcount作为例子

前面我们已经启动了hdfs,再启动mapred

在hadoop1运行：bin/hadoop jobtracker

在hadoop1,hadoop2和hadoop2上运行: bin/hadoop tasktracker

创建一个输入目录：

bin/hadoop dfs -mkdir /user/hadoop/input

上传一些文件

bin/hadoop dfs -copyFromLocal conf/* /user/hadoop/input/

查看一下结果

bin/hadoop dfs -ls /user/hadoop/input/

启动mapred程序

使用kerberos认证的缺点

存在单点失败：它需要KDC中心服务器的服务。当KDC挂掉时，整个系统有可能瘫痪。Hadoop花了很多时间来解决namenode的单点问题。幸亏这个缺陷可以通过使用复合Kerberos服务器和缺陷认证机制弥补
Kerberos需要时间同步技术，Kerberos要求参与通信的主机的时钟同步，如果主机的时钟与Kerberos服务器的时钟不同步，认证会失败。默认设置要求时钟的时间相差不超过10分钟。通常用网络时间协议后台程序(NTP)来保持主机时钟同步。
配置非常繁琐，通常配置好一个100个节点的服务器，需要三天时间。而且还会存在一个大的问题：用户权限的问题，原来系统上的数据不能访问。这一点还需要完善。
因为所有用户使用的密钥都存储于中心服务器中，危及服务器的安全的行为将危及所有用户的密钥。

总结

Kerberos是一种性能比较高的认证和授权，并且能够进行数据加密的安全系统，但是并不是特别适合hadoop，原因有三点：1. Hadoop集群节点数多，配置和维护一个使用kerberos系统高性能，稳定的hadoop集群难度非常高。2. Hadoop中的hdfs是一个文件系统，用户的认证和授权比较复杂，难度不低于linux系统的用户和组管理。加上kerberos后，用户和用户组的管理更加复杂，通常一个合适的用户不能访问hdfs上的文件。 3. Hadoop加上kerberos后，通常原来的用户和文件，可能都失效导致数据流失。尤其是一些根目录，往往需要格式化整个系统才能使用。增加一个新用户也是比较难的。因为要考虑各个节点间的访问权限。我认为可能轻量级的LDAP会适合hadoop系统，后面有时间来实现一下。

hadoop的kerberos认证的更多相关文章

Cloudera Hadoop启用Kerberos认证
一.Kerberos 二.安装 node01服务器安装Kerberos的核心服务master KDC,node02和node03安装Kerberos client cm也安装在node01上了 1.m ...
配置两个Hadoop集群Kerberos认证跨域互信
两个Hadoop集群开启Kerberos验证后,集群间不能够相互访问,需要实现Kerberos之间的互信,使用Hadoop集群A的客户端访问Hadoop集群B的服务(实质上是使用Kerberos Re ...
hadoop KerberosUtil 做Kerberos认证
网上找了一下,自己写了个KerberosUtil工具类,测试过可以用. 注意这个不是 org.apache.hadoop.security.authentication.util.KerberosUt ...
Kerberos认证流程详解
Kerberos是诞生于上个世纪90年代的计算机认证协议,被广泛应用于各大操作系统和Hadoop生态系统中.了解Kerberos认证的流程将有助于解决Hadoop集群中的安全配置过程中的问题.为此,本 ...
yarn 用户导致的被挖矿启用Kerberos认证功能，禁止匿名访问修改8088端口
用户为dr.who,问下内部使用人员,都没有任务在跑: 结论: 恭喜你,你中毒了,攻击者利用Hadoop Yarn资源管理系统REST API未授权漏洞对服务器进行攻击,攻击者可以在未授权的情况下远程 ...
hadoop HA+kerberos HA集群搭建
IP.主机名规划 hadoop集群规划: hostname IP hadoop 备注 hadoop1 110.185.225.158 NameNode,ResourceManager,DFSZKFai ...
spark 2.x在windows环境使用idea本地调试启动了kerberos认证的hive
1 概述开发调试spark程序时,因为要访问开启kerberos认证的hive/hbase/hdfs等组件,每次调试都需要打jar包,上传到服务器执行特别影响工作效率,所以调研了下如何在window ...
Flink整合oozie shell Action 提交任务带kerberos认证
最近这段时间一直在忙新集群迁移,上了最新的cdh6.3.0 于是Flink 提交遇到了许多的问题还好有cloudera License 有了原厂的帮助和社区的伙伴,问题解决起来快了不少,手动滑稽集 ...
使用kafka-python客户端进行kafka kerberos认证
之前说过python confluent kafka客户端做kerberos认证的过程,如果使用kafka python客户端的话同样也可以进行kerberos的认证,具体的认证机制这里不再描述,主要 ...

随机推荐

PHP高级特性一之正则表达式用法
在PHP中,我们进行字符串处理时,能用字符串处理函数时我们当然要使用简单的字符串处理函数,但字符串处理函数的能力是有限的,所以我们就需要利用一个更强大的工具,那就是正则表达式. 简述正则表达式正则表 ...
xcode解决问题dyld: Library not loaded
一.问题编译通过,联机调试时,应用启动闪退,XCODE的Output出现提示: dyld: Library not loaded: /System/Library/Frameworks/AdSupp ...
vim快捷键笔记【原创】
Vim zR 全部展开 zM全部合并 vim 快捷键 shift + i (‘I’) 进行编辑 shift + 4 (‘$’) 跳到行尾 shift ...
JAVA中的内部类使用总结
1) 内部类的优点是:内部类可以访问外部类的私有成员变量,而不需要new外部类的对象. 2) 内部类又分为:静态内部类.匿名内部类.局部内部类.成员内部类. 3) ...
Introducing Microsoft Sync Framework: Sync Services for File Systems
https://msdn.microsoft.com/en-us/sync/bb887623 Introduction to Microsoft Sync Framework File Synchro ...
Fragment学习（一）
Fragment界面添加了解过fragment的生命周期等简单知识,于是去看官方文档来了解更多相关内容,要添加fragment到我们的UI界面中,给出了两种常用的方法,第一个是在activity的布 ...
STL笔记(3) copy()之绝版应用
STL笔记(3) copy()之绝版应用我选用了一个稍稍复杂一点的例子,它的大致功能是:从标准输入设备(一般是键盘)读入一些整型数据,然后对它们进行排序,最终将结果输出到标准输出设备(一般是显示器屏 ...
编程时对用途这个字段定义时不要用using 这个英文
编程时对用途这个字段定义时不要用using 这个英文
UVa 10815 Andy's First Dictionary
感觉这道题要比之前几个字符串处理的题目难度要大了一些. 题目大意:给若干行字符串,提取出所有单词并去掉重复的,最后按字典顺序输出. 对于输入大致有两种思路,一种是逐个读入字符,遇到字母的话就放到wor ...
二、CSS 基本介绍
[ 显示目录 ] [ 隐藏 ] 目录基本概念 CSS组成部分 CSS的规则引入CSS样式的方法颜色的表示 CSS Reset 选择器分类浮动盒子模型 box-sizing属性实例:实现“田 ...

hadoop的kerberos认证

hadoop的kerberos认证的更多相关文章

随机推荐

热门专题