进行Spark，Kafka针对Kerberos相关配置

1. 提交任务的命令

spark-submit  \
--class <classname> \
--master yarn \
--deploy-mode client \
--executor-memory 2g \
--executor-cores 2 \
--driver-memory 2g \
--num-executors 2 \
--queue default  \
--principal ocsp-yg@ASIAINFO.COM \
--keytab /etc/security/keytabs/hdfs.headless.keytab \
--files "/usr/OCSP/conf/kafka_client_jaas.conf,/usr/OCSP/conf/ocsp.keytab" \
--driver-java-options "-Djava.security.auth.login.config=/usr/OCSP/conf/kafka_client_jaas.conf" \
--conf "spark.executor.extraJavaOptions=-Djava.security.auth.login.config=./kafka_client_jaas.conf" \
--jars <your jars>,/usr/OCSP/lib/spark-kafka-0-10-connector-assembly_2.10-1.0.1.jar /usr/OCSP/lib/ocsp-core_1.6-2.1.0.jar

--principal与--keytab这两个参数为spark需要的Kerberos认证信息
--driver-java-options "-Djava.security.auth.login.config=/usr/OCSP/conf/kafka_client_jaas.conf"为driver连接kafka用到的认证信息，因此使用本地绝对路径
--conf "spark.executor.extraJavaOptions=-Djava.security.auth.login.config=./kafka_client_jaas.conf"为executor连接kafka用到的Kerberos认证信息，因此使用container中的相对路径./
jaas文件中定义了principal与keytab，由于我们使用了yarn-client模式，driver需要的文件在本地文件系统，executor需要的文件需要我们使用--files的方式上传，即--files "/usr/OCSP/conf/kafka_client_jaas.conf,/usr/OCSP/conf/ocsp.keytab"
有的文档中说--files中传keytab文件会与spark本身的--keytab 冲突，其实是因为他们对spark和kafka使用了相同的principal和keytab，在上述命令中我为了清晰起见，让spark使用了principal ocsp-yg@ASIAINFO.COM，keytab hdfs.headless.keytab，让spark连接kafka时使用了principal ocsp/ASIAINFO.COM(principal其实是在jaas文件中指定的，3中详细讲jaas文件) keytab ocsp.keytab，当spark提交任务时，yarn会将--keytab后面的keytab文件与--files里的文件先后上传，即 hdfs.headless.keytab与ocsp.keytab均会被上传，spark与kafka各取所需，即可正常工作。当spark与kafka要使用相同的keytab文件时，比如都用ocsp.keytab，那么yarn会先后上传两次ocsp.keytab，在spark正使用的时候更新了keytab，造成异常退出
因此如果spark与kafka需要使用相同的keytab文件，我们只需要在--files里不要上传keytab即可避免冲突

spark-submit \
--class <classname> \
--master yarn \
--deploy-mode client \
--executor-memory 2g \
--executor-cores 2 \
--driver-memory 2g \
--num-executors 2 \
--queue default \
--principal ocsp@ASIAINFO.COM \
--keytab /etc/security/keytabs/ocsp.keytab \
--files "/usr/OCSP/conf/kafka_client_jaas.conf" \
--driver-java-options "-Djava.security.auth.login.config=/usr/OCSP/conf/kafka_client_jaas.conf" \
--conf "spark.executor.extraJavaOptions=-Djava.security.auth.login.config=./kafka_client_jaas.conf" \
--jars <your jars>,/usr/OCSP/lib/spark-kafka-0-10-connector-assembly_2.10-1.0.1.jar /usr/OCSP/lib/ocsp-core_1.6-2.1.0.jar

还有一个问题是本例中drvier和executor使用了相同的kafka_client_jaas.conf，这也会造成一些问题，3中会详细说明

2. 生成keytab和principal

在KDC Server上执行
```
kadmin -p admin/admin@ASIAINFO.COM
```
生成principal，principal最好使用ocsp的用户名+domain
```
addprinc -randkey ocsp/ASIAINFO.COM
```

生成keytab

ktadd -k /data/ocsp.keytab ocsp/ASIAINFO.COM

将keytab文件copy到spark driver所在的机器（因为OCSP默认使用yarn-client模式）

3. 创建spark读取kafka的jaas配置文件

配置文件kafka_client_jaas.conf样例如下：

KafkaClient {

com.sun.security.auth.module.Krb5LoginModule required

  useTicketCache=false

  useKeyTab=true

  principal="ocsp@ASIAINFO.COM"

  keyTab="./ocsp.keytab"

  renewTicket=true

  storeKey=true

  serviceName="ocsp";

};

其中useTicketCache指从系统的cash中读取credential信息，useKeyTab指从指定的keyTab文件读取credential
principal和keytab用第二步生成的principal与keytab，注意：keytab的路径
- 如果这个conf文件是给driver读取，则我们要用keytab文件在本地的绝对路径
- 如果这个conf文件是executor读取，则我们要用keytab文件在container中的相对路径，即./ocsp.keytab
- 如果为了方便起见，drvier与executor要使用相同的jaas文件，路径配置为./ocsp.keytab，我们需要将keytab文件copy到运行spark-submit的当前路径
- 如果driver和executor要使用不同的jaas文件，则driver的jaas文件中，keytab应为本地绝对路径，executor的jaas文件中，keytab应为相对路径./

进行Spark，Kafka针对Kerberos相关配置的更多相关文章

phoenix PQS的kerberos相关配置
thin 客户端的实例代码 jdbc:phoenix:thin:url=<scheme>://<server-hostname>:<port>;authentica ...
Spark集群 + Akka + Kafka + Scala 开发(1) : 配置开发环境
目标配置一个spark standalone集群 + akka + kafka + scala的开发环境. 创建一个基于spark的scala工程,并在spark standalone的集群环境中运 ...
Kafka 消费者相关配置
消费者相关配置类为 org.apache.kafka.clients.consumer.ConsumerConfig 具有以下配置参数 1. GROUP_ID_CONFIG = "grou ...
Spark源码剖析 - SparkContext的初始化(四)_Hadoop相关配置及Executor环境变量
4. Hadoop相关配置及Executor环境变量的设置 4.1 Hadoop相关配置信息默认情况下,Spark使用HDFS作为分布式文件系统,所以需要获取Hadoop相关配置信息的代码如下: 获 ...
flume集成kafka(kafka开启kerberos)配置
根据flume官网:当kafka涉及kerberos认证: 涉及两点配置,如下: 配置一:见下实例中红色部分配置conf实例: [root@gz237-107 conf]# cat flume_sl ...
大数据Spark+Kafka实时数据分析案例
本案例利用Spark+Kafka实时分析男女生每秒购物人数,利用Spark Streaming实时处理用户购物日志,然后利用websocket将数据实时推送给浏览器,最后浏览器将接收到的数据实时展现, ...
Kerberos主从配置文档
Kerberos主从配置文档 1. Kerberos主从同步机制在Master上通过以下命令同步数据: kdb5_util dump /var/kerberos/krb5kdc/slave_db ...
CentOS6安装各种大数据软件第五章：Kafka集群的配置
相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础 ...
zookeeper集群的搭建以及hadoop ha的相关配置
1.环境 centos7 hadoop2.6.5 zookeeper3.4.9 jdk1.8 master作为active主机,data1作为standby备用机,三台机器均作为数据节点,yarn资源 ...

随机推荐

C# 接口《通俗解释》
接口为什么要用接口?好处在哪里? 如果你的工作是一个修水管的,一天客户找上你让你帮装水管,但是有个要求,就是客户喜欢管子是三角形的. 你立马买了三角形的水管回来,在墙上弄个三角形的口子,客户付了钱, ...
使用WSL吧
WSL(Windows Subsystem for Linux)已经装在电脑上好一阵子了,谁如果还没装的,可以看看本文,至少知道个大概,觉得有用的话知道该如何做. 简介 WSL简单说就是一个能让你在W ...
IIS Express 配置缓存位置
Please refer to the three configure files to check if they contains the rule setting. "%Program ...
Eclipse中使用Maven搭建SSM框架
Eclipse中不使用Maven搭建SSM框架:https://www.cnblogs.com/xuyiqing/p/9569459.html IDEA中使用Maven搭建SSM框架:https:// ...
『集群』007 如何测试Slithice源代码
如何测试Slithice源代码直接测试 >你可以直接进入 “集合编译区”,这里面已经有编译好的所有程序集: >部署配置数据库: >附加集合编译区中的 SQLServe ...
[翻译] 对正在使用EF6x开发人员的一些话
Entity Framework Core in Action Entityframework Core in action是 Jon P smith 所著的关于Entityframework Cor ...
C#语法——反射，架构师的入门基础。
前言编程其实就是写代码,而写代码目的就是实现业务,所以,语法和框架也是为了实现业务而存在的.因此,不管多么高大上的目标,实质上都是业务. 所以,我认为不要把写代码上升到科学的高度.上升到艺术就可以了 ...
使用Atlas进行元数据管理之容错和高可用
1. 介绍 Apache Atlas使用各种系统并与之交互,为数据管理员提供元数据管理和数据血缘信息.通过适当地选择和配置这些依赖关系,可以使用Atlas实现高度的服务可用性.本文档介绍了Atlas中 ...
【春华秋实】深入源码理解.NET Core中Startup的注册及运行
写在前面开发.NET Core应用,直接映入眼帘的就是Startup类和Program类,它们是.NET Core应用程序的起点.通过使用Startup,可以配置化处理所有向应用程序所做的请求的 ...
Flutter 即学即用系列博客——03 在旧有项目引入 Flutter
前言其实如果打算在实际项目中引入 Flutter,完全将旧有项目改造成纯 Flutter 项目的可能性比较小,更多的是在旧有项目引入 Flutter. 因此本篇我们就说一说如何在旧有项目引入 Flu ...

进行Spark，Kafka针对Kerberos相关配置

1. 提交任务的命令

2. 生成keytab和principal

3. 创建spark读取kafka的jaas配置文件

进行Spark，Kafka针对Kerberos相关配置的更多相关文章

随机推荐

热门专题