解决Kettle与Kerberos集成问题

本文目的：记录Kerberos环境下，通过Kettle将MySQL数据清洗到HDFS过程解决的2个问题，希望对大家有所帮助。

Kettle版本：pdi-ce-7.1.0.0-12

1、在Kerberos与Kettle集成过程中，我们有如下场景：将数据从MySQL定时抽出，然后写到HDFS。

在从MySQL取数并写入HDFS过程中，需要Kettle取得KDC认证，但无论怎么配置，还是无法解决写入HDFS的时候安全认证问题。我们最终定位是Kettle与Kerberos集成的问题。（在Kettle中通过Hive写HDFS依然有问题，不过我们自己解决了）。所以，如果要解决这个问题，方案有2：

a、通过StreamSets或者NiFi实时拉取MySQL数据到HDFS，而StreamSets或者NiFi本身和Kerberos能较好的集成在一起。

b、通过sqoop实现。

a方案看起来很美好，但是在我们的场景下，有几个问题需要解决：

a、从MySQL写入HDFS只是整个ETL任务的其中一环，如果用方案1，那么任务的前后衔接如何处理？

b、从MySQL写入HDFS的任务中，需要一些输入参数（需要读取的MySQL表，读取数据的时间），而目前1方案还无法支持灵活的输入参数配置。

所以我们选择了b方案。在这个方案中，

a、通过Kerberos配置可以保证Client有sqoop访问数据库和文件系统的权限

b、将Kettle中的MySQL抽数并写入HDFS的过程包装成shell脚本，将sqoop需要的输入参数query和target-dir等参数外部传入。

2、在实现方案b的时候，我们将sqoop import的参数动态传入，类似

./xxx.sh sql target-dir值

xxx.sh 的内容非常简单:

sqoop import --connect jdbc:mysql://ip:3306/db --username userXXX --password passXXX --target-dir $2 --fields-terminated-by '|' --split-by 'ID' --m 1 --as-textfile --num-mappers 10 --query $1

注意sqoop import的格式是--query '...'/--query "..." ，query内容前后用了引号，所以在$1引用的时候必须用"$1",否则sqoop会报"uncategorized parameter ..."

sqoop import --connect jdbc:mysql://ip:3306/db --username userXXX --password passXXX --target-dir $2 --fields-terminated-by '|' --split-by 'ID' --m 1 --as-textfile --num-mappers 10 --query "$1"

另外需要注意的是shell中，'$1'和"$1"是有区别的，如果某个变量赋值为'$1'，则打印的结果还是'$1'；如果是"$1",则会打印$1的引用。

解决Kettle与Kerberos集成问题的更多相关文章

基于Kafka Connect框架DataPipeline可以更好地解决哪些企业数据集成难题？
DataPipeline已经完成了很多优化和提升工作,可以很好地解决当前企业数据集成面临的很多核心难题. 1. 任务的独立性与全局性. 从Kafka设计之初,就遵从从源端到目的的解耦性.下游可以有很多 ...
解决Kettle ETL数据乱码
首先用insert语句插入一条数据试试是否因为MySQL编码不对引起,如果是MySQL原因,修改MySQL编码即可: 如果不是因为MySQL的编码导致问题,那么在Kettle的表输出中,编辑连接-选项 ...
记录一次bug解决过程：eclipse集成lombok插件
一总结 eclipse集成插件lombok: 启动Spring Boot项目: sublime全局搜索关键字:ctrl + shift + F JDK8中的lambda表达式使用二 BUG描述:集 ...
解决Keras在IDE集成环境中找不到nvcc
在我们正确配置了Keras使用GPU,并在Terminal中运行一切顺利的的时候,转到Pycharm或者Eclipse中运行有可能会出现"nvcc not found on the $PAT ...
Ambari与Kerberos 集成
Kerberos 介绍 Kerberos 是一个网络认证的框架协议,其设计的初衷便是通过密钥系统为 Client 和 Server 应用程序之间提供强大的认证服务.在使用 Kerberos 认证的集群 ...
解决kettle在两个mysql之间迁移数据时乱码的问题和相关报错及参数调整, 速度优化
1. 乱码问题编辑目标数据库的链接: 配置编码参数即可. 2. 报错 No operations allowed after statement closed. 需要调整wait_timeout: ...
解决kettle配置文件中的中文乱码
在日常开发中有时候配置文件会出现中文(如config.properties 里有中文),为了避免出现乱码,因而要转成unicode编码. 1.在设置变量的javascript(转换中的JavaScri ...
打造实时数据集成平台——DataPipeline基于Kafka Connect的应用实践
导读:传统ETL方案让企业难以承受数据集成之重,基于Kafka Connect构建的新型实时数据集成平台被寄予厚望. 在4月21日的Kafka Beijing Meetup第四场活动上,DataPip ...
kettle将Excel数据导入oracle
导读 Excel数据导入Oracle数据库的方法: 1.使用PL SQL 工具附带的功能,效率比较低可参考这篇文章的介绍:http://www.2cto.com/database/201212/17 ...

随机推荐

str中文初始化乱码，要用宽字符；if else
QString str = QString::fromUtf16(L"{\\"closeEt\": true,\\"data\" : [[1,1,10 ...
MySQL使用LOAD DATA LOCAL INFILE报错
在windows系统的MySQL8.0中尝试执行以下语句时报错 mysql> LOAD DATA LOCAL INFILE '/path/filename' INTO TABLE tablena ...
字符型转换为字符串ToString
字符型转换为字符串 // C 货币 2.5.ToString("C"); // ￥2.50 // D 10进制数 25.ToString("D5"); // 2 ...
cached_property的使用
cached_property修饰过的函数,变成是对象的属性,该对象第一次引用该属性时,会调用函数,对象第二次引用该属性时就直接从词典中取了,这也说明引用属性是经过__getattritue__. c ...
DEDECMS 多站用一个站图片
function replaceurl($newurl) { $newurl=str_replace('src="/uploads/allimg/','src="xxx.com/u ...
MySQL Windows环境变量设置
问题:MySQL无法全局使用 1.查找MySQL路径 2.添加环境变量 3.验证功能
【译】在Transformer中加入相对位置信息
目录引言动机解决方案概览注释实现高效实现结果结论参考文献本文翻译自How Self-Attention with Relative Position Representation ...
python3基础-set
集合:无序的,不重复的数据组合作用: 1.去重,把一个列表变成集合,就自动去重了 2.关系测试,测试两组数据之前的交集.差集.并集等关系 set和dict类似,也是一组key的集合,但不存储valu ...
（译）MySQL的10个基本性能技巧
原文出处:https://www.infoworld.com/article/3210905/sql/10-essential-performance-tips-for-mysql.html MySQ ...
(转)IIS7无法读取配置文件解决办法
web.config 太大导致”出现无法读取配置文件,因为它超过了最大文件大小”错误问题的解决方法,如下:HKLM\SOFTWARE\Microsoft\InetStp\Configuration\M ...

解决Kettle与Kerberos集成问题

解决Kettle与Kerberos集成问题的更多相关文章

随机推荐

热门专题