kettle从入门到精通 第五十五课 ETL之kettle Excel输入
1、 Excel输入,Microsoft Excel输入步骤的作用是从Microsoft Excel中读取数据,如下图所示:
1)Excel输入步骤从文件D:\data\测试数据.xlsx读取数据。
2)将数据通过写日志步骤打印出来。
2、Excel输入步骤-文件配置
步骤名称:自定义
表格类型(引擎):
Excel 97-2003 XLS:这个引擎是JXL软件后端提供的默认向后兼容类型。
Excel 2007 XLSX(Apache POI):如果您选择这种电子表格类型,您可以读取所有已知的Excel文件类型。功能由Apache POI项目提供。
注意:如果您使用了受密码保护的工作表,您必须将电子表格类型(引擎)设置为Excel 2007 XLSX(Apache POI)。
Excel 2007 XLSX(Apache POI Streaming):这种电子表格类型允许您读取大型Excel文件。
Open Office ODS:通过选择这种类型,您可以使用ODFDOM引擎读取OpenOffice电子表格文件。
文件或目录:通过点击浏览按钮进行选择文件或者目录。
正则表达式:如果上方指定的是目录,这里指定一个正则表达式来匹配指定目录中的文件名。
正则表达式(排除):如果上方指定的是目录,这里指定一个正则表达式来排除指定目录中的文件名。
Password:当Excel文件设置密码保护时,请指定打开Excel文件所需的密码。
选中的文件:上面点击增加按钮之后的文件会展示在这里,可以删除或者编辑。
从前面的步骤获取文件名:动态设置Excel文件名称。
3、Excel输入步骤-工作表配置,当文件选中之后可以点击获取工作表名称或者手动填写工作表名称也可以。
开始读数据的行号和列号(从0开始),这个根据文件的具体情况进行设置。
4、Excel输入步骤-内容配置。
1)头部:在“sheet”选项卡中指定的工作表包含标题行需要跳过时,请选择此选项。
2)非空记录:在此步骤的输出中不希望出现空行,请选择此选项。
3)停在空记录:在空数据的地方停下来。
4)限制:在此步骤生成的记录数量上设置一个限制。当设置为零时,结果不受限制。
5)编码:指定要使用的文本文件编码。将此选项留空以使用默认系统编码。首次使用时,PDI会搜索您的系统以获取可用编码。要使用Unicode,请指定UTF-8或UTF-16。
5、Excel输入步骤-错误处理配置。
严格类型:选择在读取时让PDI报告数据类型错误。
忽略错误:选择是否要在解析过程中忽略错误。这些行可以通过在警告文件目录、错误文件目录和失败行号文件目录中指定路径来转储到单独的文件中。取消选中此选项,以使具有错误的行在此步骤的输出中显示为NULL值。
跳过错误行:选择让PDI跳过包含错误的行。
警告文件目录:指定生成警告时放置警告的目录位置。生成的文件名称为<警告目录>/文件名.<日期_时间>.<警告扩展名>。
错误文件目录:指定发生错误时放置错误的目录位置。生成的文件名称为<errorfile_dir>/文件名.<日期_时间>.<errorfile_extension>。
失败的记录数文件目录:翻译:如果发生行解析错误,请指定放置错误的目录位置。生成的文件名称为<errorline dir>/filename.<date_time>.<errorline extension>。
6、Excel输入步骤-字段配置
点击偶去来自头部数据的字段按钮进行设置字段。也就是Excel文件第一行的列名。
7、Excel输入步骤-其他输出配置。
自定义其他输出字段,然后这些字段会同文件内容一同输出,传递给后续步骤。
kettle从入门到精通 第五十五课 ETL之kettle Excel输入的更多相关文章
- 孤荷凌寒自学python第五十五天初识MongoDb数据库
孤荷凌寒自学python第五十五天第一天初识MongoDb数据库 (完整学习过程屏幕记录视频地址在文末) 大家好,2019年新年快乐! 本来我想的是借新年第一天开始,正式尝试学习爬虫,结果今天偶然发现 ...
- 第三百五十五天 how can I 坚持
快一年了,三百五十五天了,等写个程序算算时间,看看日期和天数能不能对的上,哈哈. 计划还是未制定,天气预报还是没有写完,立马行动,发完这个博客,立马行动. 计划:设计模式1个月,三大框架3个月,计算机 ...
- 第三百五十五节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy信号详解
第三百五十五节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy信号详解 信号一般使用信号分发器dispatcher.connect(),来设置信号,和信号触发函数,当捕获到信号时执行 ...
- “全栈2019”Java第五十五章:方法的静态绑定与动态绑定
难度 初级 学习时间 10分钟 适合人群 零基础 开发语言 Java 开发环境 JDK v11 IntelliJ IDEA v2018.3 文章原文链接 "全栈2019"Java第 ...
- OpenCV开发笔记(五十五):红胖子8分钟带你深入了解Haar、LBP特征以及级联分类器识别过程(图文并茂+浅显易懂+程序源码)
若该文为原创文章,未经允许不得转载原博主博客地址:https://blog.csdn.net/qq21497936原博主博客导航:https://blog.csdn.net/qq21497936/ar ...
- abp(net core)+easyui+efcore实现仓储管理系统——出库管理之六(五十五)
abp(net core)+easyui+efcore实现仓储管理系统目录 abp(net core)+easyui+efcore实现仓储管理系统--ABP总体介绍(一) abp(net core)+ ...
- 学习C++从入门到精通的的十本最经典书籍
原文:http://blog.csdn.net/a_302/article/details/17558369 最近想学C++,找了一下网上推荐的书籍,转载过来给大家分享 转载自http://c.chi ...
- 第五十五天 css基础入门
一.引入css的三种方式 1.行间式 <div style="width: 100px; height: 100px; background-color: red">& ...
- Spark入门到精通--(第十节)环境搭建(ZooKeeper和kafka搭建)
上一节搭建完了Hive,这一节我们来搭建ZooKeeper,主要是后面的kafka需要运行在上面. ZooKeeper下载和安装 下载ZooKeeper 3.4.5软件包,可以在百度网盘进行下载.链接 ...
- Redis入门到高可用(十五)—— GEO
一.简介 二.应用场景 三.API 1.geoadd 2.geopos 3.geodist 4.georadius 四.相关说明
随机推荐
- 使用C# 创建、填写、删除PDF表单域
通常情况下,PDF文件是不可编辑的,但PDF表单提供了一些可编辑区域,允许用户填写和提交信息.PDF表单通常用于收集信息.反馈或进行在线申请,是许多行业中数据收集和交换的重要工具. PDF表单可以包含 ...
- 力扣574(MySQL)-当选者(中等)
题目: 表: Candidate 表: Vote id 是自动递增的主键,CandidateId 是 Candidate 表中的 id. 问题:请编写 sql 语句来找到当选者的名字,上面的例子将返回 ...
- Serverless Kubernetes 落地实践
简介:如何通过原生 Kubernetes 提供 Serverless 能力?如何借力丰富的云原生社区生态?本文将给大家介绍一下我们在 Serverless Kubernetes 上的落地实践. 作者 ...
- [LLM] 开源 AI 大语言模型的本地化定制实践
LLM(Large Language Model,大型语言模型)是一种基于深度学习的自然语言处理模型,旨在理解和生成人类语言. 它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结.翻 ...
- [FAQ] FinalCutPro 视频背景加模糊效果
1. 时间轴右上方,找到 倒数第二个 "显示或隐藏效果浏览器",里面有一个 "模糊" 效果: 2. "模糊"效果中的 "高斯曲线& ...
- 使用 Docker 自建一款怀旧游戏之 - 扫雷
1)扫雷 简介 扫雷 是一种经典的单人电脑游戏,最初由微软公司在 1990 年代开发并内置在 Windows 操作系统中.游戏的目标是在一个由方块组成的网格上揭开所有非地雷的方块,而不触发地雷.每个方 ...
- 259k+ Star!这是我见过最全的开发者技术学习路线!
大家好,我是 Java陈序员. 自从上班后,身体是一天不如一天了,也很少有时间可以去学习新技术了.程序员如果技术跟不上,很容易就被淘汰. 而碎片化的学习效率又不高,往往今天学了,明天就忘了.有时候更是 ...
- 坐标轴调控大揭秘:Matplotlib坐标轴设置全攻略+顺口溜,一文掌握!
在数据可视化的世界里,Matplotlib是那把魔法棒,让枯燥的数据跃然纸上,而掌控这把魔法棒的核心,就是对坐标轴的精妙操作.今天,就让我们一起揭开Matplotlib坐标轴设置的神秘面纱,配上易记的 ...
- SAP集成技术(十)混合集成平台
混合集成平台hybrid integration platform (有时缩写为HIP)这个术语近年来被大量使用,但很多人可能不太清楚它的概念. 内容摘录自<SAP Interface Mana ...
- 多个docker容器如何共享网络
目录 多个docker容器如何共享网络 一.创建共享网络 二.docker-compose 启动容器共享网络 参考文档: 多个docker容器如何共享网络 一.创建共享网络 无论哪种方式,第一步都是创 ...