大数据技术之kettle安装使用】的更多相关文章

kettle是一款开源的ETL工具,纯java编写,可以在Windows.Linux.Unix上运行,绿色无需安装,数据抽取高效稳定. kettle的两种设计 简述: Transformation(转换):完成针对数据的基础转换. Job(作业):完成整个工作流的控制. 区别:(1)作业是步骤流,转换是数据流. (2)作业的每一个步骤必须等到前面的步骤都跑完了后面的步骤才会执行:而转换会一次性把所有控件全部先启动(一个控件对应启动一个线程),然后数据流会从第一个控件开始,一条记录.一条记录的流向…
大数据技术之kettle 第1章            kettle概述 1.1    什么是kettle kettle是一款开源的ETL工具,纯java编写,可以在Windows.Linux.Unix上运行,绿色无需安装,数据抽取高效稳定. 1.2    kettle核心知识点 1.2.1        kettle工程存储方式 1)  以XML形式存储 2)  以资源库方式存储(数据库资源库和文件资源库) 1.2.2        kettle的两种设计 简述: Transformation…
一. kettle概述 1.kettle是一款开源的ETL工具,纯java编写,可以在Windows.Linux.Unix上运行,绿色无需安装,数据抽取高效稳定. 2.kettle的两种设计 简述: Transformation(转换):完成针对数据的基础转换:Job(作业):完成整个工作流的控制. 区别:(1)作业是步骤流,转换是数据流.(2)作业的每一个步骤必须等到前面的步骤都跑完了后面的步骤才会执行:而转换会一次性把所有控件全部先启动(一个控件对应启动一个线程),然后数据流会从第一个控件开…
一.同一数据库两表数据关联更新 实现效果:把stu1的数据按id同步到stu2,stu2有相同id则更新数据 步骤: 1.在mysql中创建两张表: mysql>create database kettle; mysql>use kettle; mysql>create table stu1 (id int ,name varchar(20),age int); mysql>create table stu2 (id int ,name varchar(20)); 2.往两张表中插…
1.datax简述 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL.Oracle.SqlServer.Postgre.HDFS.Hive.ADS.HBase.TableStore(OTS).MaxCompute(ODPS).DRDS 等各种异构数据源之间高效的数据同步功能. datax的开源地址:https://github.com/alibaba/DataX 安装参考:https://www.cnblogs.com/jiangbei/p/10901201.…
1 大数据概述 大数据特性:4v volume velocity variety value 即大量化.快速化.多样化.价值密度低 数据量大:大数据摩尔定律 快速化:从数据的生成到消耗,时间窗口小,可用于生成决策的时间非常少:1秒定律,这和传统的数据挖掘技术有着本质区别(谷歌的dremel可以在1秒内调动上千台服务器处理PB级数据) 价值密度低,商业价值高 大数据影响: 对科学研究影响:出现科学研究第四方式数据(前三个分别是实验.理论.计算) 对思维方式影响:全样而非抽样.效率而非准确.相关而非…
在大数据处理以及分析中 SQL 的普及率非常高,几乎是每一个大数据工程师必须掌握的语言,甚至非数据处理岗位的人也在学习使用 SQL.今天这篇文章就聊聊 SQL 在数据分析中作用以及掌握 SQL 的必要性. SQL解决了什么问题 SQL的中文翻译为:结构化查询语言.这里面有三层含义:首先这是一门编程语言:其次,这是一门查询语言:最后,这是在结构化数据上做查询的语言.结构化数据就是数据库里的二维表,不了解数据库的读者可以把它看做 Excel 里面的表格.虽然 SQL可以解决查询问题,但是 SQL 并…
大数据技术之Sqoop  一.Sqoop简介 Apache Sqoop(TM)是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具. Sqoop于2012年3月孵化出来,现在是一个顶级的Apache项目. 请注意,1.99.7与1.4.6不兼容,且没有特征不完整,它并不打算用于生产部署. 二.Sqoop原理 将导入或导出命令翻译成mapreduce程序来实现. 在翻译出的mapreduce中主要是对inputformat和outputformat进行…
大数据技术之Hadoop3.1.2版本HA模式 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Hadoop的HA特点 1>.主备NameNode 2>.解决单点故障(属性,位置) .主NameNode对外提供服务,备NameNode同步主NameNode元数据一带切换: .所有DataNode同时向两个NameNode汇报数据块信息(位置): .JNN:集群(属性): .Standby:备,完成了edits.log文件的合并产生新的image,推送回ANN: 3>…
大数据技术之Hadoop3.1.2版本完全分布式部署 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.主机环境准备 1>.操作系统环境 [root@node101.yinzhengjie.org.cn ~]# cat /etc/redhat-release CentOS Linux release (Core) [root@node101.yinzhengjie.org.cn ~]# [root@node101.yinzhengjie.org.cn ~]# uname -r…