ETL基础1(概念)】的更多相关文章

Python 3 集合基础和概念! Python 3中,集合是无序的,所以不能进行切片和索引操作. 创建集合有两个方法:set()方法创建的集合是可变的,可被迭代的:frozenset()方法创建的集合是不可改变的. 代码可以看出来,看上去创建的集合是一个列表,实际上我们用type()就可以看出,创建的是一个set对象,不懂的话可以大致理解为列表. >>> a = set('hello') >>> a {'l', 'h', 'o', 'e'} set()还支持add方法…
抽取(Extract): 一般抽取过程需要连接到不同的数据源,以便为随后的步骤提供数据.这一部分看上去简单而琐碎,实际上它是 ETL 解决方案的成功实施的一个主要障碍. 转换(Transform): 任何对数据的处理过程都是转换.这些处理过程通常包括(但不限于)下面一些操作:移动数据根据规则验证数据数据内容和数据结构的修改将多个数据源的数据集成根据处理后的数据计算派生值和聚集值 加载(Load): 将数据加载到目标系统的所有操作.概念扩展:ELT,EII(Enterprise informati…
1. What is a logical data mapping and what does it mean to the ETL team? 什么是逻辑数据映射?它对ETL项目组的作用是什么? 答:逻辑数据映射(Logical Data Map)用来描述源系统的数据定义.目标数据仓库的模型以及将源系统的数据转换到数据仓库中需要做操作和处理方式的说明文档,通常以表格或Excel的格式保存如下的信息: 目标表名: 目标列名: 目标表类型:注明是事实表.维度表或支架维度表. SCD类型:对于维度表…
JAVA基础知识 转载至:http://www.runoob.com/java/java-variable-types.html 对菜鸟教程进行核心整理: 一.JAVA理论概念 1.基础概念 Java作为一种面向对象语言主要特性概念如下 接口:接口可理解为对象间相互通信的协议.接口在继承中扮演着很重要的角色.(可多继承)接口只定义派生要用到的方法,但是方法的具体实现完全取决于派生类. 1.多态:前提是继承,不同类对同一消息作出响应.解决应用程序重名问题,参数化多态和包含多态. 2.继承:增加类的…
一.云计算基本概念解析        1.1什么是云计算 云计算:代表计算资源向云水循环一样,按需分配,循环利用. 1.2.云计算分类 狭义:IT基础设施的交互和使用模式,通过网络以按需,易扩展的方式获取资源 广义:服务(IT基础设施.软件等)的交互和使用模式,通过网络以按需.易扩展的方式获取资源.   二.云服务模式 2.1.IaaS:基础设施即服务 用户通过网络获取虚机.存储.网络,然后用户根据自己的需求操作获取的资源.  典型应用:亚马逊AWS等 2.2.PaaS:平台即服务 将软件研发平…
WebGL使用的是正交右手坐标系,且每个方向都有可使用的值的区间,超出该矩形区间的图像不会绘制: x轴最左边为-1,最右边为1: y轴最下边为-1,最上边为1: z轴朝向你的方向最大值为1,远离你的方向最大值为-1: 注:这些值与Canvas的尺寸无关,无论Canvas的长宽比是多少,WebGL的区间值都是一致的. 如图: 向量 点积 p1.x * p2.x + p1.y * p2.y + p1.z * p2.z 两个向量的分量相乘之后再相加的结果,该结果和两个向量的夹角相关:两个向量的点积为0…
XML的基础(概念和语法) xml html 概念 异同  XML全称为extensible markup language,即可扩展标记语言,简单理解为可预定义标签的编程语言.它与HTML(超文本标记语言)类似,但它主要用于数据存储和传输数据,而HMTL用于显示数据. 可概括为以下几点 1.名称是可扩展标记语言,理解为可预定义标签 2.它与HTML(超文本标记语言)类似 3.主要用于存储和传输数据 4.具有自我描述性,自定义标签名即其功能特性,如标签名为student的标签,它的功能就是存储或…
深浅拷贝 浅copy与deepcopy 浅copy: 不管多么复杂的数据结构,浅拷贝都只会copy一层 deepcopy : 深拷贝会完全复制原变量相关的所有数据,在内存中生成一套完全一样的内容,我们对这两个变量中任意一个修改都不会影响其他变量 深浅拷贝之间的区别? 对象的赋值就是简单的引用,a = [1,2,3], b=a, 在上述情况下,a和b是一样的,他们指向同一片内存,b不过是a的别名,是引用,我们可以使用b is a 去判断,返回True,表名他们地址相同内容也相同,也可以使用id()…
网络的发展 网络的发展有下面几个阶段: 独立模式:计算机最开始是以单机模式被广泛使用的.每一台计算机都是独立的,之间不能够进行数据共享与通信 网络互联: 计算机之间可以链接在一起,完成数据共享,计算机之间还可以进行相互通信 局域网(LAN): 一片区域内的计算机通过路由器和交换机连接在一起,可以用来相互通信的计算机数量增多 广域网(WAN): 多个局域网通过路由器连接起来,构成一个广域网,也可以说是一个更大的局域网 "广域网"和"局域网"是一个相对的概念,例如:一座…
1:I/O流就是常说的输入/输出流,用于数据在内存与存储设备(硬盘,文件等)之间的数据传输. 2 : 分类        根据操作分:输入流与输出流 输入流:将外部设备中的数据(包括网络数据)读入内存 输出流  : 将内存中的数据写出到外部设备中 *  总之,是输入流还是输出流的判断则以内存为参照物:数据读进内存中,则是输入流:数据从内存写出到内存以外的地方,则是输出流.   *  最开始的时候总是记混输入输出的概念,后来在视频上看见别人这样解释,就好记多了,清晰多了   根据类型分:字节流或者…