数据清洗模块,包括几十个子模块, 这些子模块包含四类:生成, 转换, 过滤和执行. 数据清洗可以通过组合多个不同的子模块,生成多样的功能,通过拖拽构造出一个工作流,它能够产生一个有限或无限的文档序列.比如下面: 基本概念: ETL:即数据清洗,包含抽取(E),转换(T)和加载(L) 行,列: 在数据表格上的行列 流,子流:一个流代表一组模块构成链条,子流也是流,只不过是被别的流调用的,可以将流理解为函数 模块:构成流中的一个个的组件,分为生成,转换,过滤和执行 原列名: 一个模块的输入,如果有多…