背景 SQLSERVER数据库中单表数据几十亿,分区方案也已经无法查询出结果.故:采用导出功能,导出数据到Text文本(文本>40G)中. 因上原因,所以本次的实验样本为:[数据量:61w条,文本大小:74M] 选择DataX原因 试图维持统一的异构数据源同步方案.(其实行不通) 试图进入Hive时,已经是压缩ORC格式,降低存储大小,提高列式查询效率,以便后续查询HIVE数据导入KUDU时提高效率(其实行不通) 1. 建HIVE表 进入HIVE,必须和TextFile中的字段类型保持一致 cr