背景 在某地市开展项目的时候,发现数据采集,数据探索,预处理,数据统计,训练预测都需要很多资源,现场资源不够用. 目前该项目的资源3台旧的服务器,每台的资源 内存为128G,cores 为24 (core可暂时忽略,以下仅考虑内存即可) . 案例分析 我们先对任务分别分析,然后分类. 数据采集基于DC,接的是Kafka的源,属于流式,常驻任务.kafka来新数据时才需要资源,空闲时可释放.目前占用的资源情况为:28( topic数)*2(线程数)*1G = 56G,且该值会随着带采集增量表数量的