1. 前言 当前公司的大数据实时链路如下图,数据源是MySQL数据库,然后通过Binlog Query的方式消费或者直接客户端采集到Kafka,最终通过基于Spark/Flink实现的批流一体计算引擎处理,最后输出到下游对应的存储. 2. 模型特征架构的演进 2.1 第一代架构 广告业务发展初期,为了提升策略迭代效率,整理出一套通用的特征生产框架,该框架由三部分组成:特征统计.特征推送和特征获取模型训练.如下图所示: 客户端以及服务端数据先通过统一服务Sink到HDFS上 基于基HDFS数据,统…