1 什么是Apache Beam Apache Beam是一个开源的统一的大数据编程模型,它本身并不提供执行引擎,而是支持各种平台如GCP Dataflow.Spark.Flink等.通过Apache Beam来定义批处理或流处理,就可以放在各种执行引擎上运行了. 目前支持的SDK语言也很丰富,有Java.Python.Go等. 1.1 一些基础概念 PCollection:可理解为数据包,数据处理就是在对各种PCollection进行转换和处理. PTransform:代表数据处理,用来定义数…