Spark提供了常用机器学习算法的实现, 封装于spark.ml和spark.mllib中. spark.mllib是基于RDD的机器学习库, spark.ml是基于DataFrame的机器学习库. 相对于RDD, DataFrame拥有更丰富的操作API, 可以进行更灵活的操作. 目前, spark.mllib已经进入维护状态, 不再添加新特性. 本文将重点介绍pyspark.ml, 测试环境为Spark 2.1, Python API. 首先介绍pyspark.ml中的几个基类: ML Da…