机器学习库(MLlib)指南 MLlib是Spark的机器学习(ML)库.其目标是使实际的机器学习可扩展和容易.在高层次上,它提供了如下工具: ML算法:通用学习算法,如分类,回归,聚类和协同过滤 特征提取,特征提取,转换,降维和选择 管道:用于构建,评估和调整ML管道的工具 持久性:保存和加载算法,模型和管道 实用程序:线性代数,统计,数据处理等 公告:基于DataFrame的API是主要的API MLlib基于RDD的API现在处于维护模式. 从Spark 2.0开始,包中的基于RDD的AP