MLlib 是 Spark 的机器学习库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模.MLlib 由一些通用的学习算法和工具组成,包括分类.回归.聚类.协同过滤.降维等,同时还包括底层的优化原语和高层的管道 API.具体来说,主要包括以下几方面的内容: 机器学习算法:常用的学习算法,如分类.回归.聚类和协同过滤: 特征化工具:特征提取.转化.降维和特征选择等工具: 管道:由于构建.评估和调整机器学习管道的工具: 持久性:保存和加载算法,模型和管道: 实用工具:线性代数,统计和数据处理等…