本文来自 http://spark.apache.org/docs/latest/mllib-guide.html 官方文档翻译 个人翻译 MLlib包括的算法和工具主要有:分类,回归,聚类,协同过滤,降维,和底层优化原语: 数据类型 基本统计 总和统计 相关性 分层抽样 假设检验 随机数生成 分类和回归 线性模型(SVM,逻辑回归,线性回归) 朴素贝叶斯 决策树 ensembles of trees (随机森林和Gradient-Boosted树) 协同过滤 最小二乘法(ALS) 聚类 k-m…