一.机器学习常用开发软件:Spark.Scala 1. Spark简介: MLlib包含的库文件有: 分类 降维 回归 聚类 推荐系统 自然语言处理 在线学习 统计学习方法:偏向理论性,数理统计的方法,对实时性没有特别要求: 机器学习:偏向工程化(包含数据预处理.特征选择.参数优化),有实时性要求,旨在构造一个整体的系统,如在线学习等: 概率图模型:构建一个统一的方法论,可以解决一些时序模型,概括了表示.推理.学习的流程,如贝叶斯网络等. Spark在Standalone模式下的工作原理: 首…