spark 提供了两个机器学习库 MLlib 和 ML,MLlib 是 spark 第一个机器学习库,相比于 ML,它更加成熟 rdd 是 spark core 的数据抽象,dataframe 是 sparkSQL 的数据抽象, 而 MLib 的数据抽象包括 Vector.LabeledPoint.Rating Vector vector 是一个由 数值型数据 构成的带索引的 集合,确切的说是一个向量:索引从 0 开始: 从机器学习的角度将,一个 vector 代表一个 对象,vector 的元…