今天更新了电脑上的spark环境,因为上次运行新的流水线的时候,有的一些包在1.6.1中并不支持
只需要更改系统中用户的环境变量即可
然后在eclipse中新建pydev工程,执行环境是python3这里面关联的三个旧的库也换掉,最后eclipse环境变量换掉
 
 
随后开始看新的文档
这次是聚类的学习


1. K-mean
MLlib实现了这个算法的并行版本k-mean++方法,称为kmean||
这个算法是一个Estimator
输入:featuresCol
输出:predictionCol

执行示例代码的 时候
遇到一个错误:
Relative path in absolute URI 
意思是相对路径出现在了绝对的统一资源定位符中
根据下面的参考:
在构建SparkSession的时候,多传递一个一个路径参数的设置).setSeed(1)
  • model = kmeans.fit(dataset)
  • # Evaluate clustering by computing Within Set Sum of Squared Errors.
  • wssse = model.computeCost(dataset)
  • print("Within Set Sum of Squared Errors = " + str(wssse))
  • # Shows the result.
  • centers = model.clusterCenters()
  • print("Cluster Centers: ")
  • for center in centers:
  • print(center)
  • # $example off$
  • spark.stop()
  • '''
  • sample_kmeans_data.txt
  • 0 1:0.0 2:0.0 3:0.0
  • 1 1:0.1 2:0.1 3:0.1
  • 2 1:0.2 2:0.2 3:0.2
  • 3 1:9.0 2:9.0 3:9.0
  • 4 1:9.1 2:9.1 3:9.1
  • 5 1:9.2 2:9.2 3:9.2
  • '''
  • '''
  • Within Set Sum of Squared Errors = 0.11999999999994547
  • Cluster Centers:
  • [ 0.1 0.1 0.1]
  • [ 9.1 9.1 9.1]
  • '''