Spark实现K-Means算法

K-Means算法是一种基于距离的聚类算法，采用迭代的方法，计算出K个聚类中心，把若干个点聚成K类。

MLlib实现K-Means算法的原理是，运行多个K-Means算法，每个称为run，返回最好的那个聚类的类簇中心。初始的类簇中心，可以是随机的，也可以是KMean||得来的，迭代达到一定的次数，或者所有run都收敛时，算法就结束。

用Spark实现K-Means算法，首先修改pom文件，引入机器学习MLlib包：

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-mllib_2.10</artifactId>

            <version>1.6.0</version>

        </dependency>

代码：

import org.apache.log4j.{Level,Logger}

import org.apache.spark.{SparkContext, SparkConf}

import org.apache.spark.mllib.clustering.KMeans

import org.apache.spark.mllib.linalg.Vectors

object Kmeans {

  def main(args:Array[String]) = {

    // 屏蔽日志

    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)

    Logger.getLogger("org.apache.jetty.server").setLevel(Level.OFF)

    // 设置运行环境

    val conf = new SparkConf().setAppName("K-Means").setMaster("spark://master:7077")

      .setJars(Seq("E:\\Intellij\\Projects\\SimpleGraphX\\SimpleGraphX.jar"))

    val sc = new SparkContext(conf)

    // 装载数据集

    val data = sc.textFile("hdfs://master:9000/kmeans_data.txt", 1)

    val parsedData = data.map(s => Vectors.dense(s.split(" ").map(_.toDouble)))

    // 将数据集聚类,2个类,20次迭代,形成数据模型

    val numClusters = 2

    val numIterations = 20

    val model = KMeans.train(parsedData, numClusters, numIterations)

    // 数据模型的中心点

    println("Cluster centres:")

    for(c <- model.clusterCenters) {

      println("  " + c.toString)

    }

    // 使用误差平方之和来评估数据模型

    val cost = model.computeCost(parsedData)

    println("Within Set Sum of Squared Errors = " + cost)

    // 使用模型测试单点数据

    println("Vectors 7.3 1.5 10.9 is belong to cluster:" + model.predict(Vectors.dense("7.3 1.5 10.9".split(" ")

      .map(_.toDouble))))

    println("Vectors 4.2 11.2 2.7 is belong to cluster:" + model.predict(Vectors.dense("4.2 11.2 2.7".split(" ")

      .map(_.toDouble))))

    println("Vectors 18.0 4.5 3.8 is belong to cluster:" + model.predict(Vectors.dense("1.0 14.5 73.8".split(" ")

      .map(_.toDouble))))

    // 返回数据集和结果

    val result = data.map {

      line =>

        val linevectore = Vectors.dense(line.split(" ").map(_.toDouble))

        val prediction = model.predict(linevectore)

        line + " " + prediction

    }.collect.foreach(println)

    sc.stop

  }

}

使用textFile()方法装载数据集，获得RDD，再使用KMeans.train()方法根据RDD、K值和迭代次数得到一个KMeans模型。得到KMeans模型以后，可以判断一组数据属于哪一个类。具体方法是用Vectors.dense()方法生成一个Vector，然后用KMeans.predict()方法就可以返回属于哪一个类。

运行结果：

Cluster centres:

  [6.062499999999999,6.7124999999999995,11.5]

  [3.5,12.2,60.0]

Within Set Sum of Squared Errors = 943.2074999999998

Vectors 7.3 1.5 10.9 is belong to cluster:0

Vectors 4.2 11.2 2.7 is belong to cluster:0

Vectors 18.0 4.5 3.8 is belong to cluster:1

0.0 0.0 5.0 0

0.1 10.1 0.1 0

1.2 5.2 13.5 0

9.5 9.0 9.0 0

9.1 9.1 9.1 0

19.2 9.4 29.2 0

5.8 3.0 18.0 0

3.5 12.2 60.0 1

3.6 7.9 8.1 0

Spark实现K-Means算法的更多相关文章

KNN 与 K - Means 算法比较
KNN K-Means 1.分类算法聚类算法 2.监督学习非监督学习 3.数据类型:喂给它的数据集是带label的数据,已经是完全正确的数据喂给它的数据集是无label的数据,是杂乱无章的,经过 ...
K－means算法
K-means算法很简单,它属于无监督学习算法中的聚类算法中的一种方法吧,利用欧式距离进行聚合啦. 解决的问题如图所示哈:有一堆没有标签的训练样本,并且它们可以潜在地分为K类,我们怎么把它们划分呢? ...
spark Bisecting k-means（二分K均值算法）
Bisecting k-means(二分K均值算法) 二分k均值(bisecting k-means)是一种层次聚类方法,算法的主要思想是:首先将所有点作为一个簇,然后将该簇一分为二.之后选择能最大程 ...
Spark中常用的算法
Spark中常用的算法: 3.2.1 分类算法分类算法属于监督式学习,使用类标签已知的样本建立一个分类函数或分类模型,应用分类模型,能把数据库中的类标签未知的数据进行归类.分类在数据挖掘中是一项重要 ...
机器学习实战笔记--k近邻算法
#encoding:utf-8 from numpy import * import operator import matplotlib import matplotlib.pyplot as pl ...
《机器学习实战》学习笔记一K邻近算法
一. K邻近算法思想:存在一个样本数据集合,称为训练样本集,并且每个数据都存在标签,即我们知道样本集中每一数据(这里的数据是一组数据,可以是n维向量)与所属分类的对应关系.输入没有标签的新数据后,将 ...
[Machine-Learning] K临近算法-简单例子
k-临近算法算法步骤 k 临近算法的伪代码,对位置类别属性的数据集中的每个点依次执行以下操作: 计算已知类别数据集中的每个点与当前点之间的距离: 按照距离递增次序排序: 选取与当前点距离最小的k个点 ...
k近邻算法的Java实现
k近邻算法是机器学习算法中最简单的算法之一,工作原理是:存在一个样本数据集合,即训练样本集,并且样本集中的每个数据都存在标签,即我们知道样本集中每一数据和所属分类的对应关系.输入没有标签的新数据之后, ...
基本分类方法——KNN(K近邻)算法
在这篇文章 http://www.cnblogs.com/charlesblc/p/6193867.html 讲SVM的过程中,提到了KNN算法.有点熟悉,上网一查,居然就是K近邻算法,机器学习的入门 ...
聚类算法：K-means 算法(k均值算法)
k-means算法: 第一步:选$K$个初始聚类中心,$z_1(1),z_2(1),\cdots,z_k(1)$,其中括号内的序号为寻找聚类中心的迭代运算的次序号. 聚类中心的向量值可任意设 ...

随机推荐

ubuntu基本用法
• Linux上vim编辑器缩进的设置 • 从零开始UNIX环境高级编程(0):Linux下运行第一个程序
Django的auto_now=True没有自动更新
auto_now=True自动更新,有一个条件,就是要通过django的model层. 如create或是save方法. 如果是filter之后update方法,则直接调用的是sql,不会通过mode ...
MySQL和Java数据类型对应
Java MySQL数据类型对照类型名称显示长度数据库类型 JAVA类型 JDBC类型索引(int) 描述 VARCHAR L+N VARCHAR java.lang.S ...
PHPexcel的用法
由于经常要统计学生的考试成绩,就研究了下PHPexcel这个插件顺便说一下,读取方法只针对xls文件. 如果报错,可以先生存一个xls文件,把需要读取的xls内容复制进去. <?php //读 ...
python全栈开发day34-线程Thread
一.昨日内容回顾 1. 概念和理论进程是计算机资源分配最小单位进程三状态.同步.异步.阻塞.非阻塞 2. 进程的创建实例化.自建类run,start,join,terminate,daemon等 ...
Codeforces 679C Bear and Square Grid
Bear and Square Grid 枚举k * k 的位置, 然后接上它周围白色连通块的数量, 再统计完全在k * k范围里的连通块, 这个只要某个连通块全部的方格在k * k里面就好, 并且 ...
BZOJ1177 [Apio2009]Oil 二维前缀和二维前缀最值
欢迎访问~原文出处——博客园-zhouzhendong 去博客园看该题解题目传送门 - BZOJ1177 题意概括在一个n*m的矩阵中,每一个位置一个数字. 现在让你选出3个k*k的矩阵,它们互不 ...
java导出数据EXCEL的工具类（以spring-webmvc-4.0.4jar为基础）
1.本工具类继承于 spring-webmvc-4.0.4jar文件心中的一个类 AbstractExcelView 2.代码如下 package com.skjd.util; import j ...
6-2 S树 uva712
这题关键是反转查询是固定按照x1x2x3来的那么先收集前面的顺序然后在数组里面直接调用即可比如前面的树是 x3 x1 x2 就把这个当作数组下标最左边的树是 1<&l ...
【Java】剑指offer(52) 两个链表的第一个公共结点
本文参考自<剑指offer>一书,代码采用Java语言. 更多:<剑指Offer>Java实现合集题目输入两个链表,找出它们的第一个公共结点. 思路蛮力法:遍历第一个 ...

Spark实现K-Means算法

Spark实现K-Means算法的更多相关文章

随机推荐

热门专题