scala实现kmeans算法

算法的概念不做过都解释，google一下一大把。直接贴上代码，有比较详细的注释了。

主程序：

 import scala.io.Source

 import scala.util.Random

 /**

  * @author vincent

  *

  */

 object LocalKMeans {

     def main(args: Array[String]) {

         val fileName = "/home/vincent/kmeans_data.txt"

         val knumbers = 3

         val rand = new Random()

         //  读取文本数据

         val lines = Source.fromFile(fileName).getLines.toArray

         val points = lines.map(line => {

             val parts = line.split("\t").map(_.toDouble)

             new Point(parts(0), parts(1))

         }).toArray

         //  随机初始化k个质心

         val centroids = new Array[Point](knumbers)

         for (i <- 0 until knumbers) {

             centroids(i) = points(new Random().nextInt(points.length))

         }

         val startTime = System.currentTimeMillis()

         println("initialize centroids:\n" + centroids.mkString("\n") + "\n")

         println("test points: \n" + points.mkString("\n") + "\n")

         val resultCentroids = kmeans(points, centroids, 0.001)

         val endTime = System.currentTimeMillis()

         val runTime = endTime - startTime

         println("run Time: " + runTime + "\nFinal centroids: \n" + resultCentroids.mkString("\n"))

     }

     //  算法的核心函数

     def kmeans(points: Seq[Point], centroids: Seq[Point], epsilon: Double): Seq[Point] = {

         //  最近质心为key值，将数据集分簇

         val clusters = points.groupBy(closestCentroid(centroids, _))

         println("clusters: \n" + clusters.mkString("\n") + "\n")

         //  分别计算簇中数据集的平均数，得到每个簇的新质心

         val newCentroids = centroids.map(oldCentroid => {

             clusters.get(oldCentroid) match {

                 case Some(pointsInCluster) => pointsInCluster.reduceLeft(_ + _) / pointsInCluster.length

                 case None => oldCentroid

             }

         })

         //  计算新质心相对与旧质心的偏移量

         val movement = (centroids zip newCentroids).map({ case (a, b) => a distance b })

         println("Centroids changed by\n" + movement.map(d => "%3f".format(d)).mkString("(", ", ", ")")

             + "\nto\n" + newCentroids.mkString(", ") + "\n")

         //  根据偏移值大小决定是否继续迭代，epsilon为最小偏移值

         if (movement.exists(_ > epsilon))

             kmeans(points, newCentroids, epsilon)

         else

             return newCentroids

     }

     //  计算最近质心

     def closestCentroid(centroids: Seq[Point], point: Point) = {

         centroids.reduceLeft((a, b) => if ((point distance a) < (point distance b)) a else b)

     }

 }

自定义Point类：

 /**

  * @author vincent

  *

  */

 object Point {

     def random() = {

         new Point(math.random * 50, math.random * 50)

     }

 }

 case class Point(val x: Double, val y: Double) {

     def +(that: Point) = new Point(this.x + that.x, this.y + that.y)

     def -(that: Point) = new Point(this.x - that.x, this.y - that.y)

     def /(d: Double) = new Point(this.x / d, this.y / d)

     def pointLength = math.sqrt(x * x + y * y)

     def distance(that: Point) = (this - that).pointLength

     override def toString = format("(%.3f, %.3f)", x, y)

 }

测试数据集：

12.044996    36.412378

31.881257    33.677009

41.703139    46.170517

43.244406    6.991669

19.319000    27.926669

3.556824    40.935215

29.328655    33.303675

43.702858    22.305344

28.978940    28.905725

10.426760    40.311507

scala实现kmeans算法的更多相关文章

[数据挖掘] - 聚类算法：K-means算法理解及SparkCore实现
聚类算法是机器学习中的一大重要算法,也是我们掌握机器学习的必须算法,下面对聚类算法中的K-means算法做一个简单的描述: 一.概述 K-means算法属于聚类算法中的直接聚类算法.给定一个对象(或记 ...
scala wordcount kmeans
scala wordcount kmeans k-means算法的输入对象是d维向量空间的一些点,对一个d维向量的点集进行聚类. k-means聚类算法会将集合D划分成k个聚簇.
Alink漫谈(一) : 从KMeans算法实现不同看Alink设计思想
Alink漫谈(一) : 从KMeans算法实现不同看Alink设计思想目录 Alink漫谈(一) : 从KMeans算法实现不同看Alink设计思想 0x00 摘要 0x01 Flink 是什么 ...
kmeans算法并行化的mpi程序
用c语言写了kmeans算法的串行程序,再用mpi来写并行版的,貌似参照着串行版来写并行版,效果不是很赏心悦目~ 并行化思路: 使用主从模式.由一个节点充当主节点负责数据的划分与分配,其他节点完成本地 ...
【原创】数据挖掘案例——ReliefF和K-means算法的医学应用
数据挖掘方法的提出,让人们有能力最终认识数据的真正价值,即蕴藏在数据中的信息和知识.数据挖掘 (DataMiriing),指的是从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的.事先未知 ...
kmeans算法c语言实现，能对不同维度的数据进行聚类
最近在苦于思考kmeans算法的MPI并行化,花了两天的时间把该算法看懂和实现了串行版. 聚类问题就是给定一个元素集合V,其中每个元素具有d个可观察属性,使用某种算法将V划分成k个子集,要求每个子集内 ...
kmeans算法实践
这几天学习了无监督学习聚类算法Kmeans,这是聚类中非常简单的一个算法,它的算法思想与监督学习算法KNN(K近邻算法)的理论基础一样都是利用了节点之间的距离度量,不同之处在于KNN是利用了有标签的数 ...
二分K-means算法
二分K-means聚类(bisecting K-means) 算法优缺点: 由于这个是K-means的改进算法,所以优缺点与之相同. 算法思想: 1.要了解这个首先应该了解K-means算法,可以看这 ...
视觉机器学习------K-means算法
K-means(K均值)是基于数据划分的无监督聚类算法. 一.基本原理聚类算法可以理解为无监督的分类方法,即样本集预先不知所属类别或标签,需要根据样本之间的距离或相似程度自动进行分类.聚 ...

随机推荐

SGU 176 【带上下界的有源汇的最小流】
---恢复内容开始--- 题意: 给了n个点,m条有向边. 接下来m行,每条边给起点终点与容量,以及一个标记. 标记为1则该边必须满容量,0表示可以在容量范围内任意流. 求: 从源点1号点到终点n号点 ...
在Eclipse ee中成功使用jQuery UI插件
关键代码截图如下:
[ZOJ 1008]Gnome Tetravex (dfs搜索 + 小优化)
题目链接:http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemCode=1008 题目大意:给你n*n的矩阵,每个格子里有4个三角形,分别是 ...
Win2D 官方文章系列翻译 - 处理设备丢失
本文为个人博客备份文章,原文地址: http://validvoid.net/win2d-handling-device-lost/ “设备丢失”是指 GPU 设备失效无法继续进行渲染的情况.GPU ...
操作系统是怎么工作的——函数的堆栈框架/嵌入式代码
1.函数堆栈框架 1.1框架模型 call指令: 1)将eip中的下一条指令的地址A保存在栈顶: 2)设置eip指向被调用程序的代码处. ret指令:将地址A恢复到eip中这样就将函数的调用变为顺序 ...
Java创建WebService服务及客户端实现
简介 WebService是一种服务的提供方式,通过WebService,不同应用间相互间调用变的很方便,网络上有很多常用的WebService服务,如:http://developer.51cto. ...
使用JS对HTML标签进行增删改查
以下为通过JS对li标签进行简单的增删改查: <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml" ...
使用CORS：跨域两三事
本文为译文. 简介 APIS是可以将富网页应用串连在一起的线程.但是这个应用难以转给浏览器,跨域请求技术的选择被限制了,类似JSONP(由于安全考虑,使用会被限制),或者配置代理(设置和维护都比较头痛 ...
Oracle笔记九、PL/SQL 游标的使用
--演示隐式游标,系统自动声明,自动打开,自动使用并且自动关闭 begin update emp set sal = 1000; dbms_output.put_line('影响的行数:' || sq ...
angular $apply()以及$digest()讲解
重点的东西放上面,说三遍: 记住的最重要的是ng是否能检测到你对于model的修改.如果它不能检测到,那么你就需要手动地调用$apply()! 记住的最重要的是ng是否能检测到你对于model的修改. ...

scala实现kmeans算法

scala实现kmeans算法的更多相关文章

随机推荐

热门专题