《mahout in action》第六章。

datafile/cluster/simple_k-means.txt数据集例如以下：

1. k-means聚类算法原理

1、从D中随机取k个元素。作为k个簇的各自的中心。

2、分别计算剩下的元素到k个簇中心的相异度，将这些元素分别划归到相异度最低的簇。

3、依据聚类结果。又一次计算k个簇各自的中心，计算方法是取簇中全部元素各自维度的算术平均数。

4、将D中所有元素依照新的中心又一次聚类。

5、反复第4步，直到聚类结果不再变化。

6、将结果输出。

2. 举例说明

2.1 从D中随机取k个元素，作为k个簇的各自的中心。

private final static Integer K=2; //选K=2，也就是估算有两个簇。

以下选1 1，2，1两个点。

C0:1 1

C1:2 1

2.2 分别计算剩下的元素到k个簇中心的相异度，将这些元素分别划归到相异度最低的簇。

结果为：

C0 : 1 1

C0:的点为：1.0,2.0

C1:  2 1

C1:的点为：2.0,2.0

C1:的点为：3.0,3.0

C1:的点为：8.0,8.0

C1:的点为：8.0,9.0

C1:的点为：9.0,8.0

C1:的点为：9.0,9.0

2.3 依据2.2的聚类结果。又一次计算k个簇各自的中心，计算方法是取簇中全部元素各自维度的算术平均数。

採取欧区距离公式。

C0 新的簇心为：1.0,1.5

C1 新的簇心为：5.857142857142857,5.714285714285714

2.4 将D中所有元素依照新的中心又一次聚类。

第2次迭代

C0:的点为：1.0,1.0

C0:的点为：2.0,1.0

C0:的点为：1.0,2.0

C0:的点为：2.0,2.0

C0:的点为：3.0,3.0

C1:的点为：8.0,8.0

C1:的点为：8.0,9.0

C1:的点为：9.0,8.0

C1:的点为：9.0,9.0

2.5 反复第4步，直到聚类结果不再变化。

当距离小于某个值的时候。就觉得聚类已经聚类了。不须要再迭代，这里的值选0.001

private final static Double converge=0.001;

------------------------------------------------

C0的簇心为：1.6666666666666667,1.75

C1的簇心为：7.971428571428572,7.942857142857143

各个簇心移动中最小的距离为，move=0.7120003121097943

第3次迭代

C0:的点为：1.0,1.0

C0:的点为：2.0,1.0

C0:的点为：1.0,2.0

C0:的点为：2.0,2.0

C0:的点为：3.0,3.0

C1:的点为：8.0,8.0

C1:的点为：8.0,9.0

C1:的点为：9.0,8.0

C1:的点为：9.0,9.0

------------------------------------------------

C0的簇心为：1.777777777777778,1.7916666666666667

C1的簇心为：8.394285714285715,8.388571428571428

各个簇心移动中最小的距离为。move=0.11866671868496578

第4次迭代

C0:的点为：1.0,1.0

C0:的点为：2.0,1.0

C0:的点为：1.0,2.0

C0:的点为：2.0,2.0

C0:的点为：3.0,3.0

C1:的点为：8.0,8.0

C1:的点为：8.0,9.0

C1:的点为：9.0,8.0

C1:的点为：9.0,9.0

------------------------------------------------

C0的簇心为：1.7962962962962965,1.7986111111111114

C1的簇心为：8.478857142857143,8.477714285714285

各个簇心移动中最小的距离为，move=0.019777786447494432

第5次迭代

C0:的点为：1.0,1.0

C0:的点为：2.0,1.0

C0:的点为：1.0,2.0

C0:的点为：2.0,2.0

C0:的点为：3.0,3.0

C1:的点为：8.0,8.0

C1:的点为：8.0,9.0

C1:的点为：9.0,8.0

C1:的点为：9.0,9.0

------------------------------------------------

C0的簇心为：1.799382716049383,1.7997685185185184

C1的簇心为：8.495771428571429,8.495542857142857

各个簇心移动中最小的距离为。move=0.003296297741248916

第6次迭代

C0:的点为：1.0,1.0

C0:的点为：2.0,1.0

C0:的点为：1.0,2.0

C0:的点为：2.0,2.0

C0:的点为：3.0,3.0

C1:的点为：8.0,8.0

C1:的点为：8.0,9.0

C1:的点为：9.0,8.0

C1:的点为：9.0,9.0

------------------------------------------------

C0的簇心为：1.7998971193415638,1.7999614197530864

C1的簇心为：8.499154285714287,8.499108571428572

各个簇心移动中最小的距离为。move=5.49382956874724E-4

3. JAVA实现

package mysequence.machineleaning.clustering.kmeans;

import java.io.BufferedReader;

import java.io.FileInputStream;

import java.io.IOException;

import java.io.InputStreamReader;

import java.util.ArrayList;

import java.util.List;

import java.util.Vector;

import mysequence.machineleaning.clustering.canopy.Point;

public class MyKmeans {

	static Vector<Point>  li=new Vector<Point>();

	//static List<Point>  li=new ArrayList<Point>();

	static List<Vector<Point>> list=new ArrayList<Vector<Point>>(); //每次迭代保存结果，一个vector代表一个簇

	private final static Integer K=2; //选K=2，也就是估算有两个簇。

	private final static Double converge=0.001; //当距离小于某个值的时候。就觉得聚类已经聚类了，不须要再迭代，这里的值选0.001	

	//读取数据

	public static final void readF1() throws IOException {

		String filePath="datafile/cluster/simple_k-means.txt";

		BufferedReader br = new BufferedReader(new InputStreamReader(

        new FileInputStream(filePath)));

        for (String line = br.readLine(); line != null; line = br.readLine()) {

            if(line.length()==0||"".equals(line))continue;

        	String[] str=line.split(" ");

            Point p0=new Point();

    		p0.setX(Double.valueOf(str[0]));

    		p0.setY(Double.valueOf(str[1]));

    		li.add(p0);

            //System.out.println(line);

        }

        br.close();

    }

	  //math.sqrt(double n)

    //扩展下。假设要给m开n次方就用java.lang.StrictMath.pow(m,1.0/n);

	//採用欧氏距离

	public static  Double DistanceMeasure(Point p1,Point p2){

		Double tmp=StrictMath.pow(p2.getX()-p1.getX(), 2)+StrictMath.pow(p2.getY()-p1.getY(), 2);

		return Math.sqrt(tmp);

	}

	//计算新的簇心

	public static Double CalCentroid(){

		System.out.println("------------------------------------------------");

		Double movedist=Double.MAX_VALUE;

		for(int i=0;i<list.size();i++){

			Vector<Point> subli=list.get(i);

			Point po=new Point();

			Double sumX=0.0;

			Double sumY=0.0;

			Double Clusterlen=Double.valueOf(subli.size());

			for(int j=0;j<Clusterlen;j++){

				Point nextp=subli.get(j);

				sumX=sumX+nextp.getX();

				sumY=sumY+nextp.getY();

			}

			po.setX(sumX/Clusterlen);

			po.setY(sumY/Clusterlen);

			//新的点与旧点之间的距离

			Double dist=DistanceMeasure(subli.get(0),po);

			//在多个簇心移动的过程中，返回移动距离最小的值

			if(dist<movedist)movedist=dist;

			list.get(i).clear();

			list.get(i).add(po);

			System.out.println("C"+i+"的簇心为："+po.getX()+","+po.getY());

		}

		String test="ll";

		return movedist;

	}

	//本次的簇心

	//下一次移动的簇心

	private static Double move=Double.MAX_VALUE;//移动距离

	//不断地迭代，直到收敛

	public static void RecursionKluster(){

		for(int times=2;move>converge;times++){

			System.out.println("第"+times+"次迭代");

			//默认每个list里的Vector第0个元素是质心

			for(int i=0;i<li.size();i++){

				Point p=new Point();

				 p=li.get(i);

				int index = -1;

	            double neardist = Double.MAX_VALUE;

				for(int k=0;k<K;k++){

					Point centre=list.get(k).get(0);

					double currentdist=DistanceMeasure(p,centre);

					if(currentdist<neardist){

						neardist=currentdist;

						index=k;

					}

				}

				System.out.println("C"+index+":的点为："+p.getX()+","+p.getY());

				list.get(index).add(p);

			}

			//又一次计算簇心,并返回移动的距离，最小的那个距离

			move=CalCentroid();

			System.out.println("各个簇心移动中最小的距离为。move="+move);

		}

	}

	public static void Kluster(){

		for(int k=0;k<K;k++){

			Vector<Point> vect=new Vector<Point>();

			Point p=new Point();

			p=li.get(k);

			vect.add(p);

			list.add(vect);

		}

		System.out.println("第1次迭代");

		//默认每个list里的Vector第0个元素是质心

		for(int i=K;i<li.size();i++){

			Point p=new Point();

			 p=li.get(i);

			int index = -1;

            double neardist = Double.MAX_VALUE;

			for(int k=0;k<K;k++){

				Point centre=list.get(k).get(0);

				double currentdist=DistanceMeasure(p,centre);

				if(currentdist<neardist){

					neardist=currentdist;

					index=k;

				}

			}

			System.out.println("C"+index+":的点为："+p.getX()+","+p.getY());

			list.get(index).add(p);

		}

	}

	public static void main(String[] args) throws IOException {

		// TODO Auto-generated method stub

		//读取数据

		readF1();

		//第一次迭代

		Kluster();

		//第一次迭代后计算簇心

		CalCentroid();

		//不断迭代，直到收敛

		RecursionKluster();

	}

}

4.执行结果：

C0:1 1

C1:2 1

第1次迭代

C0:的点为：1.0,2.0

C1:的点为：2.0,2.0

C1:的点为：3.0,3.0

C1:的点为：8.0,8.0

C1:的点为：8.0,9.0

C1:的点为：9.0,8.0

C1:的点为：9.0,9.0

------------------------------------------------

C0的簇心为：1.0,1.5

C1的簇心为：5.857142857142857,5.714285714285714

第2次迭代

C0:的点为：1.0,1.0

C0:的点为：2.0,1.0

C0:的点为：1.0,2.0

C0:的点为：2.0,2.0

C0:的点为：3.0,3.0

C1:的点为：8.0,8.0

C1:的点为：8.0,9.0

C1:的点为：9.0,8.0

C1:的点为：9.0,9.0

------------------------------------------------

C0的簇心为：1.6666666666666667,1.75

C1的簇心为：7.971428571428572,7.942857142857143

各个簇心移动中最小的距离为，move=0.7120003121097943

第3次迭代

C0:的点为：1.0,1.0

C0:的点为：2.0,1.0

C0:的点为：1.0,2.0

C0:的点为：2.0,2.0

C0:的点为：3.0,3.0

C1:的点为：8.0,8.0

C1:的点为：8.0,9.0

C1:的点为：9.0,8.0

C1:的点为：9.0,9.0

------------------------------------------------

C0的簇心为：1.777777777777778,1.7916666666666667

C1的簇心为：8.394285714285715,8.388571428571428

各个簇心移动中最小的距离为。move=0.11866671868496578

第4次迭代

C0:的点为：1.0,1.0

C0:的点为：2.0,1.0

C0:的点为：1.0,2.0

C0:的点为：2.0,2.0

C0:的点为：3.0,3.0

C1:的点为：8.0,8.0

C1:的点为：8.0,9.0

C1:的点为：9.0,8.0

C1:的点为：9.0,9.0

------------------------------------------------

C0的簇心为：1.7962962962962965,1.7986111111111114

C1的簇心为：8.478857142857143,8.477714285714285

各个簇心移动中最小的距离为。move=0.019777786447494432

第5次迭代

C0:的点为：1.0,1.0

C0:的点为：2.0,1.0

C0:的点为：1.0,2.0

C0:的点为：2.0,2.0

C0:的点为：3.0,3.0

C1:的点为：8.0,8.0

C1:的点为：8.0,9.0

C1:的点为：9.0,8.0

C1:的点为：9.0,9.0

------------------------------------------------

C0的簇心为：1.799382716049383,1.7997685185185184

C1的簇心为：8.495771428571429,8.495542857142857

各个簇心移动中最小的距离为。move=0.003296297741248916

第6次迭代

C0:的点为：1.0,1.0

C0:的点为：2.0,1.0

C0:的点为：1.0,2.0

C0:的点为：2.0,2.0

C0:的点为：3.0,3.0

C1:的点为：8.0,8.0

C1:的点为：8.0,9.0

C1:的点为：9.0,8.0

C1:的点为：9.0,9.0

------------------------------------------------

C0的簇心为：1.7998971193415638,1.7999614197530864

C1的簇心为：8.499154285714287,8.499108571428572

各个簇心移动中最小的距离为。move=5.49382956874724E-4

k-means聚类JAVA实例的更多相关文章

机器学习实战5：k-means聚类：二分k均值聚类+地理位置聚簇实例
k-均值聚类是非监督学习的一种,输入必须指定聚簇中心个数k.k均值是基于相似度的聚类,为没有标签的一簇实例分为一类. 一经典的k-均值聚类思路: 1 随机创建k个质心(k必须指定,二维的很容易确定 ...
【转】算法杂货铺——k均值聚类(K-means)
k均值聚类(K-means) 4.1.摘要在前面的文章中,介绍了三种常见的分类算法.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应.但是很多时 ...
5-Spark高级数据分析-第五章基于K均值聚类的网络流量异常检测
据我们所知,有‘已知的已知’,有些事,我们知道我们知道:我们也知道,有 ‘已知的未知’,也就是说,有些事,我们现在知道我们不知道.但是,同样存在‘不知的不知’——有些事,我们不知道我们不知道. 上一章 ...
第十篇：K均值聚类(KMeans)
前言本文讲解如何使用R语言进行 KMeans 均值聚类分析,并以一个关于人口出生率死亡率的实例演示具体分析步骤. 聚类分析总体流程 1. 载入并了解数据集:2. 调用聚类函数进行聚类:3. 查看聚类 ...
（ZT）算法杂货铺——k均值聚类(K-means)
https://www.cnblogs.com/leoo2sk/category/273456.html 4.1.摘要在前面的文章中,介绍了三种常见的分类算法.分类作为一种监督学习方法,要求必须事先 ...
ML: 聚类算法-K均值聚类
基于划分方法聚类算法R包: K-均值聚类(K-means) stats::kmeans().fpc::kmeansruns() K-中心点聚类(K-Medoids) ...
Java-Runoob-高级教程-实例-方法：10. Java 实例 – 标签(Label)
ylbtech-Java-Runoob-高级教程-实例-方法:10. Java 实例 – 标签(Label) 1.返回顶部 1. Java 实例 - 标签(Label) Java 实例 Java 中 ...
Java-Runoob-高级教程-实例-时间处理：04. Java 实例 - 时间戳转换成时间
ylbtech-Java-Runoob-高级教程-实例-时间处理:04. Java 实例 - 时间戳转换成时间 1.返回顶部 1. Java 实例 - 时间戳转换成时间 Java 实例以下实例演示 ...
Java-Runoob-高级教程-实例-数组：10. Java 实例 – 查找数组中的重复元素-un
ylbtech-Java-Runoob-高级教程-实例-数组:10. Java 实例 – 查找数组中的重复元素 1.返回顶部 1. Java 实例 - 查找数组中的重复元素 Java 实例以下实例 ...

随机推荐

kali工具学习
使用前的准备开启/关闭 HTTP服务 Service apache2 start/stop 自动启动HTTP服务:update-rc.d apache2 defaults 开启/关闭 mysql S ...
苹果将通过新Apple TV打造电视游戏平台欲发力家庭游戏（转）
据<纽约时报>报道,9月10日凌晨1时举行的苹果发布会上将会公布新版Apple TV设备,还会推出TV版App Store.新设备以游戏作为主要卖点,图形性能将大幅提升. 苹果2015年秋 ...
Java 操作MySql数据库
Java 项目开发中数据库操作是很重要的一个方面,对于初学者来说,MySql是比较容易熟悉的一种常见数据库,这篇文章记录了如何用Java来操作MySql数据库. 第一章 JDBC的概念 JDBC(Ja ...
cubieboard中使用py-kms与dnsmasq搭建局域网内全自动KMS激活环境
众所周知,KMS激活方式是当前广大网民“试用”windows,office的最广泛的激活方式.几乎可以用于微软的全线产品. 但是在本机使用KMS类的激活工具总是有些不放心,一方面每隔180天都要重新激 ...
Chapter 5 Convert Image Set To LevelDB/LMDB
Caffe中convert_imageset projrct将图像数据转换成Caffe能读取的数据格式leveldb/lmdb 1.添加命令参数在main函数中添加命令参数,内容和位置如下: #if ...
检查 CPU 是否支持二级地址转换 - 摘自网络
Windows 8 Consumer Preview 于2月正式发布,随后 Windows Server 8 Beta 也公布了下载.整体对比,Windows 8 在硬件方面的要求并不高,其最低硬件需 ...
xe mysql
[FireDAC][Phys][MySQL]-314. Cannot load vendor library [libmysql.dll or libmysqld.dll]. The specifie ...
MYSQL数据库重点：事务与锁机制
一.事务一组连续的数据库操作,每一次操作都成功,整个事务就成功,只要有一步出错,整个事务就失败: MySQL事务与存储引擎相关 1.MyISAM:不支持事务,用于只读程序提高性能 2.InnoDB: ...
HD2144Calculate S(n)
Problem Description Calculate S(n). S(n)=13+23 +33 +......+n3 . Input Each line will contain one int ...
LabView中，下拉列表和枚举有什么区别？
枚举变量只能针对无符号整型数据U32,U16,U8; 而下拉列表则可以包括扩展精度,双精度,单精度,64位.长.双字节.单字节整型以及各种无符号整型(如下图黑色部分). 下拉列表

k-means聚类JAVA实例

1. k-means聚类算法原理

2. 举例说明

2.1 从D中随机取k个元素，作为k个簇的各自的中心。

2.2 分别计算剩下的元素到k个簇中心的相异度，将这些元素分别划归到相异度最低的簇。

2.3 依据2.2的聚类结果。又一次计算k个簇各自的中心，计算方法是取簇中全部元素各自维度的算术平均数。

2.4 将D中所有元素依照新的中心又一次聚类。

2.5 反复第4步，直到聚类结果不再变化。

3. JAVA实现

4.执行结果：

k-means聚类JAVA实例的更多相关文章

随机推荐

热门专题