算法 - k-means++

Kmeans++算法

Kmeans++算法，主要可以解决初始中心的选择问题，不可解决k的个数问题。

Kmeans++主要思想是选择的初始聚类中心要尽量的远。

做法：

1. 在输入的数据点中随机选一个作为第一个聚类中心。

2. 对于所有数据点，计算它与已有的聚类中心的最小距离D(x)

3. 选择一个数据点作为新增的聚类中心，选择原则：D(x)较大的点被选为聚类中心的概率较大。

4. 重复2~3步骤直到选出k个聚类中心。

5. 运行Kmeans算法。

package com.lfy.main;

import java.util.ArrayList;

import java.util.List;

import java.util.Random;

/**

 * K均值聚类算法

 */

public class Kmeans {

    private int numOfCluster;// 分成多少簇

    private int timeOfIteration;// 迭代次数

    private int dataSetLength;// 数据集元素个数，即数据集的长度

    private ArrayList<float[]> dataSet;// 数据集

    private ArrayList<float[]> center;// 质心

    private ArrayList<ArrayList<float[]>> cluster; //簇

    private ArrayList<Float> sumOfErrorSquare;// 误差平方和

    private Random random;

    /**

     * 设置需分组的原始数据集

     *

     * @param dataSet

     */

    public void setDataSet(ArrayList<float[]> dataSet) {

        this.dataSet = dataSet;

    }

    /**

     * 获取结果分组

     *

     * @return 结果集

     */

    public ArrayList<ArrayList<float[]>> getCluster() {

        return cluster;

    }

    /**

     * 构造函数，传入需要分成的簇数量

     *

     * @param numOfCluster

     *    簇数量,若numOfCluster<=0时，设置为1，若numOfCluster大于数据源的长度时，置为数据源的长度

     */

    public Kmeans(int numOfCluster) {

        if (numOfCluster <= 0) {

            numOfCluster = 1;

        }

        this.numOfCluster = numOfCluster;

    }

    /**

     * 初始化

     */

    private void init() {

        timeOfIteration = 0;

        random = new Random();

        //如果调用者未初始化数据集，则采用内部测试数据集

        if (dataSet == null || dataSet.size() == 0) {

            initDataSet();

        }

        dataSetLength = dataSet.size();

        //若numOfCluster大于数据源的长度时，置为数据源的长度

        if (numOfCluster > dataSetLength) {

            numOfCluster = dataSetLength;

        }

        center = initCenters();

        cluster = initCluster();

        sumOfErrorSquare = new ArrayList<Float>();

        //查看init质心的选取情况

        printDataArray(center,"initCenter");

    }

    /**

     * 如果调用者未初始化数据集，则采用内部测试数据集

     */

    private void initDataSet() {

        dataSet = new ArrayList<float[]>();

        // 其中{6,3}是一样的，所以长度为15的数据集分成14簇和15簇的误差都为0

        float[][] dataSetArray = new float[][] { { 8, 2 }, { 3, 4 }, { 2, 5 },

                { 4, 2 }, { 7, 3 }, { 6, 2 }, { 4, 7 }, { 6, 3 }, { 5, 3 },

                { 6, 3 }, { 6, 9 }, { 1, 6 }, { 3, 9 }, { 4, 1 }, { 8, 6 } };

        for (int i = 0; i < dataSetArray.length; i++) {

            dataSet.add(dataSetArray[i]);

        }

    }

    /**

     * 随机选取k个质点

     * 初始化中心点，分成多少簇就有多少个中心点

     *

     * @return 中心点集

     */

    private ArrayList<float[]> initCenters() {

        ArrayList<float[]> center = new ArrayList<float[]>();

        int[] randoms = new int[numOfCluster];

        int temp = random.nextInt(dataSetLength);

        randoms[0] = temp;

        //----------------------

        List<Integer> list=new ArrayList<Integer>();

        list.add(temp);

        //randoms数组中存放dataSet数据集的不同的下标

        for (int i = 1; i < numOfCluster; i++) {

//            while (true) {

//                temp = random.nextInt(dataSetLength);

//

//                int j=0;

//                for(; j<i; j++){

//                    if(randoms[j] == temp){

//                        break;

//                    }

//                }

//                //没有与任何一个已经选定的质心重复

//                //跳出外层循环，设定一个随机质心

//                if (j == i) {

//                    break;

//                }

//            }

            //----------------------

            ArrayList<float[]> ltemp=new ArrayList<float[]>();

            //从剩下的点中继续找质点

            for (int k = 0; k < dataSetLength; k++) {

                //如果该点还没有被选择为质点，则计算它与已有的所有质点的最小距离

                if(!list.contains(k)) {

                    float[] distance = new float[numOfCluster];

                    for (int j = 0; j < list.size(); j++) {

                        //某点k到已有中心点的距离

                        distance[j] = distance(dataSet.get(k), dataSet.get(list.get(j)));

                    }

                    int j = minDistance(distance);

                    float[] f={0,0};

                    f[0]=k;

                    f[1]=distance[j];

                    ltemp.add(f);

                }

            }

            int m=maxDistance(ltemp);

            temp=(int) ltemp.get(m)[0];

            list.add(temp);

            //----------------------

            randoms[i] = temp;

        }

        for (int i = 0; i < numOfCluster; i++) {

            center.add(dataSet.get(randoms[i]));// 生成初始化中心点集

        }

        return center;

    }

    /**

     * 初始化簇集合

     *

     * @return 一个分为k簇的空数据的簇集合

     */

    private ArrayList<ArrayList<float[]>> initCluster() {

        ArrayList<ArrayList<float[]>> cluster = new ArrayList<ArrayList<float[]>>();

        for (int i = 0; i < numOfCluster; i++) {

            cluster.add(new ArrayList<float[]>());

        }

        return cluster;

    }

    /**

     * 计算两个点之间的距离

     *

     * @param element

     *            点1

     * @param center

     *            点2

     * @return 距离

     */

    private float distance(float[] element, float[] center) {

        float distance = 0.0f;

        float x = element[0] - center[0];

        float y = element[1] - center[1];

        float z = x * x + y * y;

        distance = (float) Math.sqrt(z);

        return distance;

    }

    /**

     * 获取距离集合中最小距离的位置

     *

     * @param distance

     *            距离数组

     * @return 最小距离在距离数组中的位置

     */

    private int minDistance(float[] distance) {

        float minDistance = distance[0];

        int minLocation = 0;

        for (int i = 1; i < distance.length; i++) {

            if (distance[i] <= minDistance) {

                minDistance = distance[i];

                minLocation = i;

            }

        }

        return minLocation;

    }

    /**

     * 获取距离集合中最小距离的最大的位置

     *

     * @param distance

     *            各点最小距离数组

     * @return 各点最小距离在距离数组中的位置

     */

    private int maxDistance(ArrayList<float[]> distance) {

        float[] maxDistance = distance.get(0);

        int maxLocation = 0;

        for (int i = 1; i < distance.size(); i++) {

            if (distance.get(i)[1] >= maxDistance[1]) {

                maxDistance = distance.get(i);

                maxLocation = i;

            }

        }

        return maxLocation;

    }

    /**

     * 核心，将当前元素放到最小距离的簇中

     */

    private void clusterSet() {

        float[] distance = new float[numOfCluster];

        for (int i = 0; i < dataSetLength; i++) {

            for (int j = 0; j < numOfCluster; j++) {

                //计算数据集点与所有中心点的距离

                distance[j] = distance(dataSet.get(i), center.get(j));

            }

            int j = minDistance(distance);

            // 核心，将当前元素放到最小距离中心相关的簇中

            cluster.get(j).add(dataSet.get(i));

        }

    }

    /**

     * 求族中各点到其中心点距离的平方，即误差平方

     *

     * @param element

     *            点1

     * @param center

     *            点2

     * @return 误差平方

     */

    private float errorSquare(float[] element, float[] center) {

        float x = element[0] - center[0];

        float y = element[1] - center[1];

        float errSquare = x * x + y * y;

        return errSquare;

    }

    /**

     * 计算一次迭代误差平方和

     */

    private void countRule() {

        float jcF = 0;

        for (int i = 0; i < cluster.size(); i++) {

            for (int j = 0; j < cluster.get(i).size(); j++) {

                jcF += errorSquare(cluster.get(i).get(j), center.get(i));

            }

        }

        sumOfErrorSquare.add(jcF);

    }

    /**

     * 设置新的簇中心方法

     */

    private void setNewCenter() {

        for (int i = 0; i < numOfCluster; i++) {

            int n = cluster.get(i).size();

            if (n != 0) {

                float[] newCenter = { 0, 0 };

                for (int j = 0; j < n; j++) {

                    newCenter[0] += cluster.get(i).get(j)[0];

                    newCenter[1] += cluster.get(i).get(j)[1];

                }

                // 设置一个平均值

                newCenter[0] = newCenter[0] / n;

                newCenter[1] = newCenter[1] / n;

                center.set(i, newCenter);

            }

        }

        printDataArray(center,"newCenter");

    }

    /**

     * 打印数据，测试用

     *

     * @param dataArray

     *            数据集

     * @param dataArrayName

     *            数据集名称

     */

    public void printDataArray(ArrayList<float[]> dataArray,

                               String dataArrayName) {

        for (int i = 0; i < dataArray.size(); i++) {

            System.out.println("print:" + dataArrayName + "[" + i + "]={"

                    + dataArray.get(i)[0] + "," + dataArray.get(i)[1] + "}");

        }

        System.out.println("===================================");

    }

    /**

     * Kmeans算法核心过程方法

     */

    private void kmeans() {

        init();

        // 循环分组，直到误差不变为止

        while (true) {

            clusterSet();

            countRule();

            // 误差不变了，分组完成

            if (timeOfIteration != 0) {

                if (sumOfErrorSquare.get(timeOfIteration) - sumOfErrorSquare.get(timeOfIteration - 1) == 0) {

                    break;

                }

            }

            //设置各簇新的质心，继续迭代

            setNewCenter();

            timeOfIteration++;

            cluster.clear();

            cluster = initCluster();

        }

        System.out.println("note:the times of repeat:timeOfIteration="+timeOfIteration);//输出迭代次数

    }

    /**

     * 执行算法

     */

    public void execute() {

        long startTime = System.currentTimeMillis();

        System.out.println("kmeans begins");

        kmeans();

        long endTime = System.currentTimeMillis();

        System.out.println("kmeans running time=" + (endTime - startTime)

                + "ms");

        System.out.println("kmeans ends");

        System.out.println();

    }

}

package com.lfy.main;

import java.util.ArrayList;

public class KmeansTest {

    public  static void main(String[] args)

    {

        //初始化一个Kmean对象，设置k值

        Kmeans k=new Kmeans(3);

        ArrayList<float[]> dataSet=new ArrayList<float[]>();

        dataSet.add(new float[]{3,4});

        dataSet.add(new float[]{4,4});

        dataSet.add(new float[]{3,3});

        dataSet.add(new float[]{4,3});

        //

        dataSet.add(new float[]{0,2});

        dataSet.add(new float[]{1,2});

        dataSet.add(new float[]{0,1});

        dataSet.add(new float[]{1,1});

        //

        dataSet.add(new float[]{3,1});

        dataSet.add(new float[]{3,0});

        dataSet.add(new float[]{5,0});

        dataSet.add(new float[]{4,0});

        dataSet.add(new float[]{4,1});

        //设置原始数据集

        k.setDataSet(dataSet);

        //执行算法

        k.execute();

        //得到聚类结果

        ArrayList<ArrayList<float[]>> cluster=k.getCluster();

        //查看结果

        for(int i=0;i<cluster.size();i++)

        {

            k.printDataArray(cluster.get(i), "cluster["+i+"]");

        }

    }

}

算法 - k-means++的更多相关文章

第4章最基础的分类算法-k近邻算法
思想极度简单应用数学知识少效果好(缺点?) 可以解释机器学习算法使用过程中的很多细节问题更完整的刻画机器学习应用的流程 distances = [] for x_train in X_train ...
KNN 与 K - Means 算法比较
KNN K-Means 1.分类算法聚类算法 2.监督学习非监督学习 3.数据类型:喂给它的数据集是带label的数据,已经是完全正确的数据喂给它的数据集是无label的数据,是杂乱无章的,经过 ...
ML: 聚类算法-K均值聚类
基于划分方法聚类算法R包: K-均值聚类(K-means) stats::kmeans().fpc::kmeansruns() K-中心点聚类(K-Medoids) ...
聚类算法：K-means 算法(k均值算法)
k-means算法: 第一步:选$K$个初始聚类中心,$z_1(1),z_2(1),\cdots,z_k(1)$,其中括号内的序号为寻找聚类中心的迭代运算的次序号. 聚类中心的向量值可任意设 ...
聚类算法:K均值、凝聚层次聚类和DBSCAN
聚类分析就仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组(簇).其目标是,组内的对象相互之间是相似的,而不同组中的对象是不同的.组内相似性越大,组间差别越大,聚类就越好. 先介绍下聚类的不 ...
分类算法——k最近邻算法（Python实现）（文末附工程源代码）
kNN算法原理 k最近邻(k-Nearest Neighbor)算法是比较简单的机器学习算法.它采用测量不同特征值之间的距离方法进行分类,思想很简单:如果一个样本在特征空间中的k个最近邻(最相似)的样 ...
【学习笔记】分类算法-k近邻算法
k-近邻算法采用测量不同特征值之间的距离来进行分类. 优点:精度高.对异常值不敏感.无数据输入假定缺点:计算复杂度高.空间复杂度高使用数据范围:数值型和标称型用例子来理解k-近邻算法电影可以按 ...
常见聚类算法——K均值、凝聚层次聚类和DBSCAN比较
聚类分析就仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组(簇).其目标是,组内的对象相互之间是相似的,而不同组中的对象是不同的.组内相似性越大,组间差别越大,聚类就越好. 先介绍下聚类的不 ...
分类算法----k近邻算法
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的 ...
【机器学习】聚类算法——K均值算法（k-means）
一.聚类 1.基于划分的聚类:k-means.k-medoids(每个类别找一个样本来代表).Clarans 2.基于层次的聚类:(1)自底向上的凝聚方法,比如Agnes (2)自上而下的分裂方法,比 ...

随机推荐

TCP被动打开之第三次握手-接收ACK
假定客户端主动打开,发送syn包到服务器,服务器创建连接请求控制块加入到队列,进入TCP_NEW_SYN_RECV 状态,发送syn+ack给客户端,并启动定时器,等待客户端回复最后一个握手ack: ...
CI集成Smarty的实现方式
给新伙伴的忠告:不要去想着有多复杂,看一遍绝对就会弄了! 这样集成的目的是什么? 因为我使用过CI和smarty,所以我就按自己的理解讲一下:CI框架在控制器.models方面做的很好,但在多变的视图 ...
linux出现Redirecting to /bin/systemctl start mysqld.service，解决方法
上去就是一个命令 /bin/systemctl start httpd.service
PHP JQurey
JQuery是用JS编写的程序,使用起来比JS更为简单,使用前需引入一个JQurey文件,下面为JQurey语法 <script type="text/javascript" ...
git add时遇到类似fatal: Path 'XXX' is in submodule 'XXX'错误提示如何解决？
答:示例如下: fatal: Pathspec 'Vundle.vim/autoload/vundle.vim' is in submodule '.vim/bundle/Vundle.vim' 解决 ...
leetcode1281 整数的各位积和之差
class Solution { public: int subtractProductAndSum(int n) { ; ; ){ ; n/=; prod*=r; add+=r; } int res ...
python调用系统命令的方法
1.os模块 (1)system()方法这个方法是直接调用标准C的system() 函数,在一个子终端运行系统命令 (2)poen()方法这个方法执行命令后通过一个管道文件将结果返回 3.subp ...
mysql知识点汇集
1.将两个表字段类型一致的数据合并到一个新表的命令. INSERT into new_table(user_name,password,age) SELECT user_name,password,a ...
python3.6安装jpype1后引入jpype报“ImportError: numpy.core.multiarray failed to import”问题
jpype是调用java接口的第三方库,通过该库,python可以运行java程序,从而解决一些调用java的问题,比如:java开发的接口,测试时, 有java的加密算法就不用python写一遍重复 ...
python 类中__init__函数的使用
class F: def __init__(self): print('hello china') __init__ 是构造函数,初始化类,每当调用类的时候,就会自动执行这个函数比如:执行 F() ...

算法 - k-means++

算法 - k-means++的更多相关文章

随机推荐

热门专题