一、背景

煤矿地磅产生了一系列数据：

我想从这些数据中，取出最能反映当前车辆重量的数据（有很多数据是车辆上磅过程中产生的数据）。我于是想到了聚类算法KMeans，该算法思想比较简单。

二、算法步骤

1、从样本中随机取出k个值，作为初始中心

2、以k个中心划分这些数据，分为k个组

3、重新计算出每个组的中心，作为新中心

4、如果初始中心和新中心不相等，则把新中心作为初始中心，重复2，3。反之，结束

注意：

1、我没有用严格的算法定义，怕不好理解

2、KMeans善于处理球形数据，因此随机取k个质心，每个质心吸引离它最近的数据

3、由于质心的取值是不科学的，所以需要不断地计算调整，直到质心名副其实

三、算法分析及特点

1、从算法步骤当中可以看出有两个问题，需要解决：

首先，如何计算每个组（簇）的质心？

其次，如何把值划分到不同的组？

2、解决上面两个问题，因场景和要求不同而有不同的小算法，由于我的数据是一维的，而不是点，所以可以简单处理：

a、以每个组的平均值作为质心

b、根据值离质心的距离（相减），选择距离最近的组加入

3、此算法有两个缺点：

1）某个组（簇）划分不充分，还可以再划分为更小的组。（容易陷入局部最优）

2）需要用户指定k，聚类结果对初始质心的选择较为敏感（初始选择不同，聚类结果可能不同）

4、优点：简单易理解和上手

四、实现

    public class KMeans

    {

        /*

        * 聚类函数主体。

        * 针对一维 decimal 数组。指定聚类数目 k。

        * 将数据聚成 k 类。

        */

        public static decimal[][] cluster(decimal[] p, int k)

        {

            // 存放聚类旧的聚类中心

            decimal[] c = new decimal[k];

            // 存放新计算的聚类中心

            decimal[] nc = new decimal[k];

            // 存放放回结果

            decimal[][] g;

            // 初始化聚类中心

            // 经典方法是随机选取 k 个

            // 本例中采用前 k 个作为聚类中心

            // 聚类中心的选取不影响最终结果

            for (int i = ; i < k; i++)

                c[i] = p[i];

            // 循环聚类，更新聚类中心

            // 到聚类中心不变为止

            while (true)

            {

                // 根据聚类中心将元素分类

                g = group(p, c);

                // 计算分类后的聚类中心

                for (int i = ; i < g.Length; i++)

                {

                    nc[i] = center(g[i]);

                }

                // 如果聚类中心不同

                if (!equal(nc, c))

                {

                    c = nc;

                    nc = new decimal[k];

                }

                else

                    break;

            }

            return g;

        }

        /*

         * 聚类中心函数

         * 简单的一维聚类返回其算数平均值

         * 可扩展

         */

        public static decimal center(decimal[] p)

        {

            if (p.Length == ) return ;

            return sum(p) / p.Length;

        }

        /*

         * 给定 decimal 型数组 p 和聚类中心 c。

         * 根据 c 将 p 中元素聚类。返回二维数组。

         * 存放各组元素。

         */

        public static decimal[][] group(decimal[] p, decimal[] c)

        {

            // 中间变量，用来分组标记

            int[] gi = new int[p.Length];

            // 考察每一个元素 pi 同聚类中心 cj 的距离

            // pi 与 cj 的距离最小则归为 j 类

            for (int i = ; i < p.Length; i++)

            {

                // 存放距离

                decimal[] d = new decimal[c.Length];

                // 计算到每个聚类中心的距离

                for (int j = ; j < c.Length; j++)

                {

                    d[j] = distance(p[i], c[j]);

                }

                // 找出最小距离

                int ci = min(d);

                // 标记属于哪一组

                gi[i] = ci;

            }

            // 存放分组结果

            decimal[][] g = new decimal[c.Length][];

            // 遍历每个聚类中心，分组

            for (int i = ; i < c.Length; i++)

            {

                // 中间变量，记录聚类后每一组的大小

                int s = ;

                // 计算每一组的长度

                for (int j = ; j < gi.Length; j++)

                    if (gi[j] == i)

                        s++;

                // 存储每一组的成员

                g[i] = new decimal[s];

                s = ;

                // 根据分组标记将各元素归位

                for (int j = ; j < gi.Length; j++)

                    if (gi[j] == i)

                    {

                        g[i][s] = p[j];

                        s++;

                    }

            }

            // 返回分组结果

            return g;

        }

        /*

         * 计算两个点之间的距离， 这里采用最简单得一维欧氏距离， 可扩展。

         */

        public static decimal distance(decimal x, decimal y)

        {

            return Math.Abs(x - y);

        }

        /*

         * 返回给定 decimal 数组各元素之和。

         */

        public static decimal sum(decimal[] p)

        {

            decimal sum = 0.0M;

            for (int i = ; i < p.Length; i++)

                sum += p[i];

            return sum;

        }

        /*

         * 给定 decimal 类型数组，返回最小值得下标。

         */

        public static int min(decimal[] p)

        {

            int i = ;

            decimal m = p[];

            for (int j = ; j < p.Length; j++)

            {

                if (p[j] < m)

                {

                    i = j;

                    m = p[j];

                }

            }

            return i;

        }

        /*

         * 判断两个 decimal 数组是否相等。 长度一样且对应位置值相同返回真。

         */

        public static bool equal(decimal[] a, decimal[] b)

        {

            if (a.Length != b.Length)

                return false;

            else

            {

                for (int i = ; i < a.Length; i++)

                {

                    if (a[i] != b[i])

                        return false;

                }

            }

            return true;

        }

    }

客户端调用：

        static void Main(string[] args)

         {

             var path = string.Empty;

             int k = ;

             try

             {

                 path = Path.Combine(AppDomain.CurrentDomain.BaseDirectory, "blanceTest.txt");//数据文件路径

                 k = ;

             }

             catch (Exception)

             {

                 Console.Write("参数错误");

                 return;

             }

             decimal[] p = { , , , , , , , , , , , , , , , , , , , , , , , ,  };

             List<decimal> pList = new List<decimal>();

             var lines = File.ReadAllLines(path);

             foreach (var line in lines)

             {

                 var data = System.Text.RegularExpressions.Regex.Replace(line, @" +", " ");

                 var datas = data.Split(' ');

                 pList.AddRange(datas.Where(d => d != "").Select(d => Convert.ToDecimal(d)));

             }

             p = pList.ToArray();

             k = ;

             decimal[][] g;

             g = KMeans.cluster(p, k);

             for (int i = ; i < g.Length; i++)

             {

                 for (int j = ; j < g[i].Length; j++)

                 {

                     Console.WriteLine(g[i][j]);

                 }

                 Console.WriteLine("----------------------");

             }

             Console.ReadKey();

         }

注意：

1、如果数据文件为空或不存在，则用初始化的p数组，作为测试数据

2、文件中的数据，见开篇截图

参考文章：

一维数组的 K-Means 聚类算法理解

深入理解K-Means聚类算法

数据挖掘之KMeans算法应用与简单理解的更多相关文章

机器学习&数据挖掘笔记_14（GMM-HMM语音识别简单理解）
为了对GMM-HMM在语音识别上的应用有个宏观认识,花了些时间读了下HTK(用htk完成简单的孤立词识别)的部分源码,对该算法总算有了点大概认识,达到了预期我想要的.不得不说,网络上关于语音识别的通俗 ...
[数据挖掘] - 聚类算法：K-means算法理解及SparkCore实现
聚类算法是机器学习中的一大重要算法,也是我们掌握机器学习的必须算法,下面对聚类算法中的K-means算法做一个简单的描述: 一.概述 K-means算法属于聚类算法中的直接聚类算法.给定一个对象(或记 ...
数据挖掘入门系列教程（十）之k-means算法
简介这一次我们来讲一下比较轻松简单的数据挖掘的算法--K-Means算法.K-Means算法是一种无监督的聚类算法.什么叫无监督呢?就是对于训练集的数据,在训练的过程中,并没有告诉训练算法某一个数据 ...
K-Means 算法（转载）
K-Means 算法在数据挖掘中, k-Means 算法是一种 cluster analysis 的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法. 问题 K-Means ...
K-MEANS算法总结
K-MEANS算法摘要:在数据挖掘中,K-Means算法是一种 cluster analysis 的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法. 在数据挖掘中,K-M ...
关于K-Means算法
在数据挖掘中,K-Means算法是一种cluster analysis的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法. 问题 K-Means算法主要解决的问题如下图所示. ...
【机器学习笔记之一】深入浅出学习K-Means算法
摘要:在数据挖掘中,K-Means算法是一种 cluster analysis 的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法. 在数据挖掘中,K-Means算法是一种c ...
（转）深入浅出K-Means算法
原文地址:http://www.csdn.net/article/2012-07-03/2807073-k-means 摘要:在数据挖掘中,K-Means算法是一种 cluster analysis ...
深入浅出K-Means算法
在数据挖掘中,K-Means算法是一种cluster analysis的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法. 问题 K-Means算法主要解决的问题如下图所示. ...

随机推荐

c# 文本超长截断
根据控件大小进行截断 private void SetStringTruncat(Static.LabelEx lbl) { string oldStr = lbl.Text; if (string. ...
uni-app中Vuex的引用
//store 中 store.js import Vue from 'vue' import Vuex from 'vuex' Vue.use(Vuex) const store = new Vue ...
java之继承中的静态变量
package Test; /** * Created by wangbin10 on 2018/7/9. * 我们知道静态变量属于类级别变量,对应每个类只有一份,类的所有实例共有一份,而成员变量则分 ...
Java集合框架Collection(1)ArrayList的三种遍历方法
ArrayList是java最重要的数据结构之一,日常工作中经常用到的就是ArrayList的遍历,经过总结,发现大致有三种,上代码: package com.company; import java ...
java代码块牛刀小试
牛刀小试1. 试一把静态代码块.实例化代码块和构造函数的执行顺序 public class People { public static int num = 0;//静态变量初始化 String na ...
在 Windows 中编译 Github 中的 GO 项目
1.相关软件与环境准备 1.1 GO 安装下载地址,https://studygolang.com/dl,选择 Windows 版,本文安装到 D:\Go 1.2 LiteIDE 安装下载地址,h ...
03 Javascript的数据类型
数据类型包括:基本数据类型和引用数据类型基本数据类型指的是简单的数据段,引用数据类型指的是有多个值构成的对象. 当我们把变量赋值给一个变量时,解析器首先要确认的就是这个值是基本类型值还是引用类型值 ...
linux 环境安装jdk tomcat mysql git
1.安装JDK 1.官方下载jdk,linux版本的rpm包 2.安装rz sz ----------编译安装 //安装 cd /tmp wget http://www.ohse.de/uwe/rel ...
【微信小程序】记录
学习新东西时,大体都遵循一样的道理,由总入深. 以下整理一下学习小程序的过程.虽然现在做的东西还有许多问题,比如说数据超过一定数量时循环效率低,或者是多次跳转页面后会变卡等问题.这些问题只解决了部分, ...
Codeblocks 批量注释与对齐快捷键的教学方法
Ctrl+Shift+C 批量注释 Ctrl+shift+X 批量取消注释 Click Settings->Editor->KeyboardShortcuts (in the left o ...

数据挖掘之KMeans算法应用与简单理解

深入理解K-Means聚类算法

数据挖掘之KMeans算法应用与简单理解的更多相关文章

随机推荐

热门专题