简介:本Demo是参照这个网站上的Demo自己用Java实现的。将Java打包为Jar,再将Jar转为exe,源代码及程序Demo下载请点我

K-Means算法简介

  我尽量用通俗易懂但不规范的语言来描述K-Means算法。

  K-Means算法是数据挖掘十大算法之一,是一种聚类算法,也是最简单的无监督学习(unsupervised learning)算法之一。

  假设有一个元素集合,我们的目标是将该集合中的元素划分成K个簇(就是K个部分),每个簇内的元素相似度较高,不同簇的元素相似度较低(正所谓物以类聚,人以群分)。

  而K-Means算法就是实现这样一个目标的算法。

  先看Demo,会有直观的了解。

K-Means算法步骤

  因为要做可视化界面,所以我们现在只讨论二维的情况,即每个元素用2个数表示。

  假如我们的元素集合是平面上的N个点,计算相似度用的是两点之间的欧氏距离(当然也可以使用其他距离公式,相关距离公式见下部分),两点距离越短则表示相似度越高。那么算法步骤大概是这个样子:

  Step 1. 随机产生K个点,作为K个簇的中心(注意K<=N)

  Step 2. 对N个点中的每一个点,计算该点离哪个中心最近,离哪个中心最近就属于哪个簇。  

  Step 3. 更新每个簇的中心(取簇中的元素的坐标的均值)

  Step 4. 重复Step2和Step3直到所有簇的中心不再改变。

Java实现代码(带图形界面)

import java.awt.*;
import java.awt.event.*;
import javax.swing.*;
import javax.swing.JFrame;
import javax.swing.JPanel;
import java.util.Random;
import java.applet.*; class PaintovalPane extends JPanel
{
/*K-Means*/
int K = 5; //K个中心
int N = 50; //N个点
int D = 2; //二维元素 Random rand = new Random(); class Point
{
Point()
{
initial();
} void initial()
{
/*初始化为[0,600)的随机点,簇编号为-1,无意义*/
for (int i = 0; i < D; ++i)
x[i] = rand.nextDouble()*600;
clusterNum = -1;
}
double x[] = new double[D]; //坐标
int clusterNum; //簇编号
}; Point p[]; //数据点
Point centroid[]; //中心点
Point oldCentroid[]; //上一次的中心点,用于确定中心点是否不再改变
Color colors[]; //表示不同簇的颜色值
/*欧式距离*/
double Euclidean(Point p1, Point p2)
{
double dis = 0; for (int i = 0; i < D; ++i)
dis += (p1.x[i]-p2.x[i])*(p1.x[i]-p2.x[i]);
return Math.sqrt(dis);
}
/*更新中心点*/
void updateCentroid(int clusterNum)
{
for (int i = 0; i < D; ++i)
centroid[clusterNum].x[i] = 0; int clusterSize = 0; for (int i = 0; i < N; ++i)
if (p[i].clusterNum == clusterNum)
{
clusterSize++; for (int j = 0; j < D; ++j)
centroid[clusterNum].x[j] += p[i].x[j];
} if (clusterSize == 0)
return; for (int i = 0; i < D; ++i)
centroid[clusterNum].x[i] /= (double)clusterSize;
} /*更新中心点的接口函数*/
void updateCentroids()
{
for (int i = 0; i < K; ++i)
updateCentroid(i);
} /*分配数据点到哪个簇*/
void assignPoint(int x)
{
double minDis = 99999999;
int minIndex = 1;
for (int i = 0; i < K; ++i)
{
double curDis = Euclidean(p[x], centroid[i]);
if (curDis < minDis)
{
minDis = curDis;
minIndex = i;
}
}
p[x].clusterNum = minIndex;
} /*分配数据点到哪个簇的接口函数*/
void assign()
{
for (int i = 0; i < N; ++i)
assignPoint(i);
} /*判断2点是否同一个点*/
Boolean samePoint(Point p1, Point p2)
{
if (p1.clusterNum != p2.clusterNum)
return false;
for (int i = 0; i < D; ++i)
if (p1.x[i] != p2.x[i])
return false;
return true;
} /*判断算法是否终止*/
Boolean stop()
{
/*如果每一个中心点都与上一次的中心点相同,则算法终止,否则更新oldCentroid*/
for (int i = 0; i < K; ++i)
if (!samePoint(oldCentroid[i], centroid[i]))
{
for (int j = 0; j < K; ++j)
copy(oldCentroid[j],centroid[j]);
return false;
}
return true;
} /*令p1 = p2*/
void copy(Point p1, Point p2)
{
p1.clusterNum = p2.clusterNum;
for (int i = 0; i < D; ++i)
p1.x[i] = p2.x[i];
}
/*初始化*/
void init()
{
/*分配内存*/
p = new Point[N];
centroid = new Point[K];
oldCentroid = new Point[K];
colors = new Color[K]; for (int i = 0; i < N; ++i)
{
p[i] = new Point();
p[i].initial();
} for (int i = 0; i < K; ++i)
{
centroid[i] = new Point();
oldCentroid[i] = new Point();
centroid[i].initial();
oldCentroid[i].initial();
copy(oldCentroid[i],centroid[i]);
colors[i] = new Color(rand.nextInt(255), rand.nextInt(255), rand.nextInt(255));
}
} /*默认构造函数,调用初始化函数*/
PaintovalPane()
{
init();
} /*重载绘图函数*/
public void paintComponent(Graphics g)
{
super.paintComponent(g);
setBackground(Color.white);
/*画数据点(圆形),根据簇编号来确定颜色*/
for (int i = 0; i < N; ++i)
{
int x = (int)p[i].x[0], y = (int)p[i].x[1]; if (p[i].clusterNum == -1)
g.setColor(Color.black);
else
g.setColor(colors[p[i].clusterNum]); g.fillOval(x, y, 15, 15);
}
/*画中心点(矩形),根据簇编号来确定颜色*/
for (int i = 0; i < K; ++i)
{
int x = (int)centroid[i].x[0], y = (int)centroid[i].x[1]; g.setColor(colors[i]); g.fillRect(x, y, 15, 15);
}
}
} class Drawing extends JFrame
{
/*声明一系列组件*/
JButton jButton1 = new JButton("Start");
JButton jButton2 = new JButton("Step");
JButton jButton3 = new JButton("Run");
JLabel label1 = new JLabel("Points");
JLabel label2 = new JLabel("Clusters");
JTextField textField1 = new JTextField("This is buffer for text", 15);
JTextField textField2 = new JTextField("This is buffer for text", 15);
JPanel jPanel = new JPanel();
PaintovalPane paint = new PaintovalPane();
Drawing()
{
setTitle("K-Means");
setVisible(true);
setDefaultCloseOperation(EXIT_ON_CLOSE);
setSize (660,710);
textField1.setText(String.valueOf(paint.N));
textField2.setText(String.valueOf(paint.K));
/*Start按钮的监听器*/
jButton1.addActionListener(new ActionListener(){
public void actionPerformed(ActionEvent ae)
{
int input1 = Integer.parseInt(textField1.getText());
int input2 = Integer.parseInt(textField2.getText()); /*判断输入是否合法*/
if (input1 > 500 || input1 <= 0)
{
JOptionPane.showMessageDialog(null, "Please input the number between 1-500");
}
else if (input2 > input1 || input2 <= 0)
{
JOptionPane.showMessageDialog(null, "Please input the number between 1-Points");
}
else
{
paint.N = input1;
paint.K = input2;
paint.init();
paint.repaint();
jButton2.setText("Step");
jButton2.setEnabled(true);
jButton3.setText("Run");
jButton3.setEnabled(true);
}
}
});
/*Step按钮的监听器*/
jButton2.addActionListener(new ActionListener(){
public void actionPerformed(ActionEvent ae)
{ paint.assign(); paint.updateCentroids(); /*算法终止的话让按钮变灰并提示算法结束*/
if (paint.stop())
{
jButton2.setText("End");
jButton2.setEnabled(false);
jButton3.setText("End");
jButton3.setEnabled(false);
} paint.repaint();
}
});
/*Run按钮的监听器*/
jButton3.addActionListener(new ActionListener(){
public void actionPerformed(ActionEvent ae)
{
do
{
paint.assign(); paint.updateCentroids(); paint.repaint();
}
while(!paint.stop()); /*算法终止的话让按钮变灰并提示算法结束*/
jButton2.setText("End");
jButton2.setEnabled(false);
jButton3.setText("End");
jButton3.setEnabled(false);
}
});
jPanel.add(label1);
jPanel.add(textField1);
jPanel.add(label2);
jPanel.add(textField2);
jPanel.add(jButton1);
jPanel.add(jButton2);
jPanel.add(jButton3);
jPanel.setBackground(new Color(1,255,1));
add(BorderLayout.NORTH,jPanel);
add(BorderLayout.CENTER, paint);
}
} public class Hello extends Applet
{
public static void main(String args[])
{
Drawing d = new Drawing();
}
}

C++实现代码

#include <iostream>
#include <cmath>
#include <ctime>
#include <cstdlib>
using namespace std; #define K 10 //簇数
#define N 200 //点数
#define D 2 //维数 /*产生0-100的随机数*/
double random()
{
return *(double)rand()/(double)RAND_MAX;
} class Point
{
public: Point()
{
for (int i = ; i < D; ++i)
x[i] = random();
clusterNum = -;
} double x[D]; //坐标
int clusterNum; //所属簇的编号
}; Point p[N];
Point centroid[K];
Point oldCentroid[K]; /*欧式距离*/
double Euclidean(Point p1, Point p2)
{
double dis = ; for (int i = ; i < D; ++i)
dis += (p1.x[i]-p2.x[i])*(p1.x[i]-p2.x[i]);
return sqrt(dis);
} /*重新计算编号为clusterNum的簇的重心*/
void updateCentroid(int clusterNum)
{
for (int i = ; i < D; ++i)
centroid[clusterNum].x[i] = ; int clusterSize = ; for (int i = ; i < N; ++i)
if (p[i].clusterNum == clusterNum)
{
clusterSize++; for (int j = ; j < D; ++j)
centroid[clusterNum].x[j] += p[i].x[j];
} if (clusterSize == )
return; for (int i = ; i < D; ++i)
centroid[clusterNum].x[i] /= (double)clusterSize;
} void updateCentroids()
{
for (int i = ; i < K; ++i)
updateCentroid(i);
}
/*计算某点属于哪一簇*/
void assignPoint(Point &point)
{
double minDis = INT_MAX;
int minIndex = ;
for (int i = ; i < K; ++i)
{
double curDis = Euclidean(point, centroid[i]);
if (curDis < minDis)
minDis = curDis, minIndex = i;
}
point.clusterNum = minIndex;
} void assign()
{
for (int i = ; i < N; ++i)
assignPoint(p[i]);
}
/*比较是否相同的两个点,注意double的比较有时候可能出现问题*/
bool samePoint(Point p1, Point p2)
{
if (p1.clusterNum != p2.clusterNum)
return false;
for (int i = ; i < D; ++i)
if (p1.x[i] != p2.x[i])
return false;
return true;
} /*判断重心是否不变,若重心不再变化,算法终止*/
bool stop()
{
for (int i = ; i < K; ++i)
if (!samePoint(oldCentroid[i], centroid[i])) //若算法未停止,则更新oldCentroid
{
for (int j = ; j < K; ++j)
oldCentroid[j] = centroid[j];
return false;
}
return true;
} void init()
{
srand(time()); /*如果类内成员是基本类型,则默认的operator=可以完成简单的赋值功能*/
for (int i = ; i < K; ++i)
oldCentroid[i] = centroid[i];
} int main()
{
init();
do
{
assign(); updateCentroids();
}
while(!stop());
}

ps.一点收获,C++中,自定义类提供的默认operator=是可以完成基本数据类型的赋值的,但是Java的operator=并不是简单赋值,而是=左边的类变成=右边的类引用。

程序效果

  按下Start

  按下Step

  按下Run

将Java程序转为exe

  为了能够让Java程序到处跑(不是每个电脑都装有Java虚拟机的),决定将Java程序转为exe。

  步骤如下:

  1、将.java编译为.class

进入cmd,cd切换到.java文件目录下,执行javac Hello.java,产生Hello.class

  2、将相关的.class打包为一个.jar文件

  继续在当前目录下,执行jar cvf Hello.jar *.class,产生Hello.jar

  注意,此时Hello.jar是不能直接执行的,因为缺少入口函数。我们用360压缩打开Hello.jar,可以看到有一个META-INF文件夹,里面有一个MANIFEST.MF文件,用笔记本打开,在最后面添加Main-Class: Hello。(注意1,Hello是我自己的入口函数所在的类;注意2,Main-Class:后面有空格)。这个时候.jar文件应该可以用java虚拟机执行了。

  3、利用软件j2ewiz.exe or click me 将.jar文件转为.exe

距离公式

  1)Minkowski Distance(闵可夫斯基距离)——λ可取任意值,可以是负数,也可以是正数,或是无穷大。

  2)Euclidean Distance(欧氏距离)——也就是第一个公式λ=2的情况,高中学过的最基本的平面上两点的距离公式。

  3)CityBlock Distance(曼哈顿距离)——也就是第一个公式λ=1的情况。

  如下图,绿色代表欧氏距离,也就是直线距离;而红色、蓝色和黄色代表等价的曼哈顿距离

参考资料

算法杂货铺——k均值聚类(K-means)

K-Means算法Demo

曼哈顿距离

斯坦福公开课

java如何打JAR包


K-Means算法Demo的更多相关文章

  1. KNN 与 K - Means 算法比较

    KNN K-Means 1.分类算法 聚类算法 2.监督学习 非监督学习 3.数据类型:喂给它的数据集是带label的数据,已经是完全正确的数据 喂给它的数据集是无label的数据,是杂乱无章的,经过 ...

  2. K-means算法

    K-means算法很简单,它属于无监督学习算法中的聚类算法中的一种方法吧,利用欧式距离进行聚合啦. 解决的问题如图所示哈:有一堆没有标签的训练样本,并且它们可以潜在地分为K类,我们怎么把它们划分呢?  ...

  3. 机器学习实战笔记--k近邻算法

    #encoding:utf-8 from numpy import * import operator import matplotlib import matplotlib.pyplot as pl ...

  4. 《机器学习实战》学习笔记一K邻近算法

     一. K邻近算法思想:存在一个样本数据集合,称为训练样本集,并且每个数据都存在标签,即我们知道样本集中每一数据(这里的数据是一组数据,可以是n维向量)与所属分类的对应关系.输入没有标签的新数据后,将 ...

  5. [Machine-Learning] K临近算法-简单例子

    k-临近算法 算法步骤 k 临近算法的伪代码,对位置类别属性的数据集中的每个点依次执行以下操作: 计算已知类别数据集中的每个点与当前点之间的距离: 按照距离递增次序排序: 选取与当前点距离最小的k个点 ...

  6. k近邻算法的Java实现

    k近邻算法是机器学习算法中最简单的算法之一,工作原理是:存在一个样本数据集合,即训练样本集,并且样本集中的每个数据都存在标签,即我们知道样本集中每一数据和所属分类的对应关系.输入没有标签的新数据之后, ...

  7. 基本分类方法——KNN(K近邻)算法

    在这篇文章 http://www.cnblogs.com/charlesblc/p/6193867.html 讲SVM的过程中,提到了KNN算法.有点熟悉,上网一查,居然就是K近邻算法,机器学习的入门 ...

  8. 聚类算法:K-means 算法(k均值算法)

    k-means算法:      第一步:选$K$个初始聚类中心,$z_1(1),z_2(1),\cdots,z_k(1)$,其中括号内的序号为寻找聚类中心的迭代运算的次序号. 聚类中心的向量值可任意设 ...

  9. 从K近邻算法谈到KD树、SIFT+BBF算法

    转自 http://blog.csdn.net/v_july_v/article/details/8203674 ,感谢july的辛勤劳动 前言 前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章 ...

随机推荐

  1. 关于comet

    Comet是彗星的意思,这一技术之所以借用这个名字,是因为这里的每一次请求都有一个长长的“尾巴”.这个长尾巴就是我们感兴趣的长连接. 因为长连接的实现,Comet可以不需要安装浏览器插件就可以向客户端 ...

  2. 【Windows】免费图片提取文字的方法

    今天意外的看到一个可以提取图片中文字的网站,自己试了下,提取效果还不错 网址为: https://zhcn.109876543210.com/ 现在有图片如下 我想从中提取的文字 1.打开网址,上传图 ...

  3. 【Linux】压缩与解压

    一: 下面这五个是独立的命令,压缩解压都要用到其中一个,可以和别的命令连用但只能用其中一个: tar-c: 建立压缩档案-x:解压-t:查看内容-r:向压缩归档文件末尾追加文件 下面的参数是根据需要在 ...

  4. GDI+学习笔记(九)带插件的排序算法演示器(MFC中的GDI+实例)

    带插件的排序算法演示器 请尊重本人的工作成果,转载请留言.并说明转载地址,谢谢. 地址例如以下: http://blog.csdn.net/fukainankai/article/details/27 ...

  5. (一)Lucene——基本概念介绍

    1. Lucene是什么 Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能.Lucene 目前是 Apache Jakart ...

  6. C# 字符串数组转换为整形数组

    /// <summary> /// 字符串数组转换整形数组 /// </summary> /// <param name="Content">字 ...

  7. swift向方法传数组参数的语法

    总是记不住向方法中传数组参数的语法,所以记录一下. func calculateStatistics(scores:[Int]) -> (min:Int,max:Int,sum:Int) { v ...

  8. VMware配置网络的3种方式:NAT、Host-Only、Bridged

    网络常识: 1.网络中对电脑的访问是通过ip定位的 就好像我们的身份证号,可以唯一辨识一个人.ip是用来区分网络中的电脑的,因此同一网络(准确讲是“网段”)中,ip地址不能相同.如果同一网络中有相同的 ...

  9. 纯CSS弹出层,城市切换效果

    <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/ ...

  10. python--getattr函数

    getattr函数原型 getattr(object, name[, default]) -> value getattr是功能就是获取object对象的name属性的值(object.name ...