数据挖掘算法：k-means算法的C++实现

(期末考试要到了，所以比较粗糙，请各位读者理解。。)

一、概念

k-means是基于原型的、划分的聚类技术。它试图发现用户指定个数（K）的簇（由质心代表）。K-means算法接受输入量K，然后将N个数据对象划分为K个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得的均值所获得一个“中心对象”（引力中心）来进行计算的。

二、 伪代码

1 选择K个点作为初始质心。

2 Repeat

3 将每个点指派到最近的质心，形成K个簇。

4 重新计算每个簇的质心。

5 Until 质心不发生变化。

三、 重要数据结构

1 定义簇数、点数和维数

#define K 3 // K为簇数

#define N 50 // N为点数

#define D 2 // D为维数

2 各类数组

double point[N][D]; // N个D维点

double barycenter_initial[K][D]; // K个D维初始质心位置

double barycenter_before[K][D]; // 记录每次变换前质心的位置

double barycenter_finished[K][D]; // 最终得到的质心位置

double O_Distance[K]; // 记录某点对于各质心的欧几里得距离

int belongWhichBC[N]; // 记录每个点属于哪一个簇

double mid[D]; // 记录中间值

3 随机生成数据点

// 初始化数据点（坐标值均在0-100之间）

void CoordinateDistribution(int n, int d) {

srand((unsigned)time(NULL)); // 保证随机性

for(int i=0; i<n; i++) {

for(int j=0; j<d; j++) {

point[i][j] = rand() % 101;

}

四、源代码

// k-means算法的C++实现

#include <iostream>
#include <cstdlib>
#include <cmath>
#include <ctime>
#include <fstream>

using namespace std;

#define K 3 // K为簇数
#define N 20 // N为点数
#define D 2 // D为维数

double point[N][D]; // N个D维点
double barycenter_initial[K][D]; // K个D维初始质心位置
double barycenter_before[K][D]; // 记录每次变换前质心的位置
double barycenter_finished[K][D]; // 最终得到的质心位置
double O_Distance[K]; // 记录某点对于各质心的欧几里得距离
int belongWhichBC[N]; // 记录每个点属于哪一个簇
double mid[D]; // 记录中间值

// 初始化数据点（坐标值均在0-100之间）
void CoordinateDistribution(int n, int d) {
srand((unsigned)time(NULL)); // 保证随机性
for(int i=0; i<n; i++) {
for(int j=0; j<d; j++) {
point[i][j] = rand() % 101;
}
}
}

// 初始化质心（坐标值均在0-100之间）
void initBarycenter(int k, int d) {
for(int i=0; i<k; i++) {
for(int j=0; j<d; j++) {
barycenter_initial[i][j] = rand() % 101;
}
}
}

int main(int argc, char** argv) {

// 为N个点随机分配D维坐标
int n = N, d = D;
CoordinateDistribution(n, d);

// 首先输出K, N, D的值
cout<<"簇数 K = "<<K<<endl<<"点数 N = "<<N<<endl<<"维数 D = "<<D<<endl<<endl;

// 输出N个坐标点
cout<<"系统生成的N个点如下："<<endl;
for(int i=0; i<n; i++) {
cout<<"第"<<i+1<<"个"<<"\t";
for(int j=0; j<d; j++) {
cout<<point[i][j]<<"\t";
}
cout<<endl;
}
cout<<endl;

// 选择K个初始质心
int k = K;
initBarycenter(k, d);

// 输出系统生成的初始质心
cout<<"系统生成的K个初始质心如下：" <<endl;
for(int i=0; i<k; i++) {
cout<<"第"<<i+1<<"个"<<"\t";
for(int j=0; j<d; j++) {
cout<<barycenter_initial[i][j]<<"\t";
}
cout<<endl;
}
cout<<endl;

// 将“首次变换前质点”的位置，初始化为initial时的位置
// 将“最终得到的质点”的位置均初始化为(-1, -1)，使其与首次变换前的位置不相同
for(int i=0; i<k; i++) {
for(int j=0; j<d; j++) {
barycenter_before[i][j] = barycenter_initial[i][j];
barycenter_finished[i][j] = -1;
}
}

int times = 0; // 定义循环进行到第几次

// 循环计算
while(true) {

for(int i=0; i<n; i++) { // 对于每一个点
for(int j=0; j<k; j++) { // 求对于K个簇，每个簇的欧氏距离
double sum = 0;
for(int x=0; x<d; x++) {
sum = sum + pow(point[i][x]-barycenter_before[j][x], 2);
}
// O_Distance[j] = sqrt(sum); // 因为sum和sqrt(sum)是正相关，所以要比较sqrt(sum)的大小，只需比较sum的大小
O_Distance[j] = sum;
}
int x = 0, temp = x; // temp里面保存的是：某点所对应的欧氏距离最小的簇序号
while(x<k) {
if(O_Distance[x] < O_Distance[temp]) {
temp = x;
x++;
}
else {
x++;
}
}
belongWhichBC[i] = temp;
}

for(int j=0; j<k; j++) {

// 将a[]内全部元素置0
for(int i=0; i<d; i++) {
mid[i] = 0;
}

int number = 0; // 计算某簇中共有多少个点
for(int i=0; i<n; i++) {
if(belongWhichBC[i] == j) { // 某点所述簇的序号匹配
number++;
for(int y=0; y<d; y++) {
mid[y] = mid[y] + point[i][y];
}
}
}

for(int y=0; y<d; y++) {
barycenter_finished[j][y] = mid[y] / number;
}

}

// flag=0，表示barycenter_before与barycenter_finished内元素完全一致，退出循环
// flag=1，表示二者内元素不完全一致，仍需继续循环
int flag = 0;
for(int i=0; i<k; i++) {
for(int j=0; j<d; j++) {
if(barycenter_before[i][j] - barycenter_finished[i][j] <= 0.0001) {
flag = 0;
continue;
}
else {
flag = 1;
break;
}
}
if(flag == 0) {
continue;
}
else {
break;
}
}
if(flag == 0) {
times++;
cout<<"第"<<times<<"轮循环后，得到的K个质心如下："<<endl;
for(int m=0; m<k; m++) {
cout<<"第"<<m+1<<"个"<<"\t";
for(int n=0; n<d; n++) {
cout<<barycenter_finished[m][n]<<"\t";
}
cout<<endl;
}
break;
}
else {
times++;
cout<<"第"<<times<<"轮循环后，得到的K个质心如下："<<endl;
for(int m=0; m<k; m++) {
cout<<"第"<<m+1<<"个"<<"\t";
for(int n=0; n<d; n++) {
cout<<barycenter_finished[m][n]<<"\t";
}
cout<<endl;
}

// 若要继续循环，则应该把barycenter_finished中的元素作为下一个循环中barycenter_before中的元素
for(int i=0; i<k; i++) {
for(int j=0; j<d; j++) {
barycenter_before[i][j] = barycenter_finished[i][j];
}
}
continue;
}
}
cout<<endl;

// 输出最终质心位置
cout<<"经过 k-means 算法，得到各簇的质心如下："<<endl;
for(int i=0; i<k; i++) {
cout<<"第"<<i+1<<"个"<<"\t";
for(int j=0; j<d; j++) {
cout<<barycenter_finished[i][j]<<"\t";
}
cout<<endl;
cout<<"该簇所包含的点有："<<endl;
for(int j=0; j<N; j++) {
if(belongWhichBC[j] == i) {
cout<<j+1<<"\t";
}
}
cout<<endl;
}

return 0;
}

五、运行结果

注：K=3，N=20，D=2

图1 k-means算法运行结果-1

图2 k-means算法运行结果-2

图3 利用Graph作图展示k-means算法运行结果

数据挖掘算法：k-means算法的C++实现的更多相关文章

第4章最基础的分类算法-k近邻算法
思想极度简单应用数学知识少效果好(缺点?) 可以解释机器学习算法使用过程中的很多细节问题更完整的刻画机器学习应用的流程 distances = [] for x_train in X_train ...
聚类算法：K-means 算法(k均值算法)
k-means算法: 第一步:选$K$个初始聚类中心,$z_1(1),z_2(1),\cdots,z_k(1)$,其中括号内的序号为寻找聚类中心的迭代运算的次序号. 聚类中心的向量值可任意设 ...
分类算法----k近邻算法
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的 ...
机器学习(四) 机器学习(四) 分类算法--K近邻算法 KNN (下)
六.网格搜索与 K 邻近算法中更多的超参数七.数据归一化 Feature Scaling 解决方案:将所有的数据映射到同一尺度八.scikit-learn 中的 Scaler preprocess ...
机器学习(四) 分类算法--K近邻算法 KNN (上)
一.K近邻算法基础 KNN------- K近邻算法--------K-Nearest Neighbors 思想极度简单应用数学知识少 (近乎为零) 效果好(缺点?) 可以解释机器学习算法使用过程中 ...
python 机器学习（二）分类算法-k近邻算法
一.什么是K近邻算法? 定义: 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别. 来源: KNN算法最早是由Cover和Hart提 ...
KNN 与 K - Means 算法比较
KNN K-Means 1.分类算法聚类算法 2.监督学习非监督学习 3.数据类型:喂给它的数据集是带label的数据,已经是完全正确的数据喂给它的数据集是无label的数据,是杂乱无章的,经过 ...
分类算法——k最近邻算法（Python实现）（文末附工程源代码）
kNN算法原理 k最近邻(k-Nearest Neighbor)算法是比较简单的机器学习算法.它采用测量不同特征值之间的距离方法进行分类,思想很简单:如果一个样本在特征空间中的k个最近邻(最相似)的样 ...
【学习笔记】分类算法-k近邻算法
k-近邻算法采用测量不同特征值之间的距离来进行分类. 优点:精度高.对异常值不敏感.无数据输入假定缺点:计算复杂度高.空间复杂度高使用数据范围:数值型和标称型用例子来理解k-近邻算法电影可以按 ...
【机器学习】聚类算法——K均值算法（k-means）
一.聚类 1.基于划分的聚类:k-means.k-medoids(每个类别找一个样本来代表).Clarans 2.基于层次的聚类:(1)自底向上的凝聚方法,比如Agnes (2)自上而下的分裂方法,比 ...

随机推荐

【luogu P1816 忠诚】题解
题目链接:https://www.luogu.org/problemnew/show/P1816 用st表来解决rmq问题. 表示同时培训学的st表,然后我就忘得差不多了,在这里推荐一篇blog 大佬 ...
百练oj 2815:城堡问题（dfs）
传送门: http://bailian.openjudge.cn/practice/2815 2815:城堡问题查看提交统计提示提问总时间限制: 1000ms 内存限制: 65536kB ...
运用Xdebug调试和优化PHP程序
什么是Xdebug? Xdebug是一个开放源代码的PHP程序调试器(即一个Debug工具),可以用来跟踪,调试和分析PHP程序的运行状况.Xdebug现在的最新版本是xdebug 2.0.0beta ...
JavaScript函数的方法
在一个对象中绑定函数,称为这个对象的方法. 在JavaScript中,对象的定义是: var xiaoming = { name:'小明'; birth:1990; }; 但是,如果我们给xiaomi ...
LeetCode5.最长回文子串 JavaScript
给定一个字符串 s,找到 s 中最长的回文子串.你可以假设 s 的最大长度为 1000. 示例 1: 输入: "babad" 输出: "bab" 注意: &qu ...
Python 学习笔记（五）常用函数
Python内建函数四舍五入: round() 绝对值: abs() >>> round(1.543,2) 保留两位小数,四舍五入为1.54 1.54 >>> r ...
[oracle]索引与索引表管理
(一)索引的概念索引是一种与表或簇相关的数据库对象,能够为数据的查询提供快捷的存取路径,减少磁盘I/O,提高检索效率. 索引由索引值及记录相应物理地址的ROWID两个部分构成,并按照索引值有序排列, ...
P3818 小A和uim之大逃离 II（bfs，有条件的广搜）
题目背景话说上回……还是参见 https://www.luogu.org/problem/show?pid=1373 吧小a和uim再次来到雨林中探险.突然一阵南风吹来,一片乌云从南部天边急涌过来 ...
[USACO08NOV]时间管理Time Management（排序，贪心）
题目描述作为一名忙碌的商人,约翰知道必须高效地安排他的时间.他有N工作要做,比如给奶牛挤奶,清洗牛棚,修理栅栏之类的. 为了高效,列出了所有工作的清单.第i分工作需要T_i单位的时间来完成,而且 ...
三、css篇
#这里强烈推荐一本书<css世界>,css第一书. #上面的层叠顺序得记住. 1.align-items justify-content 是flex(弹性盒模型)必须要会的属性,alig ...

数据挖掘算法：k-means算法的C++实现

数据挖掘算法：k-means算法的C++实现的更多相关文章

随机推荐

热门专题