基于R实现k-means法与k-medoids法

k-means法与k-medoids法都是基于距离判别的聚类算法。本文将使用iris数据集，在R语言中实现k-means算法与k-medoids算法。

k-means聚类

首先删去iris中的Species属性，留下剩余4列数值型变量。再利用kmeans()将数据归为3个簇

names(iris)

iris2 <- iris[,-5]  #删去species一列

kmeans_result <- kmeans(iris2,3)   #将数据归为3个簇
str(kmeans_result)    #查看数据结构
table(iris$Species,kmeans_result$cluster)  #查看聚类结果和观测值的对比

从聚类结果可看出，'versicolor‘类与'virginica’类之间存在小范围的重叠。有2个versicolor被错误归类为第一类，有14个'virginica’被归为第三类。

 plot(iris2[c('Sepal.Length','Sepal.Width')],col=kmeans_result$cluster)

 points(kmeans_result$centers[,c('Sepal.Length','Sepal.Width')],col=1:3,pch=10,cex=3)

数据集有四个维度，而绘图只用了前两个维度的数据，
图中所示的一些靠近绿色中心的黑点实际在四维空间中更靠近黑色中心
需注意的是多次运行得到的K-means聚类结果可能不同，这是因为初始的簇中心是随机选择的

k-medoids聚类

先使用fpc包中的pamk()实现K-中心聚类，优点是不要求用户输入K的值

 #而是自动调用pam()或函数clara()更具最优平均阴影宽度估计的聚类簇个数来划分数据

 library(fpc)

 pamk.result <- pamk(iris2)

 str(pamk.result)

pamk.result$nc #推荐使用两个簇

table(iris$Species,pamk.result$pamobject$clustering)

layout(matrix(c(1,2),1,2))   #图形显示为一行两列

plot(pamk.result$pamobject)

在上面的例子中，函数 pamk() 生成了两个簇：一个是 “ setosa ” ，另一个是 “ versicolor ”
和 “ virgrnica " 的 混合 。在图 6 ． 2 中，左边的图像为 两个簇 的 2 维聚类图像（ “ clusplot " ），
两个簇中间的直线表示距离；右边的图像显示了这两个簇的附影。当的值比较大时（接近
1 ）表明相应的观测点能够准确地划分到相似性较大的簇中，当的值比较小时（接近 0 ）表
明观测点位于这两个簇重叠的部分。如果观测点的凿值为负数，则说明观测点被划分到错误
的族中。由于在上面的阴影图中， 两个簇的均值分别为 0 ， 81 和 0 ． 62 ，所以这表明这两个
簇的划分结果很好

接下来使用cluster包中的pam()函数

library(cluster)

pam.result <- pam(iris2,3)

table(pam.result$clustering,iris$Species)

对比上面两个聚类的结果，很难说函数 pamk() 和 pam() 哪一个能获得更好的聚类结果，
结果质量的好坏依赖于目标问题以及领域知识和经验。在这个例子中，函数 pam() 得到的聚
类结果似乎更好，这是因为它识别出 3 个不同的簇，分别对应于 3 个不同的种类。因此，使
用启发式方法来识别簇个数的函数 pamk() 并不意味着总是能得到更好的聚类结果 。还需要注
意的是，由于 事先已经知道 Species 属性确实只包含了 3 个种类，因此在使用函数 pam() 时将
设置为 3 也具有一定的投机性。

两种聚类算法的对比

　层次聚类

使用iris数据集，抽取40个样本

 set.seed()

 idx  <- sample(:nrow(iris),) #抽取40个数

 iris_sample <- iris[idx,-]     #抽取40个样本且删去species一列

out.dist <- dist(iris_sample,method = 'euclidean')#dist()将数据转化为两点之间的距离

hc <- hclust(out.dist,method='average') #代入两点距离(out.dist)，method='ave'指使用类平均法聚类

plot(hc,hang=-1,labels=iris$Species[idx]) #labels:根据目测值添加标签

rect.hclust(hc,k=3) #归为三类

groups <- cutree(hc,k=3) #查看分类

基于密度的聚类

 library(fpc)

 iris2 <- iris[,-5]

 ds <- dbscan(iris2,eps = 0.42,MinPts = 5)   #设置可达距离和最小数目的对象点

 table(ds$cluster,iris$Species)

‘1’-‘3’指被识别出来的三个聚类簇，‘0’表示噪声数据或离散点，即不属于任何簇的对象，绘制的图中使用黑色小圆圈表示

 plot(ds,iris2[c(1,4)]) #展示第一列和第四列的聚类结果

 plot(ds,iris2)