谱聚类的python实现

什么是谱聚类？

就是找到一个合适的切割点将图进行切割，核心思想就是：

使得切割的边的权重和最小，对于无向图而言就是切割的边数最少，如上所示。但是，切割的时候可能会存在局部最优，有以下两种方法：

（1）RatioCut：核心是要求划分出来的子图的节点数尽可能的大

分母变为子图的节点的个数。

（2）NCut：考虑每个子图的边的权重和

分母变为子图各边的权重和。

具体之后求解可以参考：https://blog.csdn.net/songbinxu/article/details/80838865

谱聚类的整体流程？

计算距离矩阵（例如欧氏距离）
利用KNN计算邻接矩阵 A
由 A 计算度矩阵 D 和拉普拉斯矩阵 L
标准化 L→$D^{−1/2}LD^{−1/2}$
对矩阵 $D^{−1/2}LD^{−1/2}$进行特征值分解，得到特征向量 $H_{nn}$
将 $H_{nn}$ 当成样本送入 Kmeans 聚类
获得聚类结果 C=(C1,C2,⋯,Ck)

python实现：

（1）首先是数据的生成：

from sklearn import datasets

x1, y1 = datasets.make_circles(n_samples=1000, factor=0.5, noise=0.05)

import matplotlib.pyplot as plt

%matplotlib inline

plt.title('make_circles function example')

plt.scatter(x1[:, 0], x1[:, 1], marker='o')

plt.show()

x1的形状是(1000,2)

（2）接下来，我们要计算两两样本之间的距离：

import numpy as np
def euclidDistance(x1, x2, sqrt_flag=False):

    res = np.sum((x1-x2)**2)

    if sqrt_flag:

        res = np.sqrt(res)

    return res

将这些距离用矩阵的形式保存：

def calEuclidDistanceMatrix(X):

    X = np.array(X)

    S = np.zeros((len(X), len(X)))

    for i in range(len(X)):

        for j in range(i+1, len(X)):

            S[i][j] = 1.0 * euclidDistance(X[i], X[j])

            S[j][i] = S[i][j]

    return S

S = calEuclidDistanceMatrix(x1)

array([[0.00000000e+00, 1.13270081e+00, 2.62565479e+00, ...,

        2.99144277e+00, 1.88193070e+00, 1.12840739e+00],

       [1.13270081e+00, 0.00000000e+00, 2.72601994e+00, ...,

        2.95125426e+00, 5.11864947e-01, 6.05388856e-05],

       [2.62565479e+00, 2.72601994e+00, 0.00000000e+00, ...,

        1.30747922e-02, 1.18180915e+00, 2.74692378e+00],

       ...,

       [2.99144277e+00, 2.95125426e+00, 1.30747922e-02, ...,

        0.00000000e+00, 1.26037239e+00, 2.97382982e+00],

       [1.88193070e+00, 5.11864947e-01, 1.18180915e+00, ...,

        1.26037239e+00, 0.00000000e+00, 5.22992113e-01],

       [1.12840739e+00, 6.05388856e-05, 2.74692378e+00, ...,

        2.97382982e+00, 5.22992113e-01, 0.00000000e+00]])

（3）使用KNN计算跟每个样本最接近的k个样本点，然后计算出邻接矩阵：

def myKNN(S, k, sigma=1.0):

    N = len(S)

    #定义邻接矩阵

    A = np.zeros((N,N))

    for i in range(N):

        #对每个样本进行编号

        dist_with_index = zip(S[i], range(N))

        #对距离进行排序

        dist_with_index = sorted(dist_with_index, key=lambda x:x[0])

        #取得距离该样本前k个最小距离的编号

        neighbours_id = [dist_with_index[m][1] for m in range(k+1)] # xi's k nearest neighbours

        #构建邻接矩阵

        for j in neighbours_id: # xj is xi's neighbour

            A[i][j] = np.exp(-S[i][j]/2/sigma/sigma)

            A[j][i] = A[i][j] # mutually

    return A

A = myKNN(S,3)

array([[1.        , 0.        , 0.        , ..., 0.        , 0.        ,

        0.        ],

       [0.        , 1.        , 0.        , ..., 0.        , 0.        ,

        0.99996973],

       [0.        , 0.        , 1.        , ..., 0.        , 0.        ,

        0.        ],

       ...,

       [0.        , 0.        , 0.        , ..., 1.        , 0.        ,

        0.        ],

       [0.        , 0.        , 0.        , ..., 0.        , 1.        ,

        0.        ],

       [0.        , 0.99996973, 0.        , ..., 0.        , 0.        ,

        1.        ]])

（4）计算标准化的拉普拉斯矩阵

def calLaplacianMatrix(adjacentMatrix):

    # compute the Degree Matrix: D=sum(A)

    degreeMatrix = np.sum(adjacentMatrix, axis=1)

    # compute the Laplacian Matrix: L=D-A

    laplacianMatrix = np.diag(degreeMatrix) - adjacentMatrix

    # normailze

    # D^(-1/2) L D^(-1/2)

    sqrtDegreeMatrix = np.diag(1.0 / (degreeMatrix ** (0.5)))

    return np.dot(np.dot(sqrtDegreeMatrix, laplacianMatrix), sqrtDegreeMatrix)

L_sys = calLaplacianMatrix(A)

array([[ 0.66601736,  0.        ,  0.        , ...,  0.        ,

         0.        ,  0.        ],

       [ 0.        ,  0.74997723,  0.        , ...,  0.        ,

         0.        , -0.28868642],

       [ 0.        ,  0.        ,  0.74983185, ...,  0.        ,

         0.        ,  0.        ],

       ...,

       [ 0.        ,  0.        ,  0.        , ...,  0.66662382,

         0.        ,  0.        ],

       [ 0.        ,  0.        ,  0.        , ...,  0.        ,

         0.74953329,  0.        ],

       [ 0.        , -0.28868642,  0.        , ...,  0.        ,

         0.        ,  0.66665079]])

（5）特征值分解

lam, V = np.linalg.eig(L_sys) # H'shape is n*n

lam = zip(lam, range(len(lam)))

lam = sorted(lam, key=lambda x:x[0])

H = np.vstack([V[:,i] for (v, i) in lam[:1000]]).T

H = np.asarray(H).astype(float)

（6）使用Kmeans进行聚类

from sklearn.cluster import KMeans

def spKmeans(H):

    sp_kmeans = KMeans(n_clusters=2).fit(H)

    return sp_kmeans.labels_

labels = spKmeans(H)

plt.title('spectral cluster result')

plt.scatter(x1[:, 0], x1[:, 1], marker='o',c=labels)

plt.show()

（7）对比使用kmeans聚类

pure_kmeans = KMeans(n_clusters=2).fit(x1)

plt.title('pure kmeans cluster result')

plt.scatter(x1[:, 0], x1[:, 1], marker='o',c=pure_kmeans.labels_)

plt.show()

参考：

https://www.cnblogs.com/xiximayou/p/13180579.html

https://www.cnblogs.com/chenmo1/p/11681669.html

https://blog.csdn.net/songbinxu/article/details/80838865

https://github.com/SongDark/SpectralClustering/

谱聚类的python实现的更多相关文章

谱聚类python实践
聚类后: # -*- coding: utf-8 -*-"""Created on 09 05 2017 @author: similarface"" ...
谱聚类--SpectralClustering
谱聚类通常会先对两两样本间求相似度. 然后依据相似度矩阵求出拉普拉斯矩阵,然后将每一个样本映射到拉普拉斯矩阵特诊向量中,最后使用k-means聚类. scikit-learn开源包中已经有现成的接口能 ...
用scikit-learn学习谱聚类
在谱聚类(spectral clustering)原理总结中,我们对谱聚类的原理做了总结.这里我们就对scikit-learn中谱聚类的使用做一个总结. 1. scikit-learn谱聚类概述在s ...
谱聚类（spectral clustering）原理总结
谱聚类(spectral clustering)是广泛使用的聚类算法,比起传统的K-Means算法,谱聚类对数据分布的适应性更强,聚类效果也很优秀,同时聚类的计算量也小很多,更加难能可贵的是实现起来也 ...
[zz]谱聚类
了凡春秋USTC 谱聚类 http://chunqiu.blog.ustc.edu.cn/?p=505 最近忙着写文章,好久不写博客了.最近看到一个聚类方法--谱聚类,号称现代聚类方法,看到它简洁的公 ...
大数据下多流形聚类分析之谱聚类SC
大数据,人人都说大数据:类似于人人都知道黄晓明跟AB结婚一样,那么什么是大数据?对不起,作为一个本科还没毕业的小白实在是无法回答这个问题.我只知道目前研究的是高维,分布在n远远大于2的欧式空间的数据如 ...
Laplacian matrix 从拉普拉斯矩阵到谱聚类
谱聚类步骤第一步:数据准备,生成图的邻接矩阵: 第二步:归一化普拉斯矩阵: 第三步:生成最小的k个特征值和对应的特征向量: 第四步:将特征向量kmeans聚类(少量的特征向量):
谱聚类Ng算法的Matlab简单实现
请编写一个谱聚类算法,实现"Normalized Spectral Clustering-Algorithm 3 (Ng 算法)" 结果如下谱聚类算法核心步骤都是相同的: •利用 ...
【聚类算法】谱聚类(Spectral Clustering)
目录: 1.问题描述 2.问题转化 3.划分准则 4.总结 1.问题描述谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图 ...

随机推荐

SpringCloud Bus消息总线简介
简介: SpringCloud Bus配合SpringCloud Config使用可以实现配置的动态刷新 SpringCloud Bus是用来将分布式系统的节点与轻量级消息系统链接起来的框架,它整合了 ...
Oracle DataGuard故障转移(failover)后使用RMAN还原失败的主库
(一)DG故障转移后切换为备库的方法在DG执行故障转移之后,主库与从库的关系就被破坏了.这个时候如果要恢复主从关系,可以使用下面的3种方法: 将失败的主库重新搭建为备库,该方法比较耗时: 使用数据库 ...
Upload 上传 el-upload 上传配置请求头为Content-Type: "multipart/form-data"
api接口处添加属性 (标红处) // 校验台账 export const checkEquiment = (data) => { return axios({ url: '/job/equip ...
Python os.mkfifo() 方法
概述 os.mkfifo() 方法用于创建指令路径的管道,并设置权限模式.默认的模式为 0666 (八进制).高佣联盟 www.cgewang.com 语法 mkfifo()方法语法格式如下: os. ...
PHP imageaffine - 返回经过仿射变换后的图像
imageaffine — 返回经过仿射变换后的图像,剪切区域可选.高佣联盟 www.cgewang.com 语法 resource imageaffine ( resource $image , a ...
P5468 [NOI2019]回家路线斜率优化 dp
LINK:回家路线 (文化课 oi 双爆炸对没学上的就是我.(我错了不该这么丧的. 不过还能苟住一段时间.当然是去打NOI了这道题去年同步赛的时候做过.不过这里再次提醒自己要认真仔细的看题目不 ...
day13. 迭代器与高阶函数
一.迭代器 """ 能被next调用,并不断返回下一个值的对象,叫做迭代器(对象) 概念: 迭代器指的是迭代取值的工具,迭代是一个重复的过程,每次重复都是基于上一次的结果 ...
我还在生产玩 JDK7，JDK 15 却要来了!|新特性尝鲜
自从 JDK9 之后,每年 3 月与 9 月 JDK 都会发布一个新的版本,而2020 年 9 月即将引来 JDK15. 恰巧 IDEA 每四五个月会升级一个较大的版本,每次升级之后都会支持最新版本 ...
“随手记”开发记录day05
今天完成了关于统计页面里面的总览页面里面的功能有可以显示你这个月的花费最多的账单,和收入最多的页面还有总计运行效果如图所示
MySQL时间设计 int timestamp datatime 查询效率性能比较
在数据库设计的时候,我们经常会需要设计时间字段,在MYSQL中,时间字段可以使用int.timestamp.datetime三种类型来存储,那么这三种类型哪一种用来存储时间性能比较高,效率好呢?飘易就 ...

谱聚类的python实现

谱聚类的python实现的更多相关文章

随机推荐

热门专题