--------------------------K-Means算法使用--------------------------

一：数据导入及可视化

import numpy as np

import matplotlib.pyplot as plt

import scipy.io as sio

data = sio.loadmat("ex7data2.mat")

X = data['X']　　

print(X.shape)

plt.figure()

plt.scatter(X[:,],X[:,],c='b',marker="o")

plt.show()

注意：对于我们的无监督学习中，训练集中是没有标签值的，所以只有X，没有y

二：归类---寻找每个训练样本的聚类中心

（一）代码实现

def find_closest_centroids(X,centroids):
    m = X.shape[0]
    idx = np.zeros(m)   #记录每个训练样本距离最短聚类中心最短的索引
    idx = idx.astype(int)   #因为numpy中没有int、float类型，是由系统决定是32、或者64位大小。所以我们这里手动设置位int类型，为后面做准备

    for i in range(m):
        idx[i] = np.argmin(np.sum(np.power((centroids-X[i]),2),1))  #先计算各个中心到该点的平方和距离，返回最小的索引

    return idx

（二）补充矩阵减去向量、np.sum的使用

（三）结果测试

k =   # 设置聚簇中心个数为3

initial_centroids = np.array([[, ], [, ], [, ]]) #手动初始化三个聚类中心点

idx = find_closest_centroids(X,initial_centroids)

print(idx[:])

三：根据上一步归类结果---更新聚簇中心位置

（一）代码实现

def compute_centroids(X,idx,K):
    (m,n)=X.shape
    centroids_new = np.zeros((k,n))

    #进行更新操作，用每个聚类中心所有点的位置平均值作为新的聚类中心位置
    for i in range(K):
        centroids_new[i] = np.mean(X[np.where(idx==i)[0],0)    #按列求均值

    return  centroids_new

（二）回顾np.where操作

注意：我们这里np.where返回的是一个元组类型，我们如果想要获取内部数据，应该使用np.where(idx == 5)[0]可以获取np.array类型数据

（三）结果测试

data = sio.loadmat("ex7data2.mat")

X = data['X']

k =   # 设置聚簇中心个数为3

initial_centroids = np.array([[, ], [, ], [, ]]) #手动初始化三个聚类中心点

idx = find_closest_centroids(X,initial_centroids)

c_n = compute_centroids(X,idx,k)

print(c_n)

四：实现K-mean算法

（一）代码实现

def run_k_means(X,init_centroids,max_iters=):

    m,n = X.shape

    idx = np.zeros(m)

    k = init_centroids.shape[]

    centroids = init_centroids

    #开始迭代

    if max_iters != :

        for i in range(max_iters):  #按迭代次数进行迭代

            idx = find_closest_centroids(X,centroids)

            centroids = compute_centroids(X,idx,k)

    else:

        while True: #直到连续两次的迭代结果都是一样的，就返回

            idx = find_closest_centroids(X, init_centroids)

            centroids = compute_centroids(X,idx,k)

            if (init_centroids == centroids).all():

                break

            init_centroids = centroids

    return idx,centroids

（二）结果显示

data = sio.loadmat("ex7data2.mat")

X = data['X']

k =   # 设置聚簇中心个数为3

initial_centroids = np.array([[, ], [, ], [, ]]) #手动初始化三个聚类中心点

max_iters =

idx, centroids = run_k_means(X,initial_centroids,max_iters)

#获取各个聚簇信息

cluster_1 = X[np.where(idx==0)[0],:]

cluster_2 = X[np.where(idx==1)[0],:]

cluster_3 = X[np.where(idx==2)[0],:]

#绘制图像

plt.figure()

plt.scatter(cluster_1[:,],cluster_1[:,],c='r',marker="o")

plt.scatter(cluster_2[:,],cluster_2[:,],c='b',marker="o")

plt.scatter(cluster_3[:,],cluster_3[:,],c='g',marker="o")

plt.show()

（三）改进版---绘制聚簇中心移动轨迹

def run_k_means(X,init_centroids,max_iters=):

    m,n = X.shape

    idx = np.zeros(m)

    k = init_centroids.shape[]

    centroids = init_centroids

    cent_rec = init_centroids   #记录中心移动信息

    #开始迭代

    if max_iters != :

        for i in range(max_iters):  #按迭代次数进行迭代

            idx = find_closest_centroids(X,centroids)

            centroids = compute_centroids(X,idx,k)

            cent_rec = np.append(cent_rec,centroids,axis=)  #记录中心移动信息,按列添加

    else:

        while True: #直到连续两次的迭代结果都是一样的，就返回

            idx = find_closest_centroids(X, init_centroids)

            centroids = compute_centroids(X,idx,k)

            if (init_centroids == centroids).all():

                break

            init_centroids = centroids

            cent_rec = np.append(cent_rec,centroids,axis=)  #记录中心移动信息,按列添加

    return idx,centroids,cent_rec

data = sio.loadmat("ex7data2.mat")

X = data['X']

k =   # 设置聚簇中心个数为3

initial_centroids = np.array([[, ], [, ], [, ]]) #手动初始化三个聚类中心点

max_iters =

idx, centroids, cent_rec = run_k_means(X,initial_centroids,max_iters)

#获取各个聚簇信息

cluster_1 = X[np.where(idx==)[],:]

cent_1 = cent_rec[].reshape(-,)

cluster_2 = X[np.where(idx==)[],:]

cent_2 = cent_rec[].reshape(-,)

cluster_3 = X[np.where(idx==)[],:]

cent_3 = cent_rec[].reshape(-,)

#绘制图像

plt.figure()

plt.scatter(cluster_1[:,],cluster_1[:,],c='r',marker="o")

plt.plot(np.array(cent_1[:,]),np.array(cent_1[:,]),c='black',marker="X")

plt.scatter(cluster_2[:,],cluster_2[:,],c='b',marker="o")

plt.plot(np.array(cent_2[:,]),np.array(cent_2[:,]),c='black',marker="X")

plt.scatter(cluster_3[:,],cluster_3[:,],c='g',marker="o")

plt.plot(np.array(cent_3[:,]),np.array(cent_3[:,]),c='black',marker="X")

plt.show()

五：随机初始化聚类中心函数

在运行 K-均值算法的之前，我们首先要随机初始化所有的聚类中心点。

（一）重点回顾

注意点一：

（1）应该把聚类中心的数值K设置为比训练样本数量m小的值；

（2）随机挑选K个训练样本；

（3）设定μ1,...,μk，让它们等于这K个样本。

注意点二：

避免局部最优：如果想让找到最优可能的聚类，可以尝试多次随机初始化，以此来保证能够得到一个足够好的结果，选取代价最小的一个也就是代价函数J最小的。事实证明，在聚类数K较小的情况下（2~10个），使用多次随机初始化会有较大的影响，而如果K很大的情况，多次随机初始化可能并不会有太大效果。

（二）代码实现

def kmeans_init_centroids(X,k):　　#随机获取聚类中心

    centroids = np.zeros((k,X.shape[]))

    #随机选取训练样本个数

    idx = np.random.choice(X.shape[],k)

    centroids = X[idx,:]

    return centroids

def comp_J(X,centroids,idx):    #计算代价，计算平方和，不进行开方

    # 获取各个聚簇信息

    cluster_1 = X[np.where(idx == )[], :]

    cluster_2 = X[np.where(idx == )[], :]

    cluster_3 = X[np.where(idx == )[], :]

    #计算代价

    J_1 = np.sum(np.power(cluster_1-centroids[],))

    J_2 = np.sum(np.power(cluster_2-centroids[],))

    J_3 = np.sum(np.power(cluster_3-centroids[],))

    return J_1+J_2+J_3

def kmeans_run(X,k,rand_iter,max_iters=):　　#进行多次计算代价，然后选取最小的

    min_J = -

    idx_res = np.zeros(X.shape[])

    centroids_res = np.zeros((k,X.shape[]))

    cent_rec_res = centroids_res

    for i in range(rand_iter):

        init_centroids = kmeans_init_centroids(X,k)

        idx, centroids, cent_rec = run_k_means(X,init_centroids,max_iters)

        #计算代价

        if min_J < :

            min_J = comp_J(X,centroids,idx)

        else:

            new_J = comp_J(X,centroids,idx)

            # print(new_J)

            if new_J < min_J:

                idx_res, centroids_res, cent_rec_res = idx, centroids, cent_rec

    # print(min_J)

    return idx_res, centroids_res, cent_rec_res

data = sio.loadmat("ex7data2.mat")

X = data['X']

k =   # 设置聚簇中心个数为3

rand_iter = 

max_iters =

idx, centroids, cent_rec = kmeans_run(X,k,rand_iter,max_iters)

idx, centroids, cent_rec = run_k_means(X,kmeans_init_centroids(X,k),max_iters)

# print(comp_J(X,centroids,idx))  #266.65851965491936

#获取各个聚簇信息

cluster_1 = X[np.where(idx==)[],:]

cent_1 = cent_rec[].reshape(-,)

cluster_2 = X[np.where(idx==)[],:]

cent_2 = cent_rec[].reshape(-,)

cluster_3 = X[np.where(idx==)[],:]

cent_3 = cent_rec[].reshape(-,)

#绘制图像

plt.figure()

plt.scatter(cluster_1[:,],cluster_1[:,],c='r',marker="o")

plt.plot(np.array(cent_1[:,]),np.array(cent_1[:,]),c='black',marker="X")

plt.scatter(cluster_2[:,],cluster_2[:,],c='b',marker="o")

plt.plot(np.array(cent_2[:,]),np.array(cent_2[:,]),c='black',marker="X")

plt.scatter(cluster_3[:,],cluster_3[:,],c='g',marker="o")

plt.plot(np.array(cent_3[:,]),np.array(cent_3[:,]),c='black',marker="X")

plt.show()

补充：我们可以认为每个点的特征就是x_1,x_2,而我们的聚类中心就是由x_1和x_2组成的。

--------------------------K-Means算法进行图像压缩--------------------------

使用K-Means进行图像压缩。我们使用聚类来找到最具代表性的少数颜色，并使用聚类分配讲原始的24位颜色，映射到较低维的颜色空间

一：数据读取

image_data = sio.loadmat("bird_small.mat")
data = image_data['A']
print(data)
print(data.shape)

二：数据预处理

#数据归一化  因为每个数据都是0-255之间

data = data /

data = np.reshape(data,(data.shape[]*data.shape[],data.shape[]))
print(data.shape)

注意：我们的特征就是颜色空间三通道，所以我们后面求取的聚类中心就是我们找到的最具代表的颜色空间

三:获取我们的聚类中心（同之前）

（一）代码实现

def find_closest_centroids(X,centroids):

    m = X.shape[]

    idx = np.zeros(m)   #记录每个训练样本距离最短聚类中心最短的索引

    idx = idx.astype(int)   #因为numpy中没有int、float类型，是由系统决定是32、或者64位大小。所以我们这里手动设置位int类型，为后面做准备

    for i in range(m):

        idx[i] = np.argmin(np.sum(np.power((centroids-X[i]),),))  #先计算各个中心到该点的平方和距离，返回最小的索引

    return idx

def compute_centroids(X,idx,K):

    (m,n)=X.shape

    centroids_new = np.zeros((k,n))

    #进行更新操作，用每个聚类中心所有点的位置平均值作为新的聚类中心位置

    for i in range(K):

        centroids_new[i] = np.mean(X[np.where(idx==i)[]],)    #按列求均值

    return centroids_new

def run_k_means(X,init_centroids,max_iters=):

    m,n = X.shape

    idx = np.zeros(m)

    k = init_centroids.shape[]

    centroids = init_centroids

    #开始迭代

    if max_iters != :

        for i in range(max_iters):  #按迭代次数进行迭代

            idx = find_closest_centroids(X,centroids)

            centroids = compute_centroids(X,idx,k)

    else:

        while True: #直到连续两次的迭代结果都是一样的，就返回

            idx = find_closest_centroids(X, init_centroids)

            centroids = compute_centroids(X,idx,k)

            if (init_centroids == centroids).all():

                break

            init_centroids = centroids

    return idx,centroids

def kmeans_init_centroids(X,k):

    centroids = np.zeros((k,X.shape[]))

    #随机选取训练样本个数

    idx = np.random.choice(X.shape[],k)

    centroids = X[idx,:]

    return centroids

（二）获取压缩结果

image_data = sio.loadmat("bird_small.mat")

data = image_data['A']

#数据归一化  因为每个数据都是0-255之间

data = data /

X = np.reshape(data,(data.shape[]*data.shape[],data.shape[]))

k =

max_iters = 

#随机初始化聚类中心

init_centroids = kmeans_init_centroids(X,k)

#获取聚类中心

idx,centroids = run_k_means(X,init_centroids,max_iters)

#将所有数据点，设置归属到对应的聚类中心去

idx = find_closest_centroids(X,centroids)

#将每一个像素值与聚类结果进行匹配

X_recovered = centroids[idx,:]  #将属于一个聚类的像素，设置为聚类中心的值（统一）

print(X_recovered.shape)    #(, )

X_recovered = np.reshape(X_recovered,(data.shape[],data.shape[],data.shape[]))　　#再展开为三维数据

补充：使用索引扩展矩阵

（三）压缩结果显示

plt.figure()

plt.imshow(data)    #显示原始图像

plt.show()

plt.figure()

plt.imshow(X_recovered) #显示压缩后的图像

plt.show()

当k=6时：

四：补充使用sklearn库进行K-means算法使用

import numpy as np

import matplotlib.pyplot as plt

import scipy.io as sio

from sklearn.cluster import KMeans

image_data = sio.loadmat("bird_small.mat")

data = image_data['A']

#数据归一化  因为每个数据都是0-255之间

data = data /

X = np.reshape(data,(data.shape[]*data.shape[],data.shape[]))

model = KMeans(n_clusters=16,n_init=100,n_jobs=-1)  #n_init设置获取初始簇中心的更迭次数，防止局部最优 n_jobs设置并行（使用CPU数，-1则使用所有CPU）

model.fit(X)    #开始聚类

centroids = model.cluster_centers_  #获取聚簇中心

C = model.predict(X) #获取每个数据点的对应聚簇中心的索引

X_recovered = centroids[C].reshape((data.shape[],data.shape[],data.shape[])) #获取新的图像

plt.figure()

plt.imshow(data)    #显示原始图像

plt.show()

plt.figure()

plt.imshow(X_recovered) #显示压缩后的图像

plt.show()

参数讲解：https://blog.csdn.net/sinat_26917383/article/details/70240628

机器学习作业---K-Means算法的更多相关文章

机器学习之K近邻算法（KNN）
机器学习之K近邻算法(KNN) 标签: python 算法 KNN 机械学习苛求真理的欲望让我想要了解算法的本质,于是我开始了机械学习的算法之旅 from numpy import * import ...
【机器学习】k近邻算法（kNN）
一.写在前面本系列是对之前机器学习笔记的一个总结,这里只针对最基础的经典机器学习算法,对其本身的要点进行笔记总结,具体到算法的详细过程可以参见其他参考资料和书籍,这里顺便推荐一下Machine Le ...
第四十六篇入门机器学习——kNN - k近邻算法（k-Nearest Neighbors）
No.1. k-近邻算法的特点 No.2. 准备工作,导入类库,准备测试数据 No.3. 构建训练集 No.4. 简单查看一下训练数据集大概是什么样子,借助散点图 No.5. kNN算法的目的是,假如 ...
【机器学习】K均值算法（II）
k聚类算法中如何选择初始化聚类中心所在的位置. 在选择聚类中心时候,如果选择初始化位置不合适,可能不能得出我们想要的局部最优解. 而是会出现一下情况: 为了解决这个问题,我们通常的做法是: 我们选取K ...
【机器学习】K均值算法（I）
K均值算法是一类非监督学习类,其可以通过观察样本的离散性来对样本进行分类. 例如,在对如下图所示的样本中进行聚类,则执行如下步骤 1:随机选取3个点作为聚类中心. 2:簇分配:遍历所有样本然后依据每个 ...
[机器学习实战] k邻近算法
1. k邻近算法原理: 存在一个样本数据集,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系.输入没有标签的新数据后,将新数据的每个特征与样本集中数据对 ...
机器学习之K均值算法（K-means）聚类
K均值算法(K-means)聚类 [关键词]K个种子,均值一.K-means算法原理聚类的概念:一种无监督的学习,事先不知道类别,自动将相似的对象归到同一个簇中. K-Means算法是一种聚类分析 ...
机器学习之K近邻算法
K 近邻 (K-nearest neighbor, KNN) 算法直接作用于带标记的样本,属于有监督的算法.它的核心思想基本上就是近朱者赤,近墨者黑. 它与其他分类算法最大的不同是,它是一种&quo ...
机器学习实战-k近邻算法
写在开头,打算耐心啃完机器学习实战这本书,所用版本为2013年6月第1版在P19页的实施kNN算法时,有很多地方不懂,遂仔细研究,记录如下: 字典按值进行排序首先仔细读完kNN算法之后,了解其是用 ...
【机器学习】K近邻算法——多分类问题
给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该类输入实例分为这个类. KNN是通过测量不同特征值之间的距离进行分类.它的的思路是:如 ...

随机推荐

linux最小化安装命令补全
bash-completion 需要安装bash-completion才能补全,安装后,重新打开一个窗口就能生效.
Web前端兼容性指南
一.Web前端兼容性问题一直以来,Web前端领域最大的问题就是兼容性问题,没有之一. 前端兼容性问题分三类: 浏览器兼容性屏幕分辨率兼容性跨平台兼容性 1.浏览器兼容性问题第一次浏览器大战发生 ...
学习Linux必须掌握的一个知识-i节点
linux文件系统是Linux系统的心脏部分,提供了层次结构的目录和文件.文件系统将磁盘空间划分为每1024个字节一组,称为块(也有用512字节为一块的,如:SCOXENIX).编号从0到整个磁盘的最 ...
一文入门：XGBoost与手推二阶导
作者前言在2020年还在整理XGB的算法,其实已经有点过时了..不过,主要是为了学习算法嘛.现在的大数据竞赛,XGB基本上已经全面被LGB模型取代了,这里主要是学习一下Boost算法.之前已经在其他 ...
06[笔记] SpringBoot 删除Redis指定缓存
/* ******************************************载入缓存开始************************************************* ...
dart快速入门教程（8）
9.dart中的库 9.1.自定义库自定义库我们在前面已经使用过了,把某些功能抽取到一个文件,使用的时候通过import引入即可 9.2.系统内置库以math库为例: import "d ...
【String注解驱动开发】困扰了我很久的AOP嵌套调用终于解决了！
写在前面最近在分析Spring源码时,在同一个类中写了嵌套的AOP方法,测试时出现:Spring AOP在同一个类里自身方法相互调用时无法拦截.哎,怎么办?还能怎么办呢?继续分析Spring源码,解 ...
Github中添加SSH key
1-创建密钥,在终端输入下面的命令 ssh-keygen -t rsa -b -C "你的邮箱" //双引号不能去要求输入密码,建议回车使用空密码方便以后的每次连接,此时会生成一 ...
github Pull Request合入全流程介绍
图解全流程详细步骤 1. fork仓库 2. clone fork仓库到本地 3. 关联upstream原仓库在fork本地仓库输入下面命令进行关联: git remote add upstrea ...
Synchronized锁的是什么？
Synchronized锁的是什么? 临界区与锁并发编程中不可避免的会出现多个线程共享同一个资源的情况,为了防止出现数据不一致情况的发生,人们引入了临界区的概念.临界区是一个用来访问共享资源的代码块 ...

机器学习作业---K-Means算法

--------------------------K-Means算法使用--------------------------

一：数据导入及可视化

注意：对于我们的无监督学习中，训练集中是没有标签值的，所以只有X，没有y

二：归类---寻找每个训练样本的聚类中心

（一）代码实现

（二）补充矩阵减去向量、np.sum的使用

（三）结果测试

三：根据上一步归类结果---更新聚簇中心位置

（一）代码实现

（二）回顾np.where操作

注意：我们这里np.where返回的是一个元组类型，我们如果想要获取内部数据，应该使用np.where(idx == 5)[0]可以获取np.array类型数据

（三）结果测试

四：实现K-mean算法

（一）代码实现

（二）结果显示

（三）改进版---绘制聚簇中心移动轨迹

五：随机初始化聚类中心函数

（一）重点回顾

注意点一：

注意点二：

（二）代码实现

补充：我们可以认为每个点的特征就是x_1,x_2,而我们的聚类中心就是由x_1和x_2组成的。

--------------------------K-Means算法进行图像压缩--------------------------

一：数据读取

二：数据预处理

注意：我们的特征就是颜色空间三通道，所以我们后面求取的聚类中心就是我们找到的最具代表的颜色空间

三:获取我们的聚类中心（同之前）

（一）代码实现

（二）获取压缩结果

补充：使用索引扩展矩阵

（三）压缩结果显示

四：补充使用sklearn库进行K-means算法使用

参数讲解：https://blog.csdn.net/sinat_26917383/article/details/70240628

机器学习作业---K-Means算法的更多相关文章

随机推荐

热门专题