概述

聚类 VS 分类

有监督学习 VS 无监督学习

sklearn中的聚类算法

KMeans

KMeans参数&接口

n_clusters

n_clusters就是KMeans中的K就是告诉模型，要让模型帮助我们分成几类，这个一般是我们必填的一个参数，sklearn中默认为8，通常我们希望这个数是小于8

生成数据

from sklearn.datasets import make_blobs

import matplotlib.pyplot as plt

#自己创建数据集

X, y = make_blobs(n_samples=500,n_features=2,centers=4,random_state=1)

fig, ax1 = plt.subplots(1)

ax1.scatter(X[:, 0], X[:, 1]

           ,marker='o' #点的形状

           ,s=8 #点的大小

           )

plt.show()

#如果我们想要看见这个点的分布，怎么办？

color = ["red","pink","orange","gray"]

fig, ax1 = plt.subplots(1)

for i in range(4):

    ax1.scatter(X[y==i, 0], X[y==i, 1]

           ,marker='o' #点的形状

           ,s=8 #点的大小

           ,c=color[i]

           )

plt.show()

from sklearn.cluster import KMeans

cluster = KMeans(n_clusters=n_clusters, random_state=0).fit(X)

y_pred = cluster.labels_

y_pred

pre = cluster.fit_predict(X)

pre == y_pred

我们只先用一部分数据进行fit然后再predict得到的结果和我们用全部数据进行fit的结果是否相同

# 当数据量非常大的时候我们就需要用predict或者fit_predict()

cluster_smallsub = KMeans(n_clusters=n_clusters, random_state=0).fit(X[:200])

y_pred_ = cluster_smallsub.predict(X)

y_pred == y_pred_

当数据量比较小时结果可能不太好，当数据量比较大时效果比较好但是依然不会完全一样

质心

centroid = cluster.cluster_centers_

centroid

inertia

inertia = cluster.inertia_

inertia

返回总距离的平方和

color = ["red", "pink", "orange", "gray"]

fig, ax1 = plt.subplots(1)

for i in range(n_clusters):

    ax1.scatter(X[y_pred == i, 0], X[y_pred == i, 1]

                ,marker='o' #点的形状

                ,s=8 #点的大小

                ,c=color[i] #点的颜色

               )

ax1.scatter(centroid[:,0], centroid[:,1]

            ,marker='x' #点的形状

            ,s=8 #点的大小

            ,c="black" #点的颜色

)

plt.show()

n_clusters = 4

cluster_ = KMeans(n_clusters=n_clusters, random_state=0).fit(X)

inertia_ = cluster_.inertia_

inertia_

结果：908.3855684760614

可以看到我们inertia的结果变小了

我们要inertia最小化的前提是在我们限制一个K的前提下最小化

模型评估指标

轮廓系数

轮廓系数取值再在[-1, 1]越接近1越好

from sklearn.metrics import silhouette_score

from sklearn.metrics import silhouette_samples

silhouette_score(X, cluster_.labels_)

silhouette_samples(X, cluster_.labels_)

silhouette_score返回轮廓系数的均值

silhouette_samples返回每一个样本的轮廓系数

Calinski-Harabaz Index

虽然Calinski-Harabaz Index没有界但是相较于轮廓系数而言，其计算快得多

from sklearn.metrics import calinski_harabaz_score

X

y_pred

calinski_harabaz_score(X, y_pred)

重要参数init & random_state & n_init：初始质心怎么放好?

X

y

plus = KMeans(n_clusters = 10).fit(X)

plus.n_iter_

random = KMeans(n_clusters = 10,init="random",random_state=420).fit(X)

random.n_iter_

重要参数max_iter & tol：让迭代停下来

random = KMeans(n_clusters = 10,init="random",max_iter=10,random_state=420).fit(X)

y_pred_max10 = random.labels_

silhouette_score(X,y_pred_max10)

random = KMeans(n_clusters = 10,init="random",max_iter=20,random_state=420).fit(X)

y_pred_max20 = random.labels_

silhouette_score(X,y_pred_max20)

一般当我们的数据量比较大的时候使用这两个参数可以让模型快一点停下来

重要属性与重要接口

机器学习实战5-KMeans聚类算法的更多相关文章

机器学习实战---K均值聚类算法
一:一般K均值聚类算法实现 (一)导入数据 import numpy as np import matplotlib.pyplot as plt def loadDataSet(filename): ...
机器学习六--K-means聚类算法
机器学习六--K-means聚类算法想想常见的分类算法有决策树.Logistic回归.SVM.贝叶斯等.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别 ...
机器学习——详解经典聚类算法Kmeans
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第12篇文章,我们一起来看下Kmeans聚类算法. 在上一篇文章当中我们讨论了KNN算法,KNN算法非常形象,通过距离公 ...
机器学习实战之K-Means算法
一,引言先说个K-means算法很高大上的用处,来开始新的算法学习.我们都知道每一届的美国总统大选,那叫一个竞争激烈.可以说,谁拿到了各个州尽可能多的选票,谁选举获胜的几率就会非常大.有人会说,这跟 ...
【转】机器学习实战之K-Means算法
一,引言先说个K-means算法很高大上的用处,来开始新的算法学习.我们都知道每一届的美国总统大选,那叫一个竞争激烈.可以说,谁拿到了各个州尽可能多的选票,谁选举获胜的几率就会非常大.有人会说,这跟 ...
转载： scikit-learn学习之K-means聚类算法与 Mini Batch K-Means算法
版权声明:<—— 本文为作者呕心沥血打造,若要转载,请注明出处@http://blog.csdn.net/gamer_gyt <—— 目录(?)[+] ================== ...
一步步教你轻松学K-means聚类算法
一步步教你轻松学K-means聚类算法(白宁超 2018年9月13日09:10:33) 导读:k-均值算法(英文:k-means clustering),属于比较常用的算法之一,文本首先介绍聚类的理 ...
k-means聚类算法python实现
K-means聚类算法算法优缺点: 优点:容易实现缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢使用数据类型:数值型数据算法思想 k-means算法实际上就是通过计算不同样本间的距离来判断他 ...
K-Means 聚类算法原理分析与代码实现
前言在前面的文章中,涉及到的机器学习算法均为监督学习算法. 所谓监督学习,就是有训练过程的学习.再确切点,就是有 "分类标签集" 的学习. 现在开始,将进入到非监督学习领域.从经 ...
K-means聚类算法及python代码实现
K-means聚类算法(事先数据并没有类别之分!所有的数据都是一样的) 1.概述 K-means算法是集简单和经典于一身的基于距离的聚类算法采用距离作为相似性的评价指标,即认为两个对象的距离越近,其 ...

随机推荐

Centos 7安装dotnet 3.1
# 注册 Microsoft 密钥和源 sudo rpm -Uvh https://packages.microsoft.com/config/centos/7/packages-microsoft- ...
【Shell】字符串
单引号和双引号 shell 字符串可以用单引号 '',也可以用双引号 "",也可以不用引号. 单引号的特点单引号里不识别变量单引号里不能出现单独的单引号(使用转义符也不行),但 ...
Java原生图片Base64转码与Base64解码
原文地址 import org.apache.commons.codec.binary.*; import java.io.*; import java.net.*; /** * 将file文件转换为 ...
[爬虫]2.2.1 使用Selenium库模拟浏览器操作
Selenium是一个非常强大的工具,用于自动化Web浏览器的操作.它可以模拟真实用户的行为,如点击按钮,填写表单,滚动页面等.由于Selenium可以直接与浏览器交互,所以它可以处理那些需要Java ...
【技术积累】Vue中的核心概念【四】
Vue的生命周期 Vue中的生命周期是指组件从创建到销毁的整个过程中,会触发一系列的钩子函数 Vue2中的生命周期 Vue2中的生命周期钩子函数是在组件的不同阶段执行的特定函数.这些钩子函数允许开发者 ...
2023-7-26 Dynamic替代部分反射的简单实现方式
Dynamic与反射的使用 [作者]长生实体类 public class School{ public int GetAge(){ return 100; } } 使用反射获取对象里的方法 Scho ...
Django: AttributeError: 'str' object has no attribute 'decode'
Django安装Mysql驱动 pip install PyMySQL 在Django的工程同名子目录的__init__.py文件中添加如下语句 from pymysql import install ...
管于pyinstaller 打包完成后不能运行的问题
方案一: 进入项目路径,在cmd窗口输入python 文件名.之后查看结果,看是否有模块未安装,或者是未导入模块.因为pyinstaller打包时,是按照被打包文件上的导入的库名进行打包的,所以需要将 ...
python分割多个分隔符
想一次指定多个分隔符,可以用re模块 import retext='3.14:15'result = re.split('[.:]', text)print(result) 输出结果如下: ['3', ...
axios快速上手（简单使用）
axios对ajax请求进行了封装,并且使用promise的链式调用使得网络请求的代码逻辑更为清晰,同时支持async和await的编写方式使代码看起来像同步,更加方便于理解和阅读.axios这个库的 ...

机器学习实战5-KMeans聚类算法

概述