密度聚类 - DBSCAN算法

　　参考资料：python机器学习库sklearn——DBSCAN密度聚类, Python实现DBScan

import numpy as np

from sklearn.cluster import DBSCAN

from sklearn import metrics

from sklearn.datasets.samples_generator import make_blobs

from sklearn.preprocessing import StandardScaler

# #############################################################################

# 产生样本数据

centers = [[1, 1], [-1, -1], [1, -1]]  # 生成聚类中心点

X, labels_true = make_blobs(n_samples=750, centers=centers, cluster_std=0.4,random_state=0) # 生成样本数据集

X = StandardScaler().fit_transform(X) # StandardScaler作用：去均值和方差归一化。且是针对每一个特征维度来做的，而不是针对样本。

# 参数设置

aa = []

for i in range(X.shape[0]-1):

    for j in range(i+1,X.shape[0]):

        aa.append(np.power(X[i]-X[j], 2).sum())

plt.hist(aa, bins=10, density=1, edgecolor ='k', facecolor='g', alpha=0.75) 

# 调参#############################################################################

t0 = time.time()

optimum_parameter = [0,0,0]

for r in np.linspace(0.1, 0.3, 5):

    for min_samples in range(5,12):

        db = DBSCAN(eps=r, min_samples=min_samples).fit(X)

        score = metrics.silhouette_score(X, db.labels_)

        print('(%0.2f, %d) 轮廓系数: %0.3f'%(r, min_samples, score))

        if score > optimum_parameter[2]: optimum_parameter=[r, min_samples, score]

print('最佳参数为：eps=%0.2f, min_samples=%d, 轮廓系数=%0.3f'%(optimum_parameter[0], optimum_parameter[1], optimum_parameter[2]))

print('调参耗时：', time.time()-t0)

# #############################################################################

# 调用密度聚类  DBSCAN

db = DBSCAN(eps=0.3, min_samples=9).fit(X)

# print(db.labels_)  # db.labels_为所有样本的聚类索引，没有聚类索引为-1

# print(db.core_sample_indices_) # 所有核心样本的索引

core_samples_mask = np.zeros_like(db.labels_, dtype=bool)  # 设置一个样本个数长度的全false向量

core_samples_mask[db.core_sample_indices_] = True #将核心样本部分设置为true

labels = db.labels_

# 获取聚类个数。（聚类结果中-1表示没有聚类为离散点）

n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0)

# 模型评估

print('估计的聚类个数为: %d' % n_clusters_)

print("同质性: %0.3f" % metrics.homogeneity_score(labels_true, labels))  # 每个群集只包含单个类的成员。

print("完整性: %0.3f" % metrics.completeness_score(labels_true, labels))  # 给定类的所有成员都分配给同一个群集。

print("V-measure: %0.3f" % metrics.v_measure_score(labels_true, labels))  # 同质性和完整性的调和平均

print("调整兰德指数: %0.3f" % metrics.adjusted_rand_score(labels_true, labels))

print("调整互信息: %0.3f" % metrics.adjusted_mutual_info_score(labels_true, labels))

print("轮廓系数: %0.3f" % metrics.silhouette_score(X, labels))

# #############################################################################

# Plot result

import matplotlib.pyplot as plt

# 使用黑色标注离散点

unique_labels = set(labels)

colors = [plt.cm.Spectral(each) for each in np.linspace(0, 1, len(unique_labels))]

for k, col in zip(unique_labels, colors):

    if k == -1:  # 聚类结果为-1的样本为离散点

        # 使用黑色绘制离散点

        col = [0, 0, 0, 1]

    class_member_mask = (labels == k)  # 将所有属于该聚类的样本位置置为true

    xy = X[class_member_mask & core_samples_mask]  # 将所有属于该类的核心样本取出，使用大图标绘制

    plt.plot(xy[:, 0], xy[:, 1], 'o', markerfacecolor=tuple(col),markeredgecolor='k', markersize=14)

    xy = X[class_member_mask & ~core_samples_mask]  # 将所有属于该类的非核心样本取出，使用小图标绘制

    plt.plot(xy[:, 0], xy[:, 1], 'o', markerfacecolor=tuple(col),markeredgecolor='k', markersize=6)

plt.title('Estimated number of clusters: %d' % n_clusters_)

plt.show()

密度聚类 - DBSCAN算法的更多相关文章

31(1).密度聚类---DBSCAN算法
密度聚类density-based clustering假设聚类结构能够通过样本分布的紧密程度确定. 密度聚类算法从样本的密度的角度来考察样本之间的可连接性,并基于可连接样本的不断扩张聚类簇,从而获得 ...
聚类——密度聚类DBSCAN
Clustering 聚类密度聚类——DBSCAN 前面我们已经介绍了两种聚类算法:k-means和谱聚类.今天,我们来介绍一种基于密度的聚类算法——DBSCAN,它是最经典的密度聚类算法,是很多算 ...
吴裕雄 python 机器学习——密度聚类DBSCAN模型
import numpy as np import matplotlib.pyplot as plt from sklearn import cluster from sklearn.metrics ...
密度聚类 DBSCAN
刘建平:DBSCAN密度聚类算法 https://www.cnblogs.com/pinard/p/6208966.html API 的说明: https://www.jianshu.com/p/b0 ...
31(2).密度聚类---Mean-Shift算法
Mean-Shift 是基于核密度估计的爬山算法,可以用于聚类.图像分割.跟踪等领域.
基于密度聚类的DBSCAN和kmeans算法比较
根据各行业特性,人们提出了多种聚类算法,简单分为:基于层次.划分.密度.图论.网格和模型的几大类. 其中,基于密度的聚类算法以DBSCAN最具有代表性. 场景一假设有如下图的一组数据, 生成数据 ...
机器学习（十）—聚类算法（KNN、Kmeans、密度聚类、层次聚类）
聚类算法任务:将数据集中的样本划分成若干个通常不相交的子集,对特征空间的一种划分. 性能度量:类内相似度高,类间相似度低.两大类:1.有参考标签,外部指标:2.无参照,内部指标. 距离计算:非负性, ...
机器学习（六）K-means聚类、密度聚类、层次聚类、谱聚类
本文主要简述聚类算法族.聚类算法与前面文章的算法不同,它们属于非监督学习. 1.K-means聚类记k个簇中心,为\(\mu_{1}\),\(\mu_{2}\),...,\(\mu_{k}\),每个 ...
DBSCAN密度聚类算法
DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和K-M ...

随机推荐

vue跨域
比如我要请求的地址是https://edu.51cto.com/center/seckill/index/get-seckill-data 首先去 config ==> index.js 添加 ...
<Stack> （高频）394 ( 高频)224
394. Decode String 四种情况: 1. 数字,把之前有的数字乘以10再加本数字 2. ' [ ', 入口, 把之前的数字压入栈中并num归零. 3. ' ] ' ,出口,归零.用dfs ...
初学Python之爬虫的简单入门
初学Python之爬虫的简单入门一.什么是爬虫? 1.简单介绍爬虫爬虫的全称为网络爬虫,简称爬虫,别名有网络机器人,网络蜘蛛等等. 网络爬虫是一种自动获取网页内容的程序,为搜索引擎提供了重要的 ...
Pytorch的tensor数据类型
基本类型 torch.Tensor是一种包含单一数据类型元素的多维矩阵. Torch定义了七种CPU tensor类型和八种GPU tensor类型: Data tyoe CPU tensor GPU ...
golang和swoole区别
golang和swoole区别开发效率 Go语言是本质上是静态语言,开发效率稍差,但性能更强,更适合底层软件的开发 Swoole使用PHP语言,动态脚本语言,开发效率最佳,更适合应用软件的开发 IO ...
Saiku默认给数据类型的数据添加小数点问题处理（三十一）
Saiku默认给数据类型的数据添加小数点问题处理不知道大家有没有遇到过saiku定义的维度信息,数据类型时展示出来的数据会自动加上 .0的后缀. 比如我定义了一个维度为年, 在数据库中为 int ...
html背景音乐
标签<audio> 参用属性 autoplay="autoplay"自动播放 controls="controls",在页面内显示显示控件,如播放按 ...
Pycharm 疑难杂症
1. Pycharm报错:AttributeError: 'NoneType' object has no attribute 'get'的解决办法 https://blog.csdn.net/fre ...
Pycharm新手使用教程(详解)
Pycharm新手使用教程(详解) [注]: 如果想要下载Pycharm工具,直接去<开发工具>中进行下载. 简介 Jetbrains家族和Pycharm版本划分: pycharm是Jet ...
Redisson实现分布式锁(1)---原理
Redisson实现分布式锁(1)---原理有关Redisson作为实现分布式锁,总的分3大模块来讲. 1.Redisson实现分布式锁原理 2.Redisson实现分布式锁的源码解析 3.Redi ...

密度聚类 - DBSCAN算法

密度聚类 - DBSCAN算法的更多相关文章

随机推荐

热门专题