机器学习：利用K-均值聚类算法对未标注数据分组——笔记

Tiger_Jiang 2024-10-15 22:01:59 原文

聚类：

　　聚类是一种无监督的学习，它将相似的对象归到同一个簇中。有点像全自动分类。聚类方法几乎可以应用于所有对象，簇内的对象越相似，聚类的效果越好。聚类分析试图将相似对象归入同一簇，将不相似对象归到不同簇。相似这一概念取决于所选的相似度计算方法。

K-均值聚类算法：

　　优点：易于实现。

　　缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢。

　　适用于：数值型数据。

　　k-均值是发现给定数据集的k个簇的算法。簇的个数k是用户给定的，每一个簇通过其质心，即簇的所有点的中心来描述。

　　工作流程：首先，随机确定k个初始点作为质心。然后将数据集中的每个点分配到一个簇中，具体来讲，为每个点找距离最近的质心，并将其分配给该质心所对应的簇。这一步完成之后，每个簇的质心更新为该簇所有点的质心。

　　计算质心——分配——重新计算，反复循环，直到所有数据点的簇分配结果不再改变。

　　k-均值算法收敛但是聚类效果较差的原因是：收敛到了局部最小值，而非全局最小值。

聚类度量指标：

　　一种用于度量聚类效果的指标是SSE（误差平方和）。SSE越小，表示数据点越接近它们的质心，聚类效果也越好。

　　增加簇的数目肯定可以降低SSE值，但是这违背了聚类目标（在保持簇数目不变的情况下提高簇的质量）。

　　另一种方法是将具有最大SSE值得簇划分为两个簇。在这些点上再进行k-均值算法。

　　为了保持簇总数不变，可将某两个簇合并：合并最近的质心，或者合并两个使得SSE增幅最小的质心。

二分k-均值算法：

　　为克服k-均值算法收敛于局部最小解的问题，提出二分k-均值算法。

　　首先，将所有点作为一个簇，然后将该簇一分为二。之后，选择其中一个簇继续划分。选择哪一个簇取决于对其划分是否可以最大程度降低SSE值。上述基于SSE划分过程不断重复，直到得到用户指定的簇数目为止。（另一种是选择SSE最大的簇进行划分。）

机器学习：利用K-均值聚类算法对未标注数据分组——笔记的更多相关文章

机器学习——利用K-均值聚类算法对未标注数据分组
聚类是一种无监督的学习,它将相似的对象归到同一簇中.它有点像全自动分类.聚类方法几乎可以应用到所有对象,簇内的对象越相似,聚类的效果越好. K-均值(K-means)聚类算法,之所以称之为K-均值是因 ...
无监督学习——K-均值聚类算法对未标注数据分组
无监督学习和监督学习不同的是,在无监督学习中数据并没有标签(分类).无监督学习需要通过算法找到这些数据内在的规律,将他们分类.(如下图中的数据,并没有标签,大概可以看出数据集可以分为三类,它就是一个 ...
机器学习实战---K均值聚类算法
一:一般K均值聚类算法实现 (一)导入数据 import numpy as np import matplotlib.pyplot as plt def loadDataSet(filename): ...
k均值聚类算法原理和（TensorFlow）实现
顾名思义,k均值聚类是一种对数据进行聚类的技术,即将数据分割成指定数量的几个类,揭示数据的内在性质及规律. 我们知道,在机器学习中,有三种不同的学习模式:监督学习.无监督学习和强化学习: 监督学习,也 ...
机器学习之K均值聚类
聚类的核心概念是相似度或距离,有很多相似度或距离的方法,比如欧式距离.马氏距离.相关系数.余弦定理.层次聚类和K均值聚类等 1. K均值聚类思想 K均值聚类的基本思想是,通过迭代的方法寻找K个 ...
100天搞定机器学习|day44 k均值聚类数学推导与python实现
[如何正确使用「K均值聚类」? 1.k均值聚类模型给定样本,每个样本都是m为特征向量,模型目标是将n个样本分到k个不停的类或簇中,每个样本到其所属类的中心的距离最小,每个样本只能属于一个类.用C表示 ...
K均值聚类算法
k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个 ...
基于改进人工蜂群算法的K均值聚类算法（附MATLAB版源代码）
其实一直以来也没有准备在园子里发这样的文章,相对来说,算法改进放在园子里还是会稍稍显得格格不入.但是最近邮箱收到的几封邮件让我觉得有必要通过我的博客把过去做过的东西分享出去更给更多需要的人.从论文刊登 ...
K均值聚类算法的MATLAB实现
1.K-均值聚类法的概述之前在参加数学建模的过程中用到过这种聚类方法,但是当时只是简单知道了在matlab中如何调用工具箱进行聚类,并不是特别清楚它的原理.最近因为在学模式识别,又重新接触了这 ...

随机推荐

Java核心技术第五章——2.Object类
Object类:所有类的超类 Object类是Java中所有类的始祖,在Java中每个类都是由它扩展而来的.但是并不需要这样写: public class Emloyee extends Object ...
常见形式 Web API 的简单分类总结
一.请求--响应API. 请求--响应类的API的典型做法是,通过基于HTTP的Web服务器暴露一个/套接口.API定义一些端点,客户端发送数据的请求到这些端点,Web服务器处理这些请求,然后返回响应 ...
一句话，讲清楚java泛型的本质（非类型擦除）
背景昨天,在逛论坛时遇到个这么个问题,上代码: public class GenericTest { //方法一 public static <T extends Comparable< ...
小白都会超详细--ELK日志管理平台搭建教程
目录一.介绍二.安装JDK 三.安装Elasticsearch 四.安装Logstash 五.安装Kibana 六.Kibana简单使用系统环境:CentOS Linux release 7.4 ...
springboot~Mongodb的集成与使用
说说springboot与大叔lind.ddd的渊源 Mongodb在Lind.DDD中被二次封装过(大叔的.net和.net core),将它当成是一种仓储来使用,对于开发人员来说只公开curd几个 ...
为什么有那么多人愿意喝"鸡汤"？
什么是心灵鸡汤心灵鸡汤,就是“充满知识与感情的话语”,柔软.温暖,充满正能量.心灵鸡汤是一种安慰剂,可以怡情,作阅读快餐:亦可移情,挫折.抑郁时,疗效直逼“打鸡血”.这也是“心灵鸡汤”风靡不衰的原因 ...
流水车间调度算法分析的简单+Leapms实践--混合整数规划的启发式建模
流水车间调度算法分析的简单+Leapms实践--混合整数规划的启发式建模清华大学出版社出版的白丹宇教授著作<流水车间与开放车间调度算法渐近分析>采用渐近分析方法分析多个NP-难类启发调度 ...
100 - k8s源码分析-准备工作
今天我们开始讲kubernetes的源码! 之前的其他开源项目还没有说完,后续会陆陆续续更新,我们把主线先放到k8s的源码上. 之前我想详细讲解每一行k8s源码,但是越看越发现一个大型开源项目如果拘泥 ...
.Net Core 实践 - 如何在控制台应用(.Net Core)使用appsettings.json配置
新建控制台应用(.Net Core)程序添加json文件,命名为appsettings.json,设置文件属性如果较新则复制.添加内容如下 { "MyWords" : &quo ...
MVC开发模式简述
了解MVC开发模式,首先我们要了解一下发展趋势一.什么是软件设计 Jack W.Reeves 于14年前(1992年),就在其撰写的论文——<What is Software Design&g ...