简介 前面介绍的线性回归,SVM等模型都是基于数据有标签的监督学习方法,本文介绍的聚类方法是属于无标签的无监督学习方法.其他常见的无监督学习还有密度估计,异常检测等. 聚类就是对大量未知标注的数据集,按照数据的内在相似性将数据集划分为多个类别(在聚类算法中称为簇),使类别内的数据相似度高,二类别间的数据相似度低. 相似度 在聚类算法中,大多数算法都是需要计算两个数据点之间的相似度,所以先介绍一下计算相似度的方法. 图1 其中Minkowski距离是所有范式距离的统称,当p=1时是L1距离也叫曼哈