聚类的定义 聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小.聚类算法是无监督的算法. 常见的相似度计算方法 闵可夫斯基距离Minkowski/欧式距离 在上述的计算中,当p=1时,则是计算绝对值距离,通常叫做曼哈顿距离,当p=2时,表述的是欧式距离. 杰卡德相似系数(Jaccard) 杰卡德相关系数主要用于描述集合之间的相似度,在目标检测中,iou的计算就和此公式相类似 余弦相似度 余弦相似度通过夹角的余弦来描述相似性…