有一个带标签的数据集X,标签为y.我们想通过这个数据集预测目标点x0的所属类别. K近邻算法是指在X的特征空间中,把x0放进去,然后找到距离x0最近的K个点.通过这K个点所属类别,一般根据少数服从多数的原则,这K个点哪个类别多,就将x0设为哪一类. 关键有三个部分: 1.距离度量:目标点与训练集中的点距离计算,一般采用欧式距离.也可以为其他距离 2.K值选择:K为超参数,所以可以通过交叉验证的方法原则K的值.K一般选比较小的值,假如K值取跟数据集一样大小,就相当于直接认定据集中哪个类的类别多,就…