[机器学习] ——KNN K-最邻近算法

KNN分类算法，是理论上比较成熟的方法，也是最简单的机器学习算法之一。

该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

一个对于KNN算法解释最清楚的图如下所示：

蓝方块和红三角均是已有分类数据，当前的任务是将绿色圆块进行分类判断，判断是属于蓝方块或者红三角。

当然这里的分类还跟K值是有关的：

如果K=3(实线圈)，红三角占比2/3，则判断为红三角；

如果K=5(虚线圈)，蓝方块占比3/5，则判断为蓝方块。

由此可以看出knn算法实际上根本就不用进行训练，而是直接进行计算的，训练时间为0，计算时间为训练集规模n。

knn算法的基本要素大致有3个：

　　1、K 值的选择

　　2、距离的度量

　　3、分类决策规则

使用方式：(转载)

K 值会对算法的结果产生重大影响。K值较小意味着只有与输入实例较近的训练实例才会对预测结果起作用，容易发生过拟合；如果 K 值较大，优点是可以减少学习的估计误差，缺点是学习的近似误差增大，这时与输入实例较远的训练实例也会对预测起作用，是预测发生错误。在实际应用中，K 值一般选择一个较小的数值，通常采用交叉验证的方法来选择最有的 K 值。随着训练实例数目趋向于无穷和 K=1 时，误差率不会超过贝叶斯误差率的2倍，如果K也趋向于无穷，则误差率趋向于贝叶斯误差率。
算法中的分类决策规则往往是多数表决，即由输入实例的 K 个最临近的训练实例中的多数类决定输入实例的类别
距离度量一般采用 L_p 距离，当p=2时，即为欧氏距离，在度量之前，应该将每个属性的值规范化，这样有助于防止具有较大初始值域的属性比具有较小初始值域的属性的权重过大。

knn算法在分类时主要的不足是，当样本不平衡时，如果一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的 K 个邻居中大容量类的样本占多数。

算法伪代码：

 搜索k近邻的算法：kNN(A[n],k)

 #输入：A[n]为N个训练样本在空间中的坐标，k为近邻数

 #输出：x所属的类别

 取A[1]~A[k]作为x的初始近邻，计算与测试样本x间的欧式距离d（x,A[i]）,i=1,2,.....,k；

 按d（x，A[i]）升序排序；

 取最远样本距离D = max{d(x,a[j]) | j=1,2,...,k};

 for(i=k+1;i<=n;i++)#继续计算剩下的n-k个数据的欧氏距离

       计算a[i]与x间的距离d(x,A[i]);

       if(d(x,A[i]))<D

                then 用A[i]代替最远样本#将后面计算的数据直接进行插入即可

  最后的K个数据是有大小顺序的，再进行K个样本的统计即可

  计算前k个样本A[i]),i=1,2,..,k所属类别的概率;

  具有最大概率的类别即为样本x的类

python 函数：

 #knn-k-最临近算法

 #inX为待分类向量，dataSet为训练数据集

 #labels为训练集对应分类，k最邻近算法

 def classify0(inX, dataSet, labels, k):

     dataSetSize = dataSet.shape[0]#获得dataSet的行数

     diffMat = np.tile(inX, (dataSetSize,1)) - dataSet#对应的差值

     sqDiffMat = diffMat**2                           #差的平方

     sqDistances = sqDiffMat.sum(axis=1)              #差的平方的和

     distances = sqDistances**0.5                     #差的平方的和的平方根

     #计算待分类向量与每一个训练数据集的欧氏距离   

     sortedDistIndicies = distances.argsort() #排序后，统计前面K个数据的分类情况

     classCount={}#字典

     for i in range(k):

         voteIlabel = labels[sortedDistIndicies[i]]#labels得是字典才可以如此

         classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1

     sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)#再次排序

     return sortedClassCount[0][0]#第一个就是最多的类别

最后针对于K值的选取，做最后的总结：

[机器学习] ——KNN K-最邻近算法的更多相关文章

k最邻近算法——使用kNN进行手写识别
上篇文章中提到了使用pillow对手写文字进行预处理,本文介绍如何使用kNN算法对文字进行识别. 基本概念 k最邻近算法(k-Nearest Neighbor, KNN),是机器学习分类算法中最简单的 ...
机器学习实战---K均值聚类算法
一:一般K均值聚类算法实现 (一)导入数据 import numpy as np import matplotlib.pyplot as plt def loadDataSet(filename): ...
第四十六篇入门机器学习——kNN - k近邻算法（k-Nearest Neighbors）
No.1. k-近邻算法的特点 No.2. 准备工作,导入类库,准备测试数据 No.3. 构建训练集 No.4. 简单查看一下训练数据集大概是什么样子,借助散点图 No.5. kNN算法的目的是,假如 ...
k最邻近算法——加权kNN
加权kNN 上篇文章中提到为每个点的距离增加一个权重,使得距离近的点可以得到更大的权重,在此描述如何加权. 反函数该方法最简单的形式是返回距离的倒数,比如距离d,权重1/d.有时候,完全一样或非常接 ...
2-KNN(K最邻近算法)
KNN基本思想: 1.事先存在已经分类好的样本数据(如分别在A类.B类.C类等) 2.计算待分类的数据(叫做新数据)与所有样本数据的距离 3.选择K个与新数据距离最近的的样本,并统计这K个样本所属的分 ...
001 KNN分类最邻近算法
1.文件5.0,3.5,1.6,0.6,apple5.1,3.8,1.9,0.4,apple4.8,3.0,1.4,0.3,apple5.1,3.8,1.6,0.2,apple4.6,3.2,1.4, ...
K最邻近算法（下）
import numpy as np import matplotlib.pyplot as plt from sklearn.datasets import make_blobs from skle ...
<机器学习实战>读书笔记--k邻近算法KNN
k邻近算法的伪代码: 对未知类别属性的数据集中的每个点一次执行以下操作: (1)计算已知类别数据集中的点与当前点之间的距离: (2)按照距离递增次序排列 (3)选取与当前点距离最小的k个点 (4)确定 ...
机器学习算法及代码实现–K邻近算法
机器学习算法及代码实现–K邻近算法 1.K邻近算法将标注好类别的训练样本映射到X(选取的特征数)维的坐标系之中,同样将测试样本映射到X维的坐标系之中,选取距离该测试样本欧氏距离(两点间距离公式)最近 ...

随机推荐

JavaScript中getBoundingClientRect()方法详解
获取浏览器滚动的高度: scrollTop=document.documentElement.scrollTop || document.body.scrollTop getBoundingClien ...
centos7删除自带openjdk
一些开发版的centos会自带jdk,我们一般用自己的jdk,把自带的删除.先看看有没有安装java -version [root@java-test-01 ~]# java -version ope ...
winform 多线程编程
参考资料: WinForm中新开一个线程操作窗体上的控件(跨线程操作控件) c# 使用定时器Timer
Tomcat端口被占用错误
所报错误: 严重: Error initializing endpointjava.lang.Exception: Socket bind failed: [730013] ????????????? ...
spring-quartz.xml
<?xml version="1.0" encoding="UTF-8"?> <beans xmlns:xsi="http://ww ...
Servlet session
一.session介绍 Session用于保存服务端与客户端"会话"的信息.例如你逛淘宝时添加到购物车中的商品的信息就是保存到Session中.与Cookies不同的是,S ...
js中的事件委托或是事件代理详解
起因: 1.这是前端面试的经典题型,要去找工作的小伙伴看看还是有帮助的: 2.其实我一直都没弄明白,写这个一是为了备忘,二是给其他的知其然不知其所以然的小伙伴们以参考: 概述: 那什么叫事件委托呢?它 ...
网络编程之socket
网络编程之socket socket:在网络编程中的一个基本组件,也称套接字. 一个套接字就是socket模块中的socket类的一个实例. 套接字包括两个: 服务器套接字和客户机套接字套接字的实例 ...
通过ios实现RSA加密和解密
在加密和解密中,我们需要了解的知识有什么事openssl:RSA加密算法的基本原理:如何通过openssl生成最后我们需要的der和p12文件. 废话不多说,直接写步骤: 第一步:openssl来生成 ...
Keywords Search（hdu 2222）
题意:给出n个单词,一篇文章,询问有几个单词在文章中出现过. /* AC自动机的裸题. 题目标号牛的一比. */ #include<cstdio> #include<cstring& ...

[机器学习] ——KNN K-最邻近算法

[机器学习] ——KNN K-最邻近算法的更多相关文章

随机推荐

热门专题