k近邻(KNN)复习总结

摘要：

　　1.算法概述

　　2.算法推导

　　3.算法特性及优缺点

　　4.注意事项

　　5.实现和具体例子

　　6.适用场合
内容：

1.算法概述

　　K近邻算法是一种基本分类和回归方法；分类时，根据其K个最近邻的训练实例的类别，通过多数表决等方式进行预测；k近邻法实际上利用训练数据集对特征向量空间进行划分，并作为其分类的"模型"（Cover和Hart 在1968）--参考自《统计学习方法》

　　回归是根据k个最近邻预测值计算的平均值--参考自scikit-learn官网

2.算法推导

2.1 kNN三要素

　　k值的选择：当k值较小时，预测结果对近邻的实例点非常敏感，容易发生过拟合；如果k值过大模型会倾向大类，容易欠拟合；通常k是不大于20的整数（参考《机器学习实战》）

　　距离度量：不同距离度量所确定的最近邻点是不同的

　　分类决策规则：多数表决（majority voting）规则是在损失函数是0-1损失函数时的经验风险最小化

2.2 KD树：解决对k近邻进行快速搜索的一种二叉树，构造kd树相当于不断用垂直于坐标轴的超平面对特征空间进行划分，最终构成一系列的K维超矩阵区域；每一个节点对应于一个k维超矩形区域。一般情况下顺序选择坐标轴及坐标轴的中位数（下图中取的最中间两个数较大的一个数）进行切分。kd树是平衡的但效率未必最优--参考自《统计学习方法》

KD树只在小于等于20维的数据集上可以快速搜索，但是当维数增长时效率降低　　

如下图对T = {(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)}建立kd树的结果：

2.3　ball tree:解决高维空间下kd树失效的一种树形结构；Ball树根据质心C和半径r对数据进行递归的划分，每一个数据点都会被划分到一个特定的质心C和半径r的的超球体里面，在搜索的时候，候选的点会使用|x+y| <= |x| + |y|进行筛选（papers:“Five balltree construction algorithms”）

　　如下图是显示了一个2维平面包含16个观测实例的图（参考自）：

3.算法特性及优缺点

　　优点：精度高，对异常值不敏感

　　缺点：k值敏感，空间复杂度高（需要保存全部数据）,时间复杂度高（平均O(logM)，M是训练集样本数）

4.注意事项

　　归一化：基于距离的函数，要进行归一化；否则可能造成距离计算失效

5.实现和具体例子

　　构建KD树并使用KD树进行最近邻搜索（《统计学习方法》算法3.2和3.3）

　　机器学习实战中的提高约会网站配对指数和手写识别的例子（numpy实现，未使用KD树）

　　scikit-learn使用KNN进行分类的例子（分类决策上可以加大邻近点的权重)；

　　ball tree 实现的例子（有时间研究下）

6.适用场合

　　是否支持大规模数据：单机下时间和空间消耗大，不过可以通过分布式解决（github上找到的一个spark knn实现，有时间研究下）

　　特征维度

　　是否有 Online 算法:有

　　特征处理：支持数值型数据，类别型类型需要进行0-1编码

k近邻(KNN)复习总结的更多相关文章

机器学习经典算法具体解释及Python实现--K近邻(KNN)算法
(一)KNN依旧是一种监督学习算法 KNN(K Nearest Neighbors,K近邻 )算法是机器学习全部算法中理论最简单.最好理解的.KNN是一种基于实例的学习,通过计算新数据与训练数据特征值 ...
机器学习-K近邻(KNN)算法详解
一.KNN算法描述 KNN(K Near Neighbor):找到k个最近的邻居,即每个样本都可以用它最接近的这k个邻居中所占数量最多的类别来代表.KNN算法属于有监督学习方式的分类算法,所谓K近 ...
k近邻 KNN
KNN是通过测量对象的不同特征值之间的距离进行分类.它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中K通常是不大于20 ...
1.K近邻算法
(一)K近邻算法基础 K近邻(KNN)算法优点思想极度简单应用数学知识少(近乎为0) 效果好可以解释机器学习算法使用过程中的很多细节问题更完整的刻画机器学习应用的流程图解K近邻算法上图是以 ...
一看就懂的K近邻算法(KNN)，K-D树，并实现手写数字识别！
1. 什么是KNN 1.1 KNN的通俗解释何谓K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,单从名字来猜想,可以简单粗暴的认为是:K个最近的邻居,当K=1 ...
K近邻法(KNN)原理小结
K近邻法(k-nearst neighbors,KNN)是一种很基本的机器学习方法了,在我们平常的生活中也会不自主的应用.比如,我们判断一个人的人品,只需要观察他来往最密切的几个人的人品好坏就可以得出 ...
k近邻算法(knn)的c语言实现
最近在看knn算法,顺便敲敲代码. knn属于数据挖掘的分类算法.基本思想是在距离空间里,如果一个样本的最接近的k个邻居里,绝大多数属于某个类别,则该样本也属于这个类别.俗话叫,"随大流&q ...
基本分类方法——KNN(K近邻)算法
在这篇文章 http://www.cnblogs.com/charlesblc/p/6193867.html 讲SVM的过程中,提到了KNN算法.有点熟悉,上网一查,居然就是K近邻算法,机器学习的入门 ...
机器学习之K近邻算法（KNN）
机器学习之K近邻算法(KNN) 标签: python 算法 KNN 机械学习苛求真理的欲望让我想要了解算法的本质,于是我开始了机械学习的算法之旅 from numpy import * import ...

随机推荐

Scrum 项目4.0
队友: 郭志豪:http://www.cnblogs.com/gzh13692021053/ 杨子健:http://www.cnblogs.com/yzj666/ 刘森松:http://www.cnb ...
图的基本遍历算法的实现（BFS & DFS）复习
#include <stdio.h> #define INF 32767 typedef struct MGraph{ ]; ][]; int ver_num, edge_num; }MG ...
ACM: Gym 101047B Renzo and the palindromic decoration - 手速题
Gym 101047B Renzo and the palindromic decoration Time Limit:2000MS Memory Limit:65536KB 64 ...
【模拟】POJ 3087
直达–>POJ 3087 Shuffle'm Up 题意:一开始没怎么看明白,注意现是从S2里拿牌放在最底下,再放S1,这样交叉放(我一开始以为是S1和S2随意哪个先放,分别模拟取最小),然后在 ...
文档：网络通讯包结构（crc校验，加解密）
一直想把这个流程整理一下. 包结构: 包对(datacrc+protoID+dataSize)组成的byte[] 进行crc计算而得到对(数据内容)进行crc计算而得到协议号数据内容的字节长度 ...
Data对象
var myDate = new Date(); Date()返回当日的日期例如今天是2016/8/19 getFullYear()返回当前日期的年 myDate.getFullYear() 201 ...
python 安装
http://www.aichengxu.com/view/37456 http://blog.csdn.net/tiantiandjava/article/details/17242345 tar ...
游标cursor
if exists(select * from sys.objects where name='info_one') drop table info_one go create table info_ ...
[IOS]使用了cocoapods 抱错Pods was rejected as an implicit dependency for ‘libPods.a’ because its architectures ......
Pods was rejected as an implicit dependency for ‘libPods.a’ because its architectures ‘i386’ didn’t ...
OA（权限管理初步模块）
权限管理:一般指根据系统设置的安全规则或者安全策略,用户可以访问而且只能访问自己被授权的资源,不多不少.权限管理几乎出现在任何系统里面,只要有用户和密码的系统. 根据权限管理的套路,我们一般从这三个角 ...

k近邻(KNN)复习总结

k近邻(KNN)复习总结的更多相关文章

随机推荐

热门专题