基本原理

KNN算法又叫最近邻居法,是一种非常简单易于掌握的分类算法。
其基本原理是,存在一个已知标签的数据集合,也就是训练样本集。
这个样本集中的每一个数据所属的分类都是已知的。
当一个没有标签的新数据需要确定自己属于哪个分类的时候,
只需要把新数据的每个特征和训练集中的每个数据的特征进行比较,
找出其中和新数据最相似(最近邻)的k个数据,
算法取这k个数据中出现次数最多的标签作为新数据的类别。
通常k不大于20。

代码实现

假如现在又四个已知点,[1.01.1], [1.01.0], [00], [00.1],类别标签分别是A、A、B、B
如果给定一个新的点[0, 0],那么怎么判断它属于A还是B呢?
按照KNN算法原理,需要执行以下操作:
计算训练集中各点与当前点之间的距离(本文采用最经典的欧式距离)
  1. 计算训练集中各点与当前点之间的距离(本文采用最经典的欧式距离)
  2. 按照距离递增次序对各点排序
  3. 选取与当前点距离最小的k个点
  4. 确定前k个点所在类别的出现频率
  5. 返回前k个点出现频率最高的类别,即为分类结果。

以下代码实现了KNN算法的分类过程
  1. # 创建训练数据集
  2. def creatDataSet():
  3. group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
  4. labels = ['A', 'A', 'B', 'B']
  5. return group, labels
  6. # ========================================
  7. # inX:输入待分类向量
  8. # dataSet:输入的训练样本集
  9. # labels:标签向量
  10. # k:用于选择最近邻居的数目
  11. # 分类器得出类别标签然后返回
  12. # =========================================
  13. def classify0 (inX, dataSet, labels, k):
  14. # shape返回表示行列数的元组,shape[0]获得行数
  15. dataSetSize = dataSet.shape[0]
  16. # 以inX为元素重复(dataSetSize, 1)次构成新的数组
  17. diffMat = tile(inX, (dataSetSize, 1))-dataSet
  18. sqDiffMat = diffMat**2
  19. # 矩阵行元素相加(如果axis = 0的话表示列相加)
  20. sqDistance = sqDiffMat.sum(axis = 1)
  21. distances = sqDistance**0.5
  22. # argsort()得到排序后原来位置的下标
  23. sortedDisIndicies = distances.argsort()
  24. classCount = {}
  25. for i in range(k):
  26. voteIlabel = labels[sortedDisIndicies[i]]
  27. classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
  28. sortedClassCount = sorted(classCount.iteritems(),
  29. # 构造函数key,获取对象的第1个域的值
  30. key = operator.itemgetter(1),
  31. # 升序排列
  32. reverse = True)
  33. # 返回分类器得出类别标签
  34. return sortedClassCount[0][0]

如果把上面问题中的待测试点[0, 0]和训练集生成函数的返回值group和labels作为参数输入分类器,选择k=3
即:
  1. classify0 ([0, 0], group, labels, 3):
会得到其标签为B

这就完成了一个基于KNN分类算法的简单分类器。
当然,在现实中的应用场景的复杂程度比这个例子大多了

【1】KNN(K-nearest neighbors algorithm)的更多相关文章

  1. 【Luogu2900】土地征用(斜率优化,动态规划)

    [Luogu2900]土地征用(斜率优化,动态规划) 题面 Description 农夫John准备扩大他的农场,他正在考虑N (1 <= N <= 50,000) 块长方形的土地. 每块 ...

  2. 【BZOJ1855】股票交易(动态规划,单调队列)

    [BZOJ1855]股票交易(动态规划,单调队列) 题面 BZOJ 题解 很显然,状态之和天数以及当天剩余的股票数有关 设\(f[i][j]\)表示第\(i\)天进行了交易,剩余股票数为\(j\)的最 ...

  3. 【BZOJ1004】Cards(组合数学,Burnside引理)

    [BZOJ1004]Cards(组合数学,Burnside引理) 题面 Description 小春现在很清闲,面对书桌上的N张牌,他决定给每张染色,目前小春只有3种颜色:红色,蓝色,绿色.他询问Su ...

  4. 【BZOJ2242】计算器(BSGS,快速幂)

    [BZOJ2242]计算器(BSGS,快速幂) 题面 BZOJ 洛谷 1.给定y.z.p,计算y^z mod p 的值: 2.给定y.z.p,计算满足xy ≡z(mod p)的最小非负整数x: 3.给 ...

  5. 【BZOJ4555】求和(多种解法混合版本)

    [BZOJ4555]求和(多种解法混合版本) 题面 BZOJ 给定\(n\),求 \[f(n)=\sum_{i=0}^{n}\sum_{j=0}^{i}S(i,j)\times 2^j \times ...

  6. 【BZOJ3456】城市规划(生成函数,多项式运算)

    [BZOJ3456]城市规划(生成函数,多项式运算) 题面 求\(n\)个点的无向连通图个数. \(n<=130000\) 题解 \(n\)个点的无向图的个数\(g(n)=2^{C_n^2}\) ...

  7. 【CF961G】Partitions(第二类斯特林数)

    [CF961G]Partitions(第二类斯特林数) 题面 CodeForces 洛谷 题解 考虑每个数的贡献,显然每个数前面贡献的系数都是一样的. 枚举当前数所在的集合大小,所以前面的系数\(p\ ...

  8. 【BZOJ4826】【HNOI2017】影魔(扫描线,单调栈)

    [BZOJ4826][HNOI2017]影魔(扫描线,单调栈) 题面 BZOJ 洛谷 Description 影魔,奈文摩尔,据说有着一个诗人的灵魂.事实上,他吞噬的诗人灵魂早已成千上万.千百年来,他 ...

  9. 【BZOJ2654】Tree(凸优化,最小生成树)

    [BZOJ2654]Tree(凸优化,最小生成树) 题面 BZOJ 洛谷 题解 这道题目是之前\(Apio\)的时候写的,忽然发现自己忘记发博客了... 这个万一就是一个凸优化, 给所有白边二分一个额 ...

  10. 【BZOJ4455】小星星(动态规划,容斥)

    [BZOJ4455]小星星(动态规划,容斥) 题面 BZOJ 洛谷 Uoj 题解 题意说简单点就是给定一张\(n\)个点的图和一棵\(n\)个点的树,现在要让图和树之间的点一一对应,并且如果树上存在一 ...

随机推荐

  1. android ——网络编程

    一.WebView 这个View就是一个浏览器,用于展示网页的. 布局文件: <LinearLayout xmlns:android="http://schemas.android.c ...

  2. 如何永久破解IDEA 2019.2

    声明: 支持知识产权,支持正版产权,以下仅限个人学习使用IDEA工具时随笔记录,禁止商业使用. 以下个人提供的激活补丁和激活码来源,均由网上下载,各位也可以自行查找. IDEA官网下载地址:https ...

  3. centos7通过yum安装docker

    ##yum源安装#1.更新yumyum update #2.删除旧版本yum remove docker \docker-client \docker-client-latest \docker-co ...

  4. 垂直渐变的Button

    public partial class RoundButton : Button { Rectangle r; private Brush _myBrush = null; , , ); , , ) ...

  5. 理解Go协程与并发

    协程 Go语言里创建一个协程很简单,使用go关键字就可以让一个普通方法协程化: package main import ( "fmt" "time" ) fun ...

  6. python使用zabbix的API接口

    一.实验环境 python3.6.6 zabbix 3.0.9 二.实验目的 了解Zabbix的API接口格式 通过python实现登陆zabbix服务,获得登陆token 通过python检索zab ...

  7. 终于,我感受到了IDEA的强大

    Java开发者千千万,开发者用的开发工具目前主流却只有2种:eclipse和IDEA,我入行以来一直用的eclipse,听过IDEA很好很强大,但是也只是处于听说的阶段,基本没用过,自然没怎么体会过. ...

  8. .NET Core 很酷,你不得不知!

    转载请注明出处:葡萄城官网,葡萄城为开发者提供专业的开发工具.解决方案和服务,赋能开发者.原文出处:https://www.infoq.cn/article/xPTBAR9-oJcVtUjTQ0tK ...

  9. java 判断 string 转 integer 判断

    NumberUtils.isDigits("1") NumberUtils.isDigits("/") 根据返回 true false 再确定是否转换即可 需要 ...

  10. Django--路由层、伪静态页面、虚拟环境、视图层

    路由层: 在路由匹配的时候,第一个参数是一个正则表达式,这也就意味着在路由匹配的时候按照正则匹配的规则去匹配,路由匹配的顺序是从上往下依次匹配的,只要匹配到一个,就会执行对应的函数,就不会执行下面的函 ...