基本原理

KNN算法又叫最近邻居法,是一种非常简单易于掌握的分类算法。
其基本原理是,存在一个已知标签的数据集合,也就是训练样本集。
这个样本集中的每一个数据所属的分类都是已知的。
当一个没有标签的新数据需要确定自己属于哪个分类的时候,
只需要把新数据的每个特征和训练集中的每个数据的特征进行比较,
找出其中和新数据最相似(最近邻)的k个数据,
算法取这k个数据中出现次数最多的标签作为新数据的类别。
通常k不大于20。

代码实现

假如现在又四个已知点,[1.01.1], [1.01.0], [00], [00.1],类别标签分别是A、A、B、B
如果给定一个新的点[0, 0],那么怎么判断它属于A还是B呢?
按照KNN算法原理,需要执行以下操作:
计算训练集中各点与当前点之间的距离(本文采用最经典的欧式距离)
  1. 计算训练集中各点与当前点之间的距离(本文采用最经典的欧式距离)
  2. 按照距离递增次序对各点排序
  3. 选取与当前点距离最小的k个点
  4. 确定前k个点所在类别的出现频率
  5. 返回前k个点出现频率最高的类别,即为分类结果。

以下代码实现了KNN算法的分类过程
  1. # 创建训练数据集
  2. def creatDataSet():
  3. group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
  4. labels = ['A', 'A', 'B', 'B']
  5. return group, labels
  6. # ========================================
  7. # inX:输入待分类向量
  8. # dataSet:输入的训练样本集
  9. # labels:标签向量
  10. # k:用于选择最近邻居的数目
  11. # 分类器得出类别标签然后返回
  12. # =========================================
  13. def classify0 (inX, dataSet, labels, k):
  14. # shape返回表示行列数的元组,shape[0]获得行数
  15. dataSetSize = dataSet.shape[0]
  16. # 以inX为元素重复(dataSetSize, 1)次构成新的数组
  17. diffMat = tile(inX, (dataSetSize, 1))-dataSet
  18. sqDiffMat = diffMat**2
  19. # 矩阵行元素相加(如果axis = 0的话表示列相加)
  20. sqDistance = sqDiffMat.sum(axis = 1)
  21. distances = sqDistance**0.5
  22. # argsort()得到排序后原来位置的下标
  23. sortedDisIndicies = distances.argsort()
  24. classCount = {}
  25. for i in range(k):
  26. voteIlabel = labels[sortedDisIndicies[i]]
  27. classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
  28. sortedClassCount = sorted(classCount.iteritems(),
  29. # 构造函数key,获取对象的第1个域的值
  30. key = operator.itemgetter(1),
  31. # 升序排列
  32. reverse = True)
  33. # 返回分类器得出类别标签
  34. return sortedClassCount[0][0]

如果把上面问题中的待测试点[0, 0]和训练集生成函数的返回值group和labels作为参数输入分类器,选择k=3
即:
  1. classify0 ([0, 0], group, labels, 3):
会得到其标签为B

这就完成了一个基于KNN分类算法的简单分类器。
当然,在现实中的应用场景的复杂程度比这个例子大多了

【1】KNN(K-nearest neighbors algorithm)的更多相关文章

  1. 【Luogu2900】土地征用(斜率优化,动态规划)

    [Luogu2900]土地征用(斜率优化,动态规划) 题面 Description 农夫John准备扩大他的农场,他正在考虑N (1 <= N <= 50,000) 块长方形的土地. 每块 ...

  2. 【BZOJ1855】股票交易(动态规划,单调队列)

    [BZOJ1855]股票交易(动态规划,单调队列) 题面 BZOJ 题解 很显然,状态之和天数以及当天剩余的股票数有关 设\(f[i][j]\)表示第\(i\)天进行了交易,剩余股票数为\(j\)的最 ...

  3. 【BZOJ1004】Cards(组合数学,Burnside引理)

    [BZOJ1004]Cards(组合数学,Burnside引理) 题面 Description 小春现在很清闲,面对书桌上的N张牌,他决定给每张染色,目前小春只有3种颜色:红色,蓝色,绿色.他询问Su ...

  4. 【BZOJ2242】计算器(BSGS,快速幂)

    [BZOJ2242]计算器(BSGS,快速幂) 题面 BZOJ 洛谷 1.给定y.z.p,计算y^z mod p 的值: 2.给定y.z.p,计算满足xy ≡z(mod p)的最小非负整数x: 3.给 ...

  5. 【BZOJ4555】求和(多种解法混合版本)

    [BZOJ4555]求和(多种解法混合版本) 题面 BZOJ 给定\(n\),求 \[f(n)=\sum_{i=0}^{n}\sum_{j=0}^{i}S(i,j)\times 2^j \times ...

  6. 【BZOJ3456】城市规划(生成函数,多项式运算)

    [BZOJ3456]城市规划(生成函数,多项式运算) 题面 求\(n\)个点的无向连通图个数. \(n<=130000\) 题解 \(n\)个点的无向图的个数\(g(n)=2^{C_n^2}\) ...

  7. 【CF961G】Partitions(第二类斯特林数)

    [CF961G]Partitions(第二类斯特林数) 题面 CodeForces 洛谷 题解 考虑每个数的贡献,显然每个数前面贡献的系数都是一样的. 枚举当前数所在的集合大小,所以前面的系数\(p\ ...

  8. 【BZOJ4826】【HNOI2017】影魔(扫描线,单调栈)

    [BZOJ4826][HNOI2017]影魔(扫描线,单调栈) 题面 BZOJ 洛谷 Description 影魔,奈文摩尔,据说有着一个诗人的灵魂.事实上,他吞噬的诗人灵魂早已成千上万.千百年来,他 ...

  9. 【BZOJ2654】Tree(凸优化,最小生成树)

    [BZOJ2654]Tree(凸优化,最小生成树) 题面 BZOJ 洛谷 题解 这道题目是之前\(Apio\)的时候写的,忽然发现自己忘记发博客了... 这个万一就是一个凸优化, 给所有白边二分一个额 ...

  10. 【BZOJ4455】小星星(动态规划,容斥)

    [BZOJ4455]小星星(动态规划,容斥) 题面 BZOJ 洛谷 Uoj 题解 题意说简单点就是给定一张\(n\)个点的图和一棵\(n\)个点的树,现在要让图和树之间的点一一对应,并且如果树上存在一 ...

随机推荐

  1. SpringMVC项目案例之---数据的获取与显示

    数据的获取与显示 (一)功能 1.对用户输入的数据进行获取 2.将获取的数据显示到页面 3.使用了SpringMVC技术的注解方式 4.使用了过滤器,处理中文乱码问题 5.在web.xml中设置了访问 ...

  2. 数据结构之队列java版

    //java由于泛型的擦除,用起来十分不方便 abstract class BaseQueue<T>{ abstract boolean enQueue(T x); abstract T ...

  3. 从boosting谈起

    Boosting 将一些表现效果一般(可能仅仅优于随机猜测)的模型通过特定方法进行组合来获得一个表现效果较好的模型.抽象地说,模型的训练过程是对一任意可导目标函数的优化过程. Adaptive boo ...

  4. Spring IoC源码解析之invokeBeanFactoryPostProcessors

    一.Bean工厂的后置处理器 Bean工厂的后置处理器:BeanFactoryPostProcessor(触发时机:bean定义注册之后bean实例化之前)和BeanDefinitionRegistr ...

  5. Opengl_入门学习分享和记录_番外篇01(MacOS上如何在Xcode 开始编辑OpenGL)

    写在前面的废话: 哈哈 ,我可真是勤勉呢,今天又来更新了,这篇文章需要大家接着昨天的番外篇00一起食用! 正文开始: 话不多说,先看代码. 这里主要全是使用的glfwwindowhint 这个函数,他 ...

  6. 【win】【qt5打包】【qt程序打包成一个可执行文件(带图标任何win都可以运行哦)】

    [前言] 业务需求将qt程序打包成win可执行文件.咱是做linux的,奈何用的麒麟系统,程序运行在win,好嘛,重新在win qtcreator编译后打包呗. [目标] 1.给qt程序添加一个图标. ...

  7. netty源码解解析(4.0)-17 ChannelHandler: IdleStateHandler实现

    io.netty.handler.timeout.IdleStateHandler功能是监测Channel上read, write或者这两者的空闲状态.当Channel超过了指定的空闲时间时,这个Ha ...

  8. 物流运输trans「ZJOI2006」

    [题目描述] 物流公司要把一批货物从码头\(A\)运到码头\(B\).由于货物量比较大,需要\(n\)天才能运完.货物运输过程中一般要转停好几个码头.物流公司通常会设计一条固定的运输路线,以便对整个运 ...

  9. 编程杂谈——Non-breaking space

    近日,意外地遇上件不寻常的事情.在解析PDF文件,读取其中内容的时候,对某一文件的处理,始终无法达到预期的效果. 解析方法如下: public void Parse(string value) { i ...

  10. 云片RocketMQ实战:Stargate的前世今生

    RocketMQ消息队列,专业消息中间件,既可为分布式应用系统提供异步解耦和削峰填谷的能力,同时也具备互联网应用所需的海量消息堆积.高吞吐.可靠重试等特性,是应对企业业务峰值时刻必备的技术. 云片由于 ...