2-KNN(K最邻近算法)

KNN基本思想：

1、事先存在已经分类好的样本数据（如分别在A类、B类、C类等）

2、计算待分类的数据（叫做新数据）与所有样本数据的距离

3、选择K个与新数据距离最近的的样本，并统计这K个样本所属的分类（如K=10，其中有3个为A，3个为B，4个为C）

4、将新数据归属于这K个样本中出现频率最高的那个类（则新数据可分为C类）

*******************************************************************************************************************************

KNN误判率：与判别所选的距离有关。

常见的距离有：欧式距离、曼哈顿距离、Mahalanobis距离等。

*******************************************************************************************************************************

算法改进：

1、KNN易受噪声影响，孤立点对分类效果影响较大，通常先进行滤波筛选

2、K的选取也会影响分类效果

3、样本数据分类不均匀，A类样本很大，B类样本很小，则容易出现误分类；可以采取加权的方式，距离越段，则权值越大。

改进的主要思想有：

1、基于组合分类器的KNN改进算法（做多个KNN分类器，然后通过投票法组合，得票最多的分类器结果做为最终组合KNN的输出）

2、基于核映射的KNN改进算法（映射到高维空间间，突出不同类别样本间的差异，或使其线性可分）

3、基于预聚类的KNN改进算法（计算新数据与每个聚类中心的距离，将距离最短的聚类看做为近邻点的集合，然后在该集合中找K个距离最近样本，然后在用KNN算法来分类）

*******************************************************************************************************************************

KNN主要用于文本分类、聚类分析、预测分析、降维等。

2-KNN(K最邻近算法)的更多相关文章

k最邻近算法——使用kNN进行手写识别
上篇文章中提到了使用pillow对手写文字进行预处理,本文介绍如何使用kNN算法对文字进行识别. 基本概念 k最邻近算法(k-Nearest Neighbor, KNN),是机器学习分类算法中最简单的 ...
k最邻近算法——加权kNN
加权kNN 上篇文章中提到为每个点的距离增加一个权重,使得距离近的点可以得到更大的权重,在此描述如何加权. 反函数该方法最简单的形式是返回距离的倒数,比如距离d,权重1/d.有时候,完全一样或非常接 ...
001 KNN分类最邻近算法
1.文件5.0,3.5,1.6,0.6,apple5.1,3.8,1.9,0.4,apple4.8,3.0,1.4,0.3,apple5.1,3.8,1.6,0.2,apple4.6,3.2,1.4, ...
K最邻近算法（下）
import numpy as np import matplotlib.pyplot as plt from sklearn.datasets import make_blobs from skle ...
[机器学习] ——KNN K-最邻近算法
KNN分类算法,是理论上比较成熟的方法,也是最简单的机器学习算法之一. 该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别 ...
Python实现kNN（k邻近算法）
Python实现kNN(k邻近算法) 运行环境 Pyhton3 numpy科学计算模块计算过程 st=>start: 开始 op1=>operation: 读入数据 op2=>op ...
k邻近算法(KNN)实例
一 k近邻算法原理 k近邻算法是一种基本分类和回归方法. 原理:K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实 ...
<机器学习实战>读书笔记--k邻近算法KNN
k邻近算法的伪代码: 对未知类别属性的数据集中的每个点一次执行以下操作: (1)计算已知类别数据集中的点与当前点之间的距离: (2)按照距离递增次序排列 (3)选取与当前点距离最小的k个点 (4)确定 ...
《机器学习实战》学习笔记一K邻近算法
一. K邻近算法思想:存在一个样本数据集合,称为训练样本集,并且每个数据都存在标签,即我们知道样本集中每一数据(这里的数据是一组数据,可以是n维向量)与所属分类的对应关系.输入没有标签的新数据后,将 ...

随机推荐

usr/include/c++/6.4.1/bits/stl_relops.:67: Parse error at "std"
问题描述: 1.编译某qt工程的32位架构二进制包时,出现了上面错误,具体错误信息如下 qmake-qt5 -o ProductLicense/Makefile ProductLicense/Prod ...
BZOJ 4521 [CQOI2016]手机号码 - 数位DP
Description 在$[L, R]$找出有几个数满足两个条件 : 1 : 不同时含有$4$ 和 $8$ 2 : 至少有$3$个相邻的数相同 Solution 非常容易的数位DP, $pos$ 为 ...
libpcap 库使用（一）
参考资料: http://www.tcpdump.org/ DESCRIPTION The Packet Capture library provides a high level interface ...
match
//清空数据match (n) detach delete n (一)查询节点1.查询所有节点 //查询数据库中的所有节点 match(n)return n 2.查询带有某个标签的所有节点 //查询数 ...
word2vec_文本相似度
#提取关键词#关键词向量化#相似度计算 from jieba import analyseimport numpyimport gensim # 实现给出任意字符串,获取字符串中某字符的位置以及出现的 ...
各种编译不通过xcode
2017-08-24 Apple Mach-O Linker (Id) Error Linker command failed with exit code 1 (use -v to see invo ...
Java虚拟机的相关笔记
1.垃圾GC回收事件Minor GC(只清除新生代),Full GC(清除新生代和老年代),Major GC(清除新生.老年代和持久代). 2.堆分为新生代.老年代和持久代,持久代一般存放静态文件. ...
使用 IntelliTrace 调试应用程序
IntelliTrace 如何能够大幅改善您的日常开发活动,并提升您快速轻松诊断问题的能力,而不必重新启动应用程序和使用传统的“中断-单步执行-检查”技术进行调试.介绍了组织如何能够通过在测试过程中收 ...
Reading CLR via c# 4th Edition
In fact, at runtime, the CLR has no idea which programming language the developer used for thesource ...
linux_制作本地yum源
新建文件夹 mkdir /root/guazai 并将本地磁盘挂载到当前文件夹 mount -o loop /dev/cdrom /root/guazai/ 新建文件夹 mkdir /mnt/loca ...

2-KNN(K最邻近算法)

2-KNN(K最邻近算法)的更多相关文章

随机推荐

热门专题