机器学习算法及代码实现–K邻近算法

1、K邻近算法

将标注好类别的训练样本映射到X（选取的特征数）维的坐标系之中，同样将测试样本映射到X维的坐标系之中，选取距离该测试样本欧氏距离（两点间距离公式）最近的k个训练样本，其中哪个训练样本类别占比最大，我们就认为它是该测试样本所属的类别。

2、算法步骤：

 1）为了判断未知实例的类别，以所有已知类别的实例作为参照

 2）选择参数K

 3）计算未知实例与所有已知实例的距离

 4）选择最近K个已知实例

 5）根据少数服从多数的投票法则(majority-voting)，让未知实例归类为K个最邻近样本中最多数的类别

3、距离

Euclidean Distance 定义
其他距离衡量：余弦值（cos）, 相关度（correlation）, 曼哈顿距离（Manhattan distance）

其他距离衡量：余弦值（cos）, 相关度（correlation）, 曼哈顿距离（Manhattan distance）

4、例子

将其映射到2维空间

求距G点最近的k点中哪一类点最多，就可以预测G点类型。

5、算法优缺点：

优点
1）简单
2）易于理解
3）容易实现
4）通过对K的选择可具备丢噪音数据的健壮性

缺点

      1）需要大量空间储存所有已知实例

      2）算法复杂度高（需要比较所有已知实例与要分类的实例）

      3） 当其样本分布不平衡时，比如其中一类样本过大（实例数量过多）占主导的时候，新的未知实例容易被归类为这个主导样本，因为这类样本实例的数量过大，但这个新的未知实例实际并木接近目标样本

6、改进版本

  考虑距离，根据距离加上权重

  比如: 1/d (d: 距离）

代码

# -*- coding: utf-8 -*-

from sklearn import neighbors

from sklearn import datasets

# 调用knn分类器

knn = neighbors.KNeighborsClassifier()

# 导入数据集

iris = datasets.load_iris()

print iris

# 训练

knn.fit(iris.data, iris.target)

# 预测

predictedLabel = knn.predict([[0.1, 0.2, 0.3, 0.4]])

print 'predictedLabel:'

print predictedLabel

机器学习算法及代码实现–K邻近算法的更多相关文章

《机器学习实战》学习笔记一K邻近算法
一. K邻近算法思想:存在一个样本数据集合,称为训练样本集,并且每个数据都存在标签,即我们知道样本集中每一数据(这里的数据是一组数据,可以是n维向量)与所属分类的对应关系.输入没有标签的新数据后,将 ...
<机器学习实战>读书笔记--k邻近算法KNN
k邻近算法的伪代码: 对未知类别属性的数据集中的每个点一次执行以下操作: (1)计算已知类别数据集中的点与当前点之间的距离: (2)按照距离递增次序排列 (3)选取与当前点距离最小的k个点 (4)确定 ...
[机器学习实战] k邻近算法
1. k邻近算法原理: 存在一个样本数据集,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系.输入没有标签的新数据后,将新数据的每个特征与样本集中数据对 ...
Python实现kNN（k邻近算法）
Python实现kNN(k邻近算法) 运行环境 Pyhton3 numpy科学计算模块计算过程 st=>start: 开始 op1=>operation: 读入数据 op2=>op ...
监督学习——K邻近算法及数字识别实践
1. KNN 算法 K-近邻(k-Nearest Neighbor,KNN)是分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一个样本在特征空间中的k个最相似( ...
k邻近算法(KNN)实例
一 k近邻算法原理 k近邻算法是一种基本分类和回归方法. 原理:K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实 ...
kaggle赛题Digit Recognizer：利用TensorFlow搭建神经网络（附上K邻近算法模型预测）
一.前言 kaggle上有传统的手写数字识别mnist的赛题,通过分类算法,将图片数据进行识别.mnist数据集里面,包含了42000张手写数字0到9的图片,每张图片为28*28=784的像素,所以整 ...
数据挖掘算法（一）--K近邻算法（KNN）
数据挖掘算法学习笔记汇总数据挖掘算法(一)–K近邻算法 (KNN) 数据挖掘算法(二)–决策树数据挖掘算法(三)–logistic回归算法简介 KNN算法的训练样本是多维特征空间向量,其中每个训 ...
2 kNN-K-Nearest Neighbors algorithm k邻近算法（一）
给定训练数据样本和标签,对于某测试的一个样本数据,选择距离其最近的k个训练样本,这k个训练样本中所属类别最多的类即为该测试样本的预测标签.简称kNN.通常k是不大于20的整数,这里的距离一般是欧式距离 ...

随机推荐

2019-2020-1 20199325《Linux内核原理与分析》第十一周作业
实验简介: Set-UID 是 Unix 系统中的一个重要的安全机制.当一个 Set-UID 程序运行的时候,它被假设为具有拥有者的权限.例如,如果程序的拥有者是root,那么任何人运行这个程序时都会 ...
Windows 自动登录
https://serverfault.com/questions/840557/auto-login-a-user-at-boot-on-windows-server-2016 Use Sysint ...
mysql闪回工具--binlog2sql实践
DBA或开发人员,有时会误删或者误更新数据,如果是线上环境并且影响较大,就需要能快速回滚.传统恢复方法是利用备份重搭实例,再应用去除错误sql后的binlog来恢复数据.此法费时费力,甚至需要停机维护 ...
Python 输出 log 到文件的方法
import loggingfrom logging.handlers import RotatingFileHandler module_name = "test_module" ...
预测球队比赛结果及利用pyinstaller打包文件
一.预测乒乓球球队比赛成绩 1.乒乓球比赛规则一局比赛:在一局比赛中,先得11分的一方为胜方:10平后,先多得2分的一方为胜方. 一场比赛:单打的淘汰赛采用七局四胜制,双打淘汰赛和团体赛采用五局三胜 ...
Git 常见问题汇总
git reabse 合并多个commit git rebase -i HEAD~{NUM} git rebase -i start end 会进入一个指定区间的commit列表根据提示进行文本编辑 ...
Java本地的项目，怎么可以让别人通过外网访问-内网穿透
2019独角兽企业重金招聘Python工程师标准>>> 一.点击链接 https://natapp.cn/ 注册个免费的账户 NATAPP官网二.登陆进去以后查看authtoken ...
JS编程建议——11：慎重使用伪数组
建议11:慎重使用伪数组JavaScript没有真正的数组,因此typeof运算符不能辨别数组和对象.伪数组在JavaScript中有很高的易用性,程序员不用给它设置维度,而且永远不用担心产生越界错误 ...
#Week3 Linear Regression with Multiple Variables
一.Multiple Features 这节课主要引入了一些记号,假设现在有n个特征,那么: 为了便于用矩阵处理,令\(x_0=1\): 参数\(\theta\)是一个(n+1)*1维的向量,任一个训 ...
CF思维联系–CodeForces -224C - Bracket Sequence
ACM思维题训练集合 A bracket sequence is a string, containing only characters "(", ")", ...

机器学习算法及代码实现–K邻近算法

机器学习算法及代码实现–K邻近算法

1、K邻近算法

2、算法步骤：

3、距离

4、例子

5、算法优缺点：

6、 改进版本

代码

机器学习算法及代码实现–K邻近算法的更多相关文章

随机推荐

热门专题

6、改进版本