【Machine Learning in Action --2】K-最近邻分类

1、K-近邻算法（KNN）概述

K-近邻算法采用测量不同特征值之间的距离方法进行分类。

工作原理：存在一个样本数据集合（也称作训练样本集），并且样本集中每个数据都存在标签（即我们知道样本集中每一数据与所属分类的对应关系）。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，通常k是不大于20的整数。最后选择k个最相似数据中出现次数最多的分类，作为新数据的分类。

例如：电影分类，用K-近邻算法分类爱情片和动作片，假如有一部未看过的电影，如何确定它是爱情片还是动作片？

表1 每部电影的打斗镜头数、接吻镜头数以及电影评估类型

电影名称	打斗镜头	接吻镜头	电影类型
California Man	3	104	爱情片
He's Not Really into Dudes	2	100	爱情片
Beautiful Woman	1	81	爱情片
Kevin Longblade	101	10	动作片
Robo Slayer 3000	99	5	动作片
Amped II	98	2	动作片
?	18	90	未知

首先计算未知电影与样本集中其他电影的距离（先忽略如何计算得到这些距离值），如表2

表2 已知电影与未知电影的距离

电影名称	与未知电影的距离
California Man	20.5
He's Not Really into Dudes	18.7
Beautiful Woman	19.2
Kevin Longblade	115.3
Robo Slayer 3000	117.4
Amped II	118.9

现在按照距离递增排序，可以找到K个距离最近的电影。假定K=3，则三个最靠近的电影依次是He's Not Really into Dudes、Beautiful Woman、California Man。K-近邻算法按照距离最近的三部电影的类型，而这三部电影全是爱情片，因此我们判定未知电影是爱情片。

2、K-近邻算法的一般流程

（1）收集数据：可以使用任何方法

（2）准备数据：距离计算所需要的数值，最好是结构化的数据格式

（3）分析数据：可以使用任何方法

（4）训练算法：此步骤不适合用于K-近邻算法

（5）测试算法：计算错误率

（6）使用算法：首先需要输入样本数据和结构化的输出结果，然后运行K-近邻算法判定输入数据分别属于那个类别，最后应用对计算出的分类执行后续的处理。

3、用python实现kNN算法

首先创建名为kNN.py模块

在kNN.py文件中增加下面代码：

# -*- coding: utf-8 -*-

from numpy import *     #引入科学计算包numpy

import operator         #经典python函数库，运算符模块。

#创建数据集

def createDataSet():

    group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])

    labels=['A','A','B','B']

    return group,labels

#k-近邻算法核心

#inX：用户分类的输入向量，即将对其进行分类

#dataSet:训练样本集

#labels：标签向量

def classifyO(inX,dataSet,labels,k):

    #距离计算

    dataSetSize=dataSet.shape[0] #得到数组的行数，即知道有几个训练数据，这里为4

    diffMat=tile(inX,(dataSetSize,1))-dataSet  #tile是numpy中的函数，tile将一个数组，扩充成了4个一样的数组；diffMat得到目标与训练数值之间的差值

    sqDiffMat=diffMat**2         #各个差值分别平方

    sqDistances=sqDiffMat.sum(axis=1)  #对平方后的数据求和，sum(axis=1)表示求矩阵的行的和

    distances=sqDistances**0.5   #开方，得到距离

    sortedDistIndicies=distances.argsort()  #对距离进行升序排列

    #选择距离最小的k个点

    classCount={}

    for i in range(k):

        voteIlabel=labels[sortedDistIndicies[i]]  #获得前k个距离对应的类标签

        classCount[voteIlabel]=classCount.get(voteIlabel,0)+1 #对这些类标签进行统计，求出对应的数量，形成的列表有两列，一列为类标签，一列为数量

    #排序

       sortedClassCount=sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)  #对上面前k个类标签数量进行排序

    return sortedClassCount[0][0] #取最小的距离对应的类标签

在centos中运行（kNN.py在desktop/algorithm/）

#cd algorithm

#python

>>>import kNN

>>>group,labels=kNN.createDataSet()

>>>group

array([[1. , 1.1],

           [1. , 1.  ],

           [0. , 0.  ],

           [0. , 0.1] ])

>>>labels

['A','A','B','B']

>>>kNN.classifyO([0,0],group,labels,3) #输入[0,0]测试值，测试运行结果

'B'

4、kNN算法的优缺点

优点：精度高，对异常数据不敏感（你的类别是由邻居中的大多数决定的，一个异常邻居并不能影响太大），无数据输入假定；

缺点：计算发杂度高（需要计算新的数据点与样本集中每个数据的“距离”，以判断是否是前k个邻居），空间复杂度高（巨大的矩阵）；无法给出任何数据的基础结构信息，无法知晓平均实例样本和典型实例样本具有什么特征。

适用数据范围：数值型（目标变量可以从无限的数值集合中取值）和标称型（目标变量只有在有限目标集中取值）。

【Machine Learning in Action --2】K-最近邻分类的更多相关文章

K近邻 Python实现机器学习实战(Machine Learning in Action)
算法原理 K近邻是机器学习中常见的分类方法之间,也是相对最简单的一种分类方法,属于监督学习范畴.其实K近邻并没有显式的学习过程,它的学习过程就是测试过程.K近邻思想很简单:先给你一个训练数据集D,包括 ...
学习笔记之机器学习实战 (Machine Learning in Action)
机器学习实战 (豆瓣) https://book.douban.com/subject/24703171/ 机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中 ...
机器学习实战（Machine Learning in Action）学习笔记————09.利用PCA简化数据
机器学习实战(Machine Learning in Action)学习笔记————09.利用PCA简化数据关键字:PCA.主成分分析.降维作者:米仓山下时间:2018-11-15机器学习实战(Ma ...
机器学习实战（Machine Learning in Action）学习笔记————08.使用FPgrowth算法来高效发现频繁项集
机器学习实战(Machine Learning in Action)学习笔记————08.使用FPgrowth算法来高效发现频繁项集关键字:FPgrowth.频繁项集.条件FP树.非监督学习作者:米 ...
机器学习实战（Machine Learning in Action）学习笔记————07.使用Apriori算法进行关联分析
机器学习实战(Machine Learning in Action)学习笔记————07.使用Apriori算法进行关联分析关键字:Apriori.关联规则挖掘.频繁项集作者:米仓山下时间:2018 ...
机器学习实战（Machine Learning in Action）学习笔记————06.k-均值聚类算法（kMeans）学习笔记
机器学习实战(Machine Learning in Action)学习笔记————06.k-均值聚类算法(kMeans)学习笔记关键字:k-均值.kMeans.聚类.非监督学习作者:米仓山下时间: ...
机器学习实战（Machine Learning in Action）学习笔记————05.Logistic回归
机器学习实战(Machine Learning in Action)学习笔记————05.Logistic回归关键字:Logistic回归.python.源码解析.测试作者:米仓山下时间:2018- ...
机器学习实战（Machine Learning in Action）学习笔记————02.k-邻近算法（KNN）
机器学习实战(Machine Learning in Action)学习笔记————02.k-邻近算法(KNN) 关键字:邻近算法(kNN: k Nearest Neighbors).python.源 ...
Machine Learning in Action(5) SVM算法
做机器学习的一定对支持向量机(support vector machine-SVM)颇为熟悉,因为在深度学习出现之前,SVM一直霸占着机器学习老大哥的位子.他的理论很优美,各种变种改进版本也很多,比如 ...
Machine Learning In Action 第二章学习笔记: kNN算法
本文主要记录<Machine Learning In Action>中第二章的内容.书中以两个具体实例来介绍kNN(k nearest neighbors),分别是: 约会对象预测手写数 ...

随机推荐

ubuntu 把终端信息输出到文本文件中的方法
方法一:把终端中所有信息都写到文本文件中在终端的命令行中输入以下命令: $ script -f output.txt 这样就会在当前目录下创建一个output.txt文件接下来,在按 ...
ubuntu 14.04 安装matlab2015b（破解版），具体软件请访问我的网盘～
本文章转载自:http://www.cnblogs.com/ttzm/p/5475086.html 1.下载matlab的Unix版本:安装文件放在某目录下(如在Downloads下,则文件的完整路径 ...
动态的改变标签内的src属性
<body> <ul> <li class='on'>1</li> <li>2</li> <li>3</li& ...
湖南多校对抗赛（2015.05.03）Problem A: Twenty-four point
给四个数问能不能算出24点...我的方法比较烂...920ms 差点TLE.应该有更好的方法. #include<stdio.h> #include<string.h> #i ...
Counting Stars
Counting Stars 题目链接:http://acm.xidian.edu.cn/problem.php?id=1177 离线+一维树状数组一眼扫过去:平面区间求和,1e6的数据范围,这要h ...
Java 泛型协变式覆盖和泛型重载
Java 泛型协变式覆盖和泛型重载 @author ixenos 1.协变式覆盖(Override) 在JDK 1.4及以前,子类方法如果要覆盖超类的某个方法,必须具有完全相同的方法签名,包括返回值 ...
SOJ 1210 二叉树
1210. 二叉树 Constraints Time Limit: 1 secs, Memory Limit: 32 MB Description 在众多的数据结构中,二叉树是一种特殊而重要的结构,有 ...
priority_queue 优先队列
优先队列是单向队列的一种,可以按照默认或自定义的一种方式来对队列中的数据进行动态排序 template<class _Ty, class _Container = vector<_Ty&g ...
IOS中实例的权限控制
@public.@protected.@private的使用在OC中声明一个类的时候,可以使用上面 @public.@protected.@private三个关键字声明实例的权限,例如下面的代码: ...
cmusphinx格式问题
在windows下.lm和.dict同时为ANSI编码,输出正确,否则输出乱码或不输出结果.

【Machine Learning in Action --2】K-最近邻分类

【Machine Learning in Action --2】K-最近邻分类的更多相关文章

随机推荐

热门专题