K近邻 Python实现机器学习实战(Machine Learning in Action)

算法原理

K近邻是机器学习中常见的分类方法之间，也是相对最简单的一种分类方法，属于监督学习范畴。其实K近邻并没有显式的学习过程，它的学习过程就是测试过程。K近邻思想很简单：先给你一个训练数据集D，包括每个训练样本对应的标签。然后给你一个新的测试样本T，问你测试样本的标签预测是什么，K近邻的方法就是找到T到D中每一个样本的相似度，然后根据相似度大小对D中样本排序，取前K个最相似的样本的标签的众数作为测试样本T的标签（即前K个样本投票决定）。具体相似度怎么度量，是根据测试样本到D中每个训练样本的距离度量，一般用的最多的是欧氏距离，也可以更广泛的p范数（欧氏距离是2范数）。

例如：训练数据集D为二位数据，二维图如下图所示：

三种颜色分别代表三种比同类别的标签，现在给你一个新的测试样本T，只要放到图中取计算T到图中各点的距离，然后选取距离最近的K个点来投票决定测试样本属于哪一类（即是什么颜色）

K近邻算法实现

先给出算法实现，再详细解释各函数实现：

from numpy import *
import operator

import matplotlib
import matplotlib.pyplot as plot

#########Python做数据处理常用的三个工具包，定义了一些矩阵运算，画图，操作符函数接口######
def classify0(inX,dataSet,labels,k):
    dataSetSize=dataSet.shape[0]                                            #1
    diffMat=tile(inX,(dataSetSize,1))-dataSet                             #2
    sqDiffMat=diffMat**2                                                        #3
    sqDistances=sqDiffMat.sum(axis=1)                                    #4
    distances=sqDistances**0.5                                               #5
    sortedDistIndicies=distances.argsort()                                 #6
    classCount={}                                                                  #7
    for i in range(k):
        voteIlabel=labels[sortedDistIndicies[i]]                            #8
        classCount[voteIlabel]=classCount.get(voteIlabel,0)+1       #9
    sortedClasscount=sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)     #10
    return sortedClasscount[0][0]                                                                                         #11

--------------------------分割线----------------------------------------

参数注释：第一个参数表示要测试的样本(n维向量)；第二个参数表示训练数据集矩阵（每一行是一个训练样本(m)，每一列是一个坐标维度(n)）；第三个参数是训练数据的样本标签向量(m)；第四个参数K是设置的最近的前K个最近的样本

#1：获取训练样本矩阵的行数(即训练数据集中样本数量)，array.shape 或者shape(array)是numpy库中函数接口，用来读书矩阵的行数和列数(numpy中矩阵一般用多维数组实现)。array.shape[0]表示行，array.shape[1]表示列。

#2 ：tile函数是numpy中的一种类似于扩展函数，对于列表而言，如inX=[1，2，3]

则tile（inX，[2,3]）=[[1,2,3,1,2,3,1,2,3] ,2表示扩展两行，3表示扩展成3列。在这里inX扩展后为

　　　　　　　　　　　[1,2,3,1,2,3,1,2,3]]

在这里inX扩展后为　,然后减去训练数据矩阵，得到该测试样本与各训练数据的各维度的差值

#3 各维度的差值平方，方便求欧式距离

#4 numpy.sum(axis)是矩阵求和函数，axis=0表示按行求和，axis=1表示按列求和，这里按列求和，得到测试样本点和训练数据样本点在各维度上的差值的平方和

#5得到的矢量每一列开方

#6对distances矢量排序。array.argsort()是numpy中的排序函数，返回的是按顺序的各值在原列表中的索引，如a=[3 5 6 1]

a.argsort()=[3 0 1 2],因为排完序后是[1 3 5 6],对应在原数组中的位置为[3 0 1 2],默认是按升序排序。此函数的具体其他用法请自己参考其它资料，网上很多。

#7字典，用来存储前K个距离最近的训练样本，其中的key存储K个样本的标签，value存储对应的距离。

#8从距离最小的训练样本点开始，把各点的标签存储进key

#9投票，当前训练样本如果是属于某一标签，就把该key值对应的value加1，如果之前还没出现过该标签，则创建该标签key，并设置默认value值为0

#10对字典内的各键值对按值排序，即按各类别的投票数排序，按降序排序，得到排序后的字典sortedClasscount

#11返回字典的第一个键值对的键值，即标签，作为检测样本的预测标签

--------------------------------分割线------------------------------------

机器学习实战中(Machine Learning in Action)的约会对象分类和手写识别源代码和data文件如有需要，可发邮件到Tjingang@ustc.mail.edu.cn

K近邻 Python实现机器学习实战(Machine Learning in Action)的更多相关文章

学习笔记之机器学习实战 (Machine Learning in Action)
机器学习实战 (豆瓣) https://book.douban.com/subject/24703171/ 机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中 ...
机器学习实战 [Machine learning in action]
内容简介机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或模式,成为各行业求生存.谋发展的决定性手段,这使得这一过去为分析师和数学家所专属 ...
《Machine Learning in Action》—— 剖析支持向量机，单手狂撕线性SVM
<Machine Learning in Action>-- 剖析支持向量机,单手狂撕线性SVM 前面在写NumPy文章的结尾处也有提到,本来是打算按照<机器学习实战 / Machi ...
机器学习实战（Machine Learning in Action）学习笔记————09.利用PCA简化数据
机器学习实战(Machine Learning in Action)学习笔记————09.利用PCA简化数据关键字:PCA.主成分分析.降维作者:米仓山下时间:2018-11-15机器学习实战(Ma ...
机器学习实战（Machine Learning in Action）学习笔记————05.Logistic回归
机器学习实战(Machine Learning in Action)学习笔记————05.Logistic回归关键字:Logistic回归.python.源码解析.测试作者:米仓山下时间:2018- ...
机器学习实战（Machine Learning in Action）学习笔记————02.k-邻近算法（KNN）
机器学习实战(Machine Learning in Action)学习笔记————02.k-邻近算法(KNN) 关键字:邻近算法(kNN: k Nearest Neighbors).python.源 ...
【机器学习实战】Machine Learning in Action 代码视频项目案例
MachineLearning 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远 Machine Learning in Action (机器学习实战) | ApacheCN(apa ...
机器学习实战（Machine Learning in Action）学习笔记————08.使用FPgrowth算法来高效发现频繁项集
机器学习实战(Machine Learning in Action)学习笔记————08.使用FPgrowth算法来高效发现频繁项集关键字:FPgrowth.频繁项集.条件FP树.非监督学习作者:米 ...
机器学习实战（Machine Learning in Action）学习笔记————07.使用Apriori算法进行关联分析
机器学习实战(Machine Learning in Action)学习笔记————07.使用Apriori算法进行关联分析关键字:Apriori.关联规则挖掘.频繁项集作者:米仓山下时间:2018 ...

随机推荐

WP8.1程序开发中，如何加载本地文件资源或安装在程序包中的资源。
Web 要访问来自 Web 的文件,你可以使用标准的绝对 HTTP URI: <img src="http://www.contoso.com/images/logo.png" ...
STM32F4的FPU单元讲解
搞STM32F407单片机的时候看见的关于STM32F4系列的FPU 单元讲解比较精彩的博客于是特意转载和大家分享转自:http://blog.renren.com/blog/256814 ...
Java编程风格学习（三）
在上一篇的java编程风格学习(二)中我们学习了一些在Java编码过程中的格式规范,遵循这些规范毋庸置疑是我们的书写高质量代码的前提与基础.今天我们更进一步,一起来学习Java编程的命名规范,向着编写 ...
Bitmap的加载和Cache
由于Bitmap的特殊性以及Android对单个应用所施加的内存限制,比如16M,这导致加载Bitmap的时候很容易出现内存溢出.比如以下场景: java.lang.OutofMemoryError: ...
tomcat 假死
1.1 编写目的为了方便大家以后发现进程假死的时候能够正常的分析并且第一时间保留现场快照.1.2编写背景最近服务器发现tomcat的应用会偶尔出现无法访问的情况.经过一段时间的观察最近又发现有台to ...
如何垂直居中<img>?
方法1: 父元素设置height=line-height,子元素设置vertical-align:middle; 方法2: 父元素display:table-cell;vertical-align:m ...
iOS 图片裁剪 + 旋转
iOS 图片裁剪 + 旋转之前分别介绍了图片裁剪和图片旋转方法 <iOS 图片裁剪方法> 地址:http://www.cnblogs.com/silence-cnblogs/p/6490 ...
《Django By Example》第八章中文翻译（个人学习，渣翻）
书籍出处:https://www.packtpub.com/web-development/django-example 原作者:Antonio Melé (译者注:还有4章!还有4章全书就翻译完成了 ...
ThinkPHP模板的知识（比较全的知识）
php框架一.真实项目开发步骤: 多人同时开发项目,协作开发项目.分工合理.效率有提高(代码风格不一样.分工不好) 测试阶段上线运行对项目进行维护.修改.升级(单个人维护项目,十分困难,代码风格 ...
Java日志工具之Log4J
Log4J与java.util.logging.Logger的使用方式出奇的相似,因此如果先看这篇文章<Java日志工具之java.util.logging.Logger>在来用Log4J ...

K近邻 Python实现 机器学习实战(Machine Learning in Action)

K近邻 Python实现 机器学习实战(Machine Learning in Action)的更多相关文章

随机推荐

热门专题

K近邻 Python实现机器学习实战(Machine Learning in Action)

K近邻 Python实现机器学习实战(Machine Learning in Action)的更多相关文章