K-近邻算法的Python实现：源代码分析

网上介绍K-近邻算法的样例非常多。其Python实现版本号基本都是来自于机器学习的入门书籍《机器学习实战》，尽管K-近邻算法本身非常easy，但非常多刚開始学习的人对其Python版本号的源码理解不够，所以本文将对其源码进行分析。

什么是K-近邻算法？

简单的说，K-近邻算法採用不同特征值之间的距离方法进行分类。所以它是一个分类算法。

长处：无数据输入假定，对异常值不敏感

缺点：复杂度高

好了，直接先上代码，等会在分析：（这份代码来自《机器学习实战》）

def classify0(inx, dataset, lables, k):

    dataSetSize = dataset.shape[0]

    diffMat = tile(inx, (dataSetSize, 1)) - dataset

    sqDiffMat = diffMat**2

    sqDistance = sqDiffMat.sum(axis=1)

    distances = sqDistance**0.5

    sortedDistances = distances.argsort()

    classCount={}

    for i in range(k):

        label = lables[sortedDistances[i]]

        classCount[label] = classCount.get(label, 0) + 1

    sortedClassCount = sorted(classCount.iteritems(),key=operator.itemgetter(1), reverse=True)

    return sortedClassCount[0][0]

该函数的原理是：

存在一个样本数据集合，也称为训练集，在样本集中每一个数据都存在标签。在我们输入没有标签的新数据后，将新数据的每一个特征与样本集中相应的特征进行比較，然后提取最相似（近期邻）的分类标签。

一般我们仅仅选样本数据集中前K 个最相似的数据。最后。出现次数最多的分类就是新数据的分类。

classify0函数的參数意义例如以下：

inx : 是输入没有标签的新数据，表示为一个向量。

dataset: 是样本集。

表示为向量数组。

labels:相应样本集的标签。

k：即所选的前K。

用于产生数据样本的简单函数：

def create_dataset():

    group = array([[1.0, 1.1], [1.0, 1.1], [0, 0], [0, 0.1]])

    labels = ['A', 'A', 'B', 'B']

    return group, labels

注意，array是numpy里面的。

我们须要实现import进来。

from numpy import *

import operator

我们在调用时。

group,labels = create_dataset()

result = classify0([0,0], group, labels, 3)

print result

显然，[0,0]特征向量肯定是属于B 的，上面也将打印B。

知道了这些。刚開始学习的人应该对实际代码还是非常陌生。不急，正文開始了！

源代码分析

dataSetSize = dataset.shape[0]

shape是array的属性，它描写叙述了一个数组的“形状”，也就是它的维度。比方，

In [2]: dataset = array([[1.0, 1.1], [1.0, 1.1], [0, 0], [0, 0.1]])

In [3]: print dataset.shape

(4, 2)

所以，dataset.shape[0] 就是样本集的个数。

diffMat = tile(inx, (dataSetSize, 1)) - dataset

tile(A,rep)函数是基于数组A来构造数组的，详细怎么构造就看第二个參数了。其API介绍有点绕，但简单的使用方法相信几个样例就能明确。

我们看看tile(inx, (4, 1))的结果，

In [5]: tile(x, (4, 1))

Out[5]:

array([[0, 0],

       [0, 0],

       [0, 0],

       [0, 0]])

你看。4扩展的是数组的个数（本来1个。如今4个），1扩展的是每一个数组元素的个数（原来是2个，如今还是两个）。

为证实上面的结论，

In [6]: tile(x,(4,2))

Out[6]:

array([[0, 0, 0, 0],

       [0, 0, 0, 0],

       [0, 0, 0, 0],

       [0, 0, 0, 0]])

和。

In [7]: tile(x,(2,2))

Out[7]:

array([[0, 0, 0, 0],

       [0, 0, 0, 0]])

关于，tile的详细使用方法。请自行查阅API DOC。

得到tile后，减去dataset。

这类似一个矩阵的减法。结果仍是一个 4 * 2的数组。

In [8]: tile(x, (4, 1)) - dataset

Out[8]:

array([[-1. , -1.1],

       [-1. , -1.1],

       [ 0. ,  0. ],

       [ 0. , -0.1]])

结合欧式距离的求法，后面的代码就清晰些，对上面结果平方运算，求和。开方。

我们看看求和的方法，

sqDiffMat.sum(axis=1)

当中。

In [14]: sqDiffmat

Out[14]:

array([[ 1.  ,  1.21],

       [ 1.  ,  1.21],

       [ 0.  ,  0.  ],

       [ 0.  ,  0.01]])

求和的结果是对行求和，是一个N*1的数组。

假设要对列求和，

sqlDiffMat.sum(axis=0)

argsort()是对数组升序排序的。

classCount是一个字典，key是标签。value是该标签出现的次数。

这样。算法的一些详细代码细节就清楚了。

K-近邻算法的Python实现：源代码分析的更多相关文章

用Python从零开始实现K近邻算法
KNN算法的定义: KNN通过测量不同样本的特征值之间的距离进行分类.它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别.K通 ...
python 机器学习（二）分类算法-k近邻算法
一.什么是K近邻算法? 定义: 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别. 来源: KNN算法最早是由Cover和Hart提 ...
机器学习——KNN算法（k近邻算法）
一 KNN算法 1. KNN算法简介 KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分 ...
机器学习实战 - python3 学习笔记（一） - k近邻算法
一. 使用k近邻算法改进约会网站的配对效果 k-近邻算法的一般流程: 收集数据:可以使用爬虫进行数据的收集,也可以使用第三方提供的免费或收费的数据.一般来讲,数据放在txt文本文件中,按照一定的格式进 ...
数据挖掘算法（一）--K近邻算法（KNN）
数据挖掘算法学习笔记汇总数据挖掘算法(一)–K近邻算法 (KNN) 数据挖掘算法(二)–决策树数据挖掘算法(三)–logistic回归算法简介 KNN算法的训练样本是多维特征空间向量,其中每个训 ...
使用K近邻算法改进约会网站的配对效果
1 定义数据集导入函数 import numpy as np """ 函数说明:打开并解析文件,对数据进行分类:1 代表不喜欢,2 代表魅力一般,3 代表极具魅力 Par ...
02机器学习实战之K近邻算法
第2章 k-近邻算法 KNN 概述 k-近邻(kNN, k-NearestNeighbor)算法是一种基本分类与回归方法,我们这里只讨论分类问题中的 k-近邻算法. 一句话总结:近朱者赤近墨者黑! k ...
2.在约会网站上使用k近邻算法
在约会网站上使用k近邻算法思路步骤: 1. 收集数据:提供文本文件.2. 准备数据:使用Python解析文本文件.3. 分析数据:使用Matplotlib画二维扩散图.4. 训练算法:此步骤不适用于 ...
机器学习实战笔记--k近邻算法
#encoding:utf-8 from numpy import * import operator import matplotlib import matplotlib.pyplot as pl ...
从K近邻算法谈到KD树、SIFT+BBF算法
转自 http://blog.csdn.net/v_july_v/article/details/8203674 ,感谢july的辛勤劳动前言前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章 ...

随机推荐

Binary Indexted Tree 树状数组入门
感谢http://www.cnblogs.com/xudong-bupt/p/3484080.html 树状数组(BIT)是能够完成下述操作的数据结构: 给定一初始值全为零的数列a1,a2a,a3.. ...
css之其它技巧和经验列表
其它技巧和经验列表(*以下实例默认运行环境都为Standard mode): 如何让层在falsh上显示? 方法: ``` 设置flash的wmode值为transparent或opaque ``` ...
poj 1375(解析几何)
Intervals Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 4292 Accepted: 1288 Descrip ...
PHP防止表单重复提交的解决方法
PHP+SESSION防止表单重复提交 index.php 当前表单页面is_submit设为0 SESSION_START(); $_SESSION['is_submit'] = 0; <fo ...
ORA-01940: cannot drop a user that is currently connected
https://www.cnblogs.com/lwlxqlccc/p/8694696.html
如何打造属于自己的Javascript武器库(封装方法)
前言代码写的久了,就会发现很多时候都是在写一些重复的东西,这个时候就应该要考虑到提高工作效率了,比如对常用方法的封装,例如日期格式化,浏览器类型判断等. 今天这篇文章我们就来看看如何封装常用的Jav ...
Python的程序结构[3] -> 变量/Variable[0] -> 变量类型
变量类型 / Variable Type 在 Python 中,变量主要有以下几种,即全局变量,局部变量和内建变量, 全局变量 / Global Variable 通常定义于模块内部,大写变量名形式存 ...
How to not display “Commit point reached - logical record count” counts
You can use the keyword silent, which is available in the options clause. You can set the followin ...
[CC-CHANOQ]Chef and odd queries
题目大意: 给定$n(10^5)$个线段$[l_i,r_i](1\leq l_i,r_i\leq n)$,有$q(q\leq10^5)$组询问,每次给出$m_i(\sum m_i\leq n)$个点$ ...
Memcache的mutex设计模式 -- 高并发解决方案
场景 Mutex主要用于有大量并发访问并存在cache过期的场合,如首页top 10, 由数据库加载到memcache缓存n分钟: 微博中名人的content cache, 一旦不存在会大量请求不能 ...

K-近邻算法的Python实现 ： 源代码分析

K-近邻算法的Python实现 ： 源代码分析的更多相关文章

随机推荐

热门专题

K-近邻算法的Python实现：源代码分析

K-近邻算法的Python实现：源代码分析的更多相关文章