KNN分类算法--python实现

一、kNN算法分析

K最近邻（k-Nearest Neighbor，KNN）分类算法可以说是最简单的机器学习算法了。它采用测量不同特征值之间的距离方法进行分类。它的思想很简单：如果一个样本在特征空间中的k个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。

KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。

该算法在分类时有个主要的不足是，当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。因此可以采用权值的方法（和该样本距离小的邻居权值大）来改进。该方法的另一个不足之处是计算量较大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑，事先去除对分类作用不大的样本。该算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分[参考机器学习十大算法]。

总的来说就是我们已经存在了一个带标签的数据库，然后输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似（最近邻）的分类标签。一般来说，只选择样本数据库中前k个最相似的数据。最后，选择k个最相似数据中出现次数最多的分类。其算法描述如下：

1）计算已知类别数据集中的点与当前点之间的距离；

2）按照距离递增次序排序；

3）选取与当前点距离最小的k个点；

4）确定前k个点所在类别的出现频率；

5）返回前k个点出现频率最高的类别作为当前点的预测分类。

代码：

#########################################

# kNN: k Nearest Neighbors

# Input:      inX: vector to compare to existing dataset (1xN)

#             dataSet: size m data set of known vectors (NxM)

#             labels: data set labels (1xM vector)

#             k: number of neighbors to use for comparison 

# Output:     the most popular class label

#########################################

from numpy import *

import operator

import os

from Canvas import Line

# classify using kNN

def kNNClassify(newInput, dataSet, labels, k):

    numSamples = dataSet.shape[0] # shape[0] stands for the num of row

    ## step 1: calculate Euclidean distance

    # tile(A, reps): Construct an array by repeating A reps times

    # the following copy numSamples rows for dataSet

    diff = tile(newInput, (numSamples, 1)) - dataSet # Subtract element-wise

    squaredDiff = diff ** 2 # squared for the subtract

    squaredDist = sum(squaredDiff, axis = 1) # sum is performed by row

    distance = squaredDist ** 0.5

    ## step 2: sort the distance

    # argsort() returns the indices that would sort an array in a ascending order

    sortedDistIndices = argsort(distance)

    classCount = {} # define a dictionary (can be append element)

    for i in xrange(k):

        ## step 3: choose the min k distance

        voteLabel = labels[sortedDistIndices[i]]

        ## step 4: count the times labels occur

        # when the key voteLabel is not in dictionary classCount, get()

        # will return 0

        classCount[voteLabel] = classCount.get(voteLabel, 0) + 1

    ## step 5: the max voted class will return

    maxCount = 0

    for key, value in classCount.items():

        if value > maxCount:

            maxCount = value

            maxIndex = key

    return maxIndex    

# convert image to vector

def  img2vector(filename):

     rows = 32

     cols = 32

     imgVector = zeros((1, rows * cols))

     fileIn = open(filename)

     for row in xrange(rows):

         lineStr = fileIn.readline()

         for col in xrange(cols):

             imgVector[0, row * 32 + col] = int(lineStr[col])

     return imgVector

# load dataSet

def loadDataSet():

    ## step 1: Getting training set

    print "---Getting training set..."

    dataSetDir = 'F:/eclipse/workspace/KnnTest/'

    trainingFileList = os.listdir(dataSetDir + 'trainingDigits') # load the training set

    numSamples = len(trainingFileList)

    train_x = zeros((numSamples, 1024))

    train_y = []

    for i in xrange(numSamples):

        filename = trainingFileList[i]

        # get train_x

        train_x[i, :] = img2vector(dataSetDir + 'trainingDigits/%s' % filename) 

        # get label from file name such as "1_18.txt"

        label = int(filename.split('_')[0]) # return 1

        train_y.append(label)

    ## step 2: Getting testing set

    print "---Getting testing set..."

    testingFileList = os.listdir(dataSetDir + 'testDigits') # load the testing set

    numSamples = len(testingFileList)

    test_x = zeros((numSamples, 1024))

    test_y = []

    for i in xrange(numSamples):

        filename = testingFileList[i]

        # get train_x

        test_x[i, :] = img2vector(dataSetDir + 'testDigits/%s' % filename) 

        # get label from file name such as "1_18.txt"

        label = int(filename.split('_')[0]) # return 1

        test_y.append(label)

    return train_x, train_y, test_x, test_y

# test hand writing class

def testHandWritingClass():

    ## step 1: load data

    print "step 1: load data..."

    train_x, train_y, test_x, test_y = loadDataSet()

    ## step 2: training...

    print "step 2: training..."

    pass

    ## step 3: testing

    print "step 3: testing..."

    numTestSamples = test_x.shape[0]

    matchCount = 0

    for i in xrange(numTestSamples):

        predict = kNNClassify(test_x[i], train_x, train_y, 3)

        if predict == test_y[i]:

            matchCount += 1

    accuracy = float(matchCount) / numTestSamples

    ## step 4: show the result

    print "step 4: show the result..."

    print 'The classify accuracy is: %.2f%%' % (accuracy * 100)

另外创建一个脚本knnTest.py

import KNN

KNN.testHandWritingClass()

其中数据集下载链接为：http://download.csdn.net/detail/zouxy09/6610571

KNN分类算法--python实现的更多相关文章

KNN分类算法及python代码实现
KNN分类算法(先验数据中就有类别之分,未知的数据会被归类为之前类别中的某一类!) 1.KNN介绍 K最近邻(k-Nearest Neighbor,KNN)分类算法是最简单的机器学习算法. 机器学习, ...
KNN分类算法实现手写数字识别
需求: 利用一个手写数字“先验数据”集,使用knn算法来实现对手写数字的自动识别: 先验数据(训练数据)集: ♦数据维度比较大,样本数比较多. ♦ 数据集包括数字0-9的手写体. ♦每个数字大约有20 ...
knn分类算法学习
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的 ...
机器学习---K最近邻(k-Nearest Neighbour，KNN)分类算法
K最近邻(k-Nearest Neighbour,KNN)分类算法 1.K最近邻(k-Nearest Neighbour,KNN) K最近邻(k-Nearest Neighbour,KNN)分类算法, ...
后端程序员之路 12、K最近邻(k-Nearest Neighbour，KNN)分类算法
K最近邻(k-Nearest Neighbour,KNN)分类算法,是最简单的机器学习算法之一.由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重 ...
KNN分类算法
K邻近算法.K最近邻算法.KNN算法(k-Nearest Neighbour algorithm):是数据挖掘分类技术中最简单的方法之一 KNN的工作原理所谓K最近邻,就是k个最近的邻居的意思,说的 ...
在Ignite中使用k-最近邻(k-NN)分类算法
在本系列前面的文章中,简单介绍了一下Ignite的线性回归算法,下面会尝试另一个机器学习算法,即k-最近邻(k-NN)分类.该算法基于对象k个最近邻中最常见的类来对对象进行分类,可用于确定类成员的关系 ...
K-NN(最近邻分类算法 python
# algorithm:K-NN(最近邻分类算法)# author:Kermit.L# time: 2016-8-7 #======================================== ...
kNN分类算法实例1：用kNN改进约会网站的配对效果
目录实战内容用sklearn自带库实现kNN算法分类将内含非数值型的txt文件转化为csv文件用sns.lmplot绘图反映几个特征之间的关系参考资料 @ 实战内容海伦女士一直使用在线约会 ...

随机推荐

Web知识点收集
1.微信屏蔽浏览器,打开办法: 如果微信webapp屏蔽了浏览器打开,通常是通过判断代理类型来做到的. 解决办法:进入浏览器开发者模式,修改浏览器代理为: Mozilla/5.0 (iPhone; C ...
who命令
who1.c #include <stdio.h>#include <utmp.h>#include <fcntl.h>#include <unistd.h& ...
【Sprint2 每日Scrum】第一天（4.22）Sprint2计划会议成果
Sprint2计划会议成果从今天起我们就开始正式的Sprint2之旅了,经过上一次Sprint1的冲刺计划和几天的调整,我们已经大致了解了敏捷开发的流程和思想,并将我们的TD学生助手做出了大致的框架 ...
关于提高沟通能力的书单zz
上周推荐了一份关于提高写作能力的书单,这周,我们来聊聊沟通能力. 在现代社会,沟通能力变得越来越重要.人与人之间的社交渠道越来越丰富,工作中的协同合作也越来越普遍.我们要沟通的人越来越多,节奏越来越快 ...
MongoDB 征途
到目前为止,对数据库这块仍然捉襟见肘,仅限于懂一些MySQL,就更谈不上什么优化了. 细想来,还是没有项目驱动造成的...既然跟关系型数据库缘分未到,干脆直接go to NoSQL - MongoDB ...
Error: Cannot find module 'webpack'错误解决
$ npm install webpack -g $ npm install webpack-cli -g 全局安装webpack $ npm run dev Error: Cannot find m ...
辛星浅析html5中的role属性
我们使用role属性告诉辅助设备.这个元素所扮演的角色.比方点击的按钮,我们通常就使用role="button",会让这个元素可点击. 可是它很多其它的是用来增强语义性,当现有的h ...
CXF实战之自己定义拦截器(五)
CXF已经内置了一些拦截器,这些拦截器大部分默认加入到拦截器链中,有些拦截器也能够手动加入,如手动加入CXF提供的日志拦截器.也能够自己定义拦截器.CXF中实现自己定义拦截器非常easy.仅仅要继承A ...
iOS8 PUSH解决方法
本文转载至 http://blog.csdn.net/pjk1129/article/details/39548523 - (void)registerForRemoteNotificatio ...
基于EasyIPCamera实现的RTSP跨平台拉模式转发流媒体服务器
本文转自博客:http://blog.csdn.net/xinlanbobo/article/details/53224445 上一篇博客<EasyIPCamera通过RTSP协议接入海康.大华 ...

KNN分类算法--python实现

KNN分类算法--python实现的更多相关文章

随机推荐

热门专题