KNN算法的简单实现

一算法原理：已知一个训练样本集，其中每个训练样本都有自己的标记（label）,即我们知道样本集中每一个样本数据与所属分类的对应关系。输入没有标记的新数据后，将新数据的每个特征与样本集中的数据对应的特征进行比较，然后提取样本集中特征最相似数据的分类标记。一般的，我们选择样本集中前k个最相似的数据分类标签，其中出现次数最多的分类作为我们新数据的分类标记。简单的说，k_近邻算法采用测量不同特征值之间的距离方法进行分类。

算法优点：精度高、对异常值不敏感，无数据输入假设。

算法缺点：由于要将每个待分类的数据特征与样本集中的每个样例进行对应特征距离的计算，所以计算的时间空间复杂度高。

二算法的实现（手写体识别）

1.数据准备：采用的是32*32像素的黑白图像（0-9，每个数字大约200个样本，trainingDigits用于数据分类器训练，testDigits用于测试），这里为了方便理解，将图片转换成了文本格式。

2.代码实现：

将图片转化为一个向量，我们把一个32*32的二进制图像矩阵转化为一个1*1024的向量，编写一个函数vector2d,如下代码
 def vector2d(filename):

     rows = 32

     cols = 32

     imgVector = zeros((1,rows * cols))

     fileIn = open(filename)

     for row in xrange(rows):

         lineStr = fileIn.readline()

         for col in xrange(cols):

             imgVector[0,row *32 + col] = int(lineStr[col])

     return imgVector
 

trainingData set 和testData set 的载入

 '''load dataSet '''

 def loadDataSet():

     print '....Getting training data'

     dataSetDir =  'D:/pythonCode/MLCode/KNN/'

     trainingFileList = os.listdir(dataSetDir + 'trainingDigits')

     numSamples = len(trainingFileList)

     train_x = zeros((numSamples,1024))

     train_y = []

     for i  in xrange(numSamples):

         filename = trainingFileList[i]

         train_x[i,:] = vector2d(dataSetDir + 'trainingDigits/%s'%filename)

         label = int(filename.split('_')[0])

         train_y.append(label)

     ''' ....Getting testing data...'''

     print '....Getting testing data...'

     testFileList = os .listdir(dataSetDir + 'testDigits')

     numSamples = len(testFileList)

     test_x = zeros((numSamples,1024))

     test_y = []

     for i in xrange(numSamples):

         filename = testFileList[i]

         test_x[i,:] = vector2d(dataSetDir + 'testDigits/%s'%filename)

         label = int(filename.split('_')[0])

         test_y.append(label)

     return train_x,train_y,test_x,test_y

分类器的构造

 from numpy import *

 import os

 def kNNClassify(newInput,dataSet,labels,k):

     numSamples = dataSet.shape[0]

     diff = tile(newInput,(numSamples,1)) - dataSet

     squaredDiff = diff ** 2

     squaredDist = sum(squaredDiff,axis = 1)

     distance = squaredDist ** 0.5

     sortedDistIndex = argsort(distance)

     classCount =  {}

     for i in xrange(k):

         votedLabel = labels[sortedDistIndex[i]]

         classCount[votedLabel] = classCount.get(votedLabel,0) + 1

     maxValue = 0

     for key,value in classCount.items():

         if maxValue < value:

             maxValue = value

             maxIndex = key

分类测试

 def testHandWritingClass():

     print 'load data....'

     train_x,train_y,test_x,test_y = loadDataSet()

     print'training....'

     print'testing'

     numTestSamples = test_x.shape[0]

     matchCount = 0.0

     for i in xrange(numTestSamples):

         predict = kNNClassify(test_x[i],train_x,train_y,3)

         if predict != test_y[i]:

             print 'the predict is ',predict,'the target value is',test_y[i]

         if predict == test_y[i]:

             matchCount += 1

     accuracy = float(matchCount)/numTestSamples

     print'The accuracy is :%.2f%%'%(accuracy * 100)

测试结果

 testHandWritingClass()

 load data....

 ....Getting training data

 ....Getting testing data...

 training....

 testing

 the predict is  7 the target value is 1

 the predict is  9 the target value is 3

 the predict is  9 the target value is 3

 the predict is  3 the target value is 5

 the predict is  6 the target value is 5

 the predict is  6 the target value is 8

 the predict is  3 the target value is 8

 the predict is  1 the target value is 8

 the predict is  1 the target value is 8

 the predict is  1 the target value is 9

 the predict is  7 the target value is 9

 The accuracy is :98.84%

注：以上代码运行环境为Python2.7.11

从上面结果可以看出knn 分类效果还不错，在我看来，knn就是简单粗暴，就是把未知分类的数据特征与我们分类好的数据特征进行比对，选择最相似的标记作为自己的分类，辣么问题来了，如果我们的新数据的特征在样本集中比较少见，这时候就会出现问题，分类错误的可能性非常大，反之，如果样例集中某一类的样例比较多，那么新数据被分成该类的可能性就会大，如何保证分类的公平性，我们就需要进行加权了。

补充：关于K值的选取，当k越小时，分类结果对原数据的敏感性越强，易受到异常数据的影响，即模型越复杂。

数据来源：http://download.csdn.net/download/qq_17046229/7625323

KNN算法的简单实现的更多相关文章

机器学习之二：K-近邻(KNN)算法
一.概述 K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中 ...
深入浅出KNN算法（一） KNN算法原理
一.KNN算法概述 KNN可以说是最简单的分类算法之一,同时,它也是最常用的分类算法之一,注意KNN算法是有监督学习中的分类算法,它看起来和另一个机器学习算法Kmeans有点像(Kmeans是无监督学 ...
JavaScript机器学习之KNN算法
译者按: 机器学习原来很简单啊,不妨动手试试! 原文: Machine Learning with JavaScript : Part 2 译者: Fundebug 为了保证可读性,本文采用意译而非直 ...
【笔记】初探KNN算法（1）
KNN算法(1) 全称是K Nearest Neighbors k近邻算法: 思想简单需要的数学知识很少效果不错可以解释机器学习算法使用过程中的很多细节问题更加完整的刻画机器学习应用的流程其 ...
kNN算法python实现和简单数字识别
kNN算法算法优缺点: 优点:精度高.对异常值不敏感.无输入数据假定缺点:时间复杂度和空间复杂度都很高适用数据范围:数值型和标称型算法的思路: KNN算法(全称K最近邻算法),算法的思想很简单 ...
KNN算法简单应用
这里是写给小白看的,大牛路过勿喷. 1 KNN算法简介 KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集 ...
KNN 算法，以及与Kmeans的简单对比
KNN与Kmeans感觉没啥联系,但是名字挺像的,就拿来一起总结一下吧. 初学者的总结. KNN是监督学习,Kmeans是无监督学习. KNN用于分类,Kmeans用于聚类. 先说KNN: 对于KNN ...
Python简单实现KNN算法
__author__ = '糖衣豆豆' from numpy import * from os import listdir import operator #从列方向扩展 #tile(a,(size ...
【Machine Learning】KNN算法虹膜图片识别
K-近邻算法虹膜图片识别实战作者:白宁超 2017年1月3日18:26:33 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...

随机推荐

PHP 文件读取 fread、fgets、fgetc、file_get_contents 与 file 函数
fread().fgets().fgetc().file_get_contents() 与 file() 函数用于从文件中读取内容. fread() fread() 函数用于读取文件(可安全用于二进制 ...
OC基础(18)
Category基本概念 Category注意事项 *:first-child { margin-top: 0 !important; } body > *:last-child { margi ...
Redis集群创建报错
Redis集群环境:och163/och164/och165 在执行如下脚本时报错: ./src/redis-trib.rb create 10.1.253.163: 10.1.253.164: 10 ...
windows 测试数据库的连接状况-udl方法
udl是windows系统上,用于测试数据库的连接状态的测试软件. 使用方法: 1.建立一个空白文本 2.将文件的后缀名更改为*.udl 即可文件内容一定为空 3.选择windows的“提供 ...
HDU1272
http://acm.split.hdu.edu.cn/showproblem.php?pid=1272 对于这道题,只要找出形成的图是不是连通无环的图即可.即是判断输入的两个点是否来自同一个父亲结点 ...
剑指Offer：面试题3——二维数组中的查找（java实现）
问题描述:在一个二维数组中,每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序.请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数. 思路:取数组中的元素与 ...
慕课网-安卓工程师初养成-4-12 Java循环跳转语句之 continue
来源:http://www.imooc.com/code/1432 continue 的作用是跳过循环体中剩余的语句执行下一次循环. 例如,打印 1--10 之间所有的偶数,使用 continue 语 ...
慕课网-安卓工程师初养成-2-1 Java中的关键字
来源:http://www.imooc.com/code/1176 Java 中常用关键字: 问:这么多,记不住啊......-_-|| 答:现在不需要你记住所有,混个眼熟即可,在学习的过程中,你会逐 ...
jQuery 的随机密码生成 .
$.extend({ password: function (length, special) { var iteration = 0; var password = ""; va ...
关于Rational Functional Tester （RFT）的简单介绍
前段时间给客户做了个RFT的简单培训,以下.因为涉及到公司的框架,所以中间省去了很多框架里的细节,只留了一个框架的总体结构的概览. RFT IBM Rational Functional Tester ...

KNN算法的简单实现

KNN算法的简单实现的更多相关文章

随机推荐

热门专题