KNN算法思想与实现

第二章 k近邻

2.1 算法描述

（1）采用测量不同特征值之间的距离进行分类

优点：对异常点不敏感，精度高，无数据输入设定

缺点：空间，计算复杂度高

适合数据：标称与数值

（2）算法的工作原理：

基于已有的带有标签的训练数据，计算出需要预测的数据与每个训练数据之间的距离，找到其中距离最近的k个数据，根据这k数据中数量最多的类来决定测试数据的类别

（3）算法的类别

该算法属于有监督学习，用于分类，因此它的目标变量是离散的

（4）算法的一般流程：

1.收集数据

2.准备数据

3.分析数据

4.测试算法

5.使用算法

2.2算法实现过程

（1）获取数据

　　（2）KNN算法

from numpy import *

import operator

# this KNN matrix col is 3

# in order to create data

def createDataSet():

    group = array([[1.0, 1.1], [1.0, 1.0], [0.0, 0.0], [0.0, 0.1]])

    lables = ['A', 'A', 'B', 'B']

    return group, lables

# main algorithm

def classify0(inx, dataSet, lables, k):

    datasetSize = dataSet.shape[0]

    diffmat = tile(inx, (datasetSize, 1)) - dataSet

    sqdiffmat = diffmat**2

    sqDistance = sqdiffmat.sum(axis=1)

    distance = sqDistance**0.5

    sortedDistance = distance.argsort()

    classcount = {}

    for i in range(k):

        votelabel = lables[sortedDistance[i]]

        classcount[votelabel] = classcount.get(votelabel, 0) + 1

    sortedclasscount = sorted(classcount.iteritems(), key=operator.itemgetter(1), reverse=True)

    return sortedclasscount[0][0]

# read the txt data file

def file2matrix(filename):

    fr = open(filename)

    arraylines = fr.readlines()

    numberoflines = len(arraylines)

    returnmatrix = zeros((numberoflines, 3))  # you can change the col

    clasavector = []

    index = 0

    for line in arraylines:

        line = line.strip()

        listformline = line.split('\t')

        returnmatrix[index, :] = listformline[0:3]  # you should change the col

        clasavector.append(int(listformline[-1]))

        index += 1

    return returnmatrix, clasavector

# normalize the data

def autonorm(dataset):

    minval = dataset.min(0)

    maxval = dataset.max(0)

    ranges = maxval - minval

    datasetsize = dataset.shape[0]

    normdataset = dataset - tile(minval, (datasetsize, 1))

    normdataset = normdataset/tile(ranges, (datasetsize, 1))

    return normdataset, ranges, minval

def datingclasstest(filename):

    horatio = 0.1

    dataset, lableset = file2matrix(filename)

    noramdataset, ranges, minval = autonorm(dataset)

    col = dataset.shape[0]

    test = int(col*horatio)

    errorcount = 0.0

    for i in range(col):

        classlable = classify0(noramdataset[i, :], noramdataset[test:col, :], lableset[test:col], 3)

        if classlable != lableset[i]:

            errorcount += 1

    error = errorcount / float(col)

    print error

　　（3）dating应用程序

import KNN

from numpy import *

def classifyperson():

    returnlist = ['not at all', 'in small doses', 'in large doses']

    game = float(raw_input("the percentage of playing video game"))

    fly = float(raw_input("the num of the flier mail"))

    icecream = float(raw_input("the num of icecream every weak"))

    person = array([game, fly, icecream])

    dataset,datalable =           KNN.file2matrix("F:data/machinelearninginaction/Ch02/datingTestSet2.txt")

    normdataset, ranges, minval=KNN.autonorm(dataset)

    classifierresult =KNN.classify0((person - minval)/ranges, normdataset, datalable, 3)

    print "you will like him %s" % returnlist[classifierresult-1]

　　（4）手写识别程序

import KNN

from os import listdir

from numpy import *

# change the 32*32 to vector

def image2vertor(filename):

    fr = open(filename)

    imagevertor = zeros((1, 1024))

    for i in range(32):

        line = fr.readline()

        for j in range(32):

            imagevertor[0, i*32+j] = int(line[j])

    return imagevertor

testvector = image2vertor("F:data/machinelearninginaction/Ch02/digits/testDigits/0_13.txt")

def handwritingtest():

    hwlables = []   # record the lable

    filename = listdir("F:data/machinelearninginaction/Ch02/digits/trainingDigits/")

    filenum = len(filename)

    dataset = zeros((filenum, 1024))

    for i in range(filenum):

        filenamestr = filename[i].split(".")[0]

        filelable = int(filenamestr.split('_')[0])

        hwlables.append(filelable)

        filepath = "F:data/machinelearninginaction/Ch02/digits/trainingDigits/" + filename[i]

        data = image2vertor(filepath)

        dataset[i, :] = data

    testfile = listdir("F:data/machinelearninginaction/Ch02/digits/testDigits/")

    testfilenum = len(testfile)

    for j in range(testfilenum):

        testfilestr = testfile[j].split('.')[0]

        testfilelable =int(testfilestr.split('_')[0])

        testdilepath = "F:data/machinelearninginaction/Ch02/digits/testDigits/" + testfile[j]

        testdata = image2vertor(testdilepath)

        classname = KNN.classify0(testdata, dataset, hwlables, 3)

        error = 0.0

        if classname == testfilelable:

            error += 1

        print "we think it is %d, the real is %d" % (classname, testfilelable)

    print "the num of error is %d " % error

    print "the error rate is %f" % (error/float(testfilenum))

handwritingtest()

KNN算法思想与实现的更多相关文章

机器学习之KNN算法思想及其实现
从一个例子来直观感受KNN思想如下图 , 绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形 ...
Python 手写数字识别-knn算法应用
在上一篇博文中,我们对KNN算法思想及流程有了初步的了解,KNN是采用测量不同特征值之间的距离方法进行分类,也就是说对于每个样本数据,需要和训练集中的所有数据进行欧氏距离计算.这里简述KNN算法的特点 ...
机器学习【三】k-近邻(kNN)算法
一.kNN算法概述 kNN算法是用来分类的,其依据测量不同特征值之间的距离,其核心思想在于用距离目标最近的k个样本数据的分类来代表目标的分类(这k个样本数据和目标数据最为相似).其精度高,对异常值不敏 ...
KNN算法原理（python代码实现）
kNN(k-nearest neighbor algorithm)算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性 ...
【Machine Learning】KNN算法虹膜图片识别
K-近邻算法虹膜图片识别实战作者:白宁超 2017年1月3日18:26:33 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...
机器学习&数据挖掘笔记_16（常见面试之机器学习算法思想简单梳理）
前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考 ...
kNN算法python实现和简单数字识别
kNN算法算法优缺点: 优点:精度高.对异常值不敏感.无输入数据假定缺点:时间复杂度和空间复杂度都很高适用数据范围:数值型和标称型算法的思路: KNN算法(全称K最近邻算法),算法的思想很简单 ...
数据挖掘之KNN算法（C#实现）
在十大经典数据挖掘算法中,KNN算法算得上是最为简单的一种.该算法是一种惰性学习法(lazy learner),与决策树.朴素贝叶斯这些急切学习法(eager learner)有所区别.惰性学习法仅仅 ...
KNN算法与Kd树
最近邻法和k-近邻法下面图片中只有三种豆,有三个豆是未知的种类,如何判定他们的种类? 提供一种思路,即:未知的豆离哪种豆最近就认为未知豆和该豆是同一种类.由此,我们引出最近邻算法的定义:为了判定未知 ...

随机推荐

EFI怎么装系统？ UEFI BIOS
关于EFI的介绍,就不赘述了. 大家可以看看这个帖子 http://benyouhui.it168.com/thread-2488583-1-1.html 总之,新电脑都是这玩意,win8也做了相应E ...
C++ Primer 有感（管理类的指针成员）
C++类的指针成员与其他成员有所不同,指针成员指向一个内存地址,该地址的内存需要我没管理. 我现在分析一下为什么要管理指针成员. 有如下Student类,Student.h如下: [cpp] view ...
海量数据挖掘MMDS week2: 频繁项集挖掘 Apriori算法的改进：基于hash的方法
http://blog.csdn.net/pipisorry/article/details/48901217 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Le ...
ios入门OC_UI晋级学什么？
1. OC 语法初步, 你可能学到面向对象最近本的概念, 并且可以大致的建立几个自以为是的类,但这仅仅是开始. 你知道为什么面向对象要有3大特性么.知道他们是用到什么设计模式的么 2. 你可能学到了N ...
jpa一对多映射案例
订单和订单项就是一对多的关系.一个订单有多个订单项,一个订单项属于某个订单. 订单和订单项映射后的表结构如下: 订单表结构订单项表结构下面就以订单和订单项为例介绍多对多映射关系的实例开发 pers ...
学习OpenCV，GPU模块
如何使用opencv的gpu库呢?我这两天一直在搞这个事情,环境的配置见上文(转载),这里我先举个简单的例子,实现这样的功能:host读入一幅图像,加载到GPU上,在GPU上复制一份然后下传到host ...
OAF中的TableLayout 高级表格
我们经常会遇到这种情况,我们要把显示界面分成几块区域来分别显示不同的内容.比如在同一行左边显示messageComponentLayout,右边显示table,这时,我们就要用到tableLayout ...
将 MVVM 演化为 MVVMM
众所周知,MVVM模式解决了Controller的臃肿并方便单元测试,为了方便后续代码维护,在上版本新功能开发中,项目开始使用MVVM模式进行开发. 但从上图可以看出,MVVM模式中,Controll ...
objc:NSDateFormatter使用备忘
NSDateFormatter类的实例可以将字符串的日期表示转换为NSDate对象或者反向转换. 如果只要显示日期不需要时间,则可以用-setDateStyle方法来设置显示日期的格式,有以下几种: ...
How tomcat works 读书笔记十七启动tomcat 下
在上一节中,我们程序的起始位置还是Bootstrap,现在我们通过bat文件来启动这个类. 在分析catalina.bat之前,我们先看看几个简单的我们能用到的dos命令. 基础知识 1 rem 注释 ...

KNN算法思想与实现

KNN算法思想与实现的更多相关文章

随机推荐

热门专题