KNN算法的感受 1

本来预计的打算是一天一个十大挖掘算法，然而由于同时要兼顾数据结构面试的事情，所以很难办到，但至少在回家前要把数据挖掘十大算法看完，过个好年，在course上学习老吴的课程还是帮了我很大的忙，虽然浪费了时间，但是也无形中帮助我很多，所以说还是很值得的，今天就总结KNN算法的一部分，这部分老吴的课程中没有太多涉及到，所以我又重新关注了一下，下面是我的总结，希望能对大家有所帮组。

介绍环镜：python2.7 IDLE Pycharm5.0.3

操作系统：windows

第一步：因为没有numpy，所以要安装numpy，详情见另一篇安装numpy的博客，这里不再多说.

第二步：贴代码：

     from numpy import *

     import operator

     from os import listdir

   def classify0(inX, dataSet, labels, k):

         dataSetSize = dataSet.shape[0]

         diffMat = tile(inX, (dataSetSize,1)) - dataSet

         sqDiffMat = diffMat**2

         sqDistances = sqDiffMat.sum(axis=1)

         distances = sqDistances**0.5

         sortedDistIndicies = distances.argsort()

         classCount={}

         for i in range(k):

             voteIlabel = labels[sortedDistIndicies[i]]

             classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1

         sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)

         return sortedClassCount[0][0]  

   def createDataSet():

         group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])

         labels = ['A','A','B','B']

         return group, labels  

    def file2matrix(filename):

         fr = open(filename)

         numberOfLines = len(fr.readlines())         #get the number of lines in the file

         returnMat = zeros((numberOfLines,3))        #prepare matrix to return

         classLabelVector = []                       #prepare labels return

         fr = open(filename)

         index = 0

         for line in fr.readlines():

             line = line.strip()

             listFromLine = line.split('\t')

             returnMat[index,:] = listFromLine[0:3]

             classLabelVector.append(int(listFromLine[-1]))

             index += 1

         return returnMat,classLabelVector  

     def autoNorm(dataSet):

         minVals = dataSet.min(0)

         maxVals = dataSet.max(0)

         ranges = maxVals - minVals

         normDataSet = zeros(shape(dataSet))

         m = dataSet.shape[0]

         normDataSet = dataSet - tile(minVals, (m,1))

         normDataSet = normDataSet/tile(ranges, (m,1))   #element wise divide

         return normDataSet, ranges, minVals  

     def datingClassTest():

         hoRatio = 0.50      #hold out 10%

         datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')       #load data setfrom file

         normMat, ranges, minVals = autoNorm(datingDataMat)

         m = normMat.shape[0]

         numTestVecs = int(m*hoRatio)

         errorCount = 0.0

         for i in range(numTestVecs):

             classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)

             print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i])

             if (classifierResult != datingLabels[i]): errorCount += 1.0

         print "the total error rate is: %f" % (errorCount/float(numTestVecs))

         print errorCount  

     def img2vector(filename):

         returnVect = zeros((1,1024))

         fr = open(filename)

         for i in range(32):

             lineStr = fr.readline()

             for j in range(32):

                 returnVect[0,32*i+j] = int(lineStr[j])

         return returnVect  

     def handwritingClassTest():

         hwLabels = []

         trainingFileList = listdir('trainingDigits')           #load the training set

         m = len(trainingFileList)

         trainingMat = zeros((m,1024))

         for i in range(m):

             fileNameStr = trainingFileList[i]

             fileStr = fileNameStr.split('.')[0]     #take off .txt

             classNumStr = int(fileStr.split('_')[0])

             hwLabels.append(classNumStr)

             trainingMat[i,:] = img2vector('trainingDigits/%s' % fileNameStr)

         testFileList = listdir('testDigits')        #iterate through the test set

         errorCount = 0.0

         mTest = len(testFileList)

         for i in range(mTest):

             fileNameStr = testFileList[i]

             fileStr = fileNameStr.split('.')[0]     #take off .txt

             classNumStr = int(fileStr.split('_')[0])

             vectorUnderTest = img2vector('testDigits/%s' % fileNameStr)

             classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)

             print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr)

             if (classifierResult != classNumStr): errorCount += 1.0

         print "\nthe total number of errors is: %d" % errorCount

         print "\nthe total error rate is: %f" % (errorCount/float(mTest))

第三步：通过命令行交互

（1）：先将上述代码保存为kNN.py

（2）：再在IDLE下的run菜单下run一下，将其生成python模块

（3）： import kNN（因为上一步已经生成knn模块）
（4）： kNN.classify0([0,0],group,labels,3) （讨论[0,0]点属于哪一个类）

注：其中【0,0】可以随意换

即【】内的坐标就是我们要判断的点的坐标：

>>> kNN.classify0([0,0],group,labels,3)
'B'
>>> kNN.classify0([0,1],group,labels,3)
'B'
>>> kNN.classify0([0.6,0.6],group,labels,3)
'A'

KNN算法的感受 1的更多相关文章

KNN算法的感受 2
(1):先将上述代码保存为kNN.py (2):再在IDLE下的run菜单下run一下,将其生成python模块 (3):import kNN(因为上一步已经生成knn模块) (4):kNN.cla ...
【Machine Learning】KNN算法虹膜图片识别
K-近邻算法虹膜图片识别实战作者:白宁超 2017年1月3日18:26:33 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...
KNN算法
1.算法讲解 KNN算法是一个最基本.最简单的有监督算法,基本思路就是给定一个样本,先通过距离计算,得到这个样本最近的topK个样本,然后根据这topK个样本的标签,投票决定给定样本的标签: 训练过程 ...
kNN算法python实现和简单数字识别
kNN算法算法优缺点: 优点:精度高.对异常值不敏感.无输入数据假定缺点:时间复杂度和空间复杂度都很高适用数据范围:数值型和标称型算法的思路: KNN算法(全称K最近邻算法),算法的思想很简单 ...
什么是 kNN 算法？
学习 machine learning 的最低要求是什么? 我发觉要求可以很低,甚至初中程度已经可以. 首先要学习一点 Python 编程,譬如这两本小孩子用的书:[1][2]便可. 数学方面 ...
数据挖掘之KNN算法（C#实现）
在十大经典数据挖掘算法中,KNN算法算得上是最为简单的一种.该算法是一种惰性学习法(lazy learner),与决策树.朴素贝叶斯这些急切学习法(eager learner)有所区别.惰性学习法仅仅 ...
机器学习笔记--KNN算法2-实战部分
本文申明:本系列的所有实验数据都是来自[美]Peter Harrington 写的<Machine Learning in Action>这本书,侵删. 一案例导入:玛利亚小姐最近寂寞了, ...
机器学习笔记--KNN算法1
前言 Hello ,everyone. 我是小花.大四毕业,留在学校有点事情,就在这里和大家吹吹我们的狐朋狗友算法---KNN算法,为什么叫狐朋狗友算法呢,在这里我先卖个关子,且听我慢慢道来. 一 K ...
学习OpenCV——KNN算法
转自:http://blog.csdn.net/lyflower/article/details/1728642 文本分类中KNN算法,该方法的思路非常简单直观:如果一个样本在特征空间中的k个最相似( ...

随机推荐

[转帖]Mysql 最简单的参数调优配置
http://blog.jobbole.com/113659/ 我并不期望成为一个专家级的 DBA,但是,在我优化 MySQL 时,我推崇 80/20 原则,明确说就是通过简单的调整一些配置,你可以压 ...
jquery无刷新文件上传解决IE安全性问题
很多项目中都需要有文件上传的功能,一般文件上传有几种方式,input file表单上传,flash上传. flash就不说了,能接受flash的就用吧. 下面介绍的这种是基于input file控件的 ...
深入理解Vue的生命周期
谈到Vue的生命周期,相信许多人并不陌生.但大部分人和我一样,只是听过而已,具体用在哪,怎么用,却不知道.我在学习vue一个多礼拜后,感觉现在还停留在初级阶段,对于mounted这个挂载还不是很清楚. ...
python自动化之PDF
###################################处理PDF和Word文档################################### ''' PDF和Word文档是二进 ...
Codeforces Round #530 Div. 1 自闭记
A:显然应该让未确定的大小尽量大.不知道写了啥就wa了一发. #include<iostream> #include<cstdio> #include<cmath> ...
BZOJ2547 CTSC2002玩具兵（最短路径+二分答案+最大流）
先不考虑只有一个显得有些特殊的天兵. 可以发现超能力的作用实质上是使兵更换职业.每一个兵到达某个位置最少需要更换职业的次数是彼此独立的,因为如果需要某两人互换职业可以使他们各自以当前职业到达需要到的地 ...
SP2713 GSS4
题目链接这是一道假题,表面上看起来,好像使用了什么奇妙的操作,其实就是一个无脑暴力我们会发现,即使是$1e18$,在开方$6$次之后也已经变成了$1$,而$1$再怎么开方还是\(1 ...
MySQL存储引擎 - Myisam和Innodb
Mysql有两种存储引擎:InnoDB与Myisam,下表是两种引擎的简单对比 MyISAM InnoDB 构成上的区别: 每个MyISAM在磁盘上存储成三个文件.第一个文件的名字以表的名字开始 ...
【转】Example of using the --info linker option
5.3 Example of using the --info linker option This is an example of the output generated by the --in ...
洛谷P3928 Sequence2（dp，线段树）
题目链接: 洛谷题目大意在描述底下有.此处不赘述. 明显是个类似于LIS的dp. 令 $dp[i][j]$ 表示: $j=1$ 时表示已经处理了 $i$ 个数,上一个选的数来自序列 $A[0]$ 的 ...

KNN算法的感受 1

KNN算法的感受 1的更多相关文章

随机推荐

热门专题