k-近邻算法（kNN）完整代码

 from numpy import *#科学计算包

 from numpy import tile

 from numpy import zeros

 import operator     #运算符模块

 import importlib

 import sys

 importlib.reload(sys)

 def createDataSet():

     group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])

     labels = ['A','A','B','B']

     return group,labels

 def classify0(inX, dataSet, labels, k):

     dataSetSize = dataSet.shape[0]

     #距离计算

     diffMat = tile(inX, (dataSetSize,1)) - dataSet

     sqDiffMat = diffMat**2      #平方

     sqDistances = sqDiffMat.sum(axis=1)     #根号下平方相加

     distances = sqDistances**0.5    #根号

     sortedDistIndicies = distances.argsort()    #排序

     classCount={}

     #选择距离最小的k个点

     for i in range(k):

         voteIlabel = labels[sortedDistIndicies[i]]

         classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1

         #排序，将classCount字典分解为元祖列表，导入itemgeeter方法，按照第二个元素的次序对元祖进行排序

         #此处排序为逆序，即从大到小排序，最后返回发生频率最高的元素标签。

         sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)

         return sortedClassCount[0][0]

     # 为预测数据所在分类：kNN.classify0([0,0], group, labels, 3)

 # mat()函数可以将数组(array)转化为矩阵（matrix）

 # randMat = mat(random.rand(4,4))

 # 求逆矩阵：randMat.I

 # 存储逆矩阵：invRandMat = randMat.I

 # 矩阵乘法：randMat*invRandMat

 # 求误差值：myEye = randMat*invRandMat

         #myEye - eye(4)

         #eye(4)创建4*4的单位矩阵

 # 使用createDataSet()函数，创建数据集和标签

 # 创建变量group和labels：group,labels = kNN.createDataSet()

 # labels包含的元素个数 = group矩阵的行数

 # 输入变量名字检验是否正确：group和labels

 #

 #

 # 准备数据：从文本文件中解析数据

 # 在kNN.py中创建名为file2matrix的函数，处理输入格式问题

 # 该函数的输入为文件名字符串，输出为训练样本矩阵和类标签向量

 # 将文本记录到转换Numpy的解析程序

 def file2matrix(filename):

     fr = open(filename)

     arrayOLines = fr.readlines()

     numberOfLines = len(arrayOLines)    #得到文件行数

     returnMat = zeros((numberOfLines,3))    #创建返回的Numpy矩阵

     classLabelVector = []

     index = 0

     for line in arrayOLines:    #解析文件数据列表

         line = line.strip()     #使用line.strip（）截取掉所有的回车字符

         listFromLine = line.split('\t')     #使用tab字符\t将上一步得到的整行数据分割成一个元素列表

         returnMat[index,:] = listFromLine[0:3]      #选取前三个元素，存储到特征矩阵中

         classLabelVector.append(int(listFromLine[-1]))      #-1表示列表中的最后一列元素，存储到向量classLabelVector中

         index += 1

         return returnMat,classLabelVector

 #准备数据：归一化数值

 def autoNorm(dataSet):      #autoNorm()函数可以自动将数字特征值转换为0到1的区间

     minVals = dataSet.min(0)

     maxVals = dataSet.max(0)    #ddataSet.max(0)中的参数0使得函数可以从列中选取最小值

     ranges = maxVals - minVals

     normDataSet = zeros(shape(dataSet))

     m = dataSet.shape[0]

     #newValue = (oldValue-min)/(max-min)，该公式可以将任意取值范围的特征值转换为0到1区间内的值

     #tile()函数将变量内容复制成输入矩阵同样大小的矩阵（具体特征值相除）

     #在numpy库中，矩阵除法需要使用函数linalg.solve(matA,matB)

     normDataSet = dataSet - tile(minVals, (m,1))

     normDataSet = normDataSet/tile(ranges, (m,1))

     return normDataSet, ranges, minVals

 #测试算法：作为完整程序验证分类器

 def datingClassTest():

     hoRatio = 0.10  #设置测试集比重，前10%作为测试集，后90%作为训练集

     datingDataMat,datingLabels = file2matrix('datingTestSet.txt')

     normMat, ranges, minVals = autoNorm(datingDataMat)

     m = normMat.shape[0]    #得到样本数量m

     numTestVecs = int(m*hoRatio)    #得到测试集最后一个样本的位置

     errorCount = 0.0    #初始化定义错误个数为0

     for i in range(numTestVecs):

         #测试集中元素逐一放进分类器测试，k = 3

         classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)

         #输出分类结果与实际label

         print("the classifier came back with: %d, the real answer is: %d"% (classifierResult, datingLabels[i]))

         #若预测结果与实际label不同，则errorCount+1

         if (classifierResult !=datingLabels[i]): errorCount += 1.0

         #输出错误率 = 错误的个数 / 总样本个数

         print("the total error rate is: %f" % (errorCount/float(numTestVecs)))

 #约会网站预测数据

 def classifyPersion():

     resultList = ['not at all','in small doses','in large doses']

     #input()函数允许用户输入文本行命令并返回用户所输入的命令

     percentTats = float(input("percentage of time spent playing video games?"))

     ffMiles = float(input("frequent year?"))

     iceCream = float(input("liters years?"))

     datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')

     normMat, ranges, minVals = autoNorm(datingDataMat)

     inArr = array([ffMiles,percentTats, iceCream])

     classifierResult = classify0((inArr-minVals)/ranges,normMat,datingLabels,3)

     print("you like person:",resultList[classifierResult - 1])

 #准备数据：将图像转换为测试向量

 #img2vector函数，将图像转换为向量：该函数创建1*2014的numpy数组，

 #然后打开给定的文件，循环读出文件的前32行，并将每行的头32个字符值存储在numpy数组中，最后返回数组

 def img2vector(filename):

     returnVect = zeros((1,1024))

     fr = open(filename)

     for i in range(32):

         lineStr = fr.readline()

         for j in range(32):

             returnVect[0,32*i+j] = int(lineStr[j])

             return returnVect

 #测试算法：识别手写数字

 def handwritingClassTest():

     hwLabels = []

     trainingFileList = os.listdir('trainingDigits')

     m = len(trainingFileList)

     trainingMat = zeros((m,1024))

     #文件名下划线_左边的数字是标签

     for i in range(m):

         fileNameStr = trainingFileList[i]

         fileStr = fileNameStr.split(".")[0]

         classNumStr = int(fileStr.split('_')[0])

         hwLabels.append(classNumStr)

         trainingMat[i,:] = img2vector('trainingDigits/%s' % fileNameStr)

     testFileList = os.listdir('trainingDigits')

     errorCount = 0.0

     mTest = len(testFileList)

     for i in range(mTest):

         fileNameStr = testFileList[i]

         fileStr = fileNameStr.split('.')[0]  # take off .txt

         classNumStr = int(fileStr.split('_')[0])

         vectorUnderTest = img2vector('digits/testDigits/%s' % fileNameStr)

         classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)

         print("the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr))

         if (classifierResult != classNumStr): errorCount += 1.0

     print("the total number of errors is: %d" % errorCount)

     print("the total error rate is: %f" % (errorCount / float(mTest)))

k-近邻算法（kNN）完整代码的更多相关文章

k近邻算法(KNN)
k近邻算法(KNN) 定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别. from sklearn.model_selection ...
机器学习(四) 分类算法--K近邻算法 KNN (上)
一.K近邻算法基础 KNN------- K近邻算法--------K-Nearest Neighbors 思想极度简单应用数学知识少 (近乎为零) 效果好(缺点?) 可以解释机器学习算法使用过程中 ...
一看就懂的K近邻算法(KNN)，K-D树，并实现手写数字识别！
1. 什么是KNN 1.1 KNN的通俗解释何谓K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,单从名字来猜想,可以简单粗暴的认为是:K个最近的邻居,当K=1 ...
机器学习(四) 机器学习(四) 分类算法--K近邻算法 KNN (下)
六.网格搜索与 K 邻近算法中更多的超参数七.数据归一化 Feature Scaling 解决方案:将所有的数据映射到同一尺度八.scikit-learn 中的 Scaler preprocess ...
k近邻算法(knn)的c语言实现
最近在看knn算法,顺便敲敲代码. knn属于数据挖掘的分类算法.基本思想是在距离空间里,如果一个样本的最接近的k个邻居里,绝大多数属于某个类别,则该样本也属于这个类别.俗话叫,"随大流&q ...
《机器学习实战》---第二章 k近邻算法 kNN
下面的代码是在python3中运行, # -*- coding: utf-8 -*- """ Created on Tue Jul 3 17:29:27 2018 @au ...
最基础的分类算法-k近邻算法 kNN简介及Jupyter基础实现及Python实现
k-Nearest Neighbors简介对于该图来说,x轴对应的是肿瘤的大小,y轴对应的是时间,蓝色样本表示恶性肿瘤,红色样本表示良性肿瘤,我们先假设k=3,这个k先不考虑怎么得到,先假设这个k是 ...
07.k近邻算法kNN
1.将数据分为测试数据和预测数据 2.数据分为data和target,data是矩阵,target是向量 3.将每条data(向量)绘制在坐标系中,就得到了一系列的点 4.根据每条data的targe ...
机器学习随笔01 - k近邻算法
算法名称: k近邻算法 (kNN: k-Nearest Neighbor) 问题提出: 根据已有对象的归类数据,给新对象(事物)归类. 核心思想: 将对象分解为特征,因为对象的特征决定了事对象的分类. ...
机器学习（1）——K近邻算法
KNN的函数写法 import numpy as np from math import sqrt from collections import Counter def KNN_classify(k ...

随机推荐

PHP调试环境之：Eclipse for PHP
Eclipse IDE for PHP Developers + Zend Debugger Feature . 在网上搜过一些朋友配置 eclipse --> php --> pdt , ...
springboot jpa 级联操作及测试问题（@Transactional与@Test）
前言:测试springboot版本 :springBootVersion = '2.0.5.RELEASE' 一 :搬运@Transactional B. 如果加了事务,必须做好开发环境测试( ...
APT攻防整理-常用CVE
常用CVE CVE-- 受影响版本 Windows /Windows /Windows Server /Windows Server R2/Windows Server /Windows Server ...
CPU高速缓存行与内存关系及并发MESI 协议(转载)
原文链接 http://www.cnblogs.com/jokerjason/p/9584402.html 先来一个整体图一. 大致关系: CPU Cache --> 前端总线 FSB (下图 ...
pgsql删除重复记录
如下: DELETE FROM categories a WHERE ( a.id, a.name, a.parent_id ) ) ) 关键点:oracle中有内部id为rowid, 在postgr ...
Scala函数高级操作
字符串高级操作:***** 非常重要将函数赋值给变量/值def sayHello(name:String): Unit = { println(s"Hello:$name")} ...
Asp.Net Core 发布和部署 Linux + Nginx
安装.NET Core SDK 官方介绍:https://dotnet.microsoft.com/download/linux-package-manager/centos/sdk-current ...
[BZOJ2138]stone(Hall定理，线段树)
Description 话说Nan在海边等人,预计还要等上M分钟.为了打发时间,他玩起了石子.Nan搬来了N堆石子,编号为1到N,每堆包含Ai颗石子.每1分钟,Nan会在编号在\([L_i,R_i] ...
水题（三角形与扇形面积计算sin（）应用）
J - Sincerely Gym - 101350J Physics cat likes to draw shapes and figure out their area. He starts by ...
Codeforces 1091C (数学)
题面传送门分析假设k是固定的,那访问到的节点编号就是$1+(a·k \mod n )$,其中a为正整数. 通过找规律不难发现会出现循环. 通过题目中的图片我们不难发现只有k=1,2,3,6 ...

k-近邻算法（kNN）完整代码

k-近邻算法（kNN）完整代码的更多相关文章

随机推荐

热门专题