K近邻实战手写数字识别

1、导包

import numpy as np

import operator

from os import listdir

from sklearn.neighbors import KNeighborsClassifier as KNN

%config ZMQInteractiveShell.ast_node_interactivity='all'

2、定义将图像转换成向量的函数

"""

函数说明：将32x32的二进制图像转换成1x1024向量

Parameters:

    filename - 文件名

Returns:

    returnVect - 返回的二进制图像的1x1024向量

"""

def img2vector(filename):

    # 创建1x1024零向量

    returnVect = np.zeros((1, 1024))

    # 打开文件

    fr = open(filename)

    # 按行读取

    for i in range(32):

        # 读一行数据

        lineStr = fr.readline()

        # 每一行的前32个元素一次添加到returnVect中

        for j in range(32):

            returnVect[0, 32*i + j] = int(lineStr[j])

    # 返回转换后的1x1024向量

    return returnVect

3、定义手写数字识别系统函数

"""

函数说明：手写数字分类测试

Parameters：

    无

Returns：

    无

"""

def handwritingClassTest():

    # 训练集的Labels

    hwLabels = []

    # 返回trainingDigits目录下的文件名

    trainingFileList = listdir('trainingDigits')

    # 返回文件夹下的文件的个数

    m = len(trainingFileList)

    # 初始化训练的Mat矩阵，训练集

    trainingMat = np.zeros((m, 1024))

    # 从文件集中解析出训练集的类别

    for i in range(m):

        # 获得文件的名字

        fileNameStr = trainingFileList[i]

        # 获得分类的数字

        classNumber = int(fileNameStr.split('_')[0])

        # 将获得的类别添加到hwLabels中

        hwLabels.append(classNumber)

        # 将每一个文件的1x1024数据存储到trainingMat矩阵中

        trainingMat[i, :] = img2vector('trainingDigits/%s' % (fileNameStr))

    # 构建KNN分类器

    neigh = KNN(n_neighbors=3, algorithm='auto')

    # 拟合模型，trainingMat为训练矩阵，hwLabels为对应的标签

    neigh.fit(trainingMat, hwLabels)

    # 返回testDigits目录下的文件列表

    testFileList = listdir('testDigits')

    # 错误检查计数

    errorCount = 0.0

    # 测试数据的数量

    mTest = len(testFileList)

    # 从文件中解析出测试集的类别并进行分类测试

    for i in range(mTest):

        # 获得文件的名字

        fileNameStr = testFileList[i]

        # 获得分类的数字

        classNumber = int(fileNameStr.split('_')[0])

        # 获得测试集的1x1024向量，用于训练

        vectorUnderTest = img2vector('testDigits/%s' % (fileNameStr))

        # 获得预测结果

        classifierResult = neigh.predict(vectorUnderTest)

        # 打印

        print('分类返回结果为%d\t真实结果为%d' % (classifierResult, classNumber))

        if(classifierResult != classNumber):

            errorCount += 1.0

    print('总共错了%d个数据\n错误率为%f%%' %(errorCount, errorCount/mTest * 100))

4 运行结果

if __name__ == "__main__":

    handwritingClassTest()

数据集地址：

链接：https://pan.baidu.com/s/1yNi3TJhYtlBr2MFR8rCkaw
提取码：9epj

参考：

1、《机器学习实战》书籍

2、https://github.com/apachecn/AiLearning

3、https://cuijiahua.com/blog/2017/11/ml_1_knn.html

4、深度之眼机器学习实战训练营课后作业（http://www.deepshare.net/）

K近邻实战手写数字识别的更多相关文章

深度学习之PyTorch实战（3）——实战手写数字识别
上一节,我们已经学会了基于PyTorch深度学习框架高效,快捷的搭建一个神经网络,并对模型进行训练和对参数进行优化的方法,接下来让我们牛刀小试,基于PyTorch框架使用神经网络来解决一个关于手写数字 ...
Tensorflow实战手写数字识别（Tensorboard可视化）
一.前言为了更好的理解Neural Network,本文使用Tensorflow实现一个最简单的神经网络,然后使用MNIST数据集进行测试.同时使用Tensorboard对训练过程进行可视化,算是打 ...
一看就懂的K近邻算法(KNN)，K-D树，并实现手写数字识别！
1. 什么是KNN 1.1 KNN的通俗解释何谓K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,单从名字来猜想,可以简单粗暴的认为是:K个最近的邻居,当K=1 ...
用MXnet实战深度学习之一:安装GPU版mxnet并跑一个MNIST手写数字识别
用MXnet实战深度学习之一:安装GPU版mxnet并跑一个MNIST手写数字识别 http://phunter.farbox.com/post/mxnet-tutorial1 用MXnet实战深度学 ...
kaggle 实战（1）: PCA + KNN 手写数字识别
文章目录加载package read data PCA 降维探索选择50维度, 拆分数据为训练集,测试机 KNN PCA降维和K值筛选分析k & 维度 vs 精度预测生成提交文件本 ...
机器学习（二）-kNN手写数字识别
一.kNN算法是机器学习的入门算法,其中不涉及训练,主要思想是计算待测点和参照点的距离,选取距离较近的参照点的类别作为待测点的的类别. 1,距离可以是欧式距离,夹角余弦距离等等. 2,k值不能选择太大 ...
keras和tensorflow搭建DNN、CNN、RNN手写数字识别
MNIST手写数字集 MNIST是一个由美国由美国邮政系统开发的手写数字识别数据集.手写内容是0~9,一共有60000个图片样本,我们可以到MNIST官网免费下载,总共4个.gz后缀的压缩文件,该文件 ...
OpenCV+TensorFlow图片手写数字识别(附源码)
初次接触TensorFlow,而手写数字训练识别是其最基本的入门教程,网上关于训练的教程很多,但是模型的测试大多都是官方提供的一些素材,能不能自己随便写一串数字让机器识别出来呢?纸上得来终觉浅,带着这 ...
深度学习面试题12：LeNet(手写数字识别)
目录神经网络的卷积.池化.拉伸 LeNet网络结构 LeNet在MNIST数据集上应用参考资料 LeNet是卷积神经网络的祖师爷LeCun在1998年提出,用于解决手写数字识别的视觉任务.自那时起 ...

随机推荐

Andronov-Hopf bifurcation
地址:http://www.scholarpedia.org/article/Andronov-Hopf_bifurcation Andronov-Hopf bifurcation is the bi ...
[USACO12DEC]第一!First!（字典树，拓扑排序）
[USACO12DEC]第一!First! 题目描述 Bessie has been playing with strings again. She found that by changing th ...
eclipse多个项目提交到同一个仓库(码云)
参考博客:Eclipse提交多个项目到同一个仓库 https://blog.csdn.net/qq_30764991/article/details/80379365 步骤一:码云建立个远程仓库步骤 ...
uoj280 【UTR #2】题目难度提升堆维护中位数+set
题目传送门 http://uoj.ac/problem/280 题解这道题很妙啊. 这种题目如果给予选手足够的时间,每一个选手应该都能做出来. 大概就是核心思路看上去很简单,但是想要推出来并不简单. ...
用户界面控件Telerik UI for WinForms发布R2 2019|附下载
Telerik UI for WinForms拥有适用Windows Forms的110多个令人惊叹的UI控件.所有的UI for WinForms控件都具有完整的主题支持,可以轻松地帮助开发人员在桌 ...
用电脑Python控制Arduino
python指令: import serial #导入串口通讯库 import time ser=serial.Serial("com4",9600,timeout=1) demo ...
eclips 中的 svn 更新报错，被锁住解决办法
svn更新不下来,在文件的目录上选择 Team,然后选择 Refresh/Cleanup ,然后就可以了,这个方法我自己试有效,做为参考,对其它情况不一定有效报错如下解决方法
JDK5的新特性
本篇博客内容一.自动装箱和自动拆箱二.泛型三.增强for循环四.静态导入五.可变参数六.枚举一.自动装箱和自动拆箱 <=返回目录 java有8种基本数据类型 byte.shor ...
php实现大文件上传带进度条
1.使用PHP的创始人 Rasmus Lerdorf 写的APC扩展模块来实现(http://pecl.php.net/package/apc) APC实现方法: 安装APC,参照官方文档安装,可以使 ...
ELK整合Filebeat监控nginx日志
ELK 日志分析 1. 为什么用到 ELK 一般我们需要进行日志分析场景:直接在日志文件中 grep. awk 就可以获得自己想要的信息.但在规模较大的场景中,此方法效率低下,面临问题包括日志量太大如 ...

K近邻实战手写数字识别

K近邻实战手写数字识别的更多相关文章

随机推荐

热门专题