knn算法手写字识别案例

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import os

from sklearn.neighbors  import KNeighborsClassifier

def build_data(dir_name):

    """

    构建数据

    :param dir_name: 指定传入文件夹名称

    :return: 构建好的数据

    """

    # 获取文件名列表

    file_name_list = os.listdir(dir_name + "/")

    print("获取到的文件名列表：\n", file_name_list)

    # 进行读取文件

    data = np.zeros(shape=(len(file_name_list), 1025))

    # 循环读取文件

    for file_index, file_name in enumerate(file_name_list):

        # file_index  文本名称所对应的下标

        # file_name  文本名称

        # 加载数据

        file_data = np.loadtxt(dir_name + "/" + file_name, dtype=np.str)

        # 构建一个列表

        arr = []

        for file_data_index, file_data_content in enumerate(file_data):

            # print(file_data_content)

            # print("*"*80)

            # 将 每一个元素转化为一个int 类型的列表

            arr_sigle_list = [int(tmp) for tmp in file_data_content]

            # print(arr)

            # 把每个元素添加到列表中

            arr.append(arr_sigle_list)

        # print(arr)

        # 将一个样本转化为数组

        arr_single_sample = np.array(arr)

        # print(arr_single_sample)

        # np.savetxt("./hh.txt",arr_single_sample,fmt="%d")

        # 将二维数组展开为一维---特征值

        arr_single_sample = arr_single_sample.ravel()

        # print(arr_single_sample)

        # 目标值

        label = int(file_name[0])

        # print(res)

        # print(arr_single_sample.shape)

        # 将一个 完整的样本拼接起来,组成完整的样本

        arr_single_sample = np.concatenate((arr_single_sample, [label]), axis=0)

        # print(arr_single_sample)

        # print(arr_single_sample.shape)

        data[file_index, :] = arr_single_sample

    # print(data)

    return data

def save_data(file_name, data):

    """

    保存文件

    :param file_name: 保存的文件名称

    :param data: 保存的数组

    :return: None

    """

    if not os.path.exists("./data/"):

        os.makedirs("./data/")

    np.save("./data/" + file_name, data)

def load_data(file_name):

    """

    加载数据

    :param file_name:文件路径+ 名称

    :return: 数据

    """

    data = np.load(file_name, allow_pickle=True)

    return data

def distance(v1, v2):

    """

    计算距离

    :param v1: 点1

    :param v2: 点2

    :return: 距离

    """

    dist = np.sqrt(np.sum(np.power((v1 - v2), 2)))

    return dist

def knn_owns(train, test, k):

    """

    自定knn算法实现手写字识别

    :param train: 训练集数据

    :param test: 测试集数据

    :param k: 邻居个数

    :return: 准确率

    """

    # 设置计数器

    true_num = 0

    # 获取训练集的特征值 目标值

    train_x = train.iloc[:, :-1].values

    train_y = train.iloc[:, -1].values

    # 获取测试集的特征值 目标值

    test_x = test.iloc[:, :-1].values

    test_y = test.iloc[:, -1].values

    # 计算每一个测试样本特征与每一个训练样本特征的距离

    for i in range(test.shape[0]):  # 循环每一个 测试样本

        for j in range(train.shape[0]):

            # 计算距离

            dist = distance(test_x[i,:],train_x[j,:])

            train.loc[j,'dist'] = dist

        res = train.sort_values(by='dist')

        mode = res.iloc[:,-2][:k].mode()[0]

        if mode == test_y[i]:

            true_num  += 1

        # print(test_y)

    score =  true_num / test.shape[0]

    print(score)

    return  score

# train_data  = build_data("./trainingDigits")

# test_data  = build_data("./testDigits")

#

# save_data("train_data",train_data)

# save_data("test_data",test_data)

# 加载数据

train = load_data("./data/train_data.npy")

test = load_data("./data/test_data.npy")

train = pd.DataFrame(train)

test = pd.DataFrame(test)

# print(train)

# print("*"*80)

# print(test)

k_list = [5,6,7,8,9,10]

score_list = []

for k  in k_list:

    # score = knn_owns(train, test, k)

    # score_list.append(score)

    knn = KNeighborsClassifier(n_neighbors=k)

    #训练数据

    knn.fit(train.iloc[:,:-1].values,train.iloc[:,-1].values)

    # 进行预测

    y_predict = knn.predict(test.iloc[:,:-1].values)

    # 可以获取准确率

    score = knn.score(test.iloc[:,:-1].values,test.iloc[:,-1].values)

    score_list.append(score)

print(score_list)

#进行结果可视化

# 1、创建画布

plt.figure()

# 默认不支持中文，需要配置RC 参数

plt.rcParams['font.sans-serif']='SimHei'

# 设置字体之后不支持负号，需要去设置RC参数更改编码

plt.rcParams['axes.unicode_minus']=False

# 2、绘图

x = np.array(k_list)

y = np.array(score_list)

plt.plot(x,y)

plt.title("k与准确率的关系走势图")

plt.xlabel("k值")

plt.ylabel("准确率")

plt.savefig("./k值对准确率的影响.png")

# 3、展示

plt.show()

knn算法手写字识别案例的更多相关文章

【Machine Learning】KNN算法虹膜图片识别
K-近邻算法虹膜图片识别实战作者:白宁超 2017年1月3日18:26:33 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...
用TensorFlow教你手写字识别
博主原文链接:用TensorFlow教你做手写字识别(准确率94.09%) 如需转载,请备注出处及链接,谢谢. 2012 年,Alex Krizhevsky, Geoff Hinton, and Il ...
k最邻近算法——使用kNN进行手写识别
上篇文章中提到了使用pillow对手写文字进行预处理,本文介绍如何使用kNN算法对文字进行识别. 基本概念 k最邻近算法(k-Nearest Neighbor, KNN),是机器学习分类算法中最简单的 ...
机器学习实战kNN之手写识别
kNN算法算是机器学习入门级绝佳的素材.书上是这样诠释的:“存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都有标签,即我们知道样本集中每一条数据与所属分类的对应关系.输入没有标签的新数据 ...
python 实现 KNN 分类器——手写识别
1 算法概述 1.1 优劣优点:进度高,对异常值不敏感,无数据输入假定缺点:计算复杂度高,空间复杂度高应用:主要用于文本分类,相似推荐适用数据范围:数值型和标称型 1.2 算法伪代码 (1)计 ...
tensorflow卷积神经网络与手写字识别
1.知识点 """ 基础知识: 1.神经网络(neural networks)的基本组成包括输入层.隐藏层.输出层.而卷积神经网络的特点在于隐藏层分为卷积层和池化层(po ...
k-近邻算法-手写识别系统
手写数字是32x32的黑白图像.为了能使用KNN分类器,我们需要把32x32的二进制图像转换为1x1024 1. 将图像转化为向量 from numpy import * # 导入科学计算包numpy ...
tensorflow神经网络与单层手写字识别
1.知识点 """ 1.基础知识: 1.神经网络结构:1.输入层 2.隐含层 3.全连接层(类别个数=全连接层神经元个数)+softmax函数 4.输出层 2.逻辑回归: ...
基于PyTorch实现MNIST手写字识别
本篇不涉及模型原理,只是分享下代码.想要了解模型原理的可以去看网上很多大牛的博客. 目前代码实现了CNN和LSTM两个网络,整个代码分为四部分: Config:项目中涉及的参数: CNN:卷积神经网络 ...

随机推荐

VS2015-MFC基础教程-应用程序工程中文件的组成结构
VS2015应用程序向导生成框架程序后,我们可以在之前设置的Location下看到此文件夹中包含了几个文件和一个以工程名命名的子文件夹,这个子文件夹中又包含了若干个文件和一个res文件夹,创建工程时的 ...
axios动态数据的获取
跨域:前端处理.后端处理前端方法:代理后端加header 第一步:全局安装axios cnpm install axios --save-dev 第二步: methods:{ ...
C++　CMake 入门实战[转载]
C++ CMake 入门实战 2016-11-05 CMake用于跨平台的编译系统,对于通常的c/c++工程,都是通过make来进行编译的,CMake可以通过指令生成Makefile文件来指导整个项目 ...
spring boot 加载指定xml
方法一:使用@ImportResource 方法二:在test中 @ContextConfiguration(locations = "classpath:spring-profile.xm ...
python基础--4 元祖
#元组,元素不可被修改,不能被增加或者删除 #tuple,有序 tu=(11,22,33,44,55,33) #count 获取指定元素在元祖中出现的次数 print(tu.count(33)) #i ...
使用Node，Vue和ElasticSearch构建实时搜索引擎
(译者注:相关阅读:node.js,vue.js,Elasticsearch) 介绍 Elasticsearch是一个分布式的RESTful搜索和分析引擎,能够解决越来越多的用例. Elasticse ...
【GMOJ6377】幽曲[埋骨于弘川]
Description \(n\in[1,500],k\in[2,10]\). Solution 这是一道有点很有难度的题. 先考虑判断一个数是否在数列\(a\)中.由于每次加的数是在\([0,k)\ ...
包装CGFloat和用NSNumber初始化的区别？
@(CGFloat)和[NSNumber numberWith:CGFloat]的区别?
[USACO16JAN]愤怒的奶牛Angry Cows (单调队列优化dp)
题目链接 Solution 应该可以用二分拿部分分,时间 \(O(n^2logn)\) . 然后可以考虑 \(n^2\) \(dp\) ,令 \(f_i\) 代表 \(i\) 点被激活,然后激活 \( ...
ECSHOP2.7源码分析
目录结构

knn算法手写字识别案例

knn算法手写字识别案例的更多相关文章

随机推荐

热门专题