kNN-预测

现在进行第五步，对数据进行预测

那么要做的的是从数据集里面拿出一部分作为要预测的，剩下的去比较，书上使用的是10%

# 对之前做好的kNN算法进行预测

# 首先获取之前构造好的kNN分类器、数据、规则化之后的数据

import kNN

import norm

# 倒完包之后先别急，目的是从规则化的数据集里面选100个出来，用分类器进行预测，计算错误率

# 这里图简单，直接用的前100个进行预测，后面会打乱数据集进行真正的随机

labelSet = norm.labelSet

norm_data = norm.norm_data

random_ratio = 0.10

norm_num = len(norm_data)  # 1000

predict_num = int(random_ratio * norm_num)  # 100

errorNum = 0.0

然后进行预测，预测的思路是：

100行预测，剩下900行作为比对
每次取1行，然后经过分类器得出结果，再与标记的结果进行比较，看正误
输出结果并计算错误率

# 开始预测

for i in range(predict_num):

    predict_result = kNN.classifier(norm_data[i, :], norm_data[predict_num:norm_num, :], labelSet[predict_num:norm_num], 3)

    # print(predict_result)

    print("the classifier came back with:%d,the real answer is:%d " % (predict_result, labelSet[i]))

    if predict_result != labelSet[i]:

        errorNum += 1.0

print("the total error rate is:%f"%(errorNum/float(predict_num)))

然鹅，报错了

TypeError: unhashable type: 'numpy.ndarray'

这里的报错，网上找了很多，都没有解决，尝试自己一步一步解决

首先，在kNN文件中使用classifier是没有问题的
这里的错误指向的是kNN.classifier，但是检查了网上说的几种情况如变量名冲突、np.array类型都没有问题
那么只有可能是kNN中classifier的数据类型出了问题
通过报错提示的行数，将字典中的label类型从str修改为int，即可成功

修改代码如下

# kNN.py

label = int(label)

再次运行predict.py

# 对之前做好的kNN算法进行预测

# 首先获取之前构造好的kNN分类器、数据、规则化之后的数据

import kNN

import norm

# 倒完包之后先别急，目的是从规则化的数据集里面选100个出来，用分类器进行预测，计算错误率

# 这里图简单，直接用的前100个进行预测，后面会打乱数据集进行真正的随机

labelSet = norm.labelSet

norm_data = norm.norm_data

random_ratio = 0.10

norm_num = len(norm_data)  # 1000

predict_num = int(random_ratio * norm_num)  # 100

errorNum = 0.0

# 开始预测

for i in range(predict_num):

    predict_result = kNN.classifier(norm_data[i, :], norm_data[predict_num:norm_num, :], labelSet[predict_num:norm_num], 3)

    # print(predict_result)

    print("the classifier came back with:%d,the real answer is:%d " % (predict_result, labelSet[i]))

    if predict_result != labelSet[i]:

        errorNum += 1.0

print("the total error rate is:%f"%(errorNum/float(predict_num)))

结果如下

the classifier came back with:3,the real answer is:3

the classifier came back with:2,the real answer is:2

the classifier came back with:1,the real answer is:1

...

the classifier came back with:3,the real answer is:1

the total error rate is:0.050000

但是，这也会带来一个问题，那就是原来kNN中的预测会报错，因为原来标签是对应的str类型

kNN-预测的更多相关文章

tensorflow knn 预测房价注意有 Min-Max Scaling
示例数据: 0.00632 18.00 2.310 0 0.5380 6.5750 65.20 4.0900 1 296.0 15.30 396.90 4.98 24.00 0.02731 0.00 ...
【Machine Learning】KNN算法虹膜图片识别
K-近邻算法虹膜图片识别实战作者:白宁超 2017年1月3日18:26:33 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...
海伦去约会——kNN算法
下午于屋中闲居,于是翻开<机器学习实战>一书看了看“k-邻近算法”的内容,并学习了一位很厉害的博主Jack Cui的代码,自己照着码了一遍.在此感谢博主Jack Cui的知识分享. 一.k ...
KNN算法 - 数据挖掘算法（3）
(2017-04-10 银河统计) KNN算法即K Nearest Neighbor算法.这个算法是机器学习里面一个比较经典的.相对比较容易理解的算法.其中的K表示最接近自己的K个数据样本.KNN算法 ...
python机器学习---线性回归案例和KNN机器学习案例
散点图和KNN预测一丶案例引入 # 城市气候与海洋的关系研究 # 导包 import numpy as np import pandas as pd from pandas import Serie ...
ES：AI 注释
为AI做注解: AI已经出第三版,大的框架没有改变,DNN也没有引入AI这本书.第四版网络版应流出,不知道最终定版如何! 强化学习的方法有大幅度更新,但从策略系统更新范畴看来,没有什么实质的改变,只是 ...
Python机器学习笔记 Grid SearchCV（网格搜索）
在机器学习模型中,需要人工选择的参数称为超参数.比如随机森林中决策树的个数,人工神经网络模型中隐藏层层数和每层的节点个数,正则项中常数大小等等,他们都需要事先指定.超参数选择不恰当,就会出现欠拟合或者 ...
小数据玩转Pyspark(2)
一.客户画像客户画像应用:精准营销(精准预测.个性化推荐.联合营销):风险管控(高风险用户识别.异常用户识别.高可疑交易识别):运营优化(快速决策.产品组合优化.舆情分析.服务升级):业务创新(批量 ...
股票价格涨跌预测—基于KNN分类器
code{white-space: pre;} pre:not([class]) { background-color: white; }if (window.hljs && docu ...
[Python] 应用kNN算法预测豆瓣电影用户的性别
应用kNN算法预测豆瓣电影用户的性别摘要本文认为不同性别的人偏好的电影类型会有所不同,因此进行了此实验.利用较为活跃的274位豆瓣用户最近观看的100部电影,对其类型进行统计,以得到的37种电影类 ...

随机推荐

springboot-数据库访问之jpa
什么是springDate? springData的作用: 整体简化的架构: JPA :Java Persistence API 如果没有springData 我们需要去学每一种对应的jpa实现, 有 ...
学习Docker（一）
一.docker介绍 docker是半虚拟化,比完全虚拟化性能高,可以使用物理机性能100% Docker 镜像(Images): 用于创建 Docker 容器的模板 Docker 容器(Contai ...
Flask 简单使用,这一篇就够了!
#Flask 安装依赖包及作用 - jinja2 模板语言 (flask依赖包) - markupsafe 防止css攻击 (flask依赖包) - werkzeug --wkz 类似于django中 ...
Redis报错：DENIED Redis is running in protected mode
转:Redis使用认证密码登录 Redis默认配置是不需要密码认证的,也就是说只要连接的Redis服务器的host和port正确,就可以连接使用.这在安全性上会有一定的问题,所以需要启用Redis ...
Numpy实现机器学习交叉验证的数据划分
Numpy实现K折交叉验证的数据划分本实例使用Numpy的数组切片语法,实现了K折交叉验证的数据划分背景:K折交叉验证为什么需要这个?在机器学习中,因为如下原因,使用K折交叉验证能更好评估模型效 ...
一次关于关系抽取(RE)综述调研的交流心得
本文来自于一次交流的的记录,{}内的为个人体会. 基本概念实事知识:实体-关系-实体的三元组.比如, 知识图谱:大量实时知识组织在一起,可以构建成知识图谱. 关系抽取:由于文本中蕴含大量事实知识,需 ...
使用Google Closure Compiler高级压缩Javascript代码
背景前端开发中,特别是移动端,Javascript代码压缩已经成为上线必备条件. 如今主流的Js代码压缩工具主要有: 1)Uglify http://lisperator.net/uglifyjs/ ...
H5移动端开发
开发前准备环境: Node.js LTS版本 git 最新版文档: 本项目技术栈基于 ES2016 VueJS vux 快速开始 1.克隆项目 git clone https://gitee.co ...
matplotlib---legend图例
import numpy as np import matplotlib.pyplot as plt x = np.linspace(-3, 3, 50) y1 = 2 * x + 1 y2 = x ...
Java中List接口重要实现类一ArrayList
1.java.util.ArrayList 集合数据存储的结构是数组结构.元素查找快,而增删就比较慢所以如果要查询数据,遍历数据,ArrayList是最常用的集合 2.ArrayList是不同步的, ...

kNN-预测

kNN-预测的更多相关文章

随机推荐

热门专题