KNN:k近邻算法-在训练样本中找到与待测样本距离相近的N个样本,并用这N个样本中所属概率最大的类别作为待测样本的类别。

算法步骤:

1、对训练中的样本数据的不同属性进行归一化处理。

2、计算待测样本到训练样本集中的距离。(欧拉距离或曼哈顿距离);

3、找到N个距离最小的样本属于不同类别的概率。

4、取最大的概率作为待测样本的类别。

例子1: 相亲

相亲考虑的条件:

1) 每年飞行公里

2) 每周打的游戏时长

3)每周消耗的ice cream

态度用1,2,3表示:1表示little like 2表示much like 3表示pass

数据集路径https://github.com/pbharrin/machinelearninginaction

matlab 代码:大神请给优化。。。。。

clc,clear;
%1)加载数据
TEST = load('datingTestSet2.txt'); r1 = find(TEST(:,4) == 1);
r2 = find(TEST(:,4) == 2);
r3 = find(TEST(:,4) == 3); % 1)绘制原始数据
plot3(TEST(r1,1),TEST(r1,2),TEST(r1,3),'.b');
hold on
plot3(TEST(r2,1),TEST(r2,2),TEST(r2,3),'.g');
hold on
plot3(TEST(r3,1),TEST(r3,2),TEST(r3,3),'.r');
xlabel('plane');
ylabel('game');
zlabel('ice'); %对不同属性的数据归一化处理
maxr1 = max(TEST(:,1))
minr1 = min(TEST(:,1));
maxr2 = max(TEST(:,2))
minr2 = min(TEST(:,2));
maxr3 = max(TEST(:,3));
minr3 = min(TEST(:,3));
length = size(TEST(:,1)) TESTB = zeros(length,3);
TESTB(:,1) = (TEST(:,1) - minr1) ./ (maxr1 - minr1);
TESTB(:,2) = (TEST(:,2) - minr2) ./ (maxr2 - minr2);
TESTB(:,3) = (TEST(:,3) - minr3) ./ (maxr3 - minr3); % 待测数据
DATA = [1000,10,0.5];
DATA(1,1) = (DATA(1,1)- minr1) / (maxr1- minr1);
DATA(1,2) = (DATA(1,2)- minr2) / (maxr2- minr2);
DATA(1,3) = (DATA(1,3)- minr3) / (maxr3- minr3); % 计算距离 N =5
data = repmat(DATA,[length,1]);
dis = TESTB -data;
dis = dis .* dis;
dis = dis * [1;1;1];
sortData = sort(dis);
ndata = sortData(5,1); list = find(dis <= ndata);
result = TEST(list,4);
a1 = find(result == 1)
a2 = find(result == 2)
a3 = find(result == 3)
if(size(a1,1) > size(a2,1))
if(size(a1,1)>size(a3,1))
disp(' little like');
else
disp('pass');
end
else
if(size(a2,1)>size(a3,1))
disp(' much like');
else
disp('pass');
end
end

  

python 3代码: 函数都不怎么会用磨磨唧唧的写了一些实现。

import numpy as npy
import matplotlib
import matplotlib.pyplot as plt
import copy
# 读取文件
#手动转换文件,复制到excel让python能正确读取。
data = npy.loadtxt('data.txt',delimiter = ','); likeindex = npy.where(data[:,3] == 1);
muchlikeindex = npy.where(data[:,3]==2);
passindex = npy.where(data[:,3] == 3); # 绘制图形(不会绘制三维的)
fig = plt.figure()
ax = fig.add_subplot(111) ax.scatter(data[likeindex,0],data[likeindex,1],data[likeindex,3],c ='b');
ax.hold('on')
ax.scatter(data[muchlikeindex,0],data[muchlikeindex,1],data[muchlikeindex,3],c ='g',marker ='*');
ax.plot()
plt.show() # 数据归一化
length = len(data[:,0]); maxr = npy.zeros((3,1));
minr = npy.zeros((3,1)); for i in range(0,3) :
maxr[i,0] = npy.max(data[:,i]);
minr[i,0] = npy.min(data[:,i]); normalData = npy.zeros((length,3)); # 待测数据 test = npy.matrix([1056560,60,12]); for i in range(0,3):
normalData[:,i] = (data[:,i] - minr[i,0]) / (maxr[i,0] - minr[i,0]); test[0,0] =(test[0,0] - minr[0,0]) / (maxr[0,0] - minr[0,0]);
test[0,1]=(test[0,1] - minr[0,0]) / (maxr[0,0] - minr[0,0]);
test[0,2] =(test[0,2] - minr[0,0]) / (maxr[0,0] - minr[0,0]); # 测试数据与训练数据的距离 testarry = npy.tile(test,(length,1)); dis2 = (normalData - testarry);
dis = npy.multiply(dis2,dis2);
one = npy.mat([[1],[1],[1]]);
dis = dis*one; # 深度copy 原数据
org = copy.copy(dis); datat = dis.T;
datat.sort()
door = datat[0,5]; # k =5 nearindex = npy.where(org[:,0] < door);
print (nearindex) # 这个nearindex 不知道为啥会有两行 #用索引计算 所属类别的频率

  

机器学习实战(1)- KNN的更多相关文章

  1. 算法代码[置顶] 机器学习实战之KNN算法详解

    改章节笔者在深圳喝咖啡的时候突然想到的...之前就有想写几篇关于算法代码的文章,所以回家到以后就奋笔疾书的写出来发表了 前一段时间介绍了Kmeans聚类,而KNN这个算法刚好是聚类以后经常使用的匹配技 ...

  2. 机器学习实战 之 KNN算法

    现在 机器学习 这么火,小编也忍不住想学习一把.注意,小编是零基础哦. 所以,第一步,推荐买一本机器学习的书,我选的是Peter harrigton 的<机器学习实战>.这本书是基于pyt ...

  3. 机器学习实战1-1 KNN电影分类遇到的问题

    为什么电脑排版效果和手机排版效果不一样~ 目前只学习了python的基础语法,有些东西理解的不透彻,希望能一边看<机器学习实战>,一边加深对python的理解,所以写的内容很浅显,也许还会 ...

  4. 《机器学习实战》KNN算法实现

    本系列都是参考<机器学习实战>这本书,只对学习过程一个记录,不做详细的描述! 注释:看了一段时间Ng的机器学习视频,感觉不能光看不练,现在一边练习再一边去学习理论! KNN很早就之前就看过 ...

  5. 机器学习实战之kNN算法

    机器学习实战这本书是基于python的,如果我们想要完成python开发,那么python的开发环境必不可少: (1)python3.52,64位,这是我用的python版本 (2)numpy 1.1 ...

  6. 机器学习实战笔记——KNN约会网站

    ''' 机器学习实战——KNN约会网站优化 ''' import operator import numpy as np from numpy import * from matplotlib.fon ...

  7. 机器学习实战笔记——KNN

    机器学习实战——读书笔记 书籍奉上

  8. 基于Python的机器学习实战:KNN

    1.KNN原理: 存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系.输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应 ...

  9. 吴裕雄--天生自然python机器学习实战:K-NN算法约会网站好友喜好预测以及手写数字预测分类实验

    实验设备与软件环境 硬件环境:内存ddr3 4G及以上的x86架构主机一部 系统环境:windows 软件环境:Anaconda2(64位),python3.5,jupyter 内核版本:window ...

  10. 机器学习实战之KNN

    KNN也称K-近邻算法,简单来说,KNN采用测量不同特征值之间的距离的方法进行分类. 优点:精度高,对异常值不敏感,无数据输入假定. 确定:时间复杂度.空间复杂度较高 适用数据范围:数值型和标称型 工 ...

随机推荐

  1. JVM运行时内存结构学习

    学习JVM运行模型比较重要,先看一幅图片: 运行时数据区(内存结构) :  1.方法区(Method Area)类的所有字段和方法字节码,以及一些特殊方法如构造函数,接口代码也在这里定义.简单来说,所 ...

  2. 「LibreOJ NOI Round #2」不等关系

    「LibreOJ NOI Round #2」不等关系 解题思路 令 \(F(k)\) 为恰好有 \(k\) 个大于号不满足的答案,\(G(k)\) 表示钦点了 \(k\) 个大于号不满足,剩下随便填的 ...

  3. Springboot token令牌验证解决方案 在SpringBoot实现基于Token的用户身份验证

    1.首先了解一下Token 1.token也称作令牌,由uid+time+sign[+固定参数]组成: uid: 用户唯一身份标识 time: 当前时间的时间戳 sign: 签名, 使用 hash/e ...

  4. 使用Identity Server 4建立Authorization Server

    使用Identity Server 4建立Authorization Server (6) - js(angular5) 客户端 摘要: 预备知识: http://www.cnblogs.com/cg ...

  5. 后台传带引号(")的数据需要注意

    后台返回给前端的json字符串 [{"\"Name\":\"<span style=\\\"color: red\\\">&qu ...

  6. Linux定时清理日志脚本

    在应用疯狂打日志的情况下,服务器很容易被塞满磁盘. 先要写一个shell脚本,脚本如下. #!/bin/bash #----------------使用规范---------------- #1.该文 ...

  7. OO第三单元(地铁,JML)单元总结

    OO第三单元(地铁,JML)单元总结 这是我们OO课程的第二个单元,这个单元的主要目的是让我们熟悉并了解JML来是我们具有规格化编程架构的思想.这个单元的主题一开始并不明了,从第一次作业的路径到第二次 ...

  8. GC是如何判断一个对象为"垃圾"的?被GC判断为"垃圾"的对象一定会被回收吗?

    一.GC如何判断一个对象为”垃圾”的java堆内存中存放着几乎所有的对象实例,垃圾收集器在对堆进行回收前,第一件事情就是要确定这些对象之中哪些还“存活”着,哪些已经“死去”.那么GC具体通过什么手段来 ...

  9. SpringBoot+SpringCloud+vue+Element开发项目——集成MyBatis框架

    添加mybatis-spring-boot-starter依赖 pox.xml <!--mybatis--> <dependency> <groupId>org.m ...

  10. ISCC之misc复现-High起来!

    题目是赛后经高人指点,跳过坑的,各位看官看看就好 文件下载下来是一张png图片,但是无法打开,估计要修复一下,文件头修复一下,png格式文件头89504EE7 打开是一张二维码,经过扫描后,得到一串中 ...