机器学习算法(KNN)

KNN简介

KNN(k-NearestNeighbor)算法的思想总结一下：就是在数据和标签已知的情况下，输入测试数据，将测试数据的特征与训练集中对应的特征进行相互比较，找到训练集中与之最为相似的前K个数据，则该测试数据对应的类别就是K个数据中出现次数最多的那个分类，其算法的描述为：

1.计算测试数据与各个训练数据之间的距离,选用欧式距离，计算每个点到数据集（训练集）的所有距离，

distance=((x1-x2)**2+(y1-y2)**2)**0.5

2.按照距离的递增关系进行排序，使用argsort（distances.argsort()）函数，返回数据集从小到大排列的数据下表，
3.选取距离最小的K个点,与输入k值有关，使用for函数遍历k
4.确定前K个点所在类别的出现频率，class_count[label]=class_count.get(label,0)+1

5.返回前K个点中出现频率最高的类别作为测试数据的预测分类，sorted_class=sorted(class_count.items(),key=operator.itemgetter(1),reverse=True),sorted_class[0][0]。

代码如下：我们把收入工资和年龄作为数据集，进行判别某个年龄和对应收入，有没有资格谈恋爱！

 #!/usr/bin/python

 # -*- coding:<utf-8> -

 import numpy as np

 import operator

 def createDateset():

     group=np.array([[5000,25],[2200,32],[7000,32],[26000,29],[20000,35]])

     labels=('没有资格谈恋爱','有资格谈恋爱','没有资格谈恋爱','有资格谈恋爱','有资格谈恋爱')

     return group,labels

 def classfy(input,dataSet,labels,k):

     datasize=dataSet.shape[0] #计算数组集的行数，numpy中shape[0]返回数组的行数，shape[1]返回列数

     diffdata=np.tile(input,(datasize,1))-dataSet#np.tile(input,(datasize,1))，对测试数据进行横向复制，使其拥有与其数据集一样的维度

     squrdata=diffdata**2#计算相减后的平方，欧式距离，distance=((x1-x2)**2+(y1-y2)**2)**0.5

     sum_squr_data=squrdata.sum(axis=1)

     distances=sum_squr_data**0#.欧式距离：distance=((x1-x2)**2+(y1-y2)**2)**0.5

     print('测试的数据距离数据集的距离分别是:',distances)

     sorted_distance=distances.argsort()

     print('距离从小到大的下标为:',sorted_distance)

     class_count={}

     for i in range (k):

         label=labels[sorted_distance[i]]

         class_count[label]=class_count.get(label,0)+1#a[b]=a.get(b,0)+1,对字典a赋值，当在字典a中找到

         #key为b的键值的时候，取1，找不到的时候取0并加1，即等号坐标为key，右边为value

         print('class_count:',class_count)

     sorted_class=sorted(class_count.items(),key=operator.itemgetter(1),reverse=True)##key=operator.itemgetter(1)根据字典的值进行排序

     #key=operator.itemgetter(0)根据字典的键进行排序

     print('sorted_class:',sorted_class)

     return sorted_class[0][0]

 if __name__ == '__main__':

     group,labels=createDateset()

     test=(6000,36)

     test_class=classfy(test,group,labels,5)

     print(test_class)

#运行结果如下：
测试的数据距离数据集的距离分别是: [1 1 1 1 1]

距离从小到大的下标为: [0 1 2 3 4]

class_count: {'没有资格谈恋爱': 1}

class_count: {'没有资格谈恋爱': 1, '有资格谈恋爱': 1}

class_count: {'没有资格谈恋爱': 2, '有资格谈恋爱': 1}

class_count: {'没有资格谈恋爱': 2, '有资格谈恋爱': 2}

class_count: {'没有资格谈恋爱': 2, '有资格谈恋爱': 3}

sorted_class: [('有资格谈恋爱', 3), ('没有资格谈恋爱', 2)]

有资格谈恋爱

Process finished with exit code 0

KNN算法的优点：

1.KNN理论简单，容易实现,简单,有效。

2、KNN是一种在线技术，新数据可以直接加入数据集而不必进行重新训练

KNN算法缺点：

1.KNN算法是懒散学习方法（lazy learning,基本上不学习），一些积极学习的算法要快很多。

2.对于样本容量大的数据集计算量比较大。

3.样本不平衡时，预测偏差比较大。如：某一类的样本比较少，而其它类样本比较多。

4.KNN每一次分类都会重新进行一次全局运算。

5.k值大小的选择。

机器学习算法(KNN)的更多相关文章

Python机器学习算法 — KNN分类
KNN简介 K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.KNN分类算法属于监督学习. 最简单最初级的分类器是将全部的训练 ...
机器学习算法-K-NN的学习 /ML 算法（K-NEAREST NEIGHBORS ALGORITHM TUTORIAL）
1为什么我们需要KNN 现在为止,我们都知道机器学习模型可以做出预测通过学习以往可以获得的数据. 因为KNN基于特征相似性,所以我们可以使用KNN分类器做分类. 2KNN是什么? KNN K-近邻,是 ...
机器学习算法·KNN
机器学习算法应用·KNN算法一.问题描述验证码目前在互联网上非常常见,从学校的教务系统到12306购票系统,充当着防火墙的功能.但是随着OCR技术的发展,验证码暴露出的安全问题越来越严峻.目前对验 ...
机器学习算法——kNN
顶级数据挖掘会议ICDM于2006年12月评选出了数据挖掘领域的十大经典算法,kNN便是其中一个. kNN算法的思想是:在训练集中选取与输入数据最近的k个邻居,统计k个邻居中出现次数最多的类别,以此作 ...
机器学习算法——kNN（k-近邻算法）
算法概述通过测量不同特征值之间的距离进行 [分类] 优点:精度高.对异常值不敏感.无数据输入假定. 缺点:计算复杂度高.空间复杂度高. 适用数据范围: 数值型和标称型 . 算法流程数据样本数 ...
机器学习算法K-NN的一个使用实例：预测一个人是否患有糖尿病 (KNN-Predict whether a person will have diabetes or not )
学习中...不断更新. 在糖尿病人的数据库中有几列是不能为0的比如葡萄糖胰岛素身体指数和皮肤厚度.所以在数据预处理阶段需要对这些列的数据进行替换. remeber we did 12 minus ...
【机器学习】kNN
机器学习算法--kNN 目录机器学习算法--kNN 1. 算法原理 2. 算法实现 2.1 kd-tree构造 2.2 kd-tree查询 2.3 kNN算法实现 3. 算法测试 Ref 1. 算法 ...
JavaScript机器学习之KNN算法
译者按: 机器学习原来很简单啊,不妨动手试试! 原文: Machine Learning with JavaScript : Part 2 译者: Fundebug 为了保证可读性,本文采用意译而非直 ...
机器学习：k-NN算法（也叫k近邻算法）
一.kNN算法基础 # kNN:k-Nearest Neighboors # 多用于解决分裂问题 1)特点: 是机器学习中唯一一个不需要训练过程的算法,可以别认为是没有模型的算法,也可以认为训练数据集 ...

随机推荐

面转栅格之ERROR 999999:执行函数时出错
今天进行矢量面转栅格的操作时,总是出现ERROR 999999:执行函数时出错,如下图所示: 刚开始以为是栅格保存的路径太长的问题,后来发现是矢量面的路径问题,我的矢量面是放在自建的图层组下面,如下图 ...
【洛谷】【动态规划/01背包】P1734 最大约数和
[题目描述:] 选取和不超过S的若干个不同的正整数,使得所有数的约数(不含它本身)之和最大. [输入格式:] 输入一个正整数S. [输出格式:] 输出最大的约数之和. [算法分析:] 01背包,每个数 ...
ucml 子业务组件与行为参与者业务组件
java 中，如何获取文件的MD5值呢？如何比较两个文件是否完全相同呢？
/** * Get MD5 of one file:hex string,test OK! * * @param file * @return */ public static String getF ...
python 获取当前路径
使用os模块: os.path.realpath(__file__)
Spring定时任务使用和如何使用邮件监控服务器
Spring相关的依赖导入进去,即可使用spring的定时任务!  <dependency> <groupId>org.spri ...
springmvc+ajax文件上传
环境:JDK6以上,这里我是用JDK8,mysql57,maven项目框架环境:spring+springmvc+mybaits或spring+springmvc+mybatis plus 前端代码 ...
centos6安装tomcat8.5
//参考https://www.cnblogs.com/xdp-gacl/p/4097608.html [root@192 ~]# mount /dev/sr0 /mnt/usb1[root@192 ...
AliOS-Things linkkitapp解读
app-example-linkkitapp是AliOS-Things提供的设备联网并且和阿里云IOT平台数据交互的一个示例程序: 1:application_start()程序在app_entry. ...
Ubuntu 上安装QTAV第三方视频库
安装QtAV的基本环境: sudo apt-get install build-essential sudo apt-get install libgl1-mesa-dev sudo apt-get ...

机器学习算法(KNN)

机器学习算法(KNN)的更多相关文章

随机推荐

热门专题