<机器学习实战>读书笔记--k邻近算法KNN

k邻近算法的伪代码：

　　对未知类别属性的数据集中的每个点一次执行以下操作：

　　(1)计算已知类别数据集中的点与当前点之间的距离；

　　(2)按照距离递增次序排列

　　(3)选取与当前点距离最小的k个点

　　(4)确定前k个点所在类别的出现频率

　　(5)返回前k个点出现频率最好的类别作为当前点的预测分类

python函数实现

'''

Created on Sep 16, 2010

kNN: k Nearest Neighbors

Input:      inX: vector to compare to existing dataset (1xN)

            dataSet: size m data set of known vectors (NxM)

            labels: data set labels (1xM vector)

            k: number of neighbors to use for comparison (should be an odd number)

Output:     the most popular class label

@author: pbharrin

'''

def classify0(inX, dataSet, labels, k):

    dataSetSize = dataSet.shape[0]      //输入的训练样本集dataSet的列数

    diffMat = tile(inX, (dataSetSize,1)) - dataSet //先对inX进行向量化处理，使之格式与dataSet一致，然后相减

    sqDiffMat = diffMat**2  //向量对应值差的平方

    sqDistances = sqDiffMat.sum(axis=1)//列的平方和的汇总

    distances = sqDistances**0.5 //开平方求距离

    sortedDistIndicies = distances.argsort()

    classCount={}

    for i in range(k):

        voteIlabel = labels[sortedDistIndicies[i]]

        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1  //选择距离最小的k个点

    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True) //排序

    return sortedClassCount[0][0]

<机器学习实战>读书笔记--k邻近算法KNN的更多相关文章

机器学习实战 - 读书笔记(12) - 使用FP-growth算法来高效发现频繁项集
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第12章 - 使用FP-growth算法来高效发现频繁项集. 基本概念 FP-growt ...
机器学习实战 - 读书笔记(11) - 使用Apriori算法进行关联分析
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第11章 - 使用Apriori算法进行关联分析. 基本概念关联分析(associat ...
机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习笔记,这次是第7章 - 利用AdaBoost元算法提高分类性能. 核心思想在使用某个特定的算法是, ...
机器学习实战 - 读书笔记(13) - 利用PCA来简化数据
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第13章 - 利用PCA来简化数据. 这里介绍,机器学习中的降维技术,可简化样品数据. ...
k邻近算法(KNN)实例
一 k近邻算法原理 k近邻算法是一种基本分类和回归方法. 原理:K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实 ...
机器学习实战读书笔记(二)k-近邻算法
knn算法: 1.优点:精度高.对异常值不敏感.无数据输入假定 2.缺点:计算复杂度高.空间复杂度高. 3.适用数据范围:数值型和标称型. 一般流程: 1.收集数据 2.准备数据 3.分析数据 4.训 ...
【转载】机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能
原文地址: https://www.cnblogs.com/steven-yang/p/5686473.html ------------------------------------------- ...
机器学习实战 - 读书笔记(06) – SVM支持向量机
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习笔记,这次是第6章:SVM 支持向量机. 支持向量机不是很好被理解,主要是因为里面涉及到了许多数学知 ...
机器学习实战 - 读书笔记(14) - 利用SVD简化数据
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第14章 - 利用SVD简化数据. 这里介绍,机器学习中的降维技术,可简化样品数据. 基 ...

随机推荐

[Git01]Pro Git 第三章分支读书笔记
[git]分支 Git 的分支模型称为“必杀技特性”,而正是因为它,将 Git 从版本控制系统家族里区分出来. Git 有何特别之处呢?Git 的分支可谓是难以置信的轻量级,它的新建操作几乎可以在 ...
subprocess.Popen命令如何隐藏弹框
在用PYQT编写GUI界面时,代码中有用到subprocess.Popen(),打包exe后每次遇到subprocess语句是就会弹出命令框,很是头疼, 下面是解决的办法 import subproc ...
django系列8.4--django中间件的可应用案例, 限制请求次数与时间
应用案例 1.做IP访问频率限制某些IP访问服务器的频率过高,进行拦截, 比如每分钟不能超过20次 2.URL访问过滤如果用户访问的是login视图,就允许请求如果访问其他视图, 需要检测是不是 ...
python网络编程--协程
1.协程协程:是单线程下的并发,又称微线程,纤程.英文名Coroutine.一句话说明什么是线程:协程是一种用户态的轻量级线程,即协程是由用户程序自己控制调度的.. 需要强调的是: 1. pyt ...
Nginx+keepalive 负载均衡
1 规划和准备两台相同配置的web 用途 IP MASTER 192.168.1.100 BACKUP 192.1681.101 2 安装两台接入服务器分别安装NginX和keepalived: ...
深入了解java虚拟机（JVM）第七章内存分配策略
理解了jvm内存分配策略不仅是程序性能调优的重要知识,还能够给养成自己一种良好的代码思路,一个程序的代码差异往往都是在这里体现出来的. 一.对象优先分配到Eden区域一般来说,新创建的对象都会直 ...
FTP枢轴攻击
简单来说,这是攻击者可以利用属于不同网络的那些系统的攻击. 本文作者:jishuzhain 对于这种攻击,攻击者需要利用主服务器来帮助攻击者将自己添加到本地网络中,然后攻击者就可以将客户端系统进行定位 ...
Oracle的常用修改表及字段的语句
单行注释:-- 多行注释:/* */ Oracle中修改表结构增加字段 ALTER TABLE table_name ADD column_name data_type; 删除字段 ...
Hadoop虚拟机的jdk版本和本地eclipse的版本不一致怎么办
在本周学习Hadoop遇到了一个问题,困扰了半天,本人在安装Hadoop时是按照视频来的,结果发现Hadoop上的jdk版本和本地eclipse的版本不一致,导致本地的程序到处jar包传到虚拟机上运用 ...
架构师养成记--25.linux用户管理
用户管理配置文件用户信息文件:/etc/passwd密码文件:/etc/shadow用户配置文件:/etc/login.defs /etc/default/useradd新用户信息文件:/etc/sk ...

<机器学习实战>读书笔记--k邻近算法KNN

<机器学习实战>读书笔记--k邻近算法KNN的更多相关文章

随机推荐

热门专题