机器学习随笔01 - k近邻算法

算法名称: k近邻算法 (kNN: k-Nearest Neighbor)

问题提出: 根据已有对象的归类数据，给新对象(事物)归类。

核心思想:

将对象分解为特征，因为对象的特征决定了事对象的分类。
度量每个特征的程度，将其数字化。
所有特征值构成元组，作为该对象的坐标。
计算待检测对象和所有已知对象的距离，选择距离最接近的k个已知对象 (k近邻中的k来源于此)。
这k个对象中出现次数最多的分类就是待检测对象的分类。

重要前提: 需要有一批已经正确归类了的对象存在。也就是通常说的训练数据。

重要优势:

精度高,
对训练数据中的异常值不敏感

重大缺陷:

计算量大，由于每次的运算结果都对以后的判定无帮助，所以每次判定都需要利用所有的数据重新计算。
存储量大，由于每次都要重新计算，所有需要一直带着训练数据。

现实范例: 给电影分类。

算法过程:

特征化:为简化问题，假设电影只有两个分类:爱情片和动作片。那么我们可以将电影分解为两个特征:接吻和打斗.
特征数字化: 统计每部电影,包括待检测的电影,中接吻和打斗的次数，假设分别为x和y.
坐标化: 每部电影的接吻次数和达到次数就是该电影的坐标(x,y)
计算距离: dist=sqrt((x0-x1)**2+(y0-y1)**2)
k近邻:选dist最小的k个
如果这k部电影中爱情片多，那么待检测电影就是爱情片，否则为动作片。

扩展范例: 手写识别

列出这个范例的原因是，乍一看，手写识别和对象归类没有关系。但是实际上是有关系的。为了简化问题，我们把范围缩小一点，变成手写识别数字。通过回答下面几个问题，就能知道如何套用kNN算法了。

已知对象和待检测对象是什么? 回答: 已知对象：系统中存储的预先采集到的手写输入内容，待检测对象：用户的每一次手写输入内容。
输入内容具体是什么? 如何特征化? 回答: 将输入面看做一个二维矩阵，笔迹扫过的地方是1，其它地方是0。这个矩阵得有大小，可以自己确定，比如32*64, 64*128等. 特征就是这个矩阵中的所有位置。也就是说，这个矩阵包含多少个点，就算有多少个特征。
每个特征的值是什么? 既然特征表示的是矩阵中特定位置的点，那么特征的值就是这个位置的矩阵元素，为0或者为1
如何构成坐标? 回答:将矩阵所有行按顺序连接起来，构成一个巨长的行，这就是对象的坐标

扩展思维:

特征权重化，算法的核心过程，没有考虑特征的重要程度。

更多信息，请参考:https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm

机器学习随笔01 - k近邻算法的更多相关文章

02机器学习实战之K近邻算法
第2章 k-近邻算法 KNN 概述 k-近邻(kNN, k-NearestNeighbor)算法是一种基本分类与回归方法,我们这里只讨论分类问题中的 k-近邻算法. 一句话总结:近朱者赤近墨者黑! k ...
机器学习03：K近邻算法
本文来自同步博客. P.S. 不知道怎么显示数学公式以及排版文章.所以如果觉得文章下面格式乱的话请自行跳转到上述链接.后续我将不再对数学公式进行截图,毕竟行内公式截图的话排版会很乱.看原博客地址会有更 ...
机器学习实战笔记--k近邻算法
#encoding:utf-8 from numpy import * import operator import matplotlib import matplotlib.pyplot as pl ...
机器学习 Python实践-K近邻算法
机器学习K近邻算法的实现主要是参考<机器学习实战>这本书. 一.K近邻(KNN)算法 K最近邻(k-Nearest Neighbour,KNN)分类算法,理解的思路是:如果一个样本在特征空 ...
《机器学习实战》-k近邻算法
目录 K-近邻算法 k-近邻算法概述解析和导入数据使用 Python 导入数据实施 kNN 分类算法测试分类器使用 k-近邻算法改进约会网站的配对效果收集数据准备数据:使用 Python ...
机器学习：1.K近邻算法
1.简单案例:预测男女,根据身高,体重,鞋码 import numpy as np import matplotlib import sklearn from skleran.neighbors im ...
《机器学习实战》——K近邻算法
三要素:距离度量.k值选择.分类决策原理: (1) 输入点A,输入已知分类的数据集data (2) 求A与数据集中每个点的距离,归一化,并排序,选择距离最近的前K个点 (3) K个点进行投票,票数最 ...
GridSearchCV网格搜索得到最佳超参数, 在K近邻算法中的应用
最近在学习机器学习中的K近邻算法, KNeighborsClassifier 看似简单实则里面有很多的参数配置, 这些参数直接影响到预测的准确率. 很自然的问题就是如何找到最优参数配置? 这就需要用到 ...
机器学习之K近邻算法（KNN）
机器学习之K近邻算法(KNN) 标签: python 算法 KNN 机械学习苛求真理的欲望让我想要了解算法的本质,于是我开始了机械学习的算法之旅 from numpy import * import ...

随机推荐

Error creating bean with name 'transactionManager'
查看数据库是否连通,看错误的具体信息看ssm配置文件是否被正确加载,上次我的错误是beans之类的错误,就是spring文件没有被加载,因为而文件是applicationConfig.xml
Python 程序下载经办人照片
进行图片下载,需要提前准备好下载图片的存放文件夹: python在与文件.目录打交道时,少不了os模块.os模块包含普遍的操作系统功能. os.path.exists(filepath)——检验指定的 ...
String和StringBuilder、StringBuffer的区别
String对象一旦创建之后该对象是不可更改的,但后两者的对象是变量,是可以更改的. String:适用于少量的字符串操作的情况 StringBuilder:适用于单线程下在字符缓冲区进行大量操作的情 ...
为Firefox浏览器安装Firebug插件
一.确保联网二.打开Firefox 三.菜单:工具 -> 附加组件显示附加组件管理器界面,点扩展在搜索框输入firebug,搜,在搜索结果列表中找到Firebug项,安装安装进度安装完 ...
Java语法 [常识1]
1. Java 语言采用的是双字节Unicode 编码 . 2. 标识符就是变量.常量.方法[函数].枚举.类.接口等由写代码的猴子们制定的名字.构成标识符的字母均有一定的规范,Java语言中的命名规 ...
get_time
def get_current_time(): #将python的datetime转换为unix时间戳 dtime = datetime.datetime.now() un_time = time.m ...
faster rcnn源码阅读笔记2
Unity中的屏幕坐标：ComputeScreenPos/VPOS/WPOS
[Unity中的屏幕坐标:ComputeScreenPos/VPOS/WPOS] 1.通过 VPOS / WPOS 语义获取. VPOS 是 HLSL 中对屏幕坐标的语义, 而 WPOS 是 ...
java简单的文件读写工具类
import java.io.BufferedInputStream; import java.io.BufferedOutputStream; import java.io.BufferedRead ...
单点登录（SSO）解决方案之 CAS 入门案例
单点登录: 单点登录(Single Sign On),简称为 SSO,是目前比较流行的企业业务整合的解决方案之一.SSO的定义是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统. ...

机器学习随笔01 - k近邻算法

机器学习随笔01 - k近邻算法的更多相关文章

随机推荐

热门专题