《统计学习方法》笔记（3）：k近邻

【《统计学习方法》笔记（3）：k近邻】的更多相关文章

统计学习方法三：K近邻

一.什么是K近邻? K近邻是一种基本的分类和回归方法. 在分类时,对新的实例,根据其K个最近邻的训练实例的类别,通过多数表决权等方式预测其类别. 通俗的讲,找K个和其关系最近的邻居,哪个类别的邻居多,就把它划分到哪一类特性: (1)多分类 (2)判别模型 (3)三个基本要素:K值选择.距离度量.分类决策规则 (4)K=1时,称为最近邻算法二.K近邻模型 1.模型:K近邻法的模型对应特征空间的一个划分,每一个划分对应一个类别 2.距离度量: (1)通常使用欧氏距离 (2)更一般的Lp距离 3.…

统计学习笔记之k近邻法

1.kNN算法的思想:给定一个训练数据集,对新的输入实例,在训练集中找到与该实例最近邻的k个实例,这k个实例的多数属于某类,就把输入实例分为这个类. 2.算法 (1)根据给定的距离度量,在训练集T中找出与实例x最邻近的k个点,涵盖着k个点的邻域记做; (2)在中根据分类决策规则(如多数表决)决定x的类别y: 其中,I为指示函数,即当yi=cj时I为1,否则为0. 距离度量一般是Lp距离或者是Minkowski距离. xi,xj的Lp距离定义为: 这里p≥1,当p=2时,称为欧氏距离:当p=1时,…

《统计学习方法》笔记三 k近邻法

本系列笔记内容参考来源为李航<统计学习方法> k近邻是一种基本分类与回归方法,书中只讨论分类情况.输入为实例的特征向量,输出为实例的类别.k值的选择.距离度量及分类决策规则是k近邻法的三个基本要素. k近邻算法给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类. k近邻法没有显示的学习过程. k近邻模型距离度量一般为欧式距离,Lp距离.Minkowski距离等由不同的距离度量所确定的最近邻点是不同的. 式…

统计学习方法笔记 -- KNN

K近邻法(K-nearest neighbor,k-NN),这里只讨论基于knn的分类问题,1968年由Cover和Hart提出,属于判别模型 K近邻法不具有显式的学习过程,算法比较简单,每次分类都是根据训练集中k个最近邻,通过多数表决的方式进行预测.所以模型需要保留所有训练集数据,而象感知机这样的模型只需要保存训练后的参数即可,训练集不需要保留 K近邻算法 K近邻法三要素和其他统计学习方法不同的,K近邻法的三要素是,k值的选择,距离度量和分类决策规则距离度量首先如何定义"近"?…

统计学习方法笔记（KNN）

k近邻法(k-nearest neighbor,k-NN) 输入:实例的特征向量,对应于特征空间的点:输出:实例的类别,可以取多类. 分类时,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测. 实例类别已定,不具有显式的学习过程.k近邻法实际上利用训练数据集对特征向量空间进行划分,并作为其分类的"模型". 三个基本要素:k值的选择.距离度量及分类决策规则. KDtree 实现k近邻法时,主要考虑的问题是如何对训练数据进行快速k近邻搜索. k近邻法最简单的实现方法是线性…

统计学习方法笔记--EM算法--三硬币例子补充

本文,意在说明<统计学习方法>第九章EM算法的三硬币例子,公式(9.5-9.6如何而来) 下面是(公式9.5-9.8)的说明, 本人水平有限,怀着分享学习的态度发表此文,欢迎大家批评,交流.感谢您的阅读.欢迎转载本文,转载时请附上本文地址:http://www.cnblogs.com/Dzhouqi/p/3203776.html另外:欢迎访问我的博客 http://www.cnblogs.com/Dzhouqi/…

李航-统计学习方法-笔记-3：KNN

KNN算法基本模型:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例.这k个实例的多数属于某个类,就把输入实例分为这个类. KNN没有显式的学习过程. KNN使用的模型实际上对应于特征空间的划分.特征空间中,对每个训练实例点\(x_i\),距离该点比其它点更近的所有点组成一个区域,叫作单元(cell).每个训练实例拥有一个单元.所有的训练实例点的单元构成对特征空间的一个划分.如下图所示. 三要素:KNN模型由三个基本要素--距离度量,K值选择,分类决策决定.当三要…

统计学习方法笔记 Logistic regression

logistic distribution 设X是连续随机变量,X服从逻辑斯谛分布是指X具有下列分布函数和密度函数: 式中,μ为位置参数,γ>0为形状参数. 密度函数是脉冲函数分布函数是一条Sigmoid曲线(sigmoid curve)即为阶跃函数二项逻辑斯谛回归模型二项逻辑斯谛回归模型是如下的条件概率分布 x∊Rn是输入,Y∊{0,1}是输出,w∊Rn和b∊R是参数, w称为权值向量,b称为偏置,w·x为w和x的内积. 可以求得P(Y＝1|x)和P(Y＝0|x). 逻辑斯谛回归…

统计学习方法笔记 -- Boosting方法

AdaBoost算法基本思想是,对于一个复杂的问题,单独用一个分类算法判断比较困难,那么我们就用一组分类器来进行综合判断,得到结果,"三个臭皮匠顶一个诸葛亮" 专业的说法, 强可学习(strongly learnable),存在一个多项式算法可以学习,并且准确率很高弱可学习(weakly learnable),存在一个多项式算法可以学习,但准确率略高于随机猜测并且可以证明强可学习和弱可学习是等价的那么发现一个弱可学习算法是很容易的,如果将弱可学习算法boosting到强可学习算…

《统计学习方法》笔记（3）：k近邻

k近邻(KNN)是相对基本的机器学习方法,特点是不需要建立模型,而是直接根据训练样本的数据对测试样本进行分类. 1.k近邻的算法? 算法对测试样本进行分类的一般过程如下: 1)根据给定的k值,搜索与测试样本距离最近的k个训练样本: 2)统计k个样本对应的每种分类数量: 3)根据每种分类的数量投票决定样本点所属分类,票数多者得. 例如:对于二分类,采用k=5的k近邻算法进行分类:距离样本点最近的5个点中,属于类0的样本数量为2,属于类1的样本数量为3,最终判定样本点属于类1. 2.k近邻的三要素?…