1.近邻成分分析(NCA)算法 以上内容转载自:http://blog.csdn.net/chlele0105/article/details/13006443 2.度量学习 在机器学习中,对高维数据进行降维的主要目的是找到一个合适的低维空间,在该空间中进行学习能比原始空间性能更好.每个空间对应了在样本属性上定义的一个距离度量,而寻找合适的空间,本质上就是寻找一个合适的距离度量.度量学习(metric learning)的基本动机就是去学习一个合适的距离度量. 降维的核心在在于寻找合适空间,而合…
已迁移到我新博客,阅读体验更佳LDA && NCA: 降维与度量学习 代码实现放在我的github上:click me 一.Linear Discriminant Analysis(LDA) 1.1 Rationale         线性判别分析(LDA)是一种监督学习的分类和降维的方法,但更多是被用来降维.LDA的原理是让投影后同一类中数据的投影点之间尽可能地靠近,而类不同类别中数据的类别中心之间的距离尽可能远,用一句话概括就是"投影后类内方差最小,类间方差最大".…
机器学习(8) -- 降维 核心思想:将数据沿方差最大方向投影,数据更易于区分 简而言之:PCA算法其表现形式是降维,同时也是一种特征融合算法. 对于正交属性空间(对2维空间即为直角坐标系)中的样本点,如何用一个超平面(直线/平面的高维推广)对所有样本进行恰当的表达? 事实上,若存在这样的超平面,那么它大概应具有这样的性质: 最近重构性 : 样本点到这个超平面的距离都足够近: 最大可分性:样本点在这个超平面上的投影能尽可能分开. 一般的,将特征量从n维降到k维: 以最近重构性为目标,PCA的目标…
本文简单整理了以下内容: (一)维数灾难 (二)特征提取--线性方法 1. 主成分分析PCA 2. 独立成分分析ICA 3. 线性判别分析LDA (一)维数灾难(Curse of dimensionality) 维数灾难就是说当样本的维数增加时,若要保持与低维情形下相同的样本密度,所需要的样本数指数型增长.从下面的图可以直观体会一下.当维度很大样本数量少时,无法通过它们学习到有价值的知识:所以需要降维,一方面在损失的信息量可以接受的情况下获得数据的低维表示,增加样本的密度:另一方面也可以达到去噪…
机器学习实战(Machine Learning in Action)学习笔记————07.使用Apriori算法进行关联分析 关键字:Apriori.关联规则挖掘.频繁项集作者:米仓山下时间:2018-11-2机器学习实战(Machine Learning in Action,@author: Peter Harrington)源码下载地址:https://www.manning.com/books/machine-learning-in-actiongit@github.com:pbharri…
机器学习实战笔记-k-近邻算法 目录 1. k-近邻算法概述 2. 示例:使用k-近邻算法改进约会网站的配对效果 3. 示例:手写识别系统 4. 小结 本章介绍了<机器学习实战>这本书中的第一个机器学习算法:k-近邻算法,它非常有效而且易于掌握.首先,我们将探讨k-近邻算法的基本理论,以及如何使用距离测量的方法分类物品:其次我们将使用Python从文本文件中导入并解析数据:再次,本文讨论了当存在许多数据来源时,如何避免计算距离时可能碰到的一些常见错误:最后,利用实际的例子讲解如何使用k-近邻算…
一.机器学习基本概念总结 分类(classification):目标标记为类别型的数据(离散型数据)回归(regression):目标标记为连续型数据 有监督学习(supervised learning):训练集有类别标记无监督学习(unsupervised learning):训练集无类别标记半监督学习(semi-supervised learning):有类别标记的训练集+无类别标记的训练集 机器学习步骤的框架: step1:把数据拆分为训练集和测试集 step2:用训练集和特征集的特征向量…
其实topographic independent component analysis 早在1999年由ICA的发明人等人就提出了,所以不算是个新技术,ICA是在1982年首先在一个神经生理学的背景下提出的,而且在1980年前后大家都在忙着研究BP,所以对ICA研究的人都不多,在1990年前后才大量的爆发关于ICA的研究,现在ICA已经较为成熟和完善了.ICA的开始是假设成分间互相独立,但是却有些的确不独立,所以还是需要对这些成分进行分析,现在发现这个是因为在eccv 12年中看到有人用这个,…
机器学习实战(Machine Learning in Action)学习笔记————06.k-均值聚类算法(kMeans)学习笔记 关键字:k-均值.kMeans.聚类.非监督学习作者:米仓山下时间:2018-11-3机器学习实战(Machine Learning in Action,@author: Peter Harrington)源码下载地址:https://www.manning.com/books/machine-learning-in-actiongit@github.com:pbh…
转载请注明源出处:http://www.cnblogs.com/lighten/p/7593656.html 1.原理 本章介绍机器学习实战的第一个算法——k近邻算法(k Nearest Neighbor),也称为kNN.说到机器学习,一般都认为是很复杂,很高深的内容,但实际上其学习门栏并不算高,具备基本的高等数学知识(包括线性代数,概率论)就可以了,甚至一些算法高中生就能够理解了.kNN算法就是一个原理很好理解的算法,不需要多好的数学功底,这是一个分类算法(另一个大类是回归),属于监督学习的范…