机器学习笔记簿 降维篇 LDA 01】的更多相关文章

机器学习中包含了两种相对应的学习类型:无监督学习和监督学习.无监督学习指的是让机器只从数据出发,挖掘数据本身的特性,对数据进行处理,PCA就属于无监督学习,因为它只根据数据自身来构造投影矩阵.而监督学习将使用数据和数据对应的标签,我们希望机器能够学习到数据和标签的关系,例如分类问题:机器从训练样本中学习到数据和类别标签之间的关系,使得在输入其它数据的时候,机器能够把这个数据分入正确的类别中.线性鉴别分析(Linear Discriminant Analysis, LDA)就是一个监督学习算法,它…
降维是机器学习中十分重要的部分,降维就是通过一个特定的映射(可以是线性的或非线性的)将高维数据转换为低维数据,从而达到一些特定的效果,所以降维算法最重要的就是找到这一个映射.主成分分析(Principal Component Analysis, PCA)是一种最经典,也是最简单的降维算法.PCA可以保证降维之后,重构回原数据的效果最好,因此广泛用于对高维数据的预处理. 1. 一个投影的PCA求解 设样本矩阵为\(X=[x_1,x_2,\cdots,x_n]\in \mathbb R^{m\tim…
iOS开发Swift篇(01) 变量&常量&元组 说明: 1)终于要写一写swift了.其实早在14年就已经写了swift的部分博客,无奈时过境迁,此时早已不同往昔了.另外,对于14年部分iOS开发Swift篇专题的博文也不再做任何的校正和更新,特此说明. 2)该博文对应代码可以在https://github.com/HanGangAndHanMeimei/Code获得. 一.变量和常量 01 变量和常量的定义 在swift中变量使用var来修饰,常量使用let来修饰,变量可以修改而常量不…
判别分析(discriminant analysis)是一种分类技术.它通过一个已知类别的“训练样本”来建立判别准则,并通过预测变量来为未知类别的数据进行分类.判别分析的方法大体上有三类,即Fisher判别.Bayes判别和距离判别. Fisher判别思想是投影降维,使多维问题简化为一维问题来处理.选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值.对这个投影轴的方向的要求是:使每一组内的投影值所形成的组内离差尽可能小,而不同组间的投影值所形成的类间离差尽可能大. Bayes判别…
1.LDA LDA是一种三层贝叶斯模型,三层分别为:文档层.主题层和词层.该模型基于如下假设:1)整个文档集合中存在k个互相独立的主题:2)每一个主题是词上的多项分布:3)每一个文档由k个主题随机混合组成:4)每一个文档是k个主题上的多项分布:5)每一个文档的主题概率分布的先验分布是Dirichlet分布:6)每一个主题中词的概率分布的先验分布是Dirichlet分布.文档的生成过程如下:1)对于文档集合M,从参数为β的Dirichlet分布中采样topic生成word的分布参数φ:2)对于每个…
PCA(主成分分析法,Principal Components Analysis) SVD(奇异值分解法,Singular Value Decomposition) http://vis-www.cs.umass.edu/lfw/lfw-a.tgz 0 运行环境 export SPARK_HOME=/Users/erichan/Garden/spark-1.5.1-bin-hadoop2.6 cd $SPARK_HOME bin/spark-shell --name my_mlib --pack…
北京理工大学在线课程: http://www.icourse163.org/course/BIT-1001872001 机器学习分类 监督学习 无监督学习 半监督学习 强化学习 深度学习 Scikit-learn算法分类 sklearn自带的标准数据集 sklearn的六大任务:分类.回归.聚类.降维.模型选择.数据预处理. 一.无监督学习:数据没有标签.最常用的是聚类和降维. 聚类:根据数据的相似性将数据分为多类的过程.使用样本的"距离"来估算样本的相似性,不同的距离计算方法有不同的…
PCA降维--两种实现 : SVD或EVD. 强力总结. 在鸢尾花数据集(iris)实做 今天自己实现PCA,从网上看文章的时候,发现有的文章没有搞清楚把SVD(奇异值分解)实现和EVD(特征值分解)实现,查阅多个文章很容易更糊涂,所以搞懂之后写下这个总结. 先说最关键的点: a. PCA两个主要的实现方式: SVD(奇异值分解), EVD(特征值分解). b. 特征值分解方式需要计算协方差矩阵,分解的是协方差矩阵.  SVD方式不需要计算协方差矩阵,分解的是经过中心化的原数据矩阵 1.特征值分…
这个系类的内容全部来源于http://www.cnblogs.com/skywang12345/p/3479024.html.特别在此声明!!! 本来想直接看那位作家的博客的,但还是复制过来. 多线程是Java中不可避免的一个重要主体.从本章开始,我们将展开对多线程的学习.接下来的内容,是对"JDK中新增JUC包"之前的Java多线程内容的讲解,涉及到的内容包括,Object类中的wait(), notify()等接口:Thread类中的接口:synchronized关键字. 注:JU…
监督学习经典模型 机器学习中的监督学习模型的任务重点在于,根据已有的经验知识对未知样本的目标/标记进行预测.根据目标预测变量的类型不同,我们把监督学习任务大体分为分类学习与回归预测两类.监督学习任务的基本流程:首先准备训练数据,可以是文本.图像.音频等:然后抽取所需要的特征,形成特征向量,接着把这些特征向量连同对应的标记/目标(Labels)一并送入学习算法中,训练一个预测模型,然后采用同样的特征抽取方法作用于新测试数据,得到用于测试的特征向量,最后使用预测模型对这些待测试的特征向量进行预测并得…