多因子降维法(MDR,Multifactor Dimensionality Reduction ) MDR是近年统计学中发展起来的一种新的分析方法.其中,“因子” 即交互作用研究中的变量,“维” 是指研究中多因子组合的个数.该方法主要应用于卫生统计学,流行病学及遗传学中,它以疾病易感性分类的方式建模,研究基因—基因.基因一环境之间交互作用.它弥补了Logistic回归在处理高阶交互作用时的局限性.在高血压.糖尿病.心血管疾病和恶性肿瘤等常见的复杂疾病中已有广泛而成功应用. 此外,2007年Lou…
多因子降维法(MDR,multifactor dimensionality reduction)   多因子降维法(MDR,Multifactor Dimensionality Reduction ) MDR是近年统计学中发展起来的一种新的分析方法.其中,“因子” 即交互作用研究中的变量,“维” 是指研究中多因子组合的个数.该方法主要应用于卫生统计学,流行病学及遗传学中,它以疾病易感性分类的方式建模,研究基因—基因.基因一环境之间交互作用.它弥补了Logistic回归在处理高阶交互作用时的局限性…
10. Dimensionality Reduction Content  10. Dimensionality Reduction 10.1 Motivation 10.1.1 Motivation one: Data Compression 10.2.2 Motivation two: Visualization 10.2 Principal Component Analysis 10.2.1 Problem formulation 10.2.2 Principal Component An…
At some fundamental level, no one understands machine learning. It isn’t a matter of things being too complicated. Almost everything we do is fundamentally very simple. Unfortunately, an innate human handicap interferes with us understanding these si…
2.5. Decomposing signals in components (matrix factorization problems) 2.5.1. Principal component analysis (PCA) 4.4. Unsupervised dimensionality reduction 4.4.1. PCA: principal component analysis PCA+ICA 解混过程:https://www.zhihu.com/question/28845451…
http://blog.csdn.net/pipisorry/article/details/49231919 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记 推荐系统Recommendation System之降维Dimensionality Reduction {博客内容:推荐系统有一种推荐称作隐语义模型(LFM, latent factor model)推荐,这种推荐将在下一篇博客中讲到.这篇博客主要讲隐语义模型…
机器学习问题可能包含成百上千的特征.特征数量过多,不仅使得训练很耗时,而且难以找到解决方案.这一问题被称为维数灾难(curse of dimensionality).为简化问题,加速训练,就需要降维了. 降维会丢失一些信息(比如将图片压缩成jpeg格式会降低质量),所以尽管会提速,但可能使模型稍微变差.因此首先要使用原始数据进行训练.如果速度实在太慢,再考虑降维. 8.1 维数灾难(The Curse of Dimensionality) 我们生活在三维空间,连四维空间都无法直观理解,更别说更高…
many Machine Learning problems involve thousands or even millions of features for each training instance. not only does this make training extremely slow,it can also make it much harder to find a good solution. this problem is often referred to as th…
博客内容取材于:http://www.cnblogs.com/tornadomeet/archive/2012/06/24/2560261.html Deep learning:三十五(用NN实现数据降维练习) Deep learning:三十四(用NN实现数据的降维) Deep learning:三十三(ICA模型) Deep learning:三十二(基础知识_3) Deep learning:三十一(数据预处理练习) Deep learning:三十(关于数据预处理的相关技巧) Deep…
个人的一些碎碎念: 聚类,直觉就能想到kmeans聚类,另外还有一个hierarchical clustering,但是单细胞里面都用得不多,为什么?印象中只有一个scoring model是用kmean进行粗聚类.(10x就是先做PCA,再用kmeans聚类的) 鉴于单细胞的教程很多,也有不下于10种针对单细胞的聚类方法了. 降维往往是和聚类在一起的,所以似乎有点难以区分. PCA到底是降维.聚类还是可视化的方法,t-SNE呢? 其实稍微思考一下,PCA.t-SNE还有下面的diffusion…
Seven Techniques for Data Dimensionality Reduction Seven Techniques for Data Dimensionality Reduction 12 May, 2015 - 12:38 — rs The recent explosion of data set size, in number of records and attributes, has triggered the development of a number of b…
Lecture 14 Dimensionality Reduction 降维 14.1 降维的动机一:数据压缩 Data Compression 现在讨论第二种无监督学习问题:降维. 降维的一个作用是数据压缩,允许我们使用较少的内存或磁盘空间,也加快算法速度. 举例: 假设用两个特征描述同一个物品的长度,x1单位是厘米cm,x2单位是英寸inches.这将导致高度冗余,所以需要减到一维. 将数据从三维降至二维: 将三维向量投射到一个二维的平面上,强迫使得所有的数据都在同一个平面上,降至二维的特征…
今天阅读了一篇关于半监督降维的论文,做个总结.这篇论文的全名叫<Semi-Supervised Dimensionality Reduction>(2006),是南大周志华老师的大作. 本文提出了一种新的半监督降维算法,并与其他几种半监督降维算法进行了比较. 传 统的机器学习方法通过大量带标注训练样本学习得到模型参数,并根据模型对新样本进行预测.一方面,手工标注样本的标号既费时又费力,而我们当今身处信息爆 炸的时代,这更为人工标注数据增加了难度:另一方面,获取大量未标注数据相对容易得多.如果只…
本周主要介绍了聚类算法和特征降维方法,聚类算法包括K-means的相关概念.优化目标.聚类中心等内容:特征降维包括降维的缘由.算法描述.压缩重建等内容.coursera上面Andrew NG的Machine learning课程地址为:https://www.coursera.org/course/ml  (一)K-means聚类算法 Input data:未标记的数据集,类别数K: 算法流程: 首先随机选择K个点,作为初始聚类中心(cluster centroids): 计算数据集中每个数据与…
8 Dimensionality Reduction8.3 Motivation8.3.1 Motivation I: Data Compression第二种无监督问题:维数约简(Dimensionality Reduction).通过维数约简可以实现数据压缩(Data Compression),数据压缩可以减少计算机内存使用,加快算法运算速度.什么是维数约简:降维.若数据库X是属于n维空间的,通过特征提取或者特征选择的方法,将原空间的维数降至m维,要求n远大于m,满足:m维空间的特性能反映原空…
数据降维(Dimensionality reduction) 应用范围 无监督学习 图片压缩(需要的时候在还原回来) 数据压缩 数据可视化 数据压缩(Data Compression) 将高维的数据转变为低维的数据, 这样我们存储数据的矩阵的列就减少了, 那么我们需要存储的数据就减少了 数据可视化 数据可视化是非常重要的, 通过可视化数据可以发现数据的规律, 但是大多数时候我们到的数据是高维度的, 可视化很困难, 采用数据降维可以将数据降到二维进行数据可视化 加快机器学习算法的速度 维度少了程序…
监督学习算法需要标记的样本(x,y),但是无监督学习算法只需要input(x). 您将了解聚类 - 用于市场分割,文本摘要,以及许多其他应用程序. Principal Components Analysis, 经常用于加快学习算法,同时对于数据可视化以帮助你对数据的理解也有很大的帮助. Unsupervised learning Introduction supervised learning:在前面几课我们学习的都是属于监督性学习的内容,包括回归和分类,主要特点就是我们使用的数据集都是类似(x…
由于总是有各种各样的杂事,这个系列的文章竟然一下子拖了好几个月,(实际上其他的日志我也写得比较少),现在决定还是先把这篇降维的日志写完.我甚至都以及忘记了在这个系列中之前有没有讲过“特征”(feature)的概念了,这里不妨再稍微提一下.机器学习应用到各个领域里,会遇到许多不同类型的数据要处理:图像.文本.音频视频以及物理.生物.化学等实验还有其他工业.商业以及军事上得到的各种数据,如果要为每一种类型的数据都设计独立的算法,那显然是非常不现实的事,因此,机器学习算法通常会采用一些标准的数据格式,…
降维(Dimensionality Reduction) 动机一:数据压缩(Motivation I : Data Compression) 数据压缩允许我们压缩数据,从而使用较少的计算机内存或磁盘空间,还会加快算法的学习速度. 下面举例说明下降维是什么? 在工业上,往往有成百上千个特征.比如,可能有几个不同的工程团队,一个团队给了你二百个特征,第二个团队给了你另外三百个的特征,第三团队给了你五百个特征,一千多个特征都在一起,那么实际上,如果你想去追踪一下你所知道的那些特征会变得相当困难,而你又…
降维(Dimensionality Reduction) 降维的目的:1 数据压缩 这个是二维降一维 三维降二维就是落在一个平面上. 2 数据可视化 降维的算法只负责减少维数,新产生的特征的意义就必须由我们自 己去发现了. 主成分分析(PCA)是最常见的降维算法. 在 PCA 中,我们要做的是找到一个方向向量(Vector direction),当我们把所有的数据 都投射到该向量上时,我们希望投射平均均方误差能尽可能地小. 主成分分析与线性回归是两种不同的算法.主成分分析最小化的是投射误差(Pr…
如果我们能更好地理解我们的数据,这样会对我们开发高效的机器学习算法有作用,将数据可视化(将数据画出来能更好地理解数据)出来将会对我们理解我们的数据起到很大的帮助. 高维数据如何进行显示 GDP: gross domestic product 假设我们可能有50个features,那么我们怎么查看我们的数据呢(如怎么查看代表一个国家如canada的数据,二维可以通过一个点来表示)?因为要画出50维的数据是很难的,这里会用到dimensionality reduction 将50维的数据约简为2维数…
data compression可以使数据占用更少的空间,并且能使算法提速 什么是dimensionality reduction(维数约简)    例1:比如说我们有一些数据,它有很多很多的features,取其中的两个features,如上图所示,一个为物体的长度用cm来度量的,一个也是物体的长度是用inches来度量的,显然这两上features是相关的,画到上图中,近似于一条直线,之所以点不在一条直线上,是因为我们在对物体测量长度是会取整(对cm进行取整,对inches进行取整),这样的…
论文题目:<Nonlinear Dimensionality Reduction by Locally Linear Embedding > 发表时间:Science  2000 论文地址:Download 简介 局部线性嵌入(Locally Linear Embedding,简称LLE)重要的降维方法. 传统的 PCA,LDA 等方法是关注样本方差的降维方法,LLE 关注于降维时保持样本局部的线性特征,由于LLE在降维时保持了样本的局部特征,所以广泛用于图像图像识别,高维数据可视化等领域.…
14.1  动机一:数据压缩 14.2  动机二:数据可视化 14.3  主成分分析问题 14.4  主成分分析算法 14.5  选择主成分的数量 14.6  重建的压缩表示 14.7  主成分分析法的应用建议 14.1  动机一:数据压缩…
Ref: http://scikit-learn.org/stable/modules/lda_qda.html Ref: http://bluewhale.cc/2016-04-10/linear-discriminant-analysis.html Ref: http://blog.csdn.net/lizhe_dashuju/article/details/50329663 [该系列,作者很用心,讲得很通透] 线性判别分析(Linear Discriminant Analysis)简称LD…
目标一:数据压缩 除了聚类,还有第二种类型的无监督学习问题称为降维.有几个不同的的原因使你可能想要做降维.一是数据压缩,数据压缩不仅允许我们压缩数据,因而使用较少的计算机内存或磁盘空间,而且它也让我们加快我们的学习算法. 我们收集的数据集,有许多,许多特征,我绘制两个在这里. 假设我们未知两个的特征:…
1. 动机一:数据压缩 第二种类型的 无监督学习问题,称为 降维.有几个不同的的原因使你可能想要做降维.一是数据压缩,数据压缩不仅允许我们压缩数据,因而使用较少的计算机内存或磁盘空间,但它也让我们加快我们的学习算法. 但首先,让我们谈论 降维是什么.作为一种生动的例子,我们收集的数据集,有许多,许多特征,我绘制两个在这里. 将数据从二维降一维: 将数据从三维降至二维: 这个例子中我们要将一个三维的特征向量降至一个二维的特征向量.过程是与上面类似的,我们将三维向量投射到一个二维的平面上,强迫使得所…
14.1  动机一:数据压缩 14.2  动机二:数据可视化 14.3  主成分分析问题 14.4  主成分分析算法 14.5  选择主成分的数量 14.6  重建的压缩表示 14.7  主成分分析法的应用建议 14.1  动机一:数据压缩 14.2  动机二:数据可视化 14.3  主成分分析问题 14.4  主成分分析算法 14.5  选择主成分的数量 14.6  重建的压缩表示 14.7  主成分分析法的应用建议…
理论学习: 独立成分分析ICA历史 Ref: Lecture 15 | Machine Learning (Stanford) - NG From: https://wenku.baidu.com/view/ad0973b94028915f804dc2aa.html 解ICA的若干种方法: ICA by Maximization of Nongaussianity       <---- ICA by Maximum Likelihood Estimation <---- ICA by Min…
2013 基于数据降维和压缩感知的图像哈希理论与方法 唐振军 广西师范大学 多元时间序列数据挖掘中的特征表示和相似性度量方法研究 李海林 华侨大学       基于标签和多特征融合的图像语义空间学习技术研究 管子玉 西北大学       非负矩阵分解中维数约减问题研究 赵金熙 南京大学 58     大数据环境下高维数据流挖掘算法及应用研究 冯林 大连理工大学       面向高维信息的非线性维数约减问题研究 高小方 山西大学       基于支持向量机的增量式强化学习技术及其应用研究 伏玉琛…