data compression可以使数据占用更少的空间,并且能使算法提速 什么是dimensionality reduction(维数约简)    例1:比如说我们有一些数据,它有很多很多的features,取其中的两个features,如上图所示,一个为物体的长度用cm来度量的,一个也是物体的长度是用inches来度量的,显然这两上features是相关的,画到上图中,近似于一条直线,之所以点不在一条直线上,是因为我们在对物体测量长度是会取整(对cm进行取整,对inches进行取整),这样的…
如果我们能更好地理解我们的数据,这样会对我们开发高效的机器学习算法有作用,将数据可视化(将数据画出来能更好地理解数据)出来将会对我们理解我们的数据起到很大的帮助. 高维数据如何进行显示 GDP: gross domestic product 假设我们可能有50个features,那么我们怎么查看我们的数据呢(如怎么查看代表一个国家如canada的数据,二维可以通过一个点来表示)?因为要画出50维的数据是很难的,这里会用到dimensionality reduction 将50维的数据约简为2维数…
降维(Dimensionality Reduction) 动机一:数据压缩(Motivation I : Data Compression) 数据压缩允许我们压缩数据,从而使用较少的计算机内存或磁盘空间,还会加快算法的学习速度. 下面举例说明下降维是什么? 在工业上,往往有成百上千个特征.比如,可能有几个不同的工程团队,一个团队给了你二百个特征,第二个团队给了你另外三百个的特征,第三团队给了你五百个特征,一千多个特征都在一起,那么实际上,如果你想去追踪一下你所知道的那些特征会变得相当困难,而你又…
由于总是有各种各样的杂事,这个系列的文章竟然一下子拖了好几个月,(实际上其他的日志我也写得比较少),现在决定还是先把这篇降维的日志写完.我甚至都以及忘记了在这个系列中之前有没有讲过“特征”(feature)的概念了,这里不妨再稍微提一下.机器学习应用到各个领域里,会遇到许多不同类型的数据要处理:图像.文本.音频视频以及物理.生物.化学等实验还有其他工业.商业以及军事上得到的各种数据,如果要为每一种类型的数据都设计独立的算法,那显然是非常不现实的事,因此,机器学习算法通常会采用一些标准的数据格式,…
Seven Techniques for Data Dimensionality Reduction Seven Techniques for Data Dimensionality Reduction 12 May, 2015 - 12:38 — rs The recent explosion of data set size, in number of records and attributes, has triggered the development of a number of b…
10. Dimensionality Reduction Content  10. Dimensionality Reduction 10.1 Motivation 10.1.1 Motivation one: Data Compression 10.2.2 Motivation two: Visualization 10.2 Principal Component Analysis 10.2.1 Problem formulation 10.2.2 Principal Component An…
2.5. Decomposing signals in components (matrix factorization problems) 2.5.1. Principal component analysis (PCA) 4.4. Unsupervised dimensionality reduction 4.4.1. PCA: principal component analysis PCA+ICA 解混过程:https://www.zhihu.com/question/28845451…
Lecture 14 Dimensionality Reduction 降维 14.1 降维的动机一:数据压缩 Data Compression 现在讨论第二种无监督学习问题:降维. 降维的一个作用是数据压缩,允许我们使用较少的内存或磁盘空间,也加快算法速度. 举例: 假设用两个特征描述同一个物品的长度,x1单位是厘米cm,x2单位是英寸inches.这将导致高度冗余,所以需要减到一维. 将数据从三维降至二维: 将三维向量投射到一个二维的平面上,强迫使得所有的数据都在同一个平面上,降至二维的特征…
机器学习问题可能包含成百上千的特征.特征数量过多,不仅使得训练很耗时,而且难以找到解决方案.这一问题被称为维数灾难(curse of dimensionality).为简化问题,加速训练,就需要降维了. 降维会丢失一些信息(比如将图片压缩成jpeg格式会降低质量),所以尽管会提速,但可能使模型稍微变差.因此首先要使用原始数据进行训练.如果速度实在太慢,再考虑降维. 8.1 维数灾难(The Curse of Dimensionality) 我们生活在三维空间,连四维空间都无法直观理解,更别说更高…
本周主要介绍了聚类算法和特征降维方法,聚类算法包括K-means的相关概念.优化目标.聚类中心等内容:特征降维包括降维的缘由.算法描述.压缩重建等内容.coursera上面Andrew NG的Machine learning课程地址为:https://www.coursera.org/course/ml  (一)K-means聚类算法 Input data:未标记的数据集,类别数K: 算法流程: 首先随机选择K个点,作为初始聚类中心(cluster centroids): 计算数据集中每个数据与…