无监督学习：Linear Dimension Reduction(线性降维)

一 Unsupervised Learning

把Unsupervised Learning分为两大类：

化繁为简：有很多种input，进行抽象化处理，只有input没有output
无中生有：随机给一个input，自动画一张图，只有output没有input

二 Clustering

有一大堆image ，把他们分为几大类，给他们贴上标签，将不同的image用相同的 cluster表示。也面临一个问题，要有多少种cluster呢？有两种clustering的方法：

2.1 K-means(K均值)

2.2 Hierarchical Agglomerative Clustering (HAC阶层式汇聚分群法)

注：如果说K均值算法的问题是不好却确定分为几类，那么HAC的问题在于不知将分类门槛划在哪一层。

三 Distributed Representation（分布式表征）

光做clustering是很卡的，有的个体并不只属于一个大类，所以需要一个vector来表示在各个类中的概率。这样，从一个（高维）图片到一个各个属性概率（低维）就是一个Dimension Reduction。

四 Dimension Reduction

为什么说降维是很有用的呢？有时候在3D很复杂的图像到2D就被简化了。

在MNIST训练集中，很多28*28维的向量转成一个image看起来根本不像数字，其中是digit的vector很少，所以或许我们可以用少于28*28维的向量来描述它。比如下图一堆3，每一个都是28*28维的向量，但是，我们发现，它们仅仅是角度的不同，所以我们可以加上角度值进行降维，来简化表示。

那我们应该怎样做Dimension Reduction呢？就是要找一个function。有两个方法：

Feature selection特征选择：比如在左图二维坐标系中，我们发现X1轴对样本点影响不大，那么就可以把它拿掉。
PCA 主成分分析：输出 z=Wx输入，找到这个向量W。

在现实中我们很难确定某个因素是否真的不起作用，所以下边重点介绍一个PCA

4.1 Principle Component Analysis (PCA) 主成分分析

在一维的例子里，我们要找 z1 方差最大的情况，当维度升高到2维，找 z2 方差最大，为了避免与 z1 重复，所以规定 w1 与 w2 垂直。依次方法可进行高维计算。将所有w转置一下，组成一个高维向量，就是我们要找的W。

补充一些数学知识（为了求解w）：

4.2 PCA - decorrelation

4.3 PCA – Another Point of View

每个手写识别，都是由基础组件构成的，把基础组件加起来，得到一个数字。对7来说，C1\C2\C3\C4\C5分别为1\0\1\0\1

那我们如何找到 u1-uK这K个Vector呢？我们要找K个vector使重构误差越小越好。

转化为Matrix。

怎么解这个问题呢？SVD方法： matrix X 可以用SVD拆成 matrix U * matrix ∑ * matrix V。

这样w已经通过SVD求出来了，Ck怎么求呢？

4.4 Weakness of PCA

参考：

http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2016/Lecture/dim%20reduction%20%28v5%29.pdf

https://blog.csdn.net/soulmeetliang/article/details/73309360

无监督学习：Linear Dimension Reduction(线性降维)的更多相关文章

斯坦福机器学习视频笔记 Week8 无监督学习：聚类与数据降维 Clusting & Dimensionality Reduction
监督学习算法需要标记的样本(x,y),但是无监督学习算法只需要input(x). 您将了解聚类 - 用于市场分割,文本摘要,以及许多其他应用程序. Principal Components Analy ...
14-1-Unsupervised Learning ---dimension reduction
无监督学习(Unsupervised Learning)可以分为两种: 化繁为简聚类(Clustering) 降维(Dimension Reduction) 无中生有(Generation) 所谓的 ...
【机器学习基础】无监督学习（1）——PCA
前面对半监督学习部分作了简单的介绍,这里开始了解有关无监督学习的部分,无监督学习内容稍微较多,本节主要介绍无监督学习中的PCA降维的基本原理和实现. PCA 0.无监督学习简介相较于有监督学习和半监 ...
机器学习，数据挖掘，统计学，云计算，众包（crowdsourcing），人工智能，降维（Dimension reduction）
机器学习 Machine Learning:提供数据分析的能力,机器学习是大数据时代必不可少的核心技术,道理很简单:收集.存储.传输.管理大数据的目的,是为了“利用”大数据,而如果没有机器学习技术分析 ...
【机器学习基础】无监督学习（2）——降维之LLE和TSNE
在上一节介绍了一种最常见的降维方法PCA,本节介绍另一种降维方法LLE,本来打算对于其他降维算法一并进行一个简介,不过既然看到这里了,就对这些算法做一个相对详细的学习吧. 0.流形学习简介在前面PC ...
Machine Learning Algorithms Study Notes(4)—无监督学习（unsupervised learning）
1 Unsupervised Learning 1.1 k-means clustering algorithm 1.1.1 算法思想 1.1.2 k-means的不足之处 1 ...
学习笔记TF057:TensorFlow MNIST，卷积神经网络、循环神经网络、无监督学习
MNIST 卷积神经网络.https://github.com/nlintz/TensorFlow-Tutorials/blob/master/05_convolutional_net.py .Ten ...
<机器学习>无监督学习算法总结
本文仅对常见的无监督学习算法进行了简单讲述,其他的如自动编码器,受限玻尔兹曼机用于无监督学习,神经网络用于无监督学习等未包括.同时虽然整体上分为了聚类和降维两大类,但实际上这两类并非完全正交,很多地方 ...
Python 机器学习实战 —— 无监督学习（上）
前言在上篇<Python 机器学习实战 -- 监督学习>介绍了支持向量机.k近邻.朴素贝叶斯分类 .决策树.决策树集成等多种模型,这篇文章将为大家介绍一下无监督学习的使用.无监督学习顾 ...

随机推荐

【题解】 AT2134 Zigzag MST
[题解]AT2134 Zigzag MST 一道MST好题 $Anson$有云: 要么是减少边的数量. 要么是改变连接边的方式. 那么如何减少边的数量呢?很简单,把所有不可能对答案产生贡献的边去掉 ...
【题解】[Ghd]
[题解]Ghd 一道概率非酋题? 题目很有意思,要我们选出大于$\frac{n}{2}$个数字使得他们的最大公约数最大. 那么我们若随便选择一个数字,他在答案的集合里的概率就大于$0.5$了. ...
关于Wix的源代码
Wix的源代码有两种方式可以获得,以3.8为例: 在Release的页面下载wix38-debug.zip 通过SourceCode页面下载,http://wix.codeplex.com/Sourc ...
Mac OS X 下查看和设置JAVA_HOME
原文链接 : http://blog.csdn.net/done58/article/details/51138057 1, 查看Java版本打开Mac电脑,查看JAVA版本,打开终端Termina ...
BZOJ 1370 [Baltic2003]Gang团伙：并查集【虚点】
题目链接:http://www.lydsy.com/JudgeOnline/problem.php?id=1370 题意: 在某城市里住着n个人,任何两个认识的人不是朋友就是敌人,而且满足: (1)我 ...
[Android Studio] Android Studio快速定位当前打开的文件在哪个目录（package）下
转载自:http://blog.csdn.net/hyr83960944/article/details/38067499 在Eclipse中有一个很好的功能,就是比如我打开一个AActivity,左 ...
python optparse命令解析模块
来源:http://www.cnblogs.com/pping/p/3989098.html?utm_source=tuicool&utm_medium=referral 来源:http:// ...
重学JAVA基础(二):Java反射
看一下百度的解释: JAVA反射机制是在运行状态中,对于任意一个类,都能够知道这个类的所有属性和方法:对于任意一个对象,都能够调用它的任意一个方法和属性:这种动态获取的信息 ...
Ubuntu Java环境变量配置
# java homeJAVA_HOME=/usr/local/jdk/jdk1.8.0_121JRE_HOME=JAVA_HOME/jreCLASSPATH=.:$JAVA_HOME/lib:$JR ...
有关mapminmax的用法详解
几个要说明的函数接口: [Y,PS] = mapminmax(X) [Y,PS] = mapminmax(X,FP) Y = mapminmax('apply',X,PS) X = mapminmax ...

无监督学习：Linear Dimension Reduction(线性降维)

无监督学习：Linear Dimension Reduction(线性降维)的更多相关文章

随机推荐

热门专题