原文章地址:维度灾难 - 柳枫的文章 - 知乎 https://zhuanlan.zhihu.com/p/27488363 对于大多数数据,在一维空间或者说是低维空间都是很难完全分割的,但是在高纬空间间往往可以找到一个超平面,将其完美分割. 引用The Curse of Dimensionality in Classification的例子来说明:想象下我们有一系列图片,每张图描述的不是猫就是狗.现在我们想利用这些图片来做一个可以判断猫狗的分类器.首先,我们需要找到一些描述猫狗特征,利用这些特征…
Curse of Dimensionality Curse of Dimensionality refers to non-intuitive properties of data observed when working in high-dimensional space *, specifically related to usability and interpretation of distances and volumes. This is one of my favourite t…
一个特性:低维(特征少)转向高维的过程中,样本会变的稀疏(可以有两种理解方式:1.样本数目不变,样本彼此之间距离增大.2.样本密度不变,所需的样本数目指数倍增长). 高维度带来的影响: 1.变得可分. 由于变得稀疏,之前低维不可分的,在合适的高维度下可以找到一个可分的超平面. 2.过拟合风险. 过高维度会带来过拟合的风险(会学习到数据集中的特例或异常,对现实测试数据效果较差).增加维度的线性模型等效于低维空间里较复杂的非线性分类器. 3.需要更多训练数据.我们需要更多的训练数据进行参数估计. 4…
维数灾难 给定如下分类问题: 其中x6和x7表示横轴和竖轴(即两个measurements),怎么分? 方法一(simple): 把整个图分成:16个格,当给定一个新的点的时候,就数他所在的格子中,哪种颜色的点最多,最多的点就是最有可能的. 如图: 显然,这种方法是有缺陷的: 例子给出的是2维的,那么3维的话,就是一个立体的空间,如下图所示: 因为我们生活在3维的世界里,所以我们很容易接受3维.比如,我们考虑一个在D维环境下,半径为1和半径为1-的球体的容积之差: 他们的差即为: volume…
Lecturer 咖中咖 Tomaso A. Poggio Lecture slice Lecture video 三个基本问题: Approximation Theory: When and why are deep networks better than shallow networks? Optimization: What is the landscape of the empirical risk? Learning Theory: How can deep learning not…
Dimensionality in statistics refers to how many attributes a dataset has. For example, healthcare data is notorious for having vast amounts of variables (e.g. blood pressure, weight, cholesterol level). In an ideal world, this data could be represent…
PRML Chapter 1. Introduction 为了防止忘记,要把每章的重要内容都记下来,从第一章开始 2012@3@28 今天又回去稍微翻了一下第一章内容,发现第一次看的时候没有看透,每次翻都能翻出新的内容和感悟来.这主要得益于后面其他书里看到的一些内容后,再来看前面的某些话,就知道这些话不是白写的了,而是每一句都有一些深层的意义. 因此对于PRML这样的书,看一两遍是不够的,有空要多回翻 P 2 generalization的定义:The ability to categorize…
1.visual perception gestalt theory:格式塔学派是心理学重要流派之一,兴起于20世纪初的德国,又称为完形心理学.由马科斯·韦特墨.沃尔夫冈·苛勒和科特·考夫卡三位德国心理学家在研究似动现象的基础上创立.格式塔是德文Gestalt的译音,意即“模式.形状.形式”等,意思是指“动态的整体”. 格式塔学派主张人脑的运作原理是整体的,“整体不同于其部件的总和”. 2.tufte principles:爱德华·塔夫特(Edward Tufte)发明了“图表垃圾”的概念. 他…
Introduction 一.Scikit-learning 广义线性模型 From: http://sklearn.lzjqsdd.com/modules/linear_model.html#ordinary-least-squares # 需要明白以下全部内容,花些时间. 只涉及上述常见的.个人相关的算法. Ref: https://www.youtube.com/watch?v=ipb2MhSRGdw 二.方法进化简史 1.1 松弛求解 到 最小二乘 基本上都是解不存在的超定方程组.因此,…
1 Why? Reason1 Knowledge Discovery (about human beings limitaitons) Reason2 Cause of Dimensionality (维度灾难) (about ML algorithm itself) 所需的数据量会根据你所拥有的特征数量以指数速度增长 2 NP-Hard Problem arbitrarily choose m features from n features (m≤n),don't know what m t…