高维空间中的高斯分布和随机投影 (一)在高维球体表面产生均匀分布点的方法 我们来考虑一个采样问题,就是怎样在高维单位球体的表面上均匀的采样.首先,考虑二维的情况,就是在球形的周长上采样.我们考虑如下方法:第一,先在一个包含该圆形的外接正方形内均匀的采样:第二,将采样到的点投影到圆形上.具体地说就是,第一,先独立均匀的从区间$[-1,1]$(我们假设圆形跟正方形的中心点都在原点)内产生两个值组成一个二维的点$(x_1,x_2)$:第二,将该二维点投影到圆形上.例如,如下图所示,如果我们产生点是图中…
一些机器学习算法的简介 本节开始,介绍<Computer Science Theory for the Information Age>一书中第六章(这里先暂时跳过第三章),主要涉及学习以及学习的理论——VC理论.而本文主要是介绍一下什么是学习,以及一些常见的学习算法. (一)学习概念 首先,我们用一个例子来介绍什么是学习.假设我们想要用一个算法来识别不同类型的车,比如小汽车.卡车.拖拉机等.根据我们的思维以及对这个领域的知识可知道,我们可以用一系列特征来区分它们,比如我们可以用轮子的数量,发…
高维空间中的球体 注:此系列随笔是我在阅读图灵奖获得者John Hopcroft的最新书籍<Computer Science Theory for the Information Age>所作的笔记.其中我只详细读了第二(高维空间).三(随机图).六(VC理论)章,其他的某些章节也略微看了一下,但没有作笔记.此书的章节大部分是相互独立的,事实上每一个章节都是一个大的方向,代表了作者认为的在信息时代中最有用的计算机理论. (一)介绍 第一部分,高维空间.在现实的世界里,很多数据的维度都是及其高的…
VC定理的证明 本文讨论VC理论的证明,其主要内容就是证明VC理论的两个定理,所以内容非常的枯燥,但对于充实一下自己的理论知识也是有帮助的.另外,VC理论属于比较难也比较抽象的知识,所以我总结的这些证明难免会有一些错误,希望各位能够帮我指出. (一)简单版本的VC理论. 给定一个集合系统$(U,\mathcal{S})$,VC理论可以解决以下问题.对于一个在$U$上的分布$P$,那么至少需要选择多少个样本(根据分布$P$选择),才能使对每个$S\in\mathcal{S}$,用样本估计出来的值以…
高维空间中的正方体和Chernoff Bounds 本文将介绍高维空间中正方体的一些性质,以及一个非常常见也是非常有用的概率不等式——Chernoff Bounds. 考虑$d$维单位正方体$C=\{x|0\leq x_i\leq 1,i=1,\cdots,d\}$,其中心点为$(\frac{1}{2},\cdots,\frac{1}{2})$,体积为1.现在我们将其半径收缩到$1-\frac{c}{d}$,其体积为$(1-\frac{c}{d})^d\leq e^{-c}$,所以当$d$很大时…
学习理论——VC维的定义以及一些例子 本文主要介绍一些学习理论上的东西.首先,我们得明确,从训练集上学习出来的分类器的最终目标是用于预测未知的样本,那么我们在训练的时候该用多少的样本才能使产生的分类器的效果尽可能的好呢?这些就是VC-理论要解决的问题.在介绍这个理论之前,我们得先介绍一个比较抽象的概念——VC维.这个指标是用与衡量假设空间的复杂程度.为了能更好的理解VC维,本文还会举一些例子来加深理解. (一)由一个例子引出的动机 为了更好的说明为什么我们要定义这个VC维,我们先来看一个例子.假…
This is the last in a series of Postgres posts that Pat Shaughnessy wrote based on his presentation at the Barcelona Ruby Conference. You can also watch the video recording of the presentation. The series was originally published on his personal blog…
This started out as a list of top Computer Science blogs, but it more closely resembles a set: the order is irrelevant and there are no duplicate elements; membership of this set of blogs satisfies all of the following conditions: they are written by…
CSCI 1100 — Computer Science 1 Homework 8CS1 Multiverse: ClassesOverviewThis homework is worth 100 points toward your overall homework grade, and is due Thursday,April 25, 2019 at 11:59:59 pm. Please download hw08_files.zip. and unzip it into the dir…
Latest Impact Factor figures from Elsevier's Computer Science Journals Medical Image Analysis Impact Factor 4.248 Impact Factor 4.424 Information Sciences Impact Factor 2.833 Impact Factor 2.833 Applied Soft Computing Journal Impact Factor 2.084 Impa…