Foundations of Machine Learning: Rademacher complexity and VC-Dimension(1)

前面两篇文章中,我们在给出PAC-learnable定理时,都有一个前提假设,那就是 Hypothesis set 是有限的。但很明显,在实际中的假设集大都是无限的,比如上一篇文章中介绍的与坐标轴对齐的矩阵的例子,其 Hypothesis set 就是无限的。

假设我们也用上一章的方法来分析,最后得到的上界中含有无穷大的项$log|H|$, 显然这没有什么意义。 于是我们必须用其他的方法来衡量无限的假设集。换句话说,当 Hypothesis set 越大, 那么他的复杂度就越高, 但当 Hypothesis set 为无限大, 那么我们应该另外找一些有限的指标来衡量模型的复杂度。这就是我们本章要解决的问题。

实际上,去衡量这种复杂度有很多方法, 在接下去的两篇文章中,我们介绍其中的三种。 第一个是 Rademacher complexity, 第二个是 Growth function, 第三个是 VC-dimension。

(一) Rademacher Complexity

这里我们仍然用H表示假设集, h表示假设集中的元素。 但这里我们不再像前面文章那样使用0-1损失函数, 而是用更一般的损失函数$L:\mathcal{Y}\times\mathcal{Y}\rightarrow\mathbb{R}$。 对每一个假设$h:\mathcal{X}\rightarrow\mathcal{Y}$, 与之的关联的一个函数$g:\mathcal{X}\times\mathcal{Y}\rightarrow L(h(x),y)$,所有$g$ 的集合记为 G ,于是对于每一个H, 都有于之相关联的G。所以对H的分析转换到对G的分析。

Rademacher complexity 的思想:通过去衡量一个假设对随机噪声的拟合程度好坏来评估这个函数族的复杂度。

定义 2.1 Empirical Rademacher Complexity  令G为一个从Z到$[a,b]$的映射函数集合,$S=(z_1,z_2,...,z_m)$为大小为m的固定样本,其中$z_i\in Z$。那么相对于样本S,函数族G的Empirical Rademacher Complexity定义为:

\begin{equation*}\widehat{\mathfrak{R}}_S(G)=\mathop{E}\limits_{\sigma}[\sup\limits_{g\in G}\frac{1}{m}\sum _{i=1}^m\sigma_ig(z_i)]\end{equation*}

其中$\sigma=(\sigma_1,\sigma_2,...,\sigma_m)^T$,且$\sigma_i$是取值为$\{+1,-1\}$独立均匀随机变量。我们称随机变量$\sigma_i$为Rademacher变量。

对于这个定义注意以下几点:

  1. 样本$S=(z_1,z_2,...,z_m)=((x_1,y_1),(x_2,y_2),...,(x_m,y_m))$。
  2. $g(z_i)$ 表示用于之对应的假设 h 来预测$y_i$所产生的错误。
  3. Rademacher 变量是个取$\{-1,+1\}$ 两个值的均匀随机变量,上述的期望就是基于这个均匀随机变量的分布来求的。
  4. 可以将上述式子写成:$\widehat{\mathfrak{R}}_S(G)=\mathop{E}\limits_{\sigma}[\sup\limits_{g\in G}\frac{\sigma g_s}{m}]$。
  5. 越复杂的函数族G可以产生更多不同的$g_s$,因此平均的说能更好的拟合随机噪声。

定义 2.2 Rademacher Complexity 令D为产生样本的分布。对任意的整数$m>1$,G的Rademacher Complexity是Empirical Rademacher Complexity的期望,其中的期望是基于样本根据分布采样而来的:

$$\mathfrak{R}_m(G)=\mathop{E} \limits _{S\sim D^m}[\widehat{\mathfrak{R}}_S(G)]$$

为了下面的定理证明,需要先介绍McDiarmid概率不等式。

McDiarmid不等式:令$(x_1,...,x_m)\in \mathcal{X}^m$为独立随机变量的集合,假设存在$c_1,...,c_m>0$,使得$f:\mathcal{X}\rightarrow R$满足以下条件:

$$|f(x_1,...,x_i,...,x_m)-f(x_1,...,x_i',...,x_m)|\leq c_i,$$

对所有的$i\in[1,m]$以及任意的点$x_1,...,x_m,x_i'\in\mathcal{X}$都成立。令$f(S)$ 表示 $f(x_1,...,x_m)$,那么对所有的$\varepsilon>0$,下面的不等式成立:

$$Pr[f(S)-E[f(S)]\geq \epsilon]\leq exp(\frac{-2\epsilon^2}{\sum_{i=1}^mc_i^2})$$

$$Pr[f(S)-E[f(S)]\leq -\epsilon]\leq exp(\frac{-2\epsilon^2}{\sum_{i=1}^mc_i^2})$$

定理 2.1 令G为从Z到$[0,1]$的映射函数族。那么对任意的$\delta>0$,至少以概率$1-\delta$,以下的不等式对所有的$g\in G$都成立:

$$E[g(z)]\leq\frac{1}{m}\sum_{i=1}^m g(z_i)+2\mathfrak{R}_m(G)+\sqrt{\frac{log\frac{1}{\delta}}{2m}},$$

$$E[g(z)]\leq\frac{1}{m}\sum_{i=1}^m g(z_i)+2\mathfrak{\widehat{R}}_S(G)+3\sqrt{\frac{log\frac{2}{\delta}}{2m}}.$$

证明: 我们分成八个步骤来证明这个定理。

  1. 对任意样本$S=(z_1,...,z_m)$和任意$g\in G$,用$\widehat{E}_S[g]$表示g在任意样本S下的empirical average:                                                                                          $$\widehat{E}_S[g]=\frac{1}{m}\sum_{i=1}^m g(z_i).$$
  2. 我们在样本集合上定义一个函数$\Phi:\mathcal{X}^m \rightarrow \mathbb{R}$,记为:                                                                                                                                                   $$\Phi(S)=\sup\limits_{g\in G}(E[g]-\widehat{E}_S[g]).$$
  3. 令$S,S'$为两个大小为m的样本,这两个样本中只有一个点不同,例如$S=(z_1,...,z_{m-1},z_m),S'=(z_1,z_2,...,z_{m-1},z_m')$
  4. 根据最大值的差一定不超过差的最大值,可得                                                                                                                                                                                      \begin{eqnarray*}\Phi(S')-\Phi(S) &=& \sup\limits_{g\in G}(E[g]-\widehat{E}_{S'}[g])-\sup\limits_{g\in G}(E[g]-\widehat{E}_S[g]) \\&\leq& \sup\limits_{g\in G}(E[g]-\widehat{E}_{S'}[g]-E[g]+\widehat{E}_S[g] )  \\ &=& \sup\limits_{g\in G}(\widehat{E}_S[g]-\widehat{E}_{S'}[g])  \\&=& \sup\limits_{g\in G}\frac{g(z_m)-g(z_m')}{m}   \\&\leq& \frac{1}{m}\end{eqnarray*}
    同理,我们也可以得到$\Phi(S)-\Phi(S') \leq \frac{1}{m}$, 因此                                                                                                                                                                    $$|\Phi(S)-\Phi(S')|\leq \frac{1}{m}$$
  5. 应用McDiarmid第一个不等式,有                                                                                                                                                                                                                      $$Pr[\Phi(S)-E[\Phi(S)]\geq \epsilon]\leq exp(\frac{-2\epsilon^2}{1/m})$$
    令$\delta=exp(-2m\epsilon^2)\Rightarrow \epsilon=\sqrt{\frac{log\frac{1}{\delta}}{2m}}$,即以下不等式至少以$1-\delta$概率成立:                                                                   $$\Phi(S)\geq E[\Phi(S)]+\sqrt{\frac{log\frac{1}{\delta}}{2m}}$$
  6. 求$E[\Phi(S)]$的上界。                                                                                                                                                                                                                     \begin{align}\mathop{E}_S[\Phi(S)] &= \mathop{E}_S[\sup_{g\in G}(E[g]-\widehat{E}_S(g))] \nonumber \\ &= \mathop{E}_S[\sup_{g\in G}\mathop{E}_{S'}[\widehat{E}_{S'}(g)-\widehat{E}_{S}(g)]] \label{equ:3} \\ &\leq \mathop{E}_{S,S'}[\sup_{g\in G}\widehat{E}_{S'}[g]-\widehat{E}_S(g)]   \label{equ:4}  \\&= \mathop{E}_{S,S'}[\sup_{g\in G} \frac{1}{m}\sum_{i=1}^m(g(z_i')-g(z_i))]  \label{equ:5}  \\&= \mathop{E}_{\sigma,S,S'}[\sup_{g\in G} \frac{1}{m}\sum_{i=1}^m\sigma_i(g(z_i')-g(z_i))]\label{equ:6} \\&\leq  \mathop{E}_{\sigma,S'}[\sup_{g\in G} \frac{1}{m}\sum_{i=1}^m\sigma_ig(z_i')]+\mathop{E}_{\sigma,S}[\sup_{g\in G} \frac{1}{m}\sum_{i=1}^m-\sigma_ig(z_i)] \label{equ:7} \\&= 2\mathop{E}_{\sigma,S}[\sup_{g\in G} \frac{1}{m}\sum_{i=1}^m\sigma_ig(z_i)] \label{equ:8} \\&= 2\mathfrak{R}_m(G) \nonumber\end{align}
    其中, 
    式子\ref{equ:3}成立是因为$E(g)=\mathop{E}\limits_{S'}[\widehat{E}_{S'}(g)]$,类似于$\mathcal{R}(h)=E[\widehat{\mathcal{R}}(h)]$;
    式子\ref{equ:4}成立是因为sup函数是凸的,应用Jensen's inequality可得(简单的说就是,若f为凸,则$f(E(x))\leq E[f(x)]$);
    式子\ref{equ:5}是根据$\widehat{E}_s(g)$的定义;
    式子\ref{equ:6}是因为,引进 Rademacher variable 不改变式子\ref{equ:5}的值。如当$\sigma_i=1$时,值不改变;当$\sigma_i=-1$时,由于我们是对所有$S,S'$求期望,故可通过对换$S,S'$得到相  同的值;
    式子\ref{equ:7} 成立是因为$\sup(u+v)\leq \sup(u)+ \sup(v)$;
    式子\ref{equ:8} 成立是因为$\sigma_i$ 与 $-\sigma_i$ 有相同的分布。
  7. 所以,                                                                                                                                                                                                                                     \begin{eqnarray*}& & E[g]-\widehat{E}_S[g] \leq \Phi(S) \leq E[\Phi(S)]+\sqrt{\frac{log\frac{1}{\delta}}{2m}} \\&\leq& 2\mathfrak{R}_m(G)+\sqrt{\frac{log\frac{1}{\delta}}{2m}}\end{eqnarray*}
    $\Longrightarrow$
    \begin{align*}E[g] &\leq \widehat{E}_S[g] + 2\mathfrak{R}_m(G)+\sqrt{\frac{log\frac{1}{\delta}}{2m}} \nonumber\\&= \frac{1}{m}\sum_{i=1}^mg(z_i) + 2\mathfrak{R}_m(G)+\sqrt{\frac{log\frac{1}{\delta}}{2m}} \nonumber\end{align*}
  8. 现在证明第二个不等式。
    根据定义2.1,将样本S 改变一点,则 $\widehat{\mathfrak{R}}_S(G)$将至多改变$\frac{1}{m}$, 且$E[\widehat{\mathfrak{R}}_S(G)] = \mathfrak{R}_m(G)$。将 $\widehat{\mathfrak{R}}_S(G)$看作McDiarmid不等式中的$f(s)$,应用McDiarmid不等式中的第二个不等式有,                                                                                                           $$Pr[\widehat{\mathfrak{R}}_S(G)-\mathfrak{R}_m(G)\leq -\epsilon]\leq exp(-2\epsilon^2 m)$$
    令$\frac{\delta}{2}=exp(-2\epsilon^2m) \Rightarrow \epsilon=\sqrt{\frac{log\frac{1}{\delta}}{2m}} $。所以至多以$\frac{\delta}{2}$的概率$\mathfrak{R}_m(G)>\widehat{\mathfrak{R}}_S(G)+\sqrt{\frac{log\frac{1}{\delta}}{2m}}$成立。  另外,由以上证明的第5步可知(将$\delta$换成$\frac{\delta}{2}$):至多以$\frac{\delta}{2}$概率$\Phi(S)\geq E[\Phi(S)] + \sqrt{\frac{log\frac{2}{\delta}}{2m}}$。所以至多以$\delta$概率以上式子至少有一个成立,即至少以$1-\delta$概率以上式子同时不成立:                                \begin{align*}\Phi(S) &\leq E[\Phi(S)] + \sqrt{\frac{log\frac{2}{\delta}}{2m}} \\&\leq 2\mathfrak{R}_m(G) + \sqrt{\frac{log\frac{2}{\delta}}{2m}} \\&\leq 2\widehat{\mathfrak{R}}_S(G) + 3\sqrt{\frac{log\frac{2}{\delta}}{2m}}\end{align*}
     $\Longrightarrow$
     $$E[g(z)]\leq \frac{1}{m}\sum_{i=1}^mg(z_i) + 2\widehat{\mathfrak{R}}_S(G) + 3\sqrt{\frac{log\frac{2}{\delta}}{2m}}$$

我们把上面的结果应用到0-1损失函数,得到以下的引理。

引理 2.1 令H为取值为$\{-1,+1\}$的函数族,令G为与H相对应的且损失函数为0-1损失的函数族:$G=\{(x,y)\rightarrow\mathbb{I}(h(x)\neq y):h\in H\}$。对任意的样本$S=((x_1,y_1),...,(x_m,y_m))$,以下等式成立:

$$\widehat{\mathfrak{R}}_S(G)=\frac{1}{2}\widehat{\mathfrak{R}}_{S_\mathcal{X}}(H).$$

证明:对于任何一个样本$S=((x_1,y_1),...,(x_m,y_m))\subseteq \mathcal{X}\times\{-1,+1\}$, 根据定义:

\begin{align*}\widehat{\mathfrak{R}}_S(G) &= \mathop{E}_{\sigma} [\sup_{h\in H}\frac{1}{m}\sum_{i=1}^m\sigma_i\mathbb{I}(h(x_i)\neq y_i)]  \\&= \mathop{E}_{\sigma}[\sup_{h\in H}\frac{1}{m}\sum_{i=1}^m\sigma_i\frac{1-y_ih(x_i)}{2}]  \\&= \frac{1}{2}\mathop{E}_{\sigma}[\sup_{h\in H}\frac{1}{m}\sum_{i=1}^m(\sigma_i-\sigma_iy_ih(x_i))]     \\&= \frac{1}{2}\mathop{E}_{\sigma}[\frac{1}{m}\sum_{i=1}^m\sigma_i + \sup_{h\in H}-\sigma_iy_ih(x_i)]     \\&= \frac{1}{2}\mathop{E}_{\sigma}[\frac{1}{m}\sup_{h\in H}-\sigma_iy_ih(x_i)]                     \\&= \frac{1}{2}\mathop{E}_{\sigma}[\sup_{h\in H}\frac{1}{m}\sum_{i=1}^m\sigma_ih(x_i)]     \\&= \frac{1}{2}\widehat{\mathfrak{R}}_{S_\mathcal{X}}(H)\end{align*}

其中,$\sigma_i$与$-\sigma_iy_i$的分布是一样的。证毕!

将定理 2.1 和引理 2.1 应用于二分类的$0-1$损失,可知:

$$\widehat{\mathcal{R}}(h)=\frac{1}{m}\sum_{i=1}^m\mathfrak{1}_{(h(x_i)\neq y_i)}=\frac{1}{m}\sum_{i=1}^mg(x_i)=\widehat{E}_S[g]$$

$$\mathcal{R}(h)=E[\widehat{\mathcal{R}}(h)]=\mathop{E}_S[\widehat{E}_S[g]]=E[g(z)]$$

故可得以下定理:

定理 2.2 Rademacher complexity 界——二分类情况

令H为取值为$\{-1,+1\}$的函数族,令D为输入空间$\mathcal{X}$上的分布。那么,对于任意的$\delta>0$,在根据D采样且大小为m的样本S上,以概率$1-\delta$以下的不等式对任意的$h\in H$都成立:

$$\mathcal{R}(h)\leq \widehat{\mathcal{R}}(h)+\mathfrak{R}_m(H)+\sqrt{\frac{log\frac{1}{\delta}} {2m} },$$

$$\mathcal{R}(h)\leq \widehat{\mathcal{R}}(h)+\widehat{\mathfrak{R}}_S(H)+3\sqrt{\frac{log\frac{2}{\delta}} {2m} }.$$

注意,定理中$\widehat{\mathfrak{R}}_S(H)=\mathop{E}_\sigma[\sup_{h\in H}\frac{1}{m}\sum_{i=1}^m\delta_ih(x_i)]$, $\mathfrak{R}_m(H)=\mathop{E}_{S\backsim D^m}[\widehat{\mathcal{R}}_S(H)]$。
    这个定理指出了在基于Rademacher Complexity下二分类错误的界。另外,根据第二个式子,只要我们计算出$\widehat{\mathfrak{R}}_S(H)$的值就可以计算出$\mathcal{R}(h)$的界,但实际上$\widehat{\mathcal{R}}_S(H)$的计算等价与经验风险最小化问题。即:

$$\widehat{\mathfrak{R}}_S(H)=\mathop{E}_\sigma[\sup_{h\in H}\frac{1}{m}\sum_{i=1}^m-\delta_ih(x_i)]=-\mathop{E}_\delta[\inf_{h\in H}\frac{1}{m}\sum_{i=1}^m\delta_ih(x_i)].$$

由上式可知,对于一个固定的$\delta$,计算上式等价于empirical risk minimization 问题,因此属于NP问题。

Foundations of Machine Learning: Rademacher complexity and VC-Dimension(1)的更多相关文章

  1. Foundations of Machine Learning: Rademacher complexity and VC-Dimension(2)

    Foundations of Machine Learning: Rademacher complexity and VC-Dimension(2) (一) 增长函数(Growth function) ...

  2. Foundations of Machine Learning: The Margin Explanation for Boosting's Effectiveness

    Foundations of Machine Learning: The Margin Explanation for Boosting's Effectiveness 在这一节,我们要回答的一个问题 ...

  3. Foundations of Machine Learning: The PAC Learning Framework(1)

    写在最前:本系列主要是在阅读 Mehryar Mohri 等的最新书籍<Foundations of Machine Learning>以及 Schapire 和 Freund 的 < ...

  4. Foundations of Machine Learning: Boosting

    Foundations of Machine Learning: Boosting Boosting是属于自适应基函数(Adaptive basis-function Model(ABM))中的一种模 ...

  5. Foundations of Machine Learning: The PAC Learning Framework(2)

    Foundations of Machine Learning: The PAC Learning Framework(2) (一)假设集有限在一致性下的学习界. 在上一篇文章中我们介绍了PAC-le ...

  6. 【机器学习Machine Learning】资料大全

    昨天总结了深度学习的资料,今天把机器学习的资料也总结一下(友情提示:有些网站需要"科学上网"^_^) 推荐几本好书: 1.Pattern Recognition and Machi ...

  7. 机器学习(Machine Learning)&深度学习(Deep Learning)资料【转】

    转自:机器学习(Machine Learning)&深度学习(Deep Learning)资料 <Brief History of Machine Learning> 介绍:这是一 ...

  8. 机器学习(Machine Learning)&深度学习(Deep Learning)资料汇总 (上)

    转载:http://dataunion.org/8463.html?utm_source=tuicool&utm_medium=referral <Brief History of Ma ...

  9. 机器学习(Machine Learning)&深度学习(Deep Learning)资料(下)

    转载:http://www.jianshu.com/p/b73b6953e849 该资源的github地址:Qix <Statistical foundations of machine lea ...

随机推荐

  1. Android之应用内部实现国际化

    这篇文章也提供了应用内部转换语言的方法: http://blog.csdn.net/sodino/article/details/6596709 .1和2的方法是一样的,然而还是会调整了手机的语言设置 ...

  2. coursera课程Text Retrieval and Search Engines之Week 1 Overview

    Week 1 OverviewHelp Center Week 1 On this page: Instructional Activities Time Goals and Objectives K ...

  3. 第三章 mybatis-generator + mysql/ptsql

    用了mybatis-generator,我就不再想用注解了,这与我之前说的注解与XML并用是矛盾的,知识嘛,本来就是多元化的,今天喜欢这个,明天喜欢那个,哈哈,看了mybatis-generator下 ...

  4. 第十一章 AtomicInteger源码解析

    1.原子类 可以实现一些原子操作 基于CAS 下面就以AtomicInteger为例. 2.AtomicInteger 在没有AtomicInteger之前,对于一个Integer的线程安全操作,是需 ...

  5. C# 特性(Attribute)(二)

    AttributeUsage类是另外一个预定义特性类,它帮助我们控制我们自己的定制特性的使用.它描述了一个定制特性如和被使用.    AttributeUsage有三个属性,我们可以把它放置在定制属性 ...

  6. android 在UI线程之外处理Bitmap - 开发文档翻译

    由于本人英文能力实在有限,不足之初敬请谅解 本博客只要没有注明“转”,那么均为原创,转贴请注明本博客链接链接 Processing Bitmaps Off the UI Thread 在UI线程之外处 ...

  7. Windows 8.1 64位版本安装.Net Framework3.5

    最近刚把个人电脑切换成了Win 8.1 64位版本,但在使用某些Ms的某此产品时会提示没有安装.Net Framework3.5,但按照他的提示需要在线安装而且速度很慢,因为之前搞过WinServer ...

  8. linux系统下调度数据库类型资源库中的kettle job

    已经存在kettle的一个资源库enfo,在目录/works/wxj下面有一个job (testmailsuccess.kjb)如何实现手工在kettle外部执行此job和让系统每天定时的调用此job ...

  9. 运维-JVM监控之内存泄漏

    转载:https://blog.csdn.net/zdx_csdn/article/details/71214219 jmap -heap pid查看进程堆内存使用情况,包括使用的GC算法.堆配置参数 ...

  10. Firefox 之 应用小结

    1. 调试脚本       做前端开发的朋友应该对FireFox再熟悉不过了,FireFox有一个附加组件FireBug.在HTML中可以直接写   <script type="tex ...