第六部分内容:

  1.偏差/方差(Bias/variance)

  2.经验风险最小化(Empirical Risk Minization,ERM)

  3.联合界(Union bound)

  4.一致收敛(Uniform Convergence)

第七部分内容:

  1. VC 维

  2.模型选择(Model Selection)


  2017.11.3注释:这两个部分都是讲述理论过程的,第一方面太难了,第二方面现在只想快速理解Ng的20节课程。所以这部分以后回头再看!

   2017.11.4注释:这理论还是得掌握,不然看Ng视频干嘛?直接去操作TF算了啊。。。。

  1.偏差/方差(Bias/variance)

    https://www.gitbook.com/book/yoyoyohamapi/mit-ml/details,这个是比较简单的,偷懒不写了。

  2.经验风险最小化(Empirical Risk Minization,ERM)

    

    定义一个线性分类器

    其中  (note 

    假设有m个训练样本,样本之间是独立同分布的。

    定义训练误差:

    训练误差也被称为风险。

    经验风险最小化: 选择分类器函数的参数,使得分类器的训练误差(training error)最小。

    让我们换一种考虑方式:我们不是在选择最优分类器函数的参数,而是在选择最优的分类器函数。

    定义假设类

    假设类的每一个成员都是参数n+1个的线性分类器函数。

    重新定义ERM:从假设类H中选取一个函数,使得分类器的训练误差最小。

    实际上,我们并不关心训练误差的大小,我们关心的是分类器对于未知样本的预测能力,也就是一般误差(generation error):

  3.联合界(Union bound)

      

    注释:这里的两个定理证明很麻烦,直接用就可以了,联合界定理很简单不用叙述,Hoeffding 不等式表示试验次数越多均值越趋向真实的值,比如实验10000次硬币,那就正反的比例为1:1。

    3.1.联合界引理(Union Bound):

      令  表示k个事件,这些事件不一定是独立的,

      

    3.2.Hoeffding 不等式:

      假设Z1,…,Zm为m个独立同分布(iid,independent and identically distributed)的随机变量,服从于伯努利分布,即

      并且

      为这些随机变量的均值,给定 ,那么有

      表达的是对真实分布的估计值与真实分布之间的差值大于  的概率的上界,这个上界随着m的增加而指数下降。

      考虑具有有限假设类的情形:猜想类H具有k个假设

      ERM会从H中选出具有最小训练误差的假设

    注释:对Hoeffding 不等式的简单解释如下-->>

      Hoeffding不等式是关于一组随机变量均值的概率不等式。 如果X1,X2,⋯,Xn为一组独立同分布的参数为p的伯努利分布随机变量,n为随机变量的个数。定义这组随机变量的均值为:

      对于任意δ>0, Hoeffding不等式可以表示为

      上面的公式似乎写的不是很详细,所以我又从网上copy了一份其他的解释:

      Hoeffding不等式:Hoeffding不等式好像有很多个形式,all of statistics里的感觉较难理解,这里写一种好理解的。令X1,…,Xn为独立同分布随机变量,满足ai≤Xi≤bi。则对于任意t>0有

      其中:

      至于这个公式怎么证明,就不要为难自己了~

      而这个公式的用途:

      在统计推断中,我们可以利用样本的统计量(statistic)来推断总体的参数(parameter),譬如使用样本均值来估计总体期望。如下图所示,我们从罐子里抽球,希望估计罐子里红球和绿球的比例。

      直觉上,如果我们有更多的样本(抽出更多的球),则样本期望ν应该越来越接近总体期望μ。事实上,这里可以用hoeffding不等式表示如下:

      从hoeffding不等式可以看出,当n逐渐变大时,不等式的UpperBound越来越接近0,所以样本期望越来越接近总体期望。

  4.一致收敛(Uniform Convergence)   

    4.1. 训练误差是一个对一般误差的很好的近似

      首先证明第一项,从猜想类H中任意选取一个假设 ,定义

      服从伯努利分布,因此

      其均值是假设的一般误差。

      训练误差为

      由Hoeffding不等式可知

      假设m很大,即训练样本很多,那么训练误差将会以很大概率近似于一般误差。

      定义事件  为   发生

      有

      那么对于整个猜想类来说

      两边同时用1减去

      也就是说,在不小于  的概率下,对于猜想类H中的所有假设h,其训练误差和一般误差之间的差距将会在  以内。

      这被称为 一致收敛

    4.2. ERM选择的假设的一般误差存在上界

      定义

      那么给定  和  解出

      意思是,只要你的训练集合包含至少上述m这么多的样本,那么概率至少在  下,有 对H中的所有假设成立。

      样本复杂度:为了达到一个特定的错误的界,你需要多大的训练集合。

      误差界:

      同样的,我们可以固定m和,得到

      定义为H中具有最小一般误差的假设, 为H中具有最小训练误差的假设,那么至少在  的概率下,有

      也就是说,我们选择的(具有最小训练误差的)假设的一般误差,和具有最小一般误差的假设的一般误差之间的差值存在  的上界。

      直观上,我们可以把第一项  看成是选择假设的偏差,第二项  看成选择假设的方差。

      当我们将H替换为更复杂的猜想类H',即H是H'的子集时,第一项只会变的更小,即偏差变小;而由于k的增大,第二项会变的更大,即方差变大。

      将一切总结为两个定理如下:

 第七部分:

  7.1VC维空间,VC界讲的很棒

       http://www.flickering.cn/machine_learning/2015/04/vc%E7%BB%B4%E7%9A%84%E6%9D%A5%E9%BE%99%E5%8E%BB%E8%84%89/

  

  7.2模型选择

    7.1.1.交叉验证

      训练和测试相互参照

    7.1.2特征选择

      控制变量,去观察别的变量对结果的影响

    7.1.3特征过滤

      计算特征Xi和Y的相关程度,然后再通过交叉验证去排除

参考:http://blog.csdn.net/u013656184/article/details/50178573

    http://www.cnblogs.com/madrabbit/p/7095575.html#undefined

StanFord ML 笔记 第六部分&&第七部分的更多相关文章

  1. StanFord ML 笔记 第三部分

    第三部分: 1.指数分布族 2.高斯分布--->>>最小二乘法 3.泊松分布--->>>线性回归 4.Softmax回归 指数分布族: 结合Ng的课程,在看这篇博文 ...

  2. StanFord ML 笔记 第八部分

    第八部分内容:  1.正则化Regularization 2.在线学习(Online Learning) 3.ML 经验 1.正则化Regularization 1.1通俗解释 引用知乎作者:刑无刀 ...

  3. StanFord ML 笔记 第五部分

    1.朴素贝叶斯的多项式事件模型: 趁热打铁,直接看图理解模型的意思:具体求解可见下面大神给的例子,我这个是流程图. 在上篇笔记中,那个最基本的NB模型被称为多元伯努利事件模型(Multivariate ...

  4. StanFord ML 笔记 第一部分

    本章节内容: 1.学习的种类及举例 2.线性回归,拟合一次函数 3.线性回归的方法: A.梯度下降法--->>>批量梯度下降.随机梯度下降 B.局部线性回归 C.用概率证明损失函数( ...

  5. StanFord ML 笔记 第十部分

    第十部分: 1.PCA降维 2.LDA 注释:一直看理论感觉坚持不了,现在进行<机器学习实战>的边写代码边看理论

  6. StanFord ML 笔记 第九部分

    第九部分: 1.高斯混合模型 2.EM算法的认知 1.高斯混合模型 之前博文已经说明:http://www.cnblogs.com/wjy-lulu/p/7009038.html 2.EM算法的认知 ...

  7. StanFord ML 笔记 第四部分

    第四部分: 1.生成学习法 generate learning algorithm 2.高斯判别分析 Gaussian Discriminant Analysis 3.朴素贝叶斯 Navie Baye ...

  8. StanFord ML 笔记 第二部分

    本章内容: 1.逻辑分类与回归 sigmoid函数概率证明---->>>回归 2.感知机的学习策略 3.牛顿法优化 4.Hessian矩阵 牛顿法优化求解: 这个我就不记录了,看到一 ...

  9. Android群英传笔记——第六章:Android绘图机制与处理技巧

    Android群英传笔记--第六章:Android绘图机制与处理技巧 一直在情调,时间都是可以自己调节的,不然世界上哪有这么多牛X的人 今天就开始读第六章了,算日子也刚好一个月了,一个月就读一半,这效 ...

随机推荐

  1. 前端之js-echarts组件介绍

    Echarts.init: 全局 echarts 对象,在 script 标签引入 echarts.js 文件后获得,或者在 AMD 环境中通过 require('echarts') 获得. < ...

  2. Azure ARM (18) 将Azure RM Manage Disk托管磁盘的Image,跨订阅迁移

    <Windows Azure Platform 系列文章目录> 先挖一个坑,以后再埋. 最近遇到一个客户需求,客户使用了Azure RM Manage Disk托管磁盘,然后捕获镜像做成了 ...

  3. 值得收藏的JSP连接mysql数据库的例子

    1:用mysql驱动把mysql与tomcat的连接起来.把mysql驱动包(不用解压)放到Tomcat安装目录中lib文件夹下即可. 2:然后在自己的新建的web应用程序上面就可以下下面的代码 3: ...

  4. 黄聪:PHP JSON_ENCODE 不转义中文汉字的方法

    ios程序中不识别读取到的JSON数据中 \u开头的数据. PHP 生成JSON的时候,必须将汉字不转义为 \u开头的UNICODE数据. 网上很多,但是其实都是错误的,正确的方法是在json_enc ...

  5. STL中erase()的用法

    erase()是STL提供的容器中比较常用的方法之一,它的功能是删除容器中的某些元素,其中它的函数原型如下: 1.有两个参数,且参数类型都是size_t型: string& erase ( s ...

  6. vagrant 本地添加box 支持带版本号

    众所周知,vagrant添加box的时候要从外网下载,那速度...(说多了都是泪),所以只好用下载工具下载到本地之后再添加. 一般处理方案 vagrant box add boxName ./down ...

  7. Hadoop概念学习系列之Hadoop新手学习指导之入门需知(二十)

    不多说,直接上干货! 零基础学习hadoop,没有想象的那么困难,也没有想象的那么容易.从一开始什么都不懂,到能够搭建集群,开发.整个过程,只要有Linux基础,虚拟机化和java基础,其实hadoo ...

  8. [转]FTP命令字和响应码解释

    FTP命令 命令  描述  ABOR 中断数据连接程序 ACCT <account> 系统特权帐号 ALLO <bytes>  为服务器上的文件存储器分配字节 APPE < ...

  9. [转][MVC4]

    <add key="vs:EnableBrowserLink" value="false"/> 把这个加到 <appSettings /> ...

  10. 协议无关组播--稀疏模式 PIM-SM

    一. 1)PIM-SM 1.PIM-SM转发.加入 PIM-SM适合于接收成员较少的环境.它与DM有何显著的区别?先看PIM-SM转发机制. 转发: 当组播数据到达路由器时,路由器也会去创建转发项.转 ...