关于本课程的相关资料http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html


错误来自哪里?

error due to "bias" and error due to "variance"

当我们要求无穷多个数的平均值或者方差时,我们选取了N个样本出现计算。很显然我们得到的结果是存在一定误差的。当我们选区的样本的值越多的时候,我们得到的结果也就越准确。类比于训练模型,我们所选择的训练数据是有限的,很多时候我们希望他们效果可靠,数量可观。但是往往并非如此。例如下图:

我们所期望的模型为靶心的f。但是在我们定义的某个模型下,训练数据所推出的效果集中于f非。这两者的距离成为Bias,即偏差。训练集的离散程度为Variance,即方差,这样就导致了错误的出现。

在上图中,左上角的模型为最好的模型。


当我们的模型越简单,所得到的Variance越低,但是他的Bias相对越差。
当模型越复杂的时候,得到的Bias相对较好,但是Variance变高了。

原因在于,较简单的模型表达的范围较少,可无法包过最佳的模型,而较复杂的模型所表达的范围较广,能够包过最佳的模型。


所以会存在过度拟合和欠拟合的情况。当我们训练模型的时候,要根据实际的情况去调整自己的模型。

我们要清楚Bias和variance哪个比较大:

  • 如果你的模型不适合训练样例,得出来的模型有较大差异,那么你就有很大的Bias
  • 如果您可以拟合训练数据,但测试数据存在较大误差,那么您可能会有很大的Variance

当Bias过大时候:

  • 增加更多的feature
  • 选择更复杂的模型

当Variance过大时候:

  • 增加更多的训练数据
  • 使用Regularization(这一点在第一章被我略过,见下图)

如何选择适合的模型?

There is usually a trade-off between bias and variance.

Select a model that balances two kinds of error to minimize total error

我们通过Training Set得出的模型在Testing Set中返回的error最低,但这并不意味着在真实的Testing Set得到的结果最优。

原因在于我们手中的Testing Set并不能很好的代表真实的情况,他的Bias与现实的情况还是存在着距离的。所以得出来的error并不能完美的代表现实

所以我们选择模型应该这样做:

将Training Set分成两组,然后一组用来选择model,选出来最优的model在我们手中Testing Set得到的error较能反映现实的情况:

或者下图中的交叉验证:


写完博客才更好的理解了整个思路。

# ML学习小笔记—Where does the error come from?的更多相关文章

  1. # ML学习小笔记—Gradien Descent

    关于本课程的相关资料http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html 根据前面所为,当我们得到Loss方程的时候,我们希望求得最优的Loss方 ...

  2. # ML学习小笔记—Classification

    关于本课程的相关资料http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html 通过模型可以分类输入,此时根据分类结果的正确与否会有一个Loss函数.找 ...

  3. # ML学习小笔记—Linear Regression

    Regression Output a scalar Model:a set of function 以Linear model为例 y = b+w * $x_cp$ parameters:b,W f ...

  4. 深度学习课程笔记(六)Error

    深度学习课程笔记(六)Error Variance and Bias: 本文主要是讲解方差和偏差: error 主要来自于这两个方面.有可能是: 高方差,低偏差: 高偏差,低方差: 高方差,高偏差: ...

  5. English - 英语学习小笔记

    1.It is...to do sth:做某事是.... 解析:It 是形式主语,后面一半接形容词做表语,to do sth是不定式短语作真正主语. 2.make do和make doing是两种表达 ...

  6. WEB学习小笔记

    环境基于WIN10.IDEA最新版.JDK1.8.TOMCAT9 下面说的有错的地方希望指出,谢谢. STRUT2 1.在maven下的时候系统会系统创建一个叫做log4j的配置文件,但是到了这个版本 ...

  7. SQL 学习小笔记

    1.FOUND_ROWS() 题目: ,; 在上边sql中使用什么选项可以使 SELECT FOUND_ROWS()忽略LIMIT子句,返回总数? *答案* : SQL_CALC_FOUND_ROWS ...

  8. java学习小笔记(三.socket通信)【转】

    三,socket通信1.http://blog.csdn.net/kongxx/article/details/7288896这个人写的关于socket通信不错,循序渐进式的讲解,用代码示例说明,运用 ...

  9. MongoDB 学习小笔记

    1.配置:mongod --dbpath=D:\MongoDB\data mongo2.基本的增删查改 find() update()-- 整体更新,局部更新. 修改器: $inc db.person ...

随机推荐

  1. 第42章 电源管理—实现低功耗—零死角玩转STM32-F429系列

    第42章     电源管理—实现低功耗 全套200集视频教程和1000页PDF教程请到秉火论坛下载:www.firebbs.cn 野火视频教程优酷观看网址:http://i.youku.com/fir ...

  2. 关于vue中的nextTick深入理解

    定义[nextTick.事件循环] nextTick的由来: 由于VUE的数据驱动视图更新,是异步的,即修改数据的当下,视图不会立刻更新,而是等同一事件循环中的所有数据变化完成之后,再统一进行视图更新 ...

  3. image retrieval数据集

    1. Oxford,vgg组,主要是building方面的数据.http://www.robots.ox.ac.uk/~vgg/data/oxbuildings/index.html 2. Calte ...

  4. Eclipse使用的小技巧

    1.在右键new菜单栏中添加新建JSP文件 window->perspective->customize perspective->shortcuts->web->把JS ...

  5. python与consul 实现gRPC服务注册-发现

    背景 通过对gRPC的介绍我们知道,当正常启动服务后,我们只需要知道ip,port就可以进行gRPC的连接.可以想到,这种方式并不适合用于线上环境,因为这样直连的话就失去了扩展性,当需要多机部署的时候 ...

  6. React Native ref高级用法&&setNativeProps使用

    ref属性不只是string ref属性不仅接受string类型的参数,而且它还接受一个function作为 callback.这一特性让开发者对ref的使用更加灵活. render() { retu ...

  7. lintcode 110最小路径和

    最小路径和   描述 笔记 数据 评测 给定一个只含非负整数的m*n网格,找到一条从左上角到右下角的可以使数字和最小的路径. 注意事项 你在同一时间只能向下或者向右移动一步 您在真实的面试中是否遇到过 ...

  8. Windosw系统——常见的问题

    1. 写在某些软件后就无法打开网页,但可以上QQ. 在卸载了一些VPN或USB无线设备后,发现自己网页打不开,但是ping能ping通,也可以登录QQ. 解决办法: (1): 开始运行——regedi ...

  9. Spring Cloud 入门Eureka -Consumer服务消费(声明式Feign)(三)

    Spring Cloud Feign是一套基于Netflix Feign实现的声明式服务调用客户端.它使得编写Web服务客户端变得更加简单.我们只需要通过创建接口并用注解来配置它既可完成对Web服务接 ...

  10. Delphi中DLL的创建和使用(转)

    Delphi中DLL的创建和使用     1.DLL简介:   2.调用DLL:   3.创建DLL:   4.两个技巧:   5.初始化:   6.例外处理.            1.DLL简介  ...