机器学习模型 bias 和 variance 的直观判断

simplelovecs 2024-09-16 01:39:29 原文

　　假设我们已经训练得到一个模型，那么我们怎么直观判断这个模型的 bias 和 variance？

　　直观方法：

　　　　如果模型的训练错误比较大，并且验证错误和训练错误差不多一样，都比较大，我们就认为这个模型是高bias 的，或者说它是 underfit 。

　　　　如果模型的训练错误比较小，但是验证错误比较大远大于训练错误，我们就认为这个模型是高variance，或者说它是 overfit。

　　直观解释：

　　　　如果一个模型是高 bias 的（underfitting），那么可以认为这个模型不仅没有很好的表示测试数据集上数据内含的结构，而且它也没有很好表示整体数据集上数据内含的结构；

　　　　如果一个模型是高 variance的（overfitting），那么通常认为这个模型很好的表示了训练集上数据内含的结构，

　　　　　　但是，我们要明白：

　　　　　　　　首先，从统计学上的观点看，这个训练数据集是真实整体数据集的一个样本数据集，所以，数据集不一定完全内含整体数据集的结构；

　　　　　　　　其次，这些数据都是测量来的，往往都存在误差，不管是测量上的，还是系统本身就有的，这些误差本身也会有某些结构；

　　　　　　如果训练的模型也内含了这些误差的结构，那么...

　　　　总之，不管上面哪种情况或者还是同时出现，即使训练得到的模型很好的拟合了训练集，训练错误很小；但，当推广或者泛化到新的数据集上时，这个模型的预测结果就会下降很多。

机器学习模型 bias 和 variance 的直观判断的更多相关文章

算法岗面试题：模型的bias和variance是什么？用随机森林举例
校招在即,准备准备一些面试可能会用到的东西吧.希望这次面试不会被挂. 基本概念说到机器学习模型的误差,主要就是bias和variance. Bias:如果一个模型的训练错误大,然后验证错误和训练错误 ...
机器学习中学习曲线的 bias vs variance 以及数据量m
关于偏差.方差以及学习曲线为代表的诊断法: 在评估假设函数时,我们习惯将整个样本按照6:2:2的比例分割:60%训练集training set.20%交叉验证集cross validation set ...
Bias and Variance
以下内容参考 cousera 吴恩达机器学习课程 1. Bias 和 Variance 的定义 Bias and Variance 对于改进算法具有很大的帮助作用,在bias和Variance的指引 ...
R语言︱机器学习模型评价指标+（转）模型出错的四大原因及如何纠错
笔者寄语:机器学习中交叉验证的方式是主要的模型评价方法,交叉验证中用到了哪些指标呢? 交叉验证将数据分为训练数据集.测试数据集,然后通过训练数据集进行训练,通过测试数据集进行测试,验证集进行验证. 模 ...
理解 Bias 与 Variance 之间的权衡
有监督学习中,预测误差的来源主要有两部分,分别为 bias 与 variance,模型的性能取决于 bias 与 variance 的 tradeoff ,理解 bias 与 variance 有助 ...
Bias and Variance 偏置和方差
偏置和方差参考资料:http://scott.fortmann-roe.com/docs/BiasVariance.html http://www.cnblogs.com/kemaswill/ Bi ...
week6:Diagnosing Bias vs. Variance难点记录
1.Bias vs. Variance是什么概念? 图形上的理解:https://www.zhihu.com/question/27068705 http://blog.csdn.n ...
机器学习模型解释工具-Lime
本篇文章转载于LIME:一种解释机器学习模型的方法该文章介绍了一种模型对单个样本解释分类结果的方法,区别于对整体测试样本的评价指标准确率.召回率等,Lime为具体某个样本的分类结果做出解释,直观地表 ...
Python 3 利用 Dlib 19.7 和 sklearn机器学习模型实现人脸微笑检测
0.引言利用机器学习的方法训练微笑检测模型,给一张人脸照片,判断是否微笑: 使用的数据集中69张没笑脸,65张有笑脸,训练结果识别精度在95%附近: 效果: 图1 示例效果工程利用pytho ...

随机推荐

【素数】 poj 2739 一个数能有多少种连续素数相加方案
简单题素数打表根据数据量用n2算法遍历开一个save[k]素数存前k个素数和即可. #include <iostream> #include <cstdio> ...
【stack】模拟网页浏览 poj 1028
#include<stdio.h> #include<string.h> int main() { ][]; ]; int i,depth; strcpy(s[]," ...
事件委托小demo(原生版)
<style type="text/css"> body, div, span { margin:; padding:; font-family: "\5FA ...
Hibernate 系列教程16-二级缓存
pom.xml <dependency> <groupId>org.hibernate</groupId> <artifactId>hibernate- ...
iOS xcode工程了解
一个xcode工程默认是在一个主线程的,有需要可以创建分线程判断是否是主线程: NSThread *thread1=[NSThread currentThread]; if ([red isMain ...
aX+bY+cZ=n(非负整数解存在性)
题意: a*1234567+b*123456+c*1234=n 非负整数解得存在性. 题解: 看代码. #include<iostream> #include<cstdio> ...
基础-Ajax，json
ajax是异步交互,也就是说发送请求,到响应回来,页面只是局部刷新. Ajax 步骤: 获取XMLHttpRequest对象绑定一个回调函数 open send 在回调函数中完成操作. json是一 ...
java 集合大家族
在编写java程序中,我们最常用的除了八种基本数据类型,String对象外还有一个集合类,在我们的的程序中到处充斥着集合类的身影!java中集合大家族的成员实在是太丰富了,有常用的ArrayList. ...
使用DTM ( Dynamic Topic Models )进行主题演化实验
最近想研究下Dynamic Topic Models(DTM),论文看了看,文科生的水平确实是看不懂,那就实验一下吧,正好Blei的主页上也提供了相应的C++工具, http://www.cs.pri ...
Chrome 43+浏览器 Cookies encrypted_value解密脚本
python 3.3.5 # -*- coding: utf-8 -*- # Used information from: # http://stackoverflow.com/questions/4 ...