Bias and Variance 偏置和方差

偏置和方差

参考资料：http://scott.fortmann-roe.com/docs/BiasVariance.html

http://www.cnblogs.com/kemaswill/

Bias-variance 分解是机器学习中一种重要的分析技术。给定学习目标和训练集规模，它可以把一种学习算法的期望误差分解为三个非负项的和，即本真噪音、bias和 variance。

本真噪音是任何学习算法在该学习目标上的期望误差的下界；( 任何方法都克服不了的误差)
bias
度量了某种学习算法的平均估计结果所能逼近学习目标的程度；（独立于训练样本的误差，刻画了匹配的准确性和质量：一个高的偏置意味着一个坏的匹配）

variance
则度量了在面对同样规模的不同训练集时，学习算法的估计结果发生变动的程度。（相关于观测样本的误差，刻画了一个学习算法的精确性和特定性：一个高的方差意味着一个弱的匹配）

偏置刻画的是构建的模型和真实模型之间的差异。例如数据集所反映的真实模型为二次模型，但是构建的是线性模型，则该模型的结果总是和真实值结果直接存在差异，这种差异是有构建的模型的不准确所导致的，即为偏置bias；如上图中的下面两个图，真实的模型是红心（即每次都是要瞄准红心的），但是构建的模型是偏离红心的（即在射击时瞄准的是红心偏上方向）。

方差刻画的是构建的模型自身的稳定性。例如数据集本身是二次模型，但是构建的是三次模型，对于多个不同的训练集，可以得到多个不同的三次模型，那么对于一个固定的测试点，这多个不同的三次模型得到多个估计值，这些估计值之间的差异即为模型的方差；如上图中的右侧两图，不论构建的模型是否是瞄准红心，每个模型的多次结果之间存在较大的差异。

偏置-方差分解(Bias-Variance Decomposition)是统计学派看待模型复杂度的观点。

假设我们有K个数据集，每个数据集都是从一个分布p(t,x)中独立的抽取出来的(t代表要预测的变量，x代表特征变量)。对于每个数据集D，我们都可以在其基础上根据学习算法来训练出一个模型y(x;D)来。在不同的数据集上进行训练可以得到不同的模型。学习算法的性能是根据在这K个数据集上训练得到的 K个模型的平均性能来衡量的，亦即：

其中的h(x)代表生成数据的真实函数，亦即t=h(x).

我们可以看到，给定学习算法在多个数据集上学到的模型的和真实函数h(x)之间的误差，是由偏置(Bias)和方差(Variance)两部分构成的。其中偏置描述的是学到的多个模型和真实的函数之间的平均误差，而方差描述的是学到的某个模型和多个模型的平均之间的平均误差。

Bias and Variance 偏置和方差的更多相关文章

Error、Bias、Variance及损失函数理解
个人感觉理解误差.偏置.方差的一个好的解释,感谢分享:https://baijiahao.baidu.com/s?id=1601092478839269810&wfr=spider&f ...
理解 Bias 与 Variance 之间的权衡
有监督学习中,预测误差的来源主要有两部分,分别为 bias 与 variance,模型的性能取决于 bias 与 variance 的 tradeoff ,理解 bias 与 variance 有助 ...
机器学习中学习曲线的 bias vs variance 以及数据量m
关于偏差.方差以及学习曲线为代表的诊断法: 在评估假设函数时,我们习惯将整个样本按照6:2:2的比例分割:60%训练集training set.20%交叉验证集cross validation set ...
对Inductive Bias（归纳偏置）的理解
参考资料: https://en.wikipedia.org/wiki/Inductive_bias http://blog.sina.com.cn/s/blog_616684a90100emkd.h ...
算法岗面试题：模型的bias和variance是什么？用随机森林举例
校招在即,准备准备一些面试可能会用到的东西吧.希望这次面试不会被挂. 基本概念说到机器学习模型的误差,主要就是bias和variance. Bias:如果一个模型的训练错误大,然后验证错误和训练错误 ...
Bias and Variance
以下内容参考 cousera 吴恩达机器学习课程 1. Bias 和 Variance 的定义 Bias and Variance 对于改进算法具有很大的帮助作用,在bias和Variance的指引 ...
机器学习模型 bias 和 variance 的直观判断
假设我们已经训练得到一个模型,那么我们怎么直观判断这个模型的 bias 和 variance? 直观方法: 如果模型的训练错误比较大,并且验证错误和训练错误差不多一样,都比较大,我们就 ...
[转]理解 Bias 与 Variance 之间的权衡----------bias variance tradeoff
有监督学习中,预测误差的来源主要有两部分,分别为 bias 与 variance,模型的性能取决于 bias 与 variance 的 tradeoff ,理解 bias 与 variance 有助于 ...
week6:Diagnosing Bias vs. Variance难点记录
1.Bias vs. Variance是什么概念? 图形上的理解:https://www.zhihu.com/question/27068705 http://blog.csdn.n ...

随机推荐

简单的国际化i18n
就是简单的中英文转换 index.jsp <%@ page language="java" contentType="text/html; charset=UTF- ...
ajax 304 bug处理方法
在ie内核中,发现Ajax的请求不会真正的被发送到服务器端,返回的永远是304.这个应该是IE的设计问题,查询解决方法后,看到网上的一段话: "因为ajax请求的时候如果使用get方式请求, ...
hibernate实体对象的三种状态:自由状态,持久状态,游离状态.
自由态与游离态的区别: 当一个持久化对象,脱离开Hibernate的缓存管理后,它就处于游离状态,游离对象和自由对象的最大区别在于,游离对象在数据库中可能还存在一条与它对应的记录,只是现在这个游离对 ...
初识Redis系列之三：Redis支持的数据类型及使用
支持的数据类型有五种: string(字符串).hash(哈希).list(列表).set(集合)及zset(sorted set:有序集合): 下面分别对这几种类型进行简单的Redis存取操作 1: ...
.9-浅析express源码之请求处理流程(2)
上节漏了几个地方没有讲. 1.process_params 2.trim_prefix 3.done 分别是动态路由,深层路由与最终回调. 这节就只讲这三个地方,案例还是express-generat ...
spring cloud 入门系列二：使用Eureka 进行服务治理
服务治理可以说是微服务架构中最为核心和基础的模块,它主要用来实现各个微服务实例的自动化注册和发现. Spring Cloud Eureka是Spring Cloud Netflix 微服务套件的一部分 ...
Wcf host
Uri baseAddress = new Uri(uri);//var binding = new WebHttpBinding(WebHttpSecurityMode.None); var bas ...
Template Method 模板设计模式
什么是模板设计模式对于不了解的模板设计模式的来说,可以认为如同古代的造纸术一样,纸所以成型,取决于用了模板的形状,形状又由镂空的木板组成,而你想要造什么纸,又取决于你使用什么材料. 上面提到了两个关 ...
开源一个自己造的轮子：基于图的任务流引擎GraphScheduleEngine
GraphScheduleEngine是什么: GraphScheduleEngine是一个基于DAG图的任务流引擎,不同语言编写.运行于不同机器上的模块.程序,均可以通过订阅GraphSchedul ...
使用DB查询分析器实现异构数据源中数据表的相互访问
1 引言硕士程序员马根峰(CSDN专访马根峰:海量数据处理与分析大师的中国本土程序员)推出的个人作品----万能数据库查询分析器,中文版本DB 查询分析器.英文版本<DB Query A ...

Bias and Variance 偏置和方差

Bias and Variance 偏置和方差的更多相关文章

随机推荐

热门专题