机器学习中的误差 Where does error come from？

误差来自于偏差和方差（bias and variance）

对于随机变量 X，假设其期望和方差分别为 μ 和 σ²。随机采样 N 个随机变量构成样本，计算算术平均值 m，并不会直接得到 μ （除非采样无穷多个样本点）。

假设 m 和 s² 是样本均值和样本方差，由于样本都是随机抽取的，m 和 s² 也是随机的，那么如何构造的 μ 的 estimator？

如果采样很多次，每次都计算得到一个不同的 m，对这些变量 m 求期望，得到的就是对随机变量 X 的均值 μ 的估计：

，所以对随机变量 X 的均值的估计是无偏的。

再对 m 求方差，根据定义，1/N 拿出来会套一个平方，而每次采样都是独立的，所以：

接下来，如何构造 σ²的 estimator？=> 按照定义应该是对 s² 求期望：

可以发现这个估计是有偏的，修正：

回到机器学习的误差问题上，以 linear regression 为例：

同一个模型，怎么找很多个 f^* 呢？——做很多次实验就好了。

为什么简单的模型比较不容易产生高方差的误差？

因为简单的模型受不同训练数据选取的影响不太大，而复杂模型的结果就会因此散布的很开(large variance)。

为什么简单模型的偏差误差可能比较大？

直观解释，简单模型的 function 的空间比较小，当定义模型之后就意味着最好的一个模型只能从这组 function set 中选出来，可能这个比较小的函数空间并没有包含到要找的 target，所以偏差会比较大。

复杂模型比较不容易出现高偏差的误差（蓝色线是红色线的平均，黑色线是 target）：

underfitting: Large bias, Small variance

overfitting: Large variance, Small bias

怎么处理两类误差？

如果模型不能很好的拟合训练数据，就是 large bias => 更复杂的模型；增加更多特征

如果可以很好的拟合训练数据，但不能很好但拟合测试数据，就是 large variance => 收集更多数据，数据增强；如果收集不到数据了，增加正则化惩罚项

怎么选择模型？

可靠的做法：cross validation

把训练集分成 training set 和 validation set 两部分，这样模型在 testing set 的 pubilc 上的表现就可以比较好的代表其在private集上的表现。（没有靠任何测试集信息决定模型）

更进一步的方法：先把训练集分成 N 个等份，分别作为 val 训练，取最优平均误差的模型，固定后再用全部的训练集训练一次

机器学习中的误差 Where does error come from？的更多相关文章

机器学习中的Bias(偏差)，Error(误差)，和Variance(方差)有什么区别和联系？
前几天搜狗的一道笔试题,大意是在随机森林上增加一棵树,variance和bias如何变化呢? 参考知乎上的讨论:https://www.zhihu.com/question/27068705 另外可参 ...
paper 126：[转载] 机器学习中的范数规则化之（一）L0、L1与L2范数
机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化. ...
机器学习中的范数规则化之（一）L0、L1与L2范数（转）
http://blog.csdn.net/zouxy09/article/details/24971995 机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http: ...
机器学习中的范数规则化之（一）L0、L1与L2范数非常好，必看
机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化. ...
机器学习中的K-means算法的python实现
<机器学习实战>kMeans算法(K均值聚类算法) 机器学习中有两类的大问题,一个是分类,一个是聚类.分类是根据一些给定的已知类别标号的样本,训练某种学习机器,使它能够对未知类别的样本进行 ...
机器学习中的范数规则化-L0,L1和L2范式（转载）
机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化. ...
机器学习中模型泛化能力和过拟合现象(overfitting)的矛盾、以及其主要缓解方法正则化技术原理初探
1. 偏差与方差 - 机器学习算法泛化性能分析在一个项目中,我们通过设计和训练得到了一个model,该model的泛化可能很好,也可能不尽如人意,其背后的决定因素是什么呢?或者说我们可以从哪些方面去 ...
偏差(Bias)和方差(Variance)——机器学习中的模型选择zz
模型性能的度量在监督学习中,已知样本 ,要求拟合出一个模型(函数),其预测值与样本实际值的误差最小. 考虑到样本数据其实是采样,并不是真实值本身,假设真实模型(函数)是,则采样值,其中代表噪音,其均 ...
机器学习中的规则化范数(L0, L1, L2, 核范数)
目录: 一.L0,L1范数二.L2范数三.核范数今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化.我们先简单的来理解下常用的L0.L1.L2和核范数规则化.最后聊下规则化项参数的选择问 ...

随机推荐

HashMap源码分析(一):JDK源码分析系列
正文开始注:JDK版本为1.8 HashMap1.8和1.8之前的源码差别很大目录简介数据结构类结构属性构造方法增加删除修改总结 1.HashMap简介 HashMap基于哈希表 ...
tensorflow学习笔记(1)-环境配置
配置环境anaconda3+windows10+pycharm+python==3.5.2+tensorflow==1.1.4+cuda10.0+cudnn7 https://www.anaconda ...
os.path.join用法
os.path.join()函数:连接两个或更多的路径名组件 1.如果各组件名首字母不包含’/’,则函数会自动加上 2.如果有一个组件是一个绝对路径,则在它之前的所有组件均会被舍弃 3.如果最后一个组 ...
js动态生成数据的抓取
需求:爬取https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/018d244441062d8916dd472a4c6a0a0b.html页面中的 ...
Python的函数, 返回值, 参数
1. 函数函数是对功能的封装语法: def 函数名(形参): 函数体(代码块,return) 调用: 函数名(实参) 2. 返回值 return:在函数执行的时候, 遇到return 就直接返回, ...
c++简单桶排序
c++简单桶排序题目一样,还是排序桶排序是排序算法里比较快的代码 + 注释 #include <bits/stdc++.h> using namespace std; int mai ...
Spring Cloud Alibaba | Nacos配置管理
目录 Spring Cloud Alibaba | Nacos配置管理 1. pom.xml 项目依赖 2. 在 bootstrap.properties 中配置 Nacos server 的地址和应 ...
cola-ui的使用
[toc] > 官方:[http://www.cola-ui.com](http://www.cola-ui.com) > > 教程位置:[http://www.cola-ui.co ...
Jquery serialize()提交多个表单数据
ajax提交多个表单数据: 先把不同的表单分别用serialize()函数,然后把序列化后的数据用+拼接提交给后台,具体例子如下 var data1 = $('#form1).serialize(); ...
UNICODE环境下读写txt文件操作
内容转载自http://blog.sina.com.cn/s/blog_5d2bad130100t0x9.html UNICODE环境下读写txt文件操作 (2011-07-26 17:40:05) ...

机器学习中的误差 Where does error come from？

机器学习中的误差 Where does error come from？的更多相关文章

随机推荐

热门专题