Coursera Machine Learning : Regression 评估性能

单行道| 2024-11-04 22:21:25 原文

评估性能

　　评估损失

　　1、Training Error

　　首先要通过数据来训练模型，选取数据中的一部分作为训练数据.

　　

　　损失函数可以使用绝对值误差或者平方误差等方法来计算，这里使用平方误差的方法，即：　(y-f(x))²

　　使用此方法计算误差，然后计算所有数据点，并求平均数。

　　

　　Training Error 越小，模型越好？答案是否定的，下面看看Training Error 和模型复杂度的关系。

　　

　　

　　

　　

　　

　　从上的的图可以看出，要想使training error越小，模型就会变得越复杂，然后出现了过拟合的现象

　　很有可能训练数据中有个别异常数据点，如果过度拟合所有的数据点，就会导致模型过拟合，并不能很好的对房价进行预测；

　　training error 小，并不能说明是个很好的预测。

　　

　　

　　2、Generalization (true) error 真实误差

　　首先说明的一点是这个值是不能计算出来的；

　　计算真实误差，首先需要知道真实值，训练数据中的数据不一定就代表真实值，不过可以通过训练数据中的平均值来估算出来。

　　比如，计算房子A的房价，找出所有与A类似的房子求出房价，计算平均值。来估算房价。

　　

　　下面来看看真实误差和模型复杂度的关系：

　　图像中的真实值，参考图像中颜色变浅的中间位置

　　

　　

　　

　　

　　

　　

　　通过上图可以看出，模型简单和模型过度复杂，都不能很好的对数据进行预测

　　

　　3、Test Error

　　Test Error 和 True Error 接近，Test Error的测试数据来自测试数据集。

　　

　　

　　对测试数据集进行计算误差，计算方法和Training Error类似。

　　

　　

　　Training, true, & test error 和模型复杂度的比较：

　　test error 在 true error的周边波动，接近true error的值。

　　

　　从上图中可以看出，总结出过拟合的判断：

　　模型中存在估计参数w'

　　　　1. training error(w) < training error(w')

　　　　2. true error(w) > true error (w')

　　说明w过拟合

　　误差的3个来源

　　　Noise, Bias, Variance

　　1、Noise 噪声

　　　　固有的，不可约减的

　　

　

　　2、Bias 偏差

　　

　　

　　

　　模型越简单，偏差越大

　　

　　模型越复杂，偏差越小

　　3、Variance 方差

　　

　　

　　模型简单，方差小

　　

　　模型复杂，方差大

　　

　　偏差和方差权衡，偏差和方差不能计算

　　

　　

　　training error和测试数据量的关系，固定的模型复杂度，少量数据拟合更好，误差会更小;随着数据量的增大，误差也随之增大，会达到一个临界点与true error 相等。

　　true error 和测试数据量的关系，固定的模型复杂度，少量的数据的true error会更大;随着数据量的增大，误差也随之减小，会到达一个临界点与training error 相等。

　　

　　

Coursera Machine Learning : Regression 评估性能的更多相关文章

Coursera Machine Learning : Regression 多元回归
多元回归回顾一下简单线性回归:一个特征,两个相关系数实际的应用要比这种情况复杂的多,比如 1.房价和房屋面积并不只是简单的线性关系. 2.影响房价的因素有很多,不仅仅是房屋面积,还包括很多其他因素 ...
Coursera Machine Learning : Regression 简单回归
简单回归这里以房价预测作为例子来说明:这里有一批关于房屋销售记录的历史数据,知道房价和房子的大小.接下来就根据房子的大小来预测下房价. 简单线性回归,如下图所示,找到一条线,大体描述了历史数据的走势 ...
Coursera Machine Learning: Regression 证书
Coursera machine learning 第二周 quiz 答案 Linear Regression with Multiple Variables
https://www.coursera.org/learn/machine-learning/exam/7pytE/linear-regression-with-multiple-variables ...
【Coursera - machine learning】 Linear regression with one variable-quiz
Question 1 Consider the problem of predicting how well a student does in her second year of college/ ...
Coursera machine learning 第二周编程作业 Linear Regression
必做: [*] warmUpExercise.m - Simple example function in Octave/MATLAB[*] plotData.m - Function to disp ...
Coursera, Machine Learning, notes
Basic theory (i) Supervised learning (parametric/non-parametric algorithms, support vector machine ...
神经网络作业: NN LEARNING Coursera Machine Learning（Andrew Ng） WEEK 5
在WEEK 5中,作业要求完成通过神经网络(NN)实现多分类的逻辑回归(MULTI-CLASS LOGISTIC REGRESSION)的监督学习(SUOERVISED LEARNING)来识别阿拉伯 ...
Coursera, Machine Learning, Anomoly Detection & Recommender system
Algorithm: When to select Anonaly detection or Supervised learning? 总的来说guideline是如果positive e ...

随机推荐

Media Queries详解
Media Queries直译过来就是“媒体查询”,在我们平时的Web页面中head部分常看到这样的一段代码: <link href="css/reset.css" rel ...
java学习第14天（集合的框架和基本遍历）
今天主要是接触了集合的概念,集合简单意义上来说就是类对象的集合,我们一般用Collection 这个接口来表示,集合主要体系为: Collection |--List |--ArrayList |-- ...
SQL Server提高事务复制效率优化（二）快照初始化优化
测试数据表量1500w+,使用初始化默认的快照代理参数,复制的三个过程包括快照初始化,订阅初始化和数据修改复制,主要对快照代理.分发代理.日志读取代理分别作了参数优化,并给出优化前后的对照实验测试. ...
MFC 如何改变对话框的默认背景颜色（转）
下面介绍三种方法:实现改变对话框的默认背景颜色: (1)可以在CLotteryApp::InitInstance()设置更新对话框的背景颜色调用SetDialogBkColor(RG ...
dump 分析模式之 INCORRECT STACK TRACE - djm2005dy的专栏 - 博客频道 - CSDN.NET
Dump 分析模式之 INCORRECT STACK TRACE dump 分析模式之 INCORRECT STACK TRACE 翻译自 MDA-Anthology Page288 初学者常犯的错 ...
端到端 vs 点到点
比较(转自百度经验) 端到端与点到点是针对网络中传输的两端设备间的关系而言的.端到端传输指的是在数据传输前,经过各种各样的交换设备,在两端设备问建立一条链路,就僚它们是直接相连的一样,链路建立后,发 ...
通过innobackupex实现对MySQL的增量备份与还原
备份增量备份是基于完整备份的,所以我们需要先做一次完整备份: innobackupex --password=test /backup/ 备注:test是我的MySQL服务的root用户的密码,/b ...
(转)javascript异步编程的四种方法
本文转自:http://www.ruanyifeng.com/blog/2012/12/asynchronous%EF%BC%BFjavascript.html 作者:阮一峰本文仅仅作为个人mark ...
如何决定DCOM是否可用
如何决定DCOM是否可用
java 枚举
DK1.5引入了新的类型——枚举.在 Java 中它虽然算个“小”功能,却给我的开发带来了“大”方便. 用法一:常量在JDK1.5 之前,我们定义常量都是: publicstaticfianl... ...