衡量线性回归法的指标 MSE,RMS,MAE以及评价回归算法 R Square

衡量线性回归法的指标

对于分类问题来说,我们将原始数据分成了训练数据集和测试数据集两部分,我们使用训练数据集得到模型以后使用测试数据集进行测试然后和测试数据集自带的真实的标签进行对比,那么这样一来,我们就得到了我们的分类准确度,使用这种分类准确度来衡量机器学习模型的好坏

那么对于线性回归算法的好坏应该用什么来衡量呢

以简单线性回归算法来说,我们就是为了使损失函数尽可能的小,那么我们在使用的时候,实际上也是分成两部分的,我们的尽可能小是对于训练数据集来说的,实际上就是训练集和预测出的结果的差值的平方的和

当训练过程结束以后,我们将x_test带入,可以得到每个所相应的预测值

很显然,衡量标准可以是

不过,有个问题,在我们汇报这个标准的时候,这个衡量标准是个m相关的,在没有确定测试数据集的整体一致时,这个标准是没法说明的,因此我们需要对其进行一个1/m的,相当于使这个标准和样本数是无关的

我们一般称其为均方误差MSE

但是这里又有一个问题,就是量纲的问题,使y的单位变成了平方,有的时候会带来麻烦,这个时候我们就可以对上面的式子进行一个平方根处理

我们一般称其为均方根误差RMSE

这两个区别在于对于量纲是否敏感,如果使用同样量纲的话,RMSE的误差会更加的明显

还有一个就是平均绝对误差MAE,很直接,其直接得出每组数据的距离,然后加在一起,在对总数进行平均,就得到了相应的误差

那么在notebook中实现一下衡量回归标准的好坏

那么调用真实的数据,加载好相应的库

  1. import numpy as np
  2. import matplotlib.pyplot as plt
  3. from sklearn import datasets

使用波士顿的房价,将数据存放在Boston中

  1. boston = datasets.load_boston()

可以使用print来看看其中的内容是什么

  1. print(boston.DESCR)

因为我么只使用简单的线性回归,所以只取一个特征

  1. boston.feature_names

可知rm是第五个属性,那么我们可以只是用第五列的数值,即只用房间数量这个特征

  1. x = boston.data[:,5]

使x和y对应起来

  1. x.shape

  1. y = boston.target
  2. y.shape

然后进行绘制,看看大概长什么样

  1. plt.scatter(x,y)

数据如下所示

从图中可以看出来,在50的地方分布了一些点,这些点是一个上限点,即数据中的最大值,比如大于50的全部属于50,对于这些点,显然有可能不是真实的点

确认一下最大值是否为50

  1. np.max(y)

可知确实为50,那么我们将其范围改成小于50

  1. x = x[y < 50.0]
  2. y = y[y < 50.0]

然后绘制看看有什么差异

  1. plt.scatter(x,y)

图像如下

使用简单线性回归算法

首先进行引用,并将其分成四个值,种子设置为666

  1. from model_selection import train_test_split
  2. x_train,x_test,y_train,y_test = train_test_split(x,y,seed=666)

其中我们通过shape可以知道其样本数量

  1. x_train.shape
  2. x_test.shape

然后我们使用向量化运算的方式

  1. from SimpleLinearRegression import SimpleLinearRegression2

确定以后进行实例化,在进行fit操作进行训练

  1. reg = SimpleLinearRegression2()
  2. reg.fit(x_train,y_train)

可以看看得到的a和b

  1. reg.a_
  2. reg.b_

简单的绘制一下结果

  1. plt.scatter(x,y)
  2. plt.plot(x_train,reg.predict(x_train),color='r')

图像如下

然后我们可以开始进行预测,使用predict这个函数将x_test引入,结果放入

  1. y_predict
  2. y_predict = reg.predict(x_test)

指标部分:

MSE

对差距进行的平方的和再除以样本总数对于test来说

  1. mse_test = np.sum((y_predict - y_test) ** 2) / len(y_test)
  2. mse_test

RMSE

对MSE进行一个平方根运算

  1. from math import sqrt
  2. rmse_test = sqrt(mse_test)
  3. rmse_test

MAE

实际预测出来的结果和真实值的差值的绝对值并求和再取平均

  1. mae_test = np.sum(np.absolute(y_predict - y_test)) / len(y_test)
  2. mae_test

我们写入一个metrics.py文件,将对应的操作对应的函数写在其中,三个函数的实现过程和notebook中是一样的

代码如下

  1. import numpy as np
  2. from math import sqrt
  3. def accuracy_score(y_true, y_predict):
  4. """计算y_true和y_predict间的准确率"""
  5. assert y_true.shape[0] == y_predict.shape[0], \
  6. "the size of y_true must be equal to the size of y_predict"
  7. return sum(y_true == y_predict) / len(y_true)
  8. def mean_squared_error(y_true, y_predict):
  9. """计算y_true和y_predict间的MSE"""
  10. assert len(y_true) == len(y_predict), \
  11. "the size of y_true must be equal to the size of y_predict"
  12. return np.sum((y_true - y_predict) ** 2) / len(y_true)
  13. def root_mean_squared_error(y_true, y_predict):
  14. """计算y_true和y_predict间的RMSE"""
  15. return sqrt(mean_squared_error(y_true, y_predict))
  16. def mean_absolute_error(y_true, y_predict):
  17. """计算y_true和y_predict间的MAE"""
  18. assert len(y_true) == len(y_predict), \
  19. "the size of y_true must be equal to the size of y_predict"
  20. return np.sum(np.absolute(y_true - y_predict)) / len(y_true)
  21. def r2_score(y_ture, y_predict):
  22. """计算y_true和y_predict间的R Square"""
  23. return 1 - mean_squared_error(y_ture, y_predict) / np.var(y_ture)

我们封装好属于我们自己的标准之后,我们也可以调用自己的标准

  1. from metrics import mean_squared_error
  2. from metrics import root_mean_squared_error
  3. from metrics import mean_absolute_error

MSE

  1. mean_squared_error(y_test,y_predict)

RMSE

  1. root_mean_squared_error(y_test,y_predict)

MAE

  1. mean_absolute_error(y_test,y_predict)

sklearn中的MSE,MAE

在sklearn中没有RMSE的方法的

因此只能使用其他两个,包装方式相同

  1. from sklearn.metrics import mean_squared_error
  2. from sklearn.metrics import mean_absolute_error

对其使用

MSE

  1. mean_squared_error(y_test,y_predict)

MAE

  1. mean_absolute_error(y_test,y_predict)

RSME和MAE的比较

他们的量纲是一样的,都对应着原始数据,但是大部分情况下,RMSE比MAE大,从公式可以发现,RMSE是有一个放大差距的一个趋势,因此,从某种程度上,是MSE小更好一些

从我个人来看,若是数据基本相同,从公式可以发现RMSE是除以的根号下的m,而MAE是除以m,这个地方就已经导致差距不小了,不知道这种理解对还是不对

评价回归算法 R Square

上面介绍了三种指标,但是这些还是有问题的,像是分类的准确度,1最好,0最坏,很直观,但是上面的指标就没法很直观的判断,种类不同,没法直接对比,这算是一个局限性

解决方法,使用R Square

简单来说,就是让1减去预测结果减去真值的差距的平方的和再除以均值减去真值的平方的和

这个R²的意义是什么呢

对于分子来说,这样的操作可以使用我们的模型预测产生的错误,对于分母来说,是使用y=y*(y的均值)预测产生的错误,这也可以当成一个模型,其与x是无关的,是一个很朴素的预测结果,称其为Baseline Model

基于此,我们可以认为,我们使用自己的模型和基础的模型来预测产生的错误,在用1减去两者相除以后,相当于衡量了我们的模型拟合住的数据的地方,即衡量了我们的式子没有产生错误的指标

这样下来,我们可以确定

1.R²是小于等于1的

2.R²越大越好。当我们的预测模型不犯任何错误的时候,R²会得到最大值1

3.当我们的模型等于基准模型的时候,R²为0

4.和准确度不一样,存在小于0的情况,如果R²小于0,这就说明我们学习到的模型还不如一个基准模型,这个时候,很可能是我们的模型不存在任何的线性关系,这个时候可能需要换别的非线性的算法了

我们可以发现式子是可以变化成

这就可以变成

这样计算会更加的方便直观

上式可以书写成

  1. 1 - mean_squared_error(y_test,y_predict) / np.var(y_test)

在metrics.py中已经写好了R Square,我们直接引用使用即可

  1. from metrics import r2_score

直接就可以调用这个函数,就可以得出结果

  1. r2_score(y_test,y_predict)

在sklearn中一样有R Square,使用方法是一样的

  1. from sklearn.metrics import r2_score
  2. r2_score(y_test,y_predict)

我们可以在其中直接添加上计算准确度的函数score

在SimpleLinearRegression中添加上

  1. from metrics import r2_score
  2. def r2_score(y_ture, y_predict):
  3. """计算y_true和y_predict间的R Square"""
  4. return 1 - mean_squared_error(y_ture, y_predict) / np.var(y_ture)

直接使用即可

  1. reg.score(x_test,y_test)

【笔记】衡量线性回归法的指标 MSE,RMS,MAE以及评价回归算法 R Square的更多相关文章

  1. 衡量线性回归法的指标MSE, RMSE,MAE和R Square

    衡量线性回归法的指标:MSE, RMSE和MAE 举个栗子: 对于简单线性回归,目标是找到a,b 使得尽可能小 其实相当于是对训练数据集而言的,即 当我们找到a,b后,对于测试数据集而言 ,理所当然, ...

  2. 机器学习:衡量线性回归法的指标(MSE、RMSE、MAE、R Squared)

    一.MSE.RMSE.MAE 思路:测试数据集中的点,距离模型的平均距离越小,该模型越精确 # 注:使用平均距离,而不是所有测试样本的距离和,因为距离和受样本数量的影响 1)公式: MSE:均方误差 ...

  3. 《Python编程从0到1》笔记3——欧几里得算法

    本节以欧几里得算法(这是人类历史上最早记载的算法)为示例,向读者展示注释.文档字符串(docstring).变量.循环.递归.缩进以及函数定义等Python语法要素.    欧几里得算法:“在数学中, ...

  4. Lasso回归算法: 坐标轴下降法与最小角回归法小结

    前面的文章对线性回归做了一个小结,文章在这: 线性回归原理小结.里面对线程回归的正则化也做了一个初步的介绍.提到了线程回归的L2正则化-Ridge回归,以及线程回归的L1正则化-Lasso回归.但是对 ...

  5. Spark MLlib回归算法------线性回归、逻辑回归、SVM和ALS

    Spark MLlib回归算法------线性回归.逻辑回归.SVM和ALS 1.线性回归: (1)模型的建立: 回归正则化方法(Lasso,Ridge和ElasticNet)在高维和数据集变量之间多 ...

  6. STL笔记(6)标准库:标准库中的排序算法

    STL笔记(6)标准库:标准库中的排序算法 标准库:标准库中的排序算法The Standard Librarian: Sorting in the Standard Library Matthew A ...

  7. 回归算法比较(线性回归,Ridge回归,Lasso回归)

    代码: # -*- coding: utf-8 -*- """ Created on Mon Jul 16 09:08:09 2018 @author: zhen &qu ...

  8. 可决系数R^2和MSE,MAE,SMSE

    波士顿房价预测 首先这个问题非常好其实要完整的回答这个问题很有难度,我也没有找到一个完整叙述这个东西的资料,所以下面主要是结合我自己的理解和一些资料谈一下r^2,mean square error 和 ...

  9. 第3章 衡量线性回归的指标:MSE,RMSE,MAE

    , , ,, , ,  , 

随机推荐

  1. WebService:CXF的JaxWsDynamicClientFactory实现调用WebService接口

    首先需要引入依赖jar包 #版本只供参考,具体看项目 <dependency> <grouId>org.apache.cxf</grouId> <artifa ...

  2. mysql中的条件语句case when/if函数

    主要知识点为case函数,if函数,ifnull函数,elt函数几部分,主要用于mysql语句中的逻辑判断 待操作的表如下: p.p1 { margin: 0; font: 16px Menlo; c ...

  3. mac 中一些日常小问题与快捷键

    1.备忘录中的中英文符号问题 比如:在备忘录中使用英文符号时,总是会被自动的修改为中文符号 解决方法:系统偏好设置-键盘-文本,去选"使用智能引号和存折号" p.p1 { marg ...

  4. 关于mysql集群主从服务器搭建

    在高并发流量下,数据库往往是服务端的瓶颈,由于数据库数据需要确保落地,同时保证数据同步,数据即时性,有效性的问题,导致数据库不能像平常后端程序一样负载均衡. 那么在大并发下,该如何缓解数据库的压力呢? ...

  5. spring集成flyway

    最近给公司项目集成flyway,由于我们项目移动端使用的是spring框架,网上看了很多博客,感觉这方面的东西还是很少的,毕竟现在是springboot的天下,大多数都是springboot集成fly ...

  6. 题解 guP1948 【[USACO08JAN]电话线Telephone Lines】

    二分+dij题目 首先读一遍题目,一定要仔细读(不要问我为什么,我就是受害者qwq 你会发现最终的费用是由最长的电话线决定的,而非电话线长度和. 至此就有了一个基本思路--枚举(二分)出可能的最长电话 ...

  7. python的setup.py文件及其常用命令

    编写setup.py文件,获取帮助:python setup.py --help-commands [python]  Standard commands:    build             ...

  8. .Net Core微服务——自动收缩、健康检查:Consul(三)

    继续上一篇的话题,顺便放上一篇的传送门:点这里. 健康检查 经过之前的操作,我的consul已经支持自动扩展,并且调用也很靠谱.但是这里有个问题,一旦服务列表里的某个服务挂了,consul并不知道,还 ...

  9. IO流之节点流(字符流)和数据流关闭

    ​输入流----Reader 1 public class Reader { 2 public static void main(String[] args) throws Exception { 3 ...

  10. java对接c++发布的webservice接口,其中参数类型有base64Binary格式(无需将图片数据转化为c++中的结构体)

    接口名称: std::string SendVehiclePass(std::string VehiclePassInfo, struct xsd__base64Binary PlatePicData ...