多元线性回归模型

参数估计

模型表示

我们先将模型

\[y_{i}=\beta_{0}+\beta_{1} x_{i 1}+\cdots+\beta_{p} x_{i k}+\epsilon_{i}, \quad i=1, \cdots, n
\]

表示为下列矩阵形式

\[\mathbf{y}=\mathbf{X} \boldsymbol{\beta}+\varepsilon
\]

其中

\[\begin{aligned}
\mathbf{y} &=\left[\begin{array}{c}
y_{1} \\y_{2} \\\vdots \\y_{n}
\end{array}\right], \quad \mathbf{X}=\left[\begin{array}{ccccc}
1 & x_{11} & x_{12} & \cdots & x_{1 k} \\1 & x_{21} & x_{22} & \cdots & x_{2 k} \\\vdots & \vdots & \vdots & & \vdots \\1 & x_{n 1} & x_{n 2} & \cdots & x_{n k}
\end{array}\right] \\
\boldsymbol{\beta}=\left[\begin{array}{c}
\beta_{0} \\\beta_{1} \\\vdots \\\beta_{k}
\end{array}\right], \quad \boldsymbol{\varepsilon}=\left[\begin{array}{c}
\varepsilon_{1} \\\varepsilon_{2} \\\vdots \\
\varepsilon_{n}
\end{array}\right]
\end{aligned}
\]

将上述表示里的 $\beta$ 换成 $\hat{\beta}$ , 则就得到相应的拟合值向量和残差向量

\[\hat{\mathbf{y}}=\mathbf{X} \hat{\beta}, \quad \hat{\varepsilon}=\mathbf{y}-\hat{\mathbf{y}}
\]

于是前面的残差平方和就可以表示为

\[S(\beta)=\sum_{i=1}^{n} \varepsilon_{i}^{2}=\varepsilon^{\prime} \varepsilon=(\mathbf{y}-\mathbf{X} \beta)^{\prime}(\mathbf{y}-\mathbf{X} \beta)=\mathbf{y}^{\prime} \mathbf{y}-2 \beta^{\prime} \mathbf{X}^{\prime} \mathbf{y}+\beta^{\prime} \mathbf{X}^{\prime} \mathbf{X} \beta
\]

求解

经过优化得到 $\beta$ 的闭式解

$\mathbf{X}^{\prime} \mathbf{X} \hat{\beta}=\mathbf{X}^{\prime} \mathbf{y} \Rightarrow \hat{\beta}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{y}$

拟合值向量

拟合值向量为

$\hat{y}=\mathbf{X} \hat{\beta}=\mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} y=H y$

$H$ 为投影矩阵, $Hy$ 相当于把 $y$ 投影到平面

估计的置信区间

由于

\[\frac{\hat{\beta}_{j}-\beta_{j}}{\text { s.e. }\left(\hat{\beta}_{j}\right)} \sim t_{n-k-1}
\]

所以 $\beta_{j}$ 的 $1-\alpha$ 置信区间为

$\hat{\beta}_{j} \pm t_{n-k-1}(1-\alpha / 2) \cdot \text { s.e. }\left(\hat{\beta}_{j}\right)$

估计的性质

误差的期望与方差：

$E(\varepsilon)=\boldsymbol{0},~Cov(\varepsilon)=\sigma^2I_n$

无偏性

由于

$\hat{\boldsymbol{\beta}}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{y}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime}(\mathbf{X} \boldsymbol{\beta}+\boldsymbol{\varepsilon})=\boldsymbol{\beta}+\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \varepsilon$

所以

$E(\hat{\beta})=\beta+\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} E(\varepsilon)=\beta$, 为线性估计

方差

因为

$\hat{\boldsymbol{\beta}}-E(\hat{\boldsymbol{\beta}})=\hat{\boldsymbol{\beta}}-\boldsymbol{\beta}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \varepsilon$

所以

$(\hat{\boldsymbol{\beta}}-E(\hat{\boldsymbol{\beta}}))(\hat{\boldsymbol{\beta}}-E(\hat{\boldsymbol{\beta}}))^{\prime}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \varepsilon \varepsilon^{\prime} \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1}$

协方差为

\[\begin{array}{c}
\operatorname{Cov}(\hat{\boldsymbol{\beta}})=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} E\left(\varepsilon \varepsilon^{\prime}\right) \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \\
=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \sigma^{2} I_{n} \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1}=\sigma^{2}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1}
\end{array}\]

回归方差的估计

因为

\[\begin{array}{c}
\hat{\varepsilon}=
y-\hat{y} \\
=y-Hy \\
=(I-H)y\\
=(I-H)(X\beta+\varepsilon)\\
=X\beta-X(X'X)^{-1}X'X\beta+(I-H)\varepsilon\\
=(I-H)\varepsilon
\end{array}\]

有

\[\begin{aligned}
E(SS_{res})&=
\hat{\varepsilon}^{\top}\hat{\varepsilon}\\
&=\varepsilon^{\top}(I-H)^{\top}(I-H)\varepsilon\\
&=\varepsilon^{\top}(I-H)\varepsilon
\end{aligned}
\]

所以

\[\begin{aligned}
E\left(SS{\text {res }}\right) &=E\left(\sum_{i}\sum_{j} M_{i j} \varepsilon_{i} \varepsilon_{j}\right) \\
&=\sum_{i}^{n} M_{ii} \sigma^{2} \\
&=\sigma^{2} \operatorname{tr}(M) \\
&=\sigma^{2} \operatorname{tr}(I-H) \\
&=\sigma^{2} \operatorname{tr}(I)-\sigma^{2} \operatorname{tr}(H) \\
&=n \sigma^{2}-\sigma^{2} \operatorname{tr}\left(I_{p}\right) \\
&=(n-p) \sigma^{2} \\
&=\sigma^{2}(n-k-1)
\end{aligned}\]

所以

\[E(\frac{SS_{res}}{(n-k-1)})=\sigma^2
\]

所以方差的估计量为

$\hat{\sigma}^{2}=\frac{1}{n-k-1} \sum_{i=1}^{n}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i 1}-\cdots-\hat{\beta}_{k} x_{i k}\right)^{2}$

估计方差性质

无偏性

证明我们要先验证下列这些结论

$E\left(\varepsilon^{\prime} A \varepsilon\right)=\sigma^{2} \operatorname{tr}(A)$

$\operatorname{tr}\left(I_{n}\right)=n$

$\operatorname{tr}(H)=\operatorname{tr}\left(X\left(X^{\prime} X\right)^{-1} X^{\prime}\right)=k+1$ (要用到性质 $\operatorname{tr}(A B)= \operatorname{tr}(B A))$。

$\hat{y}=H y, \quad \hat{\varepsilon}=\left(I_{n}-H\right) \varepsilon$

帽子矩阵 $H$ 和 $I_{n}-H$ 都是对称幂等矩阵

于是

$E\left(S S_{r e s}\right)=E(\hat{\varepsilon}^{\prime} \hat{\varepsilon})=E[\varepsilon^{\prime}(I_{n}-H) \varepsilon]=\sigma^{2} \operatorname{tr}\left(I_{n}-H\right)=\sigma^{2}(n-k-1)$

所以

$E\left(\hat{\sigma}^{2}\right)=\sigma^{2}$

估计的标准误差

$S.E.\left(\hat{\beta}_{i}\right)=\sqrt{\hat{Var(\beta_i)}}=\hat{\sigma} \sqrt{C_{i i}}$

区间估计

响应变量条件均值的置信区间

$\text { 记 } x_{0}=\left(1, x_{01}, x_{02}, \cdots, x_{0 k}\right)^{\prime} \text {, 则 } E\left(y \mid x_{0}\right)=x_{0}^{\prime} \beta$, 所以点估计为 $\hat{y_0}=x_0'\hat{\beta}$

且

$E\left(\hat{y}_{0}\right)=x_{0}^{\prime} \beta, \quad \operatorname{Var}\left(\hat{y}_{0}\right)=x_{0}^{\prime} \operatorname{Cov}(\hat{\beta}) x_{0}=\sigma^{2} x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}$

所以

\[\frac{\hat{y}_{0}-E\left(y \mid x_{0}\right)}{\sigma \sqrt{x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}} \sim N(0,1)
\]

\[\frac{\hat{y}_{0}-E\left(y \mid x_{0}\right)}{{\hat{\sigma}} \sqrt{x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}} \sim t_{n-k-1}
\]

所以 $E\left(y \mid x_{0}\right)$ 的置信区间为

\[\hat{y}_{0} \pm t_{n-k-1}(1-\alpha / 2) \cdot \hat{\sigma} \sqrt{x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}
\]

未知观测值的置信区间

如果要对给定 $x=x_{0}$ 时的响应变量值进行预测, 则显然点预测交 $\hat{y}_{0}=x_{0}^{\prime} \hat{\beta}$ , 则预测误差为 $e_{0}=y_{0}-\hat{y}_{0}=x_{0}^{\prime} \beta+\epsilon_{0}-x_{0}^{\prime} \hat{\beta}$ 满足

\[E\left(e_{0}\right)=0, \quad \operatorname{Var}\left(e_{0}\right)=\sigma^{2}\left[1+x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}\right]
\]

于是

\[\frac{y_{0}-\hat{y}_{0}}{\sigma \sqrt{1+x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}} \sim N(0,1)
\]

\[\frac{y_{0}-\hat{y}_{0}}{\hat{\sigma} \sqrt{1+x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}} \sim t_{n-k-1}
\]

从而 $y_{0}$ 的预测区间为

\[\hat{y}_{0} \pm t_{n-k-1}(1-\alpha / 2) \cdot \hat{\sigma} \sqrt{1+x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}
\]

标准化回归系数

意义

避免只根据回归系数的大小误判解释变量在模型中的重要性

做法

假设标准化之前的回归结果是 $y_{i}=\hat{\beta}_{0}+\hat{\beta}_{1} x_{i 1}+\hat{\beta}_{2} x_{i 2}+\hat{u}_{i}$

由于 $\left(\bar{x}_{1}, \bar{x}_{2}, \bar{y}\right)$ 在样本回归线上, 因此

\[\bar{y}=\hat{\beta}_{0}+\hat{\beta}_{1} \bar{x}_{1}+\hat{\beta}_{2} \bar{x}_{2}
\]

两式相减并除以被解释变量的样本标准差得到

\[\frac{y_{i}-\bar{y}}{\hat{\sigma}_{y}}=\frac{\hat{\sigma}_{x_{1}}}{\hat{\sigma}_{y}} \hat{\beta}_{1} \cdot \frac{x_{i 1}-\bar{x}_{1}}{\hat{\sigma}_{x_{1}}}+\frac{\hat{\sigma}_{x_{2}}}{\hat{\sigma}_{y}} \hat{\beta}_{1} \cdot \frac{x_{i 2}-\bar{x}_{2}}{\hat{\sigma}_{x_{2}}}+\frac{\hat{u}_{i}}{\hat{\sigma}_{y}}
\]

得到标准化前后估计之间的关系

\[\hat{b}_{j}=\frac{\hat{\sigma}_{x_{j}}}{\hat{\sigma}_{y}} \hat{\beta}_{j}
\]

多重共线性

解释变量之间的近似线性相关关系

影响

当存在完全共线性时，矩阵 $X'X$ 是奇异的；当存在严重的近似共线性时，$X'X$ 就会接近奇异

此时 $\operatorname{Var}(\hat{\beta})$ 作为 $\sigma^{2}\left(X^{\prime} X\right)^{-1}$ 的对角元, 就会比较大。

事实上, 可以证明

\[\operatorname{Var}\left(\hat{\beta}_{j}\right)=\frac{\sigma^{2}}{S_{x_{j} x_{j}}} \cdot \frac{1}{1-R_{j}^{2}}
\]

其中 $R_{j}^{2}$ 为回归 $x_{j} \sim x_{1}+\cdots+x_{j-1}+x_{j+1}+\cdots+x_{k}$ 的决定系数 $R^{2}$ , 度量了 $x_{j}$ 和其它解释变量之间的共线性程度。

在建模事件中, 把 $1 /\left(1-R_{j}^{2}\right)$ 定义为方差膨胀因子,

\[V I F_{j}=\frac{1}{1-R_{j}^{2}}
\]

通常, 如果 VIF 大于 10 , 可以认为存在较严重的多重共线性。

假设检验

回归显著性检验

所有变量显著性检验

原假设与备择假设

\[\begin{array}{l}
H_{0}: \beta_{1}=\beta_{2}=\cdots=\beta_{k}=0 \\
\leftrightarrow H_{1}: \exists 1 \leq j \leq k, \quad \beta_{j} \neq 0
\end{array}\]

需要构造检验统计量

因为我们假设模型有 $\varepsilon \sim N_n(0,\sigma^2I_n)$

因此有

\[\frac{SS_{res}}{\sigma^2}=\frac{\varepsilon'(I_n-H)\varepsilon}{\sigma^2}=\frac{\varepsilon'Q\Sigma Q^\top\varepsilon}{\sigma^2}=\frac{(Q^\varepsilon)'}{\sigma}\Sigma\frac{Q^\top\varepsilon}{\sigma}=y'\Sigma y=\sum_{i=1}^{n-p}y_i^2\sim\chi^2(n-p)
\]

因此构造$$F_{0}=\frac{M S_{r e g}}{M S_{r e s}}=\frac{S S_{r e g} / k}{S S_{r e s} /(n-k-1)} \stackrel{H_{0}}{\sim} F_{k, n-k-1}$$

当原假设成立时, $F_0$ 会小, 所以当 $F_0>F_{k,n-k-1}(1-\alpha)$, 拒绝原假设

单个变量显著性检验

原假设与备择假设

\[H_{0}: \beta_{j}=0 \leftrightarrow H_{1}: \beta_{j} \neq 0
\]

检验统计量

\[t_{0}=\frac{\hat{\beta}_{j}}{\text { s.e. }\left(\hat{\beta}_{j}\right)}=\frac{\hat{\beta}_{j}}{\sigma \sqrt{C_{j j}}} \cdot \frac{\sigma}{\hat{\sigma}}=\frac{\hat{\beta}_{j} / \sigma \sqrt{C_{j j}}}{\sqrt{\frac{1}{n-k-1} \cdot \frac{S S_{r e s}}{\sigma^{2}}}} \stackrel{H_{0}}{\sim} t_{n-k-1}
\]

当 $t_0>t_{n-k-1}(1-\alpha/2)$, 拒绝原假设

子集显著性检验 (检验解释变量的某个子集是联合不显著的)

原假设与备择假设

\[H_{0}: \beta_{3}=0, \beta_{4}=0, \beta_{5}=0
\]

检验原理:

无约束的模型相对于约束模型添加了三个变量，这将导致模型拟合优度的增加，即残差平方和的减小和回归平方和的增大，我们可以通过比较这两个模型残差平方和的差值是否足够大来检验原假设是否可以被拒绝，如果足够大，就意味着新加入模型的三个变量（对模型拟合的影响）是显著的.

检验统计量

\[F_{0}=\frac{\left(S S_{r e s}^{H_{0}}-S S_{r e s}\right) / r}{S S_{r e s} /(n-k-1)}
\]

当 $F0$ 大于 $F_{r,n−k−1}$ 分布的 $(1 − α)$ 分位点时，拒绝原假设.

当 $r =1$ 时，上面的 $F$ 检验和 $t$ 显著性检验是等价的，事实上， $F_{1,n−k−1} = t^2_{n−k−1}$.

拟合优度改进

$R^2$ 原本存在的问题

当添加的变量与解释变量无关或其对解释变量的影响不显著时，这种拟合优度上的增加就是没有意义的

因此我们需要对传统的 $R^2$ 进行改进

$R_{adj}$

\[R^{2}=\frac{S S_{r e g}}{S S_{T}}=1-\frac{S S_{r e s}}{S S_{T}}, \quad R_{a d j}^{2}=1-\frac{S S_{\text {res }} /(n-k-1)}{S S_{T} /(n-1)}
\]

通过添加自由度来调整

回归分析 3.X 多元线性回归的更多相关文章

R语言解读多元线性回归模型
转载:http://blog.fens.me/r-multi-linear-regression/ 前言本文接上一篇R语言解读一元线性回归模型.在许多生活和工作的实际问题中,影响因变量的因素可能不止 ...
[机器学习Lesson4]多元线性回归
1. 多元线性回归定义多元线性回归也被称为多元线性回归. 我们现在介绍方程的符号,我们可以有任意数量的输入变量. 这些多个特征的假设函数的多变量形式如下: hθ(x)=θ0+θ1x1+θ2x2+θ3 ...
ML之多元线性回归
转自:http://www.cnblogs.com/zgw21cn/archive/2009/01/07/1361287.html 1.多元线性回归模型假定被解释变量与多个解释变量之间具有线性关系, ...
day-12 python实现简单线性回归和多元线性回归算法
1.问题引入在统计学中,线性回归是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析.这种函数是一个或多个称为回归系数的模型参数的线性组合.一个带有一个自变 ...
100天搞定机器学习|Day3多元线性回归
前情回顾 [第二天100天搞定机器学习|Day2简单线性回归分析][1],我们学习了简单线性回归分析,这个模型非常简单,很容易理解.实现方式是sklearn中的LinearRegression,我们也 ...
coursera机器学习笔记-多元线性回归，normal equation
#对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补 ...
多元线性回归 ——模型、估计、检验与预测
一.模型假设传统多元线性回归模型最重要的假设的原理为: 1. 自变量和因变量之间存在多元线性关系,因变量y能够被x1,x2-.x{k}完全地线性解释:2.不能被解释的部分则为纯粹的无法观测到的误差 ...
多元线性回归----Java简单实现
http://www.cnblogs.com/wzm-xu/p/4062266.html 多元线性回归----Java简单实现学习Andrew N.g的机器学习课程之后的简单实现. 课程地址:h ...
多元线性回归模型的特征压缩：岭回归和Lasso回归
多元线性回归模型中,如果所有特征一起上,容易造成过拟合使测试数据误差方差过大:因此减少不必要的特征,简化模型是减小方差的一个重要步骤.除了直接对特征筛选,来也可以进行特征压缩,减少某些不重要的特征系数 ...
Andrew Ng机器学习课程笔记--week2（多元线性回归&正规公式）
1. 内容概要 Multivariate Linear Regression(多元线性回归) 多元特征多元变量的梯度下降特征缩放 Computing Parameters Analytically ...

随机推荐

Pytorch基础-张量基本操作
一,张量的基本操作二,维度变换 2.1,squeeze vs unsqueeze 维度增减 2.2,transpose vs permute 维度交换三,索引切片 3.1,规则索引切片方式 3.2 ...
flask_apscheduler
网上很多文章包括官网给出来的,更多的是执行的函数和初始话app在同一文件按照app 路由模型类视图往下延申,项目已经成型,所以上述的方法不适用. (不用操心模型类与app互相导入的错误)下面分 ...
红客突击队&突击队分队
红客突击队,于2019年,由队长k龙联合国内多位顶尖高校研究生牵头成立.其团队从成立至今多次参加国际网络安全竞赛并取得良好成绩,积累了丰富的竞赛经验.团队现有三十多位正式成员及若干预备人员,旨在打造国 ...
解决使用linux部署nodejs服务测试代码返回中文是乱码
今天写了个简单的node.js文件代码如下 var http = require('http'); http.createServer(function (request, response) { ...
（23）go-micro微服务客户端开发（使用负载均衡）
目录一 main.go开发二客户端代码开发: 三客户端测试功能 1.发送注册邮件 2.实现注册功能 3.查询用户功能四运行项目五最后一 main.go开发至此,咱们的项目服务端代码 ...
postgresql的mysql外部数据扩展mysql_fdw编译及安装
下载mysql_fdw项目文件:https://pgxn.org/dist/mysql_fdw/ 注:我使用的是ubuntu18.04,可以直接在仓库查看是否有二级制安装文件,当然是有的啦,这是很方便 ...
linux 基础（7）账号和群组的管理
了解账号和群组的基本信息账号使用如何查看 linux 计算机上有哪些账号呢?账号的信息储存在/etc/passwd中,打开就可以看到: less /etc/passwd root:x:0:0:ro ...
mysql16 sql优化-order by-GROUP BY
1.简要说明在sql中常常用到order by,排序对于sql的查询速度有较大的的影响.mysql支持两种排序方式,FileSort和Index,Index效率高,它指MySQL扫描索引本身完成 ...
STM32F4寄存器初始化系列：时钟开启
1 static void RCC_Init(void) 2 { 3 RCC->APB1ENR|=1<<17; //使能串口2时钟 4 RCC->APB1ENR|=1<& ...
ubuntu安装ROBOWARE
https://github.com/tonyrobotics/RoboWare/ https://blog.csdn.net/lixujie666/article/details/80139112 ...

回归分析 3.X 多元线性回归

多元线性回归模型

参数估计

模型表示

求解

拟合值向量

估计的置信区间

估计的性质

无偏性

方差

回归方差的估计

估计方差性质

无偏性

估计的标准误差

区间估计

响应变量条件均值的置信区间

未知观测值的置信区间

标准化回归系数

意义

做法

多重共线性

影响

假设检验

回归显著性检验

所有变量显著性检验

单个变量显著性检验

子集显著性检验 (检验解释变量的某个子集是联合不显著的)

拟合优度改进

\(R^2\) 原本存在的问题

\(R_{adj}\)

回归分析 3.X 多元线性回归的更多相关文章

随机推荐

热门专题