回归分析 3.X 多元线性回归
多元线性回归模型
参数估计
模型表示
我们先将模型
\[y_{i}=\beta_{0}+\beta_{1} x_{i 1}+\cdots+\beta_{p} x_{i k}+\epsilon_{i}, \quad i=1, \cdots, n
\]表示为下列矩阵形式
\[\mathbf{y}=\mathbf{X} \boldsymbol{\beta}+\varepsilon
\]其中
\[\begin{aligned}
\mathbf{y} &=\left[\begin{array}{c}
y_{1} \\y_{2} \\\vdots \\y_{n}
\end{array}\right], \quad \mathbf{X}=\left[\begin{array}{ccccc}
1 & x_{11} & x_{12} & \cdots & x_{1 k} \\1 & x_{21} & x_{22} & \cdots & x_{2 k} \\\vdots & \vdots & \vdots & & \vdots \\1 & x_{n 1} & x_{n 2} & \cdots & x_{n k}
\end{array}\right] \\
\boldsymbol{\beta}=\left[\begin{array}{c}
\beta_{0} \\\beta_{1} \\\vdots \\\beta_{k}
\end{array}\right], \quad \boldsymbol{\varepsilon}=\left[\begin{array}{c}
\varepsilon_{1} \\\varepsilon_{2} \\\vdots \\
\varepsilon_{n}
\end{array}\right]
\end{aligned}
\]
将上述表示里的 \(\beta\) 换成 \(\hat{\beta}\) , 则就得到相应的拟合值向量和残差向量
\[\hat{\mathbf{y}}=\mathbf{X} \hat{\beta}, \quad \hat{\varepsilon}=\mathbf{y}-\hat{\mathbf{y}}
\]
于是前面的残差平方和就可以表示为
\[S(\beta)=\sum_{i=1}^{n} \varepsilon_{i}^{2}=\varepsilon^{\prime} \varepsilon=(\mathbf{y}-\mathbf{X} \beta)^{\prime}(\mathbf{y}-\mathbf{X} \beta)=\mathbf{y}^{\prime} \mathbf{y}-2 \beta^{\prime} \mathbf{X}^{\prime} \mathbf{y}+\beta^{\prime} \mathbf{X}^{\prime} \mathbf{X} \beta
\]
求解
经过优化得到 \(\beta\) 的闭式解
\(\mathbf{X}^{\prime} \mathbf{X} \hat{\beta}=\mathbf{X}^{\prime} \mathbf{y} \Rightarrow \hat{\beta}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{y}\)
拟合值向量
拟合值向量为
\(\hat{y}=\mathbf{X} \hat{\beta}=\mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} y=H y\)
\(H\) 为投影矩阵, \(Hy\) 相当于把 \(y\) 投影到平面
估计的置信区间
由于
\[\frac{\hat{\beta}_{j}-\beta_{j}}{\text { s.e. }\left(\hat{\beta}_{j}\right)} \sim t_{n-k-1}
\]
所以 \(\beta_{j}\) 的 \(1-\alpha\) 置信区间为
\(\hat{\beta}_{j} \pm t_{n-k-1}(1-\alpha / 2) \cdot \text { s.e. }\left(\hat{\beta}_{j}\right)\)
估计的性质
误差的期望与方差:
\(E(\varepsilon)=\boldsymbol{0},~Cov(\varepsilon)=\sigma^2I_n\)
无偏性
由于
\(\hat{\boldsymbol{\beta}}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{y}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime}(\mathbf{X} \boldsymbol{\beta}+\boldsymbol{\varepsilon})=\boldsymbol{\beta}+\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \varepsilon\)
所以
\(E(\hat{\beta})=\beta+\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} E(\varepsilon)=\beta\), 为线性估计
方差
因为
\(\hat{\boldsymbol{\beta}}-E(\hat{\boldsymbol{\beta}})=\hat{\boldsymbol{\beta}}-\boldsymbol{\beta}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \varepsilon\)
所以
\((\hat{\boldsymbol{\beta}}-E(\hat{\boldsymbol{\beta}}))(\hat{\boldsymbol{\beta}}-E(\hat{\boldsymbol{\beta}}))^{\prime}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \varepsilon \varepsilon^{\prime} \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1}\)
协方差为\[\begin{array}{c}
\operatorname{Cov}(\hat{\boldsymbol{\beta}})=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} E\left(\varepsilon \varepsilon^{\prime}\right) \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \\
=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \sigma^{2} I_{n} \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1}=\sigma^{2}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1}
\end{array}\]
回归方差的估计
因为
\[\begin{array}{c}
\hat{\varepsilon}=
y-\hat{y} \\
=y-Hy \\
=(I-H)y\\
=(I-H)(X\beta+\varepsilon)\\
=X\beta-X(X'X)^{-1}X'X\beta+(I-H)\varepsilon\\
=(I-H)\varepsilon
\end{array}\]
有
\[\begin{aligned}
E(SS_{res})&=
\hat{\varepsilon}^{\top}\hat{\varepsilon}\\
&=\varepsilon^{\top}(I-H)^{\top}(I-H)\varepsilon\\
&=\varepsilon^{\top}(I-H)\varepsilon
\end{aligned}
\]
所以
\[\begin{aligned}
E\left(SS{\text {res }}\right) &=E\left(\sum_{i}\sum_{j} M_{i j} \varepsilon_{i} \varepsilon_{j}\right) \\
&=\sum_{i}^{n} M_{ii} \sigma^{2} \\
&=\sigma^{2} \operatorname{tr}(M) \\
&=\sigma^{2} \operatorname{tr}(I-H) \\
&=\sigma^{2} \operatorname{tr}(I)-\sigma^{2} \operatorname{tr}(H) \\
&=n \sigma^{2}-\sigma^{2} \operatorname{tr}\left(I_{p}\right) \\
&=(n-p) \sigma^{2} \\
&=\sigma^{2}(n-k-1)
\end{aligned}\]
所以
\[E(\frac{SS_{res}}{(n-k-1)})=\sigma^2
\]
所以方差的估计量为
\(\hat{\sigma}^{2}=\frac{1}{n-k-1} \sum_{i=1}^{n}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i 1}-\cdots-\hat{\beta}_{k} x_{i k}\right)^{2}\)
估计方差性质
无偏性
证明 我们要先验证下列这些结论
- \(E\left(\varepsilon^{\prime} A \varepsilon\right)=\sigma^{2} \operatorname{tr}(A)\)
- \(\operatorname{tr}\left(I_{n}\right)=n\)
- \(\operatorname{tr}(H)=\operatorname{tr}\left(X\left(X^{\prime} X\right)^{-1} X^{\prime}\right)=k+1\) (要用到性质 \(\operatorname{tr}(A B)= \operatorname{tr}(B A))\)。
- \(\hat{y}=H y, \quad \hat{\varepsilon}=\left(I_{n}-H\right) \varepsilon\)
- 帽子矩阵 \(H\) 和 \(I_{n}-H\) 都是对称幂等矩阵
于是
\(E\left(S S_{r e s}\right)=E(\hat{\varepsilon}^{\prime} \hat{\varepsilon})=E[\varepsilon^{\prime}(I_{n}-H) \varepsilon]=\sigma^{2} \operatorname{tr}\left(I_{n}-H\right)=\sigma^{2}(n-k-1)\)
所以
\(E\left(\hat{\sigma}^{2}\right)=\sigma^{2}\)
估计的标准误差
\(S.E.\left(\hat{\beta}_{i}\right)=\sqrt{\hat{Var(\beta_i)}}=\hat{\sigma} \sqrt{C_{i i}}\)
区间估计
响应变量条件均值的置信区间
\(\text { 记 } x_{0}=\left(1, x_{01}, x_{02}, \cdots, x_{0 k}\right)^{\prime} \text {, 则 } E\left(y \mid x_{0}\right)=x_{0}^{\prime} \beta\), 所以点估计为 \(\hat{y_0}=x_0'\hat{\beta}\)
且
\(E\left(\hat{y}_{0}\right)=x_{0}^{\prime} \beta, \quad \operatorname{Var}\left(\hat{y}_{0}\right)=x_{0}^{\prime} \operatorname{Cov}(\hat{\beta}) x_{0}=\sigma^{2} x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}\)
所以
\[\frac{\hat{y}_{0}-E\left(y \mid x_{0}\right)}{\sigma \sqrt{x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}} \sim N(0,1)
\]\[\frac{\hat{y}_{0}-E\left(y \mid x_{0}\right)}{{\hat{\sigma}} \sqrt{x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}} \sim t_{n-k-1}
\]
所以 \(E\left(y \mid x_{0}\right)\) 的置信区间为
\[\hat{y}_{0} \pm t_{n-k-1}(1-\alpha / 2) \cdot \hat{\sigma} \sqrt{x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}
\]
未知观测值的置信区间
如果要对给定 \(x=x_{0}\) 时的响应变量值进行预测, 则显然点预测交 \(\hat{y}_{0}=x_{0}^{\prime} \hat{\beta}\) , 则预测误差为 \(e_{0}=y_{0}-\hat{y}_{0}=x_{0}^{\prime} \beta+\epsilon_{0}-x_{0}^{\prime} \hat{\beta}\) 满足
\[E\left(e_{0}\right)=0, \quad \operatorname{Var}\left(e_{0}\right)=\sigma^{2}\left[1+x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}\right]
\]
于是
\[\frac{y_{0}-\hat{y}_{0}}{\sigma \sqrt{1+x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}} \sim N(0,1)
\]\[\frac{y_{0}-\hat{y}_{0}}{\hat{\sigma} \sqrt{1+x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}} \sim t_{n-k-1}
\]
从而 \(y_{0}\) 的预测区间为
\[\hat{y}_{0} \pm t_{n-k-1}(1-\alpha / 2) \cdot \hat{\sigma} \sqrt{1+x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}
\]
标准化回归系数
意义
避免只根据回归系数的大小误判解释变量在模型中的重要性
做法
假设标准化之前的回归结果是 \(y_{i}=\hat{\beta}_{0}+\hat{\beta}_{1} x_{i 1}+\hat{\beta}_{2} x_{i 2}+\hat{u}_{i}\)
由于 \(\left(\bar{x}_{1}, \bar{x}_{2}, \bar{y}\right)\) 在样本回归线上, 因此
\[\bar{y}=\hat{\beta}_{0}+\hat{\beta}_{1} \bar{x}_{1}+\hat{\beta}_{2} \bar{x}_{2}
\]
两式相减并除以被解释变量的样本标准差得到
\[\frac{y_{i}-\bar{y}}{\hat{\sigma}_{y}}=\frac{\hat{\sigma}_{x_{1}}}{\hat{\sigma}_{y}} \hat{\beta}_{1} \cdot \frac{x_{i 1}-\bar{x}_{1}}{\hat{\sigma}_{x_{1}}}+\frac{\hat{\sigma}_{x_{2}}}{\hat{\sigma}_{y}} \hat{\beta}_{1} \cdot \frac{x_{i 2}-\bar{x}_{2}}{\hat{\sigma}_{x_{2}}}+\frac{\hat{u}_{i}}{\hat{\sigma}_{y}}
\]
得到标准化前后估计之间的关系
\[\hat{b}_{j}=\frac{\hat{\sigma}_{x_{j}}}{\hat{\sigma}_{y}} \hat{\beta}_{j}
\]
多重共线性
解释变量之间的近似线性相关关系
影响
当存在完全共线性时,矩阵 \(X'X\) 是奇异的;当存在严重的近似 共线性时,\(X'X\) 就会接近奇异
此时 \(\operatorname{Var}(\hat{\beta})\) 作为 \(\sigma^{2}\left(X^{\prime} X\right)^{-1}\) 的对角元, 就会比较大。
事实上, 可以证明
\[\operatorname{Var}\left(\hat{\beta}_{j}\right)=\frac{\sigma^{2}}{S_{x_{j} x_{j}}} \cdot \frac{1}{1-R_{j}^{2}}
\]
其中 \(R_{j}^{2}\) 为回归 \(x_{j} \sim x_{1}+\cdots+x_{j-1}+x_{j+1}+\cdots+x_{k}\) 的决定系数 \(R^{2}\) , 度量了 \(x_{j}\) 和其它解释变量之间的共线性程度。
在建模事件中, 把 \(1 /\left(1-R_{j}^{2}\right)\) 定义为方差膨胀因子,
\[V I F_{j}=\frac{1}{1-R_{j}^{2}}
\]
通常, 如果 VIF 大于 10 , 可以认为存在较严重的多重共线性。
假设检验
回归显著性检验
所有变量显著性检验
原假设与备择假设
\[\begin{array}{l}
H_{0}: \beta_{1}=\beta_{2}=\cdots=\beta_{k}=0 \\
\leftrightarrow H_{1}: \exists 1 \leq j \leq k, \quad \beta_{j} \neq 0
\end{array}\]
需要构造检验统计量
因为我们假设模型有 \(\varepsilon \sim N_n(0,\sigma^2I_n)\)
因此有\[\frac{SS_{res}}{\sigma^2}=\frac{\varepsilon'(I_n-H)\varepsilon}{\sigma^2}=\frac{\varepsilon'Q\Sigma Q^\top\varepsilon}{\sigma^2}=\frac{(Q^\varepsilon)'}{\sigma}\Sigma\frac{Q^\top\varepsilon}{\sigma}=y'\Sigma y=\sum_{i=1}^{n-p}y_i^2\sim\chi^2(n-p)
\]
因此构造$$F_{0}=\frac{M S_{r e g}}{M S_{r e s}}=\frac{S S_{r e g} / k}{S S_{r e s} /(n-k-1)} \stackrel{H_{0}}{\sim} F_{k, n-k-1}$$
当原假设成立时, \(F_0\) 会小, 所以当 \(F_0>F_{k,n-k-1}(1-\alpha)\), 拒绝原假设
单个变量显著性检验
原假设与备择假设
\[H_{0}: \beta_{j}=0 \leftrightarrow H_{1}: \beta_{j} \neq 0
\]
检验统计量
\[t_{0}=\frac{\hat{\beta}_{j}}{\text { s.e. }\left(\hat{\beta}_{j}\right)}=\frac{\hat{\beta}_{j}}{\sigma \sqrt{C_{j j}}} \cdot \frac{\sigma}{\hat{\sigma}}=\frac{\hat{\beta}_{j} / \sigma \sqrt{C_{j j}}}{\sqrt{\frac{1}{n-k-1} \cdot \frac{S S_{r e s}}{\sigma^{2}}}} \stackrel{H_{0}}{\sim} t_{n-k-1}
\]
当 \(t_0>t_{n-k-1}(1-\alpha/2)\), 拒绝原假设
子集显著性检验 (检验解释变量的某个子集是联合不显著的)
原假设与备择假设
\[H_{0}: \beta_{3}=0, \beta_{4}=0, \beta_{5}=0
\]
检验原理:
无约束的模型相对于约束模型添加了三个变量,这将导致模型拟 合优度的增加,即残差平方和的减小和回归平方和的增大,我们可以通过比较这两个模型残差平方和的差值是否足够大来检验原假设是否可以被拒绝,如果足够大,就意味着新加入模型的三个变量(对模型拟合的影响)是显著的.
检验统计量
\[F_{0}=\frac{\left(S S_{r e s}^{H_{0}}-S S_{r e s}\right) / r}{S S_{r e s} /(n-k-1)}
\]
当 \(F0\) 大于 \(F_{r,n−k−1}\) 分布的 \((1 − α)\) 分位点时,拒绝原假设.
当 \(r =1\) 时,上面的 \(F\) 检验和 \(t\) 显著性检验是等价的,事实上, \(F_{1,n−k−1} = t^2_{n−k−1}\).
拟合优度改进
\(R^2\) 原本存在的问题
当添加的变量与解释变量无关或其对解释变量的影响不显著时,这种拟合优度上的增加就是没有意义的
因此我们需要对传统的 \(R^2\) 进行改进
\(R_{adj}\)
\[R^{2}=\frac{S S_{r e g}}{S S_{T}}=1-\frac{S S_{r e s}}{S S_{T}}, \quad R_{a d j}^{2}=1-\frac{S S_{\text {res }} /(n-k-1)}{S S_{T} /(n-1)}
\]
通过添加自由度来调整
回归分析 3.X 多元线性回归的更多相关文章
- R语言解读多元线性回归模型
转载:http://blog.fens.me/r-multi-linear-regression/ 前言 本文接上一篇R语言解读一元线性回归模型.在许多生活和工作的实际问题中,影响因变量的因素可能不止 ...
- [机器学习Lesson4]多元线性回归
1. 多元线性回归定义 多元线性回归也被称为多元线性回归. 我们现在介绍方程的符号,我们可以有任意数量的输入变量. 这些多个特征的假设函数的多变量形式如下: hθ(x)=θ0+θ1x1+θ2x2+θ3 ...
- ML之多元线性回归
转自:http://www.cnblogs.com/zgw21cn/archive/2009/01/07/1361287.html 1.多元线性回归模型 假定被解释变量与多个解释变量之间具有线性关系, ...
- day-12 python实现简单线性回归和多元线性回归算法
1.问题引入 在统计学中,线性回归是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析.这种函数是一个或多个称为回归系数的模型参数的线性组合.一个带有一个自变 ...
- 100天搞定机器学习|Day3多元线性回归
前情回顾 [第二天100天搞定机器学习|Day2简单线性回归分析][1],我们学习了简单线性回归分析,这个模型非常简单,很容易理解.实现方式是sklearn中的LinearRegression,我们也 ...
- coursera机器学习笔记-多元线性回归,normal equation
#对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补 ...
- 多元线性回归 ——模型、估计、检验与预测
一.模型假设 传统多元线性回归模型 最重要的假设的原理为: 1. 自变量和因变量之间存在多元线性关系,因变量y能够被x1,x2-.x{k}完全地线性解释:2.不能被解释的部分则为纯粹的无法观测到的误差 ...
- 多元线性回归----Java简单实现
http://www.cnblogs.com/wzm-xu/p/4062266.html 多元线性回归----Java简单实现 学习Andrew N.g的机器学习课程之后的简单实现. 课程地址:h ...
- 多元线性回归模型的特征压缩:岭回归和Lasso回归
多元线性回归模型中,如果所有特征一起上,容易造成过拟合使测试数据误差方差过大:因此减少不必要的特征,简化模型是减小方差的一个重要步骤.除了直接对特征筛选,来也可以进行特征压缩,减少某些不重要的特征系数 ...
- Andrew Ng机器学习课程笔记--week2(多元线性回归&正规公式)
1. 内容概要 Multivariate Linear Regression(多元线性回归) 多元特征 多元变量的梯度下降 特征缩放 Computing Parameters Analytically ...
随机推荐
- [OpenCV实战]22 使用EigenFaces进行人脸重建
目录 1 背景 1.1 什么是EigenFaces? 1.2 坐标的变化 2 面部重建 2.1 计算新面部图像的PCA权重 2.2 使用EigenFaces进行面部重建 3 参考 在这篇文章中,我们将 ...
- 分布式拒绝服务攻击(DDoS)和僵尸网络(Botnet)
DDos和僵尸网络是相辅相成的两种攻击手段,本文仅介绍基本概念,详细请查看文末参考资料. 分布式拒绝服务攻击(DDoS) 分布式拒绝服务攻击DDoS是一种基于DoS的特殊形式的拒绝服务攻击,是一种分布 ...
- absolute定位后居中的方法
要求 : 子级需要加动画上下动起来,并且需要在全屏居中 html代码如下: <div class="row m-0 w-100 mybanner"> <!-- 左 ...
- angular+ZORRO中nz-table 大小屏幕自适应、滚动条、点击事件
首先来说屏幕自适应 HTML <div class="container right_table"> <nz-table #basicTable nzBorder ...
- LTC2440串行SPI通讯时序
LTC2440 简介 我们使用4-wire SPI接口 按照时序图上的描述,SDO是在SCLK的下降沿更新数据,那么FPGA接收端就应该在上升沿采集数据. 实际测试发现SDO数据相对于SCLK延迟了6 ...
- SpringCloud NetFlix学习
SpringCloud NetFlix 遇到记录不完全的可以看看这个人的博客 学相伴SpringCloud 微服务架构的4个核心问题? 服务很多,客户端该怎么访问? 负载均衡.反向代理,用户请求的永远 ...
- 手把手教大家写书写一个Mqtt网关
摘要:物联网是现在比较热门的软件领域,众多物联网厂商都有自己的物联网平台,而物联网平台其中一个核心的模块就是Mqtt网关. 本文分享自华为云社区<一文带你掌握物联网mqtt网关搭建背后的技术原理 ...
- tomcat8 性能优化参考
https://www.jianshu.com/p/c770c1e97531 tomcat8 性能优化参考
- evil 控制窗口大小,比快捷键方便
下面是vim原本的支持的键 可以用于 emacs evil ,evil 用这个比用快捷键还方面些 1.纵向调整 :res[ize] num 指定当前窗口为num列num行 :res[ize] +num ...
- Nginx09 http的keepalive及在nginx的配置使用
1 为什么要有Connection: keep-alive? 在早期的HTTP/1.0中,每次http请求都要创建一个连接,而创建连接的过程需要消耗资源和时间,为了减少资源消耗,缩短响应时间,就需要重 ...