统计学习导论：基于R应用—

第三章习题

部分证明题未给出答案

表3.4中，零假设是指三种形式的广告对TV的销量没什么影响。而电视广告和收音机广告的P值小说明，原假设是错的，也就是电视广告和收音机广告均对TV的销量有影响；报纸的P值高，说明原假设成立，也就是报纸广告对TV的销量没啥影响。

KNN回归和KNN近分类都是典型的非参数方法。这两者的区别在于，前者的输入和输出均为定量值；而后者的输入和输入和输出均为定性值。

首先，有题目可知下面关系：Y = 50 + 20(gpa) + 0.07(iq) + 35(gender) + 0.01(gpa * iq) - 10 (gpa * gender)

(a) 当IQ和GPA一定的时候，Y的可变量是35*gender-10(gpa*gender).所以当GPA小的时候，无法判断前面变量的正负号，而当GPA足够大的时候，该变量一定是负的。所以当GPA足够大时，男性平均收入高于女性

(b) 直接套公式Y= 50 + 20 * 4 + 0.07 * 110 + 35 + 0.01 (4 * 110) - 10 * 4= 137.1

(c)错误。中文版61页有比较好的解释，实验分层原则规定：如果模型中含有交互项，那么即使主效应的系数的p值不显著，也应该包含在模型中。

(a)一般来说，三次回归的训练RSS会比线性回归的训练RSS小，因为三次回归会对数据进行贴近训练集的拟合。

(b)题目中明确说明该数据的实际模型是线性拟合，所以用三次拟合会产生过拟合，而线性拟合有更好的泛化能力，所以线性回归的测试RSS小。

(c)答案和(a)一样

(d)由于不知道实际情况，所以无法判断。

Auto = read.table("Auto.data.txt", header = T ,na.strings="?")

Auto = na.omit(Auto)

(a)

attach(Auto)

lm.fit = lm(mpg ~ horsepower)

summary(lm.fit)

i.由summary的结果来看，F-statistic很大而p-value很小，说明两者是有相关性的。

ii.由书的54页可知，看拟合效果如何，得看RSE和R-square。书上55页讲的挺清楚，不过目前不知道RSE在这里怎么解释拟合效果。。囧。。R-square为0.6059，这说明Y的变异中能被X解释的部分所占比例有60.59%

iii.由拟合出的参数可知，负相关。

iv.predict(lm.fit, data.frame(horsepower=c(98)), interval="confidence")。结果是24.47，置信区间是(23.97, 24.96)

　predict(lm.fit, data.frame(horsepower=c(98)), interval="prediction")。预测区间是(14.81, 34.12)

(b)

plot(horsepower, mpg)

abline(lm.fit)

(c)

par(mfrow=c(2,2))

plot(lm.fit)

(a)

Auto = read.table("Auto.data.txt", header = T ,na.strings="?")

Auto = na.omit(Auto)

pairs(Auto)

(b)

cor(subset(Auto, select=-name))

(c)

lm.fit1 = lm(mpg~.-name, data=Auto)

summary(lm.fit1)

i.有。有f-statistic和p-value值可以判断

ii.由p-value小于0.05可知，displacement, weight, year, and origin这几个预测变量和响应变量有显著关系。

iii.车龄变量的系数是0.75，这说明随着车龄的增加，车子会越来越耗油。

(d)

par(mfrow=c(2,2))

plot(lm.fit1)

plot(predict(lm.fit1), rstudent(lm.fit1))

(e)

lm.fit2 = lm(mpg~cylinders*displacement+displacement*weight)

summary(lm.fit2)

(f)

lm.fit3 = lm(mpg~log(weight)+sqrt(horsepower)+acceleration+I(acceleration^2))

summary(lm.fit3)

par(mfrow=c(2,2))

plot(lm.fit3)

plot(predict(lm.fit3), rstudent(lm.fit3))

lm.fit2<-lm(log(mpg)~cylinders+displacement+horsepower+weight+acceleration+year+origin,data=Auto)

summary(lm.fit2)

par(mfrow=c(2,2))

plot(lm.fit2)

plot(predict(lm.fit2),rstudent(lm.fit2))

10.

(a)

library(ISLR)

summary(Carseats)

attach(Carseats)

lm.fit = lm(Sales~Price+Urban+US)

summary(lm.fit)

(b)

由summary(lm.fit)的结果的p-value和t-statistic可知，Price和US与Sales有关，Urban和Sales无关

(c)

Sales = 13.04 + -0.05*Price - 0.02*Urban + 1.20*US，其中Urban和US为YES时，值为1，否则为0

(d)

Price and US

(e)

由上面分析可知，Urban与Sales无关，所以我们可以去掉这个变量

lm.fit2 = lm(Sales~Price+US)
summary(lm.fit2)

(f)

(a)中Multiple R-squared: 0.239, Adjusted R-squared: 0.234，(e)中Multiple R-squared: 0.239, Adjusted R-squared: 0.235 ，可知两者拟合度差不多，而(e)稍微好点

(g)

confint(lm.fit2)

(h)

plot(predict(lm.fit2), rstudent(lm.fit2))

通过这个命令得到的图，我们可知，stuendtize residuals的范围在-3到3之间，所以没有离群点

par(mfrow=c(2,2))

plot(lm.fit2)

通过这个命令得到的图，我们可知，有一些点远远超过了其他点，故存在高杆点

11.

按照题目要求先生成x和y

set.seed(1)

x = rnorm(100)

y = 2*x + rnorm(100)

(a)

lm.fit = lm(y~x+0)

summary(lm.fit)

由结果可知，p-value接近0可知，原假设不成立

(b)

lm.fit = lm(x~y+0)

summary(lm.fit)

由结果可知，p-value接近0可知，原假设不成立

(c)

这个问题问得让我都觉得奇怪。。。答案是说明x和y确实是有关系么

(d)

由(a)中结果可知，t-value为18.73.而(sqrt(length(x)-1) * sum(x*y)) / (sqrt(sum(x*x) * sum(y*y) - (sum(x*y))^2))计算结果为18.72593

(e)

我们把t(x,y)换成t(y,x)，会得到t(x,y)=t(y,x)

(f)

对比(a)和(b)结果就行

12.

(a)

由公式 $\beta = \frac{\sum_{i=1}^{n}x_{i}y_{i}}{\sum_{i'=1}^{n}x_{i'}^{2}}$ 可知，当 ${\sum_{i'=1}^{n}x_{i}^{2}}$ 和 ${\sum_{i'=1}^{n}y_{i}^{2}}$ 相等时，满足题意

(b)

set.seed(1)

x = rnorm(100)

y = 2*x

lm.fit = lm(y~x+0)

lm.fit2 = lm(x~y+0)

summary(lm.fit)

summary(lm.fit2)

(c)

set.seed(1)

x <- rnorm(100)

y <- -sample(x, 100)

lm.fit <- lm(y~x+0)

lm.fit2 <- lm(x~y+0)

summary(lm.fit)

summary(lm.fit2)

13.

这个题目比较简单。。就是写代码

(a)~(g)

set.seed(1)

x = rnorm(100)

eps = rnorm(100, 0, sqrt(0.25))

y = -1 + 0.5*x + eps

plot(x, y)

lm.fit = lm(y~x)

summary(lm.fit)

plot(x, y)

abline(lm.fit, lwd=3, col=2)

abline(-1, 0.5, lwd=3, col=3)

legend(-1, legend = c("model fit", "pop. regression"), col=2:3, lwd=3)

lm.fit_sq = lm(y~x+I(x^2))

summary(lm.fit_sq)

(h)~(i)

这个把eps里的方差值改小一点就行了或者改大一点

set.seed(1)

eps1 = rnorm(100, 0, 0.125)

x1 = rnorm(100)

y1 = -1 + 0.5*x1 + eps1

plot(x1, y1)

lm.fit1 = lm(y1~x1)

summary(lm.fit1)

abline(lm.fit1, lwd=3, col=2)

abline(-1, 0.5, lwd=3, col=3)

legend(-1, legend = c("model fit", "pop. regression"), col=2:3, lwd=3)

set.seed(1)

eps2 = rnorm(100, 0, 0.5)

x2 = rnorm(100)

y2 = -1 + 0.5*x2 + eps2

plot(x2, y2)

lm.fit2 = lm(y2~x2)

summary(lm.fit2)

abline(lm.fit2, lwd=3, col=2)

abline(-1, 0.5, lwd=3, col=3)

legend(-1, legend = c("model fit", "pop. regression"), col=2:3, lwd=3)

(j)

confint(lm.fit)

confint(lm.fit1)

confint(lm.fit2)

14.

(a)

比较简单。 $Y = 2 + 2X_{1} + 0.3X_{2} + \varepsilon$ ，其中， $\beta_{0} = 2, \beta_{1} = 2, \beta_{3} = 0.3$

(b)~(e)

cor(x1, x2)

plot(x1, x2)

lm.fit = lm(y~x1+x2)

summary(lm.fit)

lm.fit = lm(y~x1)

summary(lm.fit)

lm.fit = lm(y~x2)

summary(lm.fit)

(f)

不矛盾，因为x1和x2有相关性

(g)

计算离群点和高杆点在10题中做过了

15.

(a)

一个一个的做线性回归。。。累感不爱

(b)

lm.all = lm(crim~., data=Boston)

summary(lm.all)

(c)

x = c(coefficients(lm.zn)[2],

      coefficients(lm.indus)[2],

      coefficients(lm.chas)[2],

      coefficients(lm.nox)[2],

      coefficients(lm.rm)[2],

      coefficients(lm.age)[2],

      coefficients(lm.dis)[2],

      coefficients(lm.rad)[2],

      coefficients(lm.tax)[2],

      coefficients(lm.ptratio)[2],

      coefficients(lm.black)[2],

      coefficients(lm.lstat)[2],

      coefficients(lm.medv)[2])

y = coefficients(lm.all)[2:14]

plot(x, y)

(d)

类似下面代码一个一个的做回归。。。

lm.zn = lm(crim~poly(zn,3))

summary(lm.zn)

统计学习导论：基于R应用——第三章习题的更多相关文章

统计学习导论：基于R应用——第五章习题
第五章习题 1. 我们主要用到下面三个公式: 根据上述公式,我们将式子化简为对求导即可得到得到公式5-6. 2. (a) 1 - 1/n (b) 自助法是有有放回的,所以第二个的概率还是1 - 1/ ...
统计学习导论：基于R应用——第四章习题
第四章习题,部分题目未给出答案 1. 这个题比较简单,有高中生推导水平的应该不难. 2~3证明题,略 4. (a) 这个问题问我略困惑,答案怎么直接写出来了,难道不是10%么 (b) 这个答案是(0. ...
统计学习导论：基于R应用——第二章习题
目前在看统计学习导论:基于R应用,觉得这本书非常适合入门,打算把课后习题全部做一遍,记录在此博客中. 第二章习题 1. (a) 当样本量n非常大,预测变量数p很小时,这样容易欠拟合,所以一个光滑度更高 ...
PythonCrashCourse 第三章习题
PythonCrashCourse 第三章习题 3.1 将一些朋友的姓名存储在一个列表中,并将其命名为names.依次访问该列表中的每个元素,从而将每个朋友的姓名都打印出来 names = ['lih ...
周志华-机器学习西瓜书-第三章习题3.5 LDA
本文为周志华机器学习西瓜书第三章课后习题3.5答案,编程实现线性判别分析LDA,数据集为书本第89页的数据首先介绍LDA算法流程: LDA的一个手工计算数学实例: 课后习题的代码: # coding ...
《零成本实现Web自动化测试--基于Selenium》第三章 Selenium-IDE
1.简介 Selenium-IDE(集成开发环境)是一种开发selenium测试案例的工具.是一种易用的Firefox插件.你可以通过文字菜单,在当前页面上选择一个UI元素,接着挑选与UI元素相关的s ...
python核心编程-第三章-习题
1.这是python的语言特性,python先创建对象,在给变量赋值时,不需要定义变量的名称和类型,它实际是用变量引用对象.变量类型在给变量赋值时自动声明 2.原因类似变量无须声明类型 3.pytho ...
C++面向对象程序设计第三章习题答案解析
整理一下自己写的作业,供考试前复习用,哈哈进入正题!!! 题目: 2.分析下面的程序,写出其运行时的输出结果这里就不展示课本源代码,直接给出修改后的代码,错误部分代码已给出具体的注释 #inclu ...
UNIX环境高级编程-第三章习题
1,当读写磁盘文件时,read,write等函数确实是不带缓冲机制的吗?请说明原因. 答:所有磁盘I/O都要经过内核的块缓存区(即内核的缓冲区高速缓存).唯一例外的是对原始磁盘设备的I/O,但是我们不 ...

随机推荐

source insight添加汇编文件.s
(1) 做ARM嵌入式开发时,有时得整汇编代码,但在SIS里建立PROJECT并ADD TREE的时候,根据默认设置并不会把该TREE里面所有汇编文件都包含进来,默认只加了.inc和.asm后缀的, ...
对ARM9哈佛结构的认识
书本上都说ARM是哈佛结构,但是我总感觉好像看不出来.后来针对S3C2440的ARM9核进行分析,我有了自己的见解. 我的结论是“ARM9被称为是哈佛结构是从它拥有指令cache和数据cache”来说 ...
web design tools
https://www.google.com/webdesigner/ http://html.adobe.com/edge/inspect/ http://www.creativebloq.com/ ...
utube视频落地
utube视频落地简单粗暴的方法: 利用视频下载网站的网页版进行处理. 比如需要下载的视频的url是vid_url, 需要用到的web服务的url是web_service vid_url='http ...
第 7 章门面模式【Facade Pattern】
以下内容出自:<<24种设计模式介绍与6大设计原则>> 好,我们继续讲课.大家都是高智商的人,都写过纸质的信件吧,比如给女朋友写情书什么的,写信的过程大家都还记得吧,先写信的内 ...
Spring MVC注解冲突
SpringMVC+MyBatis - 7 Spring自动扫描注解类的冲突问题 http://www.blogjava.net/crazycy/archive/2014/07/12/415738.h ...
Android java程序获取assets资产文件
AssetManager assetManager=this.getAssets(); inputStream = assetManager.open("test.xml");
【UVA1331】关于最优三角剖分
最近在练习DP专题,学会了很多表示方法和转换方法,今天做最优三角剖分的时候发现脑子卡了,不会表示状态,于是写个博客记录一下. 最优三角剖分的一类题目都是差不多的.给你一个多边形,让你把它分割成若干个三 ...
perl 监控mysql 事务和锁
use DBI; use Net::SMTP; use HTTP::Date qw(time2iso str2time time2iso time2isoz); # mail_user should ...
bzoj1984
树链剖分在边上的应用比维护点稍微麻烦一点,是对每条边标号,并且要记录每个点父亲边的编号和重儿子然后注意各种细节线段树上和bzoj1858的维护方法类似,覆盖的优先级高于加具体见程序,完全是为了提升状态 ...

统计学习导论：基于R应用——第三章习题

统计学习导论：基于R应用——第三章习题的更多相关文章

随机推荐

热门专题