目前在看统计学习导论:基于R应用,觉得这本书非常适合入门,打算把课后习题全部做一遍,记录在此博客中. 第二章习题 1. (a) 当样本量n非常大,预测变量数p很小时,这样容易欠拟合,所以一个光滑度更高的学习模型更好. (b) 当样本量n非常小,预测变量数p很大时,这样容易过拟合,所以一个光滑度更小的学习模型更好. (c) 当预测变量与响应变量之间的关系是非线性时,说明光滑度小的模型会容易欠拟合,所以光滑度高的模型更适合. (d) 在这里,方差是指用一个不同的训练数据集估计f时,估计函数的改变量.…
第五章习题 1. 我们主要用到下面三个公式: 根据上述公式,我们将式子化简为 对求导即可得到得到公式5-6. 2. (a) 1 - 1/n (b) 自助法是有有放回的,所以第二个的概率还是1 - 1/n (c) 由于自助法是有放回的,且每次抽样都是独立事件,所以概率是(1 - 1/n)^n (d) 答案是1-(1-1/5)^5 = 67.2% (e) 63.4% (f) 63.2% (g) pr = function(n) return(1 - (1 - 1/n)^n) x = 1:1e+05…
第三章习题 部分证明题未给出答案 1. 表3.4中,零假设是指三种形式的广告对TV的销量没什么影响.而电视广告和收音机广告的P值小说明,原假设是错的,也就是电视广告和收音机广告均对TV的销量有影响:报纸的P值高,说明原假设成立,也就是报纸广告对TV的销量没啥影响. 2. KNN回归和KNN近分类都是典型的非参数方法.这两者的区别在于,前者的输入和输出均为定量值:而后者的输入和输入和输出均为定性值. 3. 首先,有题目可知下面关系:Y = 50 + 20(gpa) + 0.07(iq) + 35(…
第四章习题,部分题目未给出答案 1. 这个题比较简单,有高中生推导水平的应该不难. 2~3证明题,略 4. (a) 这个问题问我略困惑,答案怎么直接写出来了,难道不是10%么 (b) 这个答案是(0.1*0.1)/(1*1),所以答案是1% (c) 其实就是个空间所占比例,所以这题是(0.1**100)*100 = 0.1**98% (d) 这题答案显而易见啊,而且是指数级别下降 (e) 答案是0.1**(1).0.1**(1/2).0.1**(1/3)...0.1**(1/100) 5. 这题…
在上一节python学习_数据处理编程实例(二)的基础上数据发生了变化,文件中除了学生的成绩外,新增了学生姓名和出生年月的信息,因此将要成变成:分别根据姓名输出每个学生的无重复的前三个最好成绩和出生年月 数据准备:分别建立四个文本文件 james2.txt     James Lee,2002-3-14,2-34,3:21,2.34,2.45,3.01,2:01,2:01,3:10,2-22 julie2.txt        Julie Jones,2002-8-17,2.59,2.11,2:…
一. 统计学习概述 统计学习是指一组用于理解数据和建模的工具集.这些工具可分为有监督或无监督.1.监督学习:用于根据一个或多个输入预测或估计输出.常用于商业.医学.天体物理学和公共政策等领域.2.无监督学习:有输入变量,但没有输出变量,可以从这些数据中学习潜在关系和数据结构.以下简单的用3个数据集来说明. 1.工资数据 我们希望了解雇员的年龄.教育和年份对他的工资之间的联系.下图是对这三个因素的一个分析和统计. 左图:工资随着年龄的增长而增加,但在大约60岁之后又下降了.蓝线提供了对该年龄段平均…
代码地址如下:http://www.demodashi.com/demo/11578.html 一.写在前面 之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这样一个简单的尝试,从搭建环境到跑通demo,不懂语法,不知含义,装好环境,查到API,跑通Demo,就是目标!纯零基础萌新! 关于环境的安装及调试过程中遇到的问题记录请移步 二.Python爬取B站弹幕 环境说明 windows8.1 x64+python3.6+scrapy1.4 参考文档: scr…
当前,机器学习和数据科学都是很重要和热门的相关学科,需要深入地研究学习才能精通. <机器学习与数据科学基于R的统计学习方法>试图指导读者掌握如何完成涉及机器学习的数据科学项目.为数据科学家提供一些在统计学习领域会用到的工具和技巧,涉及数据连接.数据处理.探索性数据分析.监督机器学习.非监督机器学习和模 型评估.选用的是R统计环境,所有代码示例都是用R语言编写的,涉及众多流行的R包和数据集. 适合数据科学家.数据分析师.软件开发者以及需要了解数据科学和机器学习方法的科研人员阅读参考. 学习参考:…
#r语言(二)笔记 #早复习 #概述:R是用于统计分析.绘图的语言和操作环境 #对象: #数据类型--统称为对象 #向量(vector):用于存储数值型.字符型或逻辑型数据的一维数组. #定义向量: v<-1 v1<-c(1,2,3) 或者 assign('v1',c(1,2,3)) v<-1:10 #1~10 is.vector(v) #向量的输出: v 或者 print(v1) #向量的操作函数: #排序:sort(v1) 倒序: rev(v1) #最大值 最小值 平均值 max(v…
一.R语言应知常用函数 1.getwd() 函数:获取工作目录(同eclipse设置workspace类似),直接在R软件中使用,如下图: 2.setwd(dir=”工作目录”) 函数:设置R软件RStudio的工作目录,如下图(注意目录写法): 3.list.files()函数(同dir()函数):查看R软件当前工作目录下的文件,如下图: 4.一般赋值符号:<- 或-> ,如x<-3 或3->x,表示x等于3 5.ls()函数:查看工作空间中的所有变量:ls.str()函数:查看…