照例文章第一段跑题,先附上个段子(转载的哦~): I hate CS people. They don't know linear algebra but want to teach projective geometry. They don't know any probability but want to use graphical models. They don't understand stats at all but still do machine learning like c…
This post builds on a previous post, but can be read and understood independently. As part of my course on statistical learning, we created 3D graphics to foster a more intuitive understanding of the various methods that are used to relax the assumpt…
This semester I'm teaching from Hastie, Tibshirani, and Friedman's book, The Elements of Statistical Learning, 2nd Edition. The authors provide aMixture Simulation data set that has two continuous predictors and a binary outcome. This data is used to…
1. 公式(3.4)的推导. 可以直接对公式(3.3)中的$\beta_0$求导就得到$\hat{\beta}_0=\bar{y}-\beta_1\bar{x}$. 对公式(3.3)中的$\beta_0$求导会有: $(y_1-\hat{\beta_0}-\hat{\beta_1}x_1)x_1+(y_2-\hat{\beta_0}-\hat{\beta_1}x_2)x_2\ldots+(y_n-\hat{\beta_0}-\hat{\beta_1}x_n)x_n$ 将$\hat{\beta}_…
Coursera课程<Neural Networks and Deep Learning> deeplearning.ai Week1 Introduction to deep learning What is a Neural Network? 让我们从一个房价预测的例子开始讲起. 假设你有一个数据集,它包含了六栋房子的信息.所以,你知道房屋的面积是多少平方英尺或者平方米,并且知道房屋价格.这时,你想要拟合一个根据房屋面积预测房价的函数. 如果使用线性回归进行拟合,那么可以拟合出一条直线.但…
1.前言 之前我一直对于“最大似然估计”犯迷糊,今天在看了陶轻松.忆臻.nebulaf91等人的博客以及李航老师的<统计学习方法>后,豁然开朗,于是在此记下一些心得体会. “最大似然估计”(Maximum Likelihood Estimation, MLE)与“最大后验概率估计”(Maximum A Posteriori Estimation,MAP)的历史可谓源远流长,这两种经典的方法也成为机器学习领域的基础被广泛应用. 有趣的是,这两种方法还牵扯到“频率学派”与“贝叶斯学派”的派别之争,…
一. 统计学习概述 统计学习是指一组用于理解数据和建模的工具集.这些工具可分为有监督或无监督.1.监督学习:用于根据一个或多个输入预测或估计输出.常用于商业.医学.天体物理学和公共政策等领域.2.无监督学习:有输入变量,但没有输出变量,可以从这些数据中学习潜在关系和数据结构.以下简单的用3个数据集来说明. 1.工资数据 我们希望了解雇员的年龄.教育和年份对他的工资之间的联系.下图是对这三个因素的一个分析和统计. 左图:工资随着年龄的增长而增加,但在大约60岁之后又下降了.蓝线提供了对该年龄段平均…
翻译:Tacey Wong 统计学习: 随着科学实验数据的迅速增长,机器学习成了一种越来越重要的技术.问题从构建一个预测函数将不同的观察数据联系起来,到将观测数据分类,或者从未标记数据中学习到一些结构. 本教程将探索机器学习中统计推理的统计学习的使用:将手中的数据做出结论 Scikit-learn 是一个紧密结合Python科学计算库(Numpy.Scipy.matplotlib),集成经典机器学习算法的Python模块. 一.统计学习:scikit-learn中的设置与评估函数对象 (1)数据…
目前在看统计学习导论:基于R应用,觉得这本书非常适合入门,打算把课后习题全部做一遍,记录在此博客中. 第二章习题 1. (a) 当样本量n非常大,预测变量数p很小时,这样容易欠拟合,所以一个光滑度更高的学习模型更好. (b) 当样本量n非常小,预测变量数p很大时,这样容易过拟合,所以一个光滑度更小的学习模型更好. (c) 当预测变量与响应变量之间的关系是非线性时,说明光滑度小的模型会容易欠拟合,所以光滑度高的模型更适合. (d) 在这里,方差是指用一个不同的训练数据集估计f时,估计函数的改变量.…
接着统计学习中knn算法实验(1)的内容 Problem: Explore the data before classification using summary statistics or visualization Pre-process the data (such as denoising, normalization, feature selection, …) Try other distance metrics or distance-based voting Try other…