【udacity】机器学习-回归】的更多相关文章

Evernote Export 1.什么是回归? regression 在监督学习中,包括了输入和输出的样本,在此基础上,我们能够通过新的输入来表示结果,映射到输出 输出包含了离散输出和连续输出 2.回归与函数逼近 回归并不是指向平均值回落,而是使用函数形式来逼近一堆数据点 3.线性回归 什么是线性方程? 线性方程就是直线方程,可以理解为 Y=mx+b 这里的m是斜率,b是截距,这是一个线性方程而不是平面方程 什么是回归分析? 回归分析是统计的概念.这里的想法是观察数据和构建一个方程,使我们可以…
线性回归 # -*- coding: utf-8 -*- """ Created on Wed Aug 30 19:55:37 2017 @author: Administrator """ ''' 背景:与房价密切相关的除了单位的房价,还有房屋的尺寸.我们可以根 据已知的房屋成交价和房屋的尺寸进行线性回归,继而可以对已知房屋尺 寸,而未知房屋成交价格的实例进行成交价格的预测 ''' import matplotlib.pyplot as plt…
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier,DecisionTreeRegressor def creat_data(n): np.random.seed(0) X = 5 * np…
CART决策树又称分类回归树,当数据集的因变量为连续性数值时,该树算法就是一个回归树,可以用叶节点观察的均值作为预测值:当数据集的因变量为离散型数值时,该树算法就是一个分类树,可以很好的解决分类问题.但需要注意的是,该算法是一个二叉树,即每一个非叶节点只能引伸出两个分支,所以当某个非叶节点是多水平(2个以上)的离散变量时,该变量就有可能被多次使用. 在sklearn中我们可以用来提高决策树泛化能力的超参数主要有 - max_depth:树的最大深度,也就是说当树的深度到达max_depth的时候…
来计算其损失. 而支持向量回归则认为只要f(x)与y偏离程度不要太大,既可以认为预测正确,不用计算损失,具体的,就是设置阈值α,只计算|f(x)−y|>α的数据点的loss,如下图所示,阴影部分的数据点我们都认为该模型预测准确了,只计算阴影外的数据点的loss: 数据处理 preprocessing.scale()作用: scale()是用来对原始样本进行缩放的,范围可以自己定,一般是[0,1]或[-1,1]. 缩放的目的主要是 1)防止某个特征过大或过小,从而在训练中起的作用不平衡: 2)为了…
线性回归是最贴近生活的数据模型之一 简单的线性回归 简单的线性回归公式如下: 从公式中我们可以看出,简单线性回归只有一个自变量x1,b1是自变量的系数,y是因变量.x1可能是连续型或者离散型的数据,所以我们需要通过x1找出最合适的系数b1从而得到关于因变量y的曲线. 我们下面用一个例子来说明,这是一个关于工作经验与薪水之间关系的表格.分布如下图所示 我们很容易看出这是符合一个线性回归的模型,下面我们就要做出回归的函数并且对未来数据进行预测. # Importing the libraries i…
1. 皮尔逊相关系数(Pearson Correlation Coefficient) 1.1 衡量两个值线性相关强度的量 1.2 取值范围[-1, 1] 正相关:>0, 负相关:<0, 无相关:=0 1.3 要理解Pearson相关系数,首先要理解协方差(Covariance),协方差是一个反映两个随机变量相关程度的指标,如果一个变量跟随着另一个变量同时变大或者变小,那么这两个变量的协方差就是正值,反之相反,公式如下: 方差: Pearson相关系数公式如下: 注意:有了协方差,为什么还使用…
首先我们需要明确一个概念,我们讨论的线性或者非线性针对的是自变量的系数,而非自变量本身,所以这样的话不管自变量如何变化,自变量的系数如果符合线性我们就说这是线性的.所以这里我们也就可以描述一下多项式线性回归. 由此公式我们可以看出,自变量只有一个,就是x,只不过x的级数(degree)不同而已. 我们这次用的数据是公司内部不同的promotion level所对应的薪资 下面我们来看一下在Python中是如何实现的 import numpy as np import matplotlib.pyp…
机器学习入门项目分享 - 波士顿房价预测 该分享源于Udacity机器学习进阶中的一个mini作业项目,用于入门非常合适,刨除了繁琐的部分,保留了最关键.基本的步骤,能够对机器学习基本流程有一个最清晰的认识: 项目描述 利用马萨诸塞州波士顿郊区的房屋信息数据训练和测试一个模型,并对模型的性能和预测能力进行测试: 项目分析 数据集字段解释: RM: 住宅平均房间数量: LSTAT: 区域中被认为是低收入阶层的比率: PTRATIO: 镇上学生与教师数量比例: MEDV: 房屋的中值价格(目标特征,…
Coursera,Udacity,Edx 课程列表(更新ing) Coursera有很多特别好的课程,平时没有机会听到国外大牛的课程,通过Coursera算是可以弥补一下吧,国外的课程普遍比国内的老师教的好,深入浅出,真是一入Coursera深似海呀.通过在知乎和blog上查询,列了一个预备学习的课程表. 知乎里有个问答,觉得对第一次上Coursera的人很有帮助:第一次在 Coursera 学习,各位有什么好的建议? (其中有关于如何使用Coursera wiki,开课轮次,下载视频+中文字母…