coursera机器学习笔记-多元线性回归，normal equation

#对coursera上Andrew Ng老师开的机器学习课程的笔记和心得；

#注:此笔记是我自己认为本节课里比较重要、难理解或容易忘记的内容并做了些补充，并非是课堂详细笔记和要点；

#标记为<补充>的是我自己加的内容而非课堂内容，参考文献列于文末。博主能力有限，若有错误，恳请指正；

#---------------------------------------------------------------------------------#

多元线性回归的模型：

#---------------------------------------------------------------------------------#

梯度下降法在多元线性回归中的应用：

代价函数:；

梯度下降:

，

代入J(theta)得到:

；

在多元线性回归中用梯度下降法要注意feature scaling!

如果不同变量之间的大小不再一个数量级，作feature scaling能大大减少寻找最优解的时间；

例如:

x1 = size (0 - 2000 feet)
x2 = number of bedrooms (1-5)
x1,x2之间差别很大，如果不做feature scaling，对θ_1和θ₂作等高线图:

　　，将会花很长时间去找最优解；

NG给的建议:最大变量和最小变量均值差3倍以内为佳；

mean normalization:将x_i替换为(x_i - mean)/max；

#---------------------------------------------------------------------------------#

学习速率α大小的选择：

1, 对足够小的α,J(theta)会单调减少，

；

2, 如果α过小, 梯度下降会很慢;

3, 如果α过大, J(theta)可能不会单调减少，甚至可能不收敛，

;

如何选择α，如下:

..., 0.001, 0.01, 0.1, 1, ..., 或者 ..., 0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 1, ....

#---------------------------------------------------------------------------------#

normal equation：假设我们有m个样本。特征向量的维度为n。因此，可知样本为{(x⁽¹⁾,y⁽¹⁾), (x⁽²⁾,y⁽²⁾),... ..., (x^(m),y^(m))},其中对于每一个样本中的x⁽ⁱ⁾,都有x⁽ⁱ⁾={x₁⁽ⁱ⁾, x_n⁽ⁱ⁾,... ...,x_n⁽ⁱ⁾}。令 H(θ)=θ₀+ θ₁x₁ +θ₂x₂+... + θ_nx_n，则有

，其中：

表示第i个training example；

表示第i个training example里的第j个feature的值；

m为#training example；

n为#feature；

#---------------------------------------------------------------------------------#

Normal Equation VS Gradient Descent

Normal Equation 跟 Gradient Descent（梯度下降）一样，可以用来求权重向量θ。但它与Gradient Descent相比，既有优势也有劣势。

优势：

Normal Equation可以不管x特征的scale。比如，有特征向量X={x₁, x₂}, 其中x₁的range为1~2000，而x₂的range为1~4，它们的范围相差了500倍。如果使用Gradient Descent方法的话，会导致椭圆变得很窄很长，而出现梯度下降困难，甚至无法下降梯度（因为导数乘上步长后可能会冲出椭圆的外面）。但是，如果用Normal Equation方法的话，就不用担心这个问题了。因为它是纯粹的矩阵算法。

劣势：

相比于Gradient Descent，Normal Equation需要大量的矩阵运算，特别是求矩阵的逆。在矩阵很大的情况下，会大大增加计算复杂性以及对计算机内存容量的要求。Andrew Ng建议矩阵维数<10,000时用normal equation,大于时改用梯度下降法；

#---------------------------------------------------------------------------------#

什么情况下会出现X^TX non-invertible^_？该如何应对？

（1）当特征向量的维度过多时（如，m <= n 时）

解决方法：① 使用regularization的方式

　　　　　or ②删除一些特征维度

（2）有冗余特征（也称为linearly dependent feature）

例如，　x₁= size in feet²

　　　　x₂ = size in m²

　　　　feet和m的换算为 1m≈3.28feet所以，x₁ ≈ 3.28²* x₂, 因此x₁和x₂是线性相关的（也可以说x₁和x₂之间有一个是冗余的）

解决方法：找出冗余的特征维度，删除之。

#---------------------------------------------------------------------------------#

normal equation 的推导：

这种方法不需要经过任何循环，也不需要假设初始值。虽然推导本身有点复杂，但是结果一步到位，简单又效率。

准备工作：

定义function f(A)：Mapping from M-by-n matrices to the real numbers。定义f(A)的微分为：

定义trace operator。对于一个n by n的matrix A， the trace of A is:

Trace有如下特性：如果a是一个real number，那么tr a = a；

矩阵微分有如下特性：

开始推导：

首先，设计一个m行n列的（实际上是n+1列，应为我们假设x0 =1 ）矩阵X，他的每一行都是一个training sample，每列都是一个特征。

设计y成为一个m列的目标值（输出值）向量，也就是房子的价格在我们例子中。

因为：

所以：

因为对于一个向量z来说：

所以：

最后我们用之前提到的矩阵微分特性的第二和第三条：

所以：

因为我们要让J最小，所以J的微分必须等于0。

所以：

#---------------------------------------------------------------------------------#

参考:

coursera: standford machine learning, by Andrew Ng；

coursera: 台湾大学機器學習基石，by 林軒田;

coursera机器学习笔记-多元线性回归，normal equation的更多相关文章

吴恩达机器学习笔记——正规方程（Normal Equation）
问题描述:m examples : (x(1),y(1)), (x(2),y(2)),..., (x(m),y(m)) and n features; 计算方法:θ = (XTX)-1XTy; 计算过 ...
Stanford机器学习笔记-1.线性回归
Content: 1. Linear Regression 1.1 Linear Regression with one variable 1.1.1 Gradient descent algorit ...
[机器学习Lesson4]多元线性回归
1. 多元线性回归定义多元线性回归也被称为多元线性回归. 我们现在介绍方程的符号,我们可以有任意数量的输入变量. 这些多个特征的假设函数的多变量形式如下: hθ(x)=θ0+θ1x1+θ2x2+θ3 ...
【TensorFlow篇】--Tensorflow框架初始，实现机器学习中多元线性回归
一.前述 TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统,其命名来源于本身的运行原理.Tensor(张量)意味着N维数组,Flow(流)意味着基于数据流图的计算,T ...
100天搞定机器学习|Day3多元线性回归
前情回顾 [第二天100天搞定机器学习|Day2简单线性回归分析][1],我们学习了简单线性回归分析,这个模型非常简单,很容易理解.实现方式是sklearn中的LinearRegression,我们也 ...
coursera机器学习笔记-建议，系统设计
#对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补 ...
coursera机器学习笔记-神经网络，学习篇
#对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补 ...
coursera机器学习笔记-神经网络，初识篇
#对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补 ...
coursera机器学习笔记-机器学习概论，梯度下降法
#对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补 ...

随机推荐

Android Volley框架的使用(4)
5. 取消请求可以通过请求的setTag()方法给请求设置TAG,需要取消这些请求时,用请求队列的cancelAll()方法取消带有特定TAG的请求. 为请求设置TAG: stringRequest ...
Firemonkey 指定 StringGrid 只能上下滾动，不要左右滚动
要使 StringGrid 只能上下滚动,不要左右滚动,只要加入下面代码即可: StringGrid1.AniCalculations.TouchTracking := [ttVertical]; p ...
修正 XE6 TListView 上方 SearchBok 右边的清除钮显示
注意:XE7 已修正这个问题. Delphi Firemonkey TListView 提供了搜寻的功能,但在 XE6 以前的版本,可以显示右边的清除按钮,在 XE6 确消失了,这里提供一个修正的方案 ...
[转] 基于PHP Stream Wrapper开发有趣应用场景
PHP Stream Wrapper 原文:http://blog.sina.com.cn/s/blog_502c8cc40100k40e.html ,主要是基于SAE环境讲述相应的应用场景,本文经过 ...
说说web 2.0生态圈的那些事
先来说一道面试题吧,“说一下,web 2.0 和web 1.0的区别?” 官方的解释是这样的: Web1.0 的主要特点在于用户通过浏览器获取信息,Web2.0 则更注重用户的交互作用,用户既是网站内 ...
放弃OT了，找了个新框架ThinkCMF
放弃OT了,找了个新框架ThinkCMF,感觉还不错,用用看. 选择OT的原因: 1. OT基于ThinkPHP 2. OT对ThinkPHP进行了封装,使得开发应用更加简单 3. yershop应用 ...
利用PBFunc在Powerbuilder中支付宝当面付功能
在PB实现支付宝当面付的功能,需要先在支付宝进行商户签约,并设置相关的公钥信息(具体参考支付宝文档). 然后使用对应的私钥文件对参数进RSAWithSha1前面计算.具体代码如下: string ls ...
JQuery读取XML文件
<?xml version="1.0" encoding="utf-8" ?> <taxrates> <taxrate id=&q ...
15款优雅的 WordPress 电子商务网站主题
WordPress 电子商务网站主题今年非常流行,特别是对那些想要在几分钟内创建一个在线商店,但又没有掌握网络开发的很多知识的人来说.WordPress 是一个功能强大的 CMS,它的灵活性和可用性是 ...
MySQL之MySQL常用的函数方法
MySQL常用函数本篇主要总结了一些在使用MySQL数据库中常用的函数,本篇大部分都是以实例作为讲解,如果有什么建议或者意见欢迎前来打扰. limit Select * from table ord ...

coursera机器学习笔记-多元线性回归，normal equation

coursera机器学习笔记-多元线性回归，normal equation的更多相关文章

随机推荐

热门专题