CS229 笔记03

局部加权线性回归

  • Non-Parametric Learning Algorithm (非参数学习方法)
    Number of parameters grows with the size of sample. (参数的数目随着样本的数目增加而增加。)
  • Locally Weighted Regression (局部加权线性回归)
    损失函数的定义为: $ J_\Theta=\sum_i{w^{(i)}(y^{(i)}-\Theta^{{\rm T}}x^{(i)})^2} $ 。
    其中 $ w^{(i)}={\rm {exp}}[-\frac{1}{2}(x^{(i)}-x)^2] $ . 即对于一个待预测的 \(x\) ,训练集中离 \(x\) 越远的样本,其对于模型的影响就越小。这也就意味着在每作出一个预测之前,都要重新训练一遍模型。

线性模型的概率解释

  • Probabilistic Interpretation (概率解释)

    假设真实房价 \(y^{(i)}=\Theta^{{\rm T}}x^{(i)}+\varepsilon^{(i)}\) ,其中 \(\varepsilon^{(i)}\) 为误差。

    因为误差是由很多其它未知因素引起的,在未知因素比较多,且假设这些未知因素是相互独立的时候,根据中心极限定理,可以认为 \(\varepsilon^{(i)}\) 服从正态分布。

    即 \(\varepsilon^{(i)} \sim {\scr N}(0,\sigma^2)\) , \({\rm P}(\varepsilon^{(i)})=\frac{1}{\sqrt2 \pi \sigma}\exp{\left[-\frac{(\varepsilon^{(i)})^2}{2\sigma^2}\right]}\) 。

    从而对于给定的 \(\Theta\) 和 \(x^{(i)}\) ,\(y^{(i)} \sim {\scr N}(\Theta^{{\rm T}}x^{(i)}, \sigma^2)\) ,即 \(P(y^{(i)}|x^{(i)};\Theta)=\frac{1}{\sqrt2 \pi \sigma}\exp{\left[-\frac{(y^{(i)}-\Theta^{{\rm T}}x^{(i)})^2}{2\sigma^2}\right]}\) 。

    对于整个样本集 \(X\) ,模型所做出的估计与真实值 \(Y\) 的相似程度(也称作“似然性”)可以看作是模型预测出“正确”的 \(Y\) 的概率,即似然性可表示为 \(L(\Theta)=P(Y|X;\Theta)\) 。

    对于每个样本 \(x^{(i)}\) 及其目标值 \(y^{(i)}\) ,若假设每个目标值都是独立同分布的(IID),所可则直接把 $P(y^{(i)}|x^{(i)};\Theta) $ 连乘起来,即 \(L(\Theta)=P(Y|X;\Theta)=\prod_i{P(y^{(i)}|x^{(i)};\Theta)}\) 。

    而训练模型所需的工作就是最大化预测出“正确”的 \(Y\) 的概率,即最大似然估计(Maximize Likelihood)。

    为了方便,令 \(l(\Theta)=\log{L(\Theta)}\) 。

    \[
    \begin{eqnarray*}
    l(\Theta)&=&\log{L(\Theta)} \\[1em]
    &=&\log{\prod_{i}^{m}{P(y^{(i)}|x^{(i)};\Theta)}} \\[1em]
    &=&\log{\prod_{i}^{m}{\frac{1}{\sqrt2 \pi \sigma}\exp{\left[-\frac{(y^{(i)}-\Theta^{{\rm T}}x^{(i)})^2}{2\sigma^2}\right]}}} \\[1em]
    &=&\sum_{i}^{m}{\log{\frac{1}{\sqrt2 \pi \sigma}}-\frac{(y^{(i)}-\Theta^{{\rm T}}x^{(i)})^2}{2\sigma^2}} \\[1em]
    &=&m\log{\frac{1}{\sqrt2 \pi \sigma}}-\frac{1}{\sigma^2}\sum_{i}^{m}{\frac{(y^{(i)}-\Theta^{{\rm T}}x^{(i)})^2}{2}} \\[1em]
    \end{eqnarray*}
    \]

    要想最大化 \(l(\Theta)\) ,就要最小化 \(\sum_{i}^{m}{\frac{(y^{(i)}-\Theta^{{\rm T}}x^{(i)})^2}{2}}\) 。

    而\(\sum_{i}^{m}{\frac{(y^{(i)}-\Theta^{{\rm T}}x^{(i)})^2}{2}}\) 就是之前提到过的 \(J(\Theta)\) 。

    这就从概率的角度解释了为什么误差要用最小二乘(Minimize Square),而不是最小化 \(y^{(i)}-\Theta^{{\rm T}}x^{(i)}\) 的绝对值或者三次方、四次方等等。

逻辑回归

  • Logistic Regression (逻辑回归)

    虽然叫做“回归”,实际上是用来解决分类问题。

  • Logistic Function / Sigmoid Function

    \[
    g(z)=\frac{1}{1+e^{-z}}
    \]

  • 训练过程推导

    在Logistic Regression中,估计函数变成了 \(h_\Theta(x^{(i)})=g(\Theta^{{\rm T}}x)=\frac{1}{1+e^{-\Theta^{{\rm T}}x}}\) 。

    由于 \(g(z)\) 的取值范围是 \((0,1)\) ,所以函数值可以直接看作是概率,即:

    \[
    \begin{eqnarray*}
    P(y^{(i)}=1|x^{(i)};\Theta)&=&h_\Theta(x^{(i)}) \\[1em]
    P(y^{(i)}=0|x^{(i)};\Theta)&=&1-h_\Theta(x^{(i)}) \\[1em]
    P(y^{(i)}|x^{(i)};\Theta)&=&\left[h_\Theta(x^{(i)})\right]^{y^{(i)}}\left[1-h_\Theta(x^{(i)})\right]^{1-y^{(i)}} \\[1em]
    \end{eqnarray*}
    \]

    根据之前的讨论,令 \(L(\Theta)=P(Y|X;\Theta)=\prod_i^m{P(y^{(i)}|x^{(i)};\Theta)}\) , \(l(\Theta)=\log{L(\Theta)}\) 。

    展开可得:

    \[
    \begin{eqnarray*}
    l(\Theta)&=&\log{L(\Theta)} \\[1em]
    &=&\log{\prod_i^m{P(y^{(i)}|x^{(i)};\Theta)}} \\[1em]
    &=&\log{\prod_i^m{\left[h_\Theta(x^{(i)})\right]^{y^{(i)}}\left[1-h_\Theta(x^{(i)})\right]^{1-y^{(i)}}}} \\[1em]
    &=&\sum_i^m\log{\left[h_\Theta(x^{(i)})\right]^{y^{(i)}}\left[1-h_\Theta(x^{(i)})\right]^{1-y^{(i)}}} \\[1em]
    &=&\sum_i^m{y^{(i)}}\log{\left[h_\Theta(x^{(i)})\right]}+({1-y^{(i)}})\log{\left[1-h_\Theta(x^{(i)})\right]} \\[1em]
    \end{eqnarray*}
    \]

    \(h_\Theta(x^{(i)})\) 对 \(\Theta\) 求偏导:

    \[
    \begin{eqnarray*}
    \frac{\partial}{\partial \theta_j}{h_\Theta(x^{(i)})}&=&\frac{\partial}{\partial \theta_j}{\frac{1}{1+e^{-\Theta^{{\rm T}}x^{(i)}}}} \\[1em]
    &=&\frac{-1}{\left(1+e^{-\Theta^{{\rm T}}x^{(i)}}\right)^2}\frac{\partial}{\partial \theta_j}{e^{-\Theta^{{\rm T}}x^{(i)}}} \\[1em]
    &=&\frac{e^{-\Theta^{{\rm T}}x^{(i)}}}{\left(1+e^{-\Theta^{{\rm T}}x^{(i)}}\right)^2}\frac{\partial}{\partial \theta_j}{\Theta^{{\rm T}}x^{(i)}} \\[1em]
    &=&\frac{e^{-\Theta^{{\rm T}}x^{(i)}}}{\left(1+e^{-\Theta^{{\rm T}}x^{(i)}}\right)^2}x^{(i)}_j \\[1em]
    \therefore \frac{\partial}{\partial \Theta}{h_\Theta(x^{(i)})}&=&\frac{e^{-\Theta^{{\rm T}}x^{(i)}}}{\left(1+e^{-\Theta^{{\rm T}}x^{(i)}}\right)^2}x^{(i)} \\[1em]
    \end{eqnarray*}
    \]

    \(l(\Theta)\) 对 \(\Theta\) 求偏导:

    \[
    \begin{eqnarray*}
    [\nabla_\Theta l(\Theta)]_j&=&\frac{\partial l(\Theta)}{\partial \theta_j} \\[1em]
    &=&\frac{\partial}{\partial \theta_j}{\sum_i^m{y^{(i)}\log{[h_\Theta(x^{(i)})]}+(1-y^{(i)})\log{[1-h_\Theta(x^{(i)})]}}} \\[1em]
    &=&\sum_i^m{y^{(i)}\frac{\partial}{\partial \theta_j}\log{[h_\Theta(x^{(i)})]}+(1-y^{(i)})\frac{\partial}{\partial \theta_j}\log{[1-h_\Theta(x^{(i)})]}} \\[1em]
    &=&\sum_i^m{\frac{y^{(i)}}{h_\Theta(x^{(i)})}\frac{\partial}{\partial \theta_j}{h_\Theta(x^{(i)})}+\frac{1-y^{(i)}}{1-h_\Theta(x^{(i)})}\frac{\partial}{\partial \theta_j}{[1-h_\Theta(x^{(i)})}]} \\[1em]
    &=&\sum_i^m{\left(\frac{y^{(i)}}{h_\Theta(x^{(i)})}-\frac{1-y^{(i)}}{1-h_\Theta(x^{(i)})}\right)\frac{\partial}{\partial \theta_j}{h_\Theta(x^{(i)})}} \\[1em]
    &=&\sum_i^m{\left(\frac{y^{(i)}}{\frac{1}{1+e^{-\Theta^{{\rm T}}x}}}-\frac{1-y^{(i)}}{1-\frac{1}{1+e^{-\Theta^{{\rm T}}x}}}\right)\frac{e^{-\Theta^{{\rm T}}x^{(i)}}}{\left(1+e^{-\Theta^{{\rm T}}x^{(i)}}\right)^2}x^{(i)}_j} \\[1em]
    &=&\sum_i^m{\frac{2y^{(i)}-1}{1+e^{\Theta^{{\rm T}}x^{(i)}}}x^{(i)}_j} \\[1em]
    \therefore \nabla_\Theta l(\Theta)&=&\sum_i^m{\frac{2y^{(i)}-1}{1+e^{\Theta^{{\rm T}}x^{(i)}}}x^{(i)}} \\[1em]
    \end{eqnarray*}
    \]

    训练的目标就是找到一个理想的 \(\Theta\) ,最大化 \(l(\Theta)\) 。

    所以训练过程就是:

    \[
    \Theta :=\Theta+\alpha \nabla_\Theta l(\Theta)
    \]

感知机

  • Perception Algorithm(感知机算法)

  • Step Function(阶梯函数)

    \[
    g(z)=\begin{cases}1, &{z\geq0}\\[1em]0,&{\text{Otherwise}}\end{cases}
    \]

CS229 笔记03的更多相关文章

  1. 《30天自制操作系统》笔记(03)——使用Vmware

    <30天自制操作系统>笔记(03)——使用Vmware 进度回顾 在上一篇,实现了用IPL加载OS程序到内存,然后JMP到OS程序这一功能:并且总结出下一步的OS开发结构.但是遇到了真机测 ...

  2. JS自学笔记03

    JS自学笔记03 1.函数练习: 如果函数所需参数为数组,在声明和定义时按照普通变量名书写参数列表,在编写函数体内容时体现其为一个数组即可,再传参时可以直接将具体的数组传进去 即 var max=ge ...

  3. 机器学习实战(Machine Learning in Action)学习笔记————03.决策树原理、源码解析及测试

    机器学习实战(Machine Learning in Action)学习笔记————03.决策树原理.源码解析及测试 关键字:决策树.python.源码解析.测试作者:米仓山下时间:2018-10-2 ...

  4. CS229 笔记08

    CS229 笔记08 Kernel 回顾之前的优化问题 原始问题为: \[ \min_{w,b} \frac{1}{2}||w||^2\\[1.5em] {\text{s.t.}}y^{(i)}\le ...

  5. CS229 笔记07

    CS229 笔记07 Optimal Margin Classifier 回顾SVM \[ \begin{eqnarray*} h_{w,b}&=&g(w^{\rm T}x+b)\\[ ...

  6. CS229 笔记06

    CS229 笔记06 朴素贝叶斯 事件模型 事件模型与普通的朴素贝叶斯算法不同的是,在事件模型中,假设文本词典一共有 \(k\) 个词,训练集一共有 \(m\) 封邮件,第 \(i\) 封邮件的词的个 ...

  7. CS229 笔记05

    CS229 笔记05 生成学习方法 判别学习方法的主要思想是假设属于不同target的样本,服从不同的分布. 例如 \(P(x|y=0) \sim {\scr N}(\mu_1,\sigma_1^2) ...

  8. CS229 笔记04

    CS229 笔记04 Logistic Regression Newton's Method 根据之前的讨论,在Logistic Regression中的一些符号有: \[ \begin{eqnarr ...

  9. CS229 笔记02

    CS229 笔记02 公式推导 $ {\text {For simplicity, Let }} A, B, C \in {\Bbb {R}}^{n \times n}. $ ​ $ {\bf {\t ...

随机推荐

  1. Notes of Daily Scrum Meeting(12.19)

    今天工作进展的速度别昨天稍有提高,希望大家再接再厉!加油! 团队任务总结如下: 团队成员 今日团队工作 陈少杰 重新尝试使用get等方法进行网络连接的调试 王迪 调试搜索功能中测出的问题 金鑫 测试已 ...

  2. OFART: OpenFlow-Switch Adaptive Random Testing

    文章名称:OFART: OpenFlow-Switch Adaptive Random Testing 发表时间:2017 期刊来源:--- 摘要 问题: 如果转发设备的正确性没有验证,这将影响这个网 ...

  3. 实现文字左右滚动 javascript

    参考链接:http://www.86y.org/art_detail.aspx?id=587 代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1 ...

  4. ElasticSearch 2 (36) - 信息聚合系列之显著项

    ElasticSearch 2 (36) - 信息聚合系列之显著项 摘要 significant_terms(SigTerms)聚合与其他聚合都不相同.目前为止我们看到的所有聚合在本质上都是简单的数学 ...

  5. Beta阶段 冲刺博客合集

    一.Beta阶段敏捷冲刺前准备 二.Beta阶段敏捷冲刺① 三.Beta阶段敏捷冲刺② 四.Beta阶段敏捷冲刺③ 五.Beta阶段敏捷冲刺④ 六.Beta阶段敏捷冲刺⑤ 七.用户使用调查报告 八.码 ...

  6. 在 SQL Server 中从完整路径提取文件名(sql 玩转文件路径)

    四个函数: --1.根据路径获取文件名 -- ============================================= -- Author: Paul Griffin -- Crea ...

  7. Android Tab类型主界面 Fragment+TabPageIndicator+ViewPager

    文章地址: Android项目Tab类型主界面大总结 Fragment+TabPageIndicator+ViewPager 1.使用ViewPager + PagerAdapter 每个页面的内容都 ...

  8. 【BZOJ1024】[SCOI2009]生日快乐(搜索)

    [BZOJ1024][SCOI2009]生日快乐(搜索) 题面 BZOJ 洛谷 题解 看到这个数据范围就感觉是爆搜.我们爆搜左右分成多少块,这样子左右的面积已知,再枚举一下横着切还是竖着切,这样子就可 ...

  9. bzoj5月月赛订正

    已完成2/9(要准备中考啊QwQ) T1 考虑对所有数分解质因数,其中因子>sqrt(100000)的因子最多有一个,于是我们可以暴力维护<sqrt(100000)的因子个数的前缀和. 剩 ...

  10. uva11235 FrequentValues (ST表)

    既然他是非降的,那我们可以把这个序列每一位转化成到这位位置连续相同的个数,比如001111233444变成121234112123,然后一个区间内的最大值就是众数的位数.但有个问题,就是这个区间的左端 ...