CS229 笔记04

Logistic Regression

  • Newton's Method

    根据之前的讨论,在Logistic Regression中的一些符号有:

    \[
    \begin{eqnarray*}
    P(y=1|x;\Theta)&=&h_\Theta(x)=\frac{1}{1+e^{-\Theta^{{\rm T}}x}} \\[1em]
    P(y|x;\Theta)&=&[h_\Theta(x)]^y[1-h_\Theta(x)]^{1-y} \\[1em]
    l(\Theta)&=&\log{L(\Theta)} \\[1em]
    &=&\sum_i^m{\log{P(y^{(i)}|x^{(i)};\Theta)}} \\[1em]
    &=&\sum_i^m{y^{(i)}\log{[h_\Theta(x^{(i)})]}+(1-y^{(i)})\log{[1-h_\Theta(x^{(i)})]}} \\[1em]
    \end{eqnarray*}
    \]

    与之前讨论的不同点在于参数 \(\Theta\) 的迭代方式,在这里使用牛顿方法。为得到 \(l(\Theta)\) 的最大值,只需要计算使得 \(l^{'}(\Theta)={\bf 0}\) 成立 \(\Theta\) 。

    当 \(\Theta\) 是一个标量时可以用以下方法计算:

    \[
    \Theta^{t+1}=\Theta^{t}-\frac{h_\Theta^{'}(x)}{h_\Theta^{''}(x)}
    \]

    当 \(\Theta\) 是一个向量时(设 \(\Theta \in {\Bbb R}^{n+1}\))可以用以下方法计算(引用了第三篇笔记中的结论):

    \[
    \begin{eqnarray*}
    \Theta^{t+1}&=&\Theta^{t}-H^{-1}\nabla_\Theta l(\Theta) \\[1em]
    \nabla_\Theta l(\Theta)&=&\sum_i^m{\frac{2y^{(i)}-1}{1+e^{\Theta^{{\rm T}}x^{(i)}}}x^{(i)}} \\[1em]
    [H]_{pq}&\xlongequal{def}&\frac{\partial^2 l(\Theta)}{\partial \theta_p \partial \theta_q} \\[1em]
    &=&\frac{\partial}{\partial \theta_q}\frac{\partial l(\Theta)}{\partial \theta_p} \\[1em]
    &=&\frac{\partial}{\partial \theta_q}\sum_i^m{\frac{2y^{(i)}-1}{1+e^{\Theta^{{\rm T}}x^{(i)}}}x^{(i)}_p} \\[1em]
    &=&\sum_i^m\frac{e^{\Theta^{{\rm T}}x^{(i)}}(1-2y^{(i)})}{\left(1+e^{\Theta^{{\rm T}}x^{(i)}}\right)^2}x^{(i)}_px^{(i)}_q \\[1em]
    \therefore H&=&\sum_i^m\frac{e^{\Theta^{{\rm T}}x^{(i)}}(1-2y^{(i)})}{\left(1+e^{\Theta^{{\rm T}}x^{(i)}}\right)^2}x^{(i)}(x^{(i)})^{{\rm T}} \\[1em]
    \end{eqnarray*}
    \]

Exponential Family

  • Exponential Family

    \[
    P(y;\eta)=b(y)\exp{\left[\eta^{{\rm T}}T(y)-a(\eta)\right]}
    \]

    \(\eta\) :Natural Parameter(自然参数)

    \(T\) :Sufficient Statistic(充分统计量),通常 \(T(y)=y\)

  • Bernoulli Distribution(伯努利分布)

    \[
    \begin{eqnarray*}
    P(y;\phi)&=&\phi^y(1-\phi)^{1-y} \\[1em]
    &=&\exp\left\{\log\left[\phi^y(1-\phi)^{1-y}\right]\right\} \\[1em]
    &=&\exp\left[y\log\phi+(1-y)\log(1-\phi)\right] \\[1em]
    &=&\exp\left\{y[\log\phi-\log(1-\phi)]+\log(1-\phi)\right\} \\[1em]
    &=&\exp\left[\log\left(\frac{\phi}{1-\phi}\right) \cdot y+\log(1-\phi)\right] \\[1em]
    \end{eqnarray*}
    \]

    其中:

    \[
    \begin{eqnarray*}
    \eta&=&\log\left(\frac{\phi}{1-\phi}\right) \\[1em]
    T(y)&=&y \\[1em]
    a(\eta)&=&-\log(1-\phi)\\[1em]
    b(y)&=&1
    \end{eqnarray*}
    \]

    经过变换可得:

    \[
    \begin{eqnarray*}
    \phi&=&\frac{1}{1+e^{-\eta}} \\[1em]
    a(\eta)&=&-\log(1-\phi) \\[1em]
    &=&-\log(1-\frac{1}{1+e^{-\eta}}) \\[1em]
    &=&\log(1+e^\eta) \\[1em]
    T(y)&=&y\\[1em]
    b(y)&=&1
    \end{eqnarray*}
    \]

    可得到Logistic Function(或称Sigmoid Function)

  • Gaussian Distribution(高斯分布)

    假设 $y \sim {\scr N}(\mu, 1) $

    \[
    \begin{eqnarray*}
    P(y)&=&\frac{1}{\sqrt2\pi}\exp\left[-\frac{1}{2}(y-\mu)^2\right] \\[1em]
    &=&\frac{1}{\sqrt2\pi}\exp\left(-\frac{1}{2}y^2+\mu y-\frac{1}{2}\mu^2\right) \\[1em]
    &=&\frac{1}{\sqrt2\pi}\exp\left(-\frac{1}{2}y^2\right)\exp\left(\mu y-\frac{1}{2}\mu^2\right) \\[1em]
    \end{eqnarray*}
    \]

    其中:

    \[
    \begin{eqnarray*}
    b(y)&=&\frac{1}{\sqrt2\pi}\exp\left(-\frac{1}{2}y^2\right) \\[1em]
    \eta&=&\mu \\[1em]
    T(y)&=&y\\[1em]
    a(\eta)&=&-\frac{1}{2}\mu^2 \\[1em]
    &=&-\frac{1}{2}\eta^2 \\[1em]
    \end{eqnarray*}
    \]

  • Poisson Distribution(泊松分布)

    假设 $y \sim \pi(\mu, 1) $

    \[
    \begin{eqnarray*}
    P(y)&=&\frac{e^{-\lambda}\lambda^y}{y!} \\[1em]
    &=&\frac{1}{y!}e^{-\lambda}e^{\log\lambda^y} \\[1em]
    &=&\frac{1}{y!}\exp(y\log\lambda-\lambda) \\[1em]
    \end{eqnarray*}
    \]

    其中:

    \[
    \begin{eqnarray*}
    b(y)&=&\frac{1}{y!}\\[1em]
    T(y)&=&y\\[1em]
    \eta&=&\log\lambda\\[1em]
    a(\eta)&=&-\lambda\\[1em]
    &=&-e^\eta
    \end{eqnarray*}
    \]

  • Multinomial Distribution(多项分布)

    当 \(y\) 服从多项分布时, \(y \in \{1,2,\cdots,k\}\) 。

    多项分布的参数有 \(\phi_1,\phi_2,\cdots,\phi_k\) ,因为 \(\sum_i^k{\phi_i}=1\) ,所以 \(\phi_k\) 可以省略。

    多项分布是少数的 \(T(y) \neq y\) 的分布。 \(T(y) \in {\Bbb R}^{k-1}\) ,其被定义为:

    \[
    T(1)=\begin{bmatrix}1\\0\\\vdots\\0\end{bmatrix},T(2)=\begin{bmatrix}0\\1\\\vdots\\0\end{bmatrix},\cdots,T(k-1)=\begin{bmatrix}0\\0\\\vdots\\1\end{bmatrix},T(k)=\begin{bmatrix}0\\0\\\vdots\\0\end{bmatrix}
    \]

    再定义一个符号: \(I\{true\}=1,I\{false\}=0\) 。

    \(T(y)_i\) 表示 \(T(y)\) 向量中的第 \(i\) 个分量。

    概率密度函数为:\(P(y=i)=\phi_i\) ,即:

    \[
    \begin{eqnarray*}
    P(y)&=&\phi_1^{I\{y=1\}}\phi_2^{I\{y=2\}}\cdots\phi_k^{I\{y=k\}} \\[1em]
    &=&\phi_1^{T(y)_1}\phi_2^{T(y)_2}\cdots\phi_k^{1-\sum_{i=1}^{k-1}T(y)_i} \\[1em]
    &=&\exp\left\{\log\left[\phi_1^{T(y)_1}\phi_2^{T(y)_2}\cdots\phi_k^{1-\sum_{i=1}^{k-1}T(y)_i}\right]\right\} \\[1em]
    &=&\exp\left[T(y)_1\log\phi_1+T(y)_2\log\phi_2+\cdots+\left(1-\sum_{i=1}^{k-1}T(y)_i\right)\log\phi_k\right] \\[1em]
    &=&\exp\left[\sum_{i=1}^{k-1}T(y)_i\log\phi_i+\log\phi_k-\sum_{i=1}^{k-1}T(y)_i\log\phi_k\right] \\[1em]
    &=&\exp\left[\sum_{i=1}^{k-1}T(y)_i(\log\phi_i-\log\phi_k)+\log\phi_k\right] \\[1em]
    &=&\exp\left[\sum_{i=1}^{k-1}T(y)_i\log\frac{\phi_i}{\phi_k}+\log\phi_k\right] \\[1em]
    &=&\exp\left[\eta^{\rm T}T(y)+\log\phi_k\right] \\[1em]
    \end{eqnarray*}
    \]

    其中:

    \[
    \eta=\begin{bmatrix}\log\frac{\phi_1}{\phi_k}\\\log\frac{\phi_2}{\phi_k}\\\vdots\\\log\frac{\phi_{k-1}}{\phi_k}\end{bmatrix}
    \]

    因为\(T(y)_i\) 当中只有一项为1,其它为0,所以 \(\sum_{i=1}^{k-1}T(y)_i\log\frac{\phi_i}{\phi_k}\) 当中只会剩下一项 \(T(y)_i\log\frac{\phi_i}{\phi_k}\) ,使用 \(\eta^{\rm T}T(y)\) 正好能表示那一项。

    下面使用 \(\eta\) 来表示 \(\phi_k\) :

    \[
    \begin{eqnarray*}
    \eta_i&=&\log\frac{\phi_i}{\phi_k} \\[1em]
    \exp(\eta_i)&=&\frac{\phi_i}{\phi_k} \\[1em]
    \sum_{i=1}^{k-1}\exp(\eta_i)&=&\sum_{i=1}^{k-1}\frac{\phi_i}{\phi_k} \\[1em]
    \sum_{i=1}^{k-1}\exp(\eta_i)&=&\frac{1-\phi_k}{\phi_k} \\[1em]
    \phi_k&=&\frac{1}{1+\sum_{i=1}^{k-1}\exp(\eta_i)} \\[1em]
    \phi_i&=&\phi_k\exp(\eta_i) \\[1em]
    &=&\frac{\exp(\eta_i)}{1+\sum_{i=1}^{k-1}\exp(\eta_i)} \\[1em]
    \end{eqnarray*}
    \]

    所以:

    \[
    \begin{eqnarray*}
    b(y)&=&1\\[1em]
    \eta&=&\begin{bmatrix}\log\frac{\phi_1}{\phi_k}\\\log\frac{\phi_2}{\phi_k}\\\vdots\\\log\frac{\phi_{k-1}}{\phi_k}\end{bmatrix}\\[1em]
    a(\eta)&=&-\log\phi_k \\[1em]
    &=&-\log\left(\frac{1}{1+\sum_{i=1}^{k-1}\exp(\eta_i)}\right) \\[1em]
    &=&\log\left(1+\sum_{i=1}^{k-1}\exp(\eta_i)\right) \\[1em]
    \end{eqnarray*}
    \]

Generalized Linear Models

当决定使用指数分布族来解决问题后,就会推导出一个广义的线性模型。

使用指数分布族需要有以下假设:

  1. \(y\) 服从指数分布族中的某种分布,即 \(y|x;\Theta \sim ExpFamily(\eta)\)
  2. 给定一些样本 \(x\) ,目标是估计对应的 \(y\) ,\(y\) 可以用充分统计量 \(T(y)\) 来表示,所以问题就变成了估计 \(T(y)\) 的期望,即 \(h(x)=E[T(y)|x]\) 。
  3. 指数分布族中的参数 \(\eta\) 与输入的特征(也就是输入的样本) \(x\) 之间的关系是线性关系,即 \(\eta=\Theta^{\rm T}x\) 。

以下是一些常见分布(在之前被证明了属于指数分布族的)的估计函数的推导过程:

  • Bernoulli Distribution(伯努利分布) -> Logistic Regression(逻辑回归)

    假设 \(y|x;\Theta \sim ExpFamily(\eta)\) 中的伯努利分布,即:

    \[
    \begin{eqnarray*}
    h_\Theta(x)&=&E[T(y)|x;\Theta] \\[1em]
    &=&P(y=1|x;\Theta) \\[1em]
    &=&\phi \\[1em]
    &=&\frac{1}{1+e^{-\eta}} \\[1em]
    &=&\frac{1}{1+e^{-\Theta^{\rm T}x}} \\[1em]
    \end{eqnarray*}
    \]

  • Gaussian Distribution(高斯分布) -> Least Square (最小二乘)

    假设 \(y|x;\Theta \sim ExpFamily(\eta)\) 中的高斯分布,即:

    \[
    \begin{eqnarray*}
    h_\Theta(x)&=&E[T(y)|x;\Theta] \\[1em]
    &=&\mu \\[1em]
    &=&\eta \\[1em]
    &=&\Theta^{\rm T}x
    \end{eqnarray*}
    \]

  • Multinomial Distribution(多项分布) -> Softmax Regression

    假设 \(y|x;\Theta \sim ExpFamily(\eta)\) 中的多项分布,由于多项分布的参数 \(\eta\) 是一个向量,所以 \(\Theta\) 将会是一个矩阵, \(\Theta \in {\Bbb R}^{(n+1)\times(k-1)}\) ,即 \(\Theta_i \in {\Bbb R}^{(n+1)}\) ,则估计函数为:

    \[
    \begin{eqnarray*}
    h_\Theta(x)&=&E[T(y)|x;\Theta] \\[1em]
    &=&\begin{bmatrix}\phi_1\\\phi_2\\\vdots\\\phi_{k-1}\end{bmatrix} \\[1em]
    &=&\begin{bmatrix}\frac{\exp(\eta_1)}{1+\sum_{i=1}^{k-1}\exp(\eta_i)}\\\frac{\exp(\eta_2)}{1+\sum_{i=1}^{k-1}\exp(\eta_i)}\\\vdots\\\frac{\exp(\eta_{k-1})}{1+\sum_{i=1}^{k-1}\exp(\eta_i)}\end{bmatrix} \\[1em]
    &=&\begin{bmatrix}\frac{\exp(\Theta_1^{\rm T}x)}{1+\sum_{i=1}^{k-1}\exp(\Theta_i^{\rm T}x)}\\\frac{\exp(\Theta_2^{\rm T}x)}{1+\sum_{i=1}^{k-1}\exp(\Theta_i^{\rm T}x)}\\\vdots\\\frac{\exp(\Theta_{k-1}^{\rm T}x)}{1+\sum_{i=1}^{k-1}\exp(\Theta_i^{\rm T}x)}\end{bmatrix} \\[1em]
    \end{eqnarray*}
    \]

CS229 笔记04的更多相关文章

  1. JS自学笔记04

    JS自学笔记04 arguments[索引] 实参的值 1.对象 1)创建对象 ①调用系统的构造函数创建对象 var obj=new Object(); //添加属性.对象.名字=值; obj.nam ...

  2. JAVA自学笔记04

    JAVA自学笔记04 1.switch语句 1)格式:switch(表达式){ case 值1: 语句体1; break; case 值2: 语句体2; break; - default: 语句体n+ ...

  3. 机器学习实战(Machine Learning in Action)学习笔记————04.朴素贝叶斯分类(bayes)

    机器学习实战(Machine Learning in Action)学习笔记————04.朴素贝叶斯分类(bayes) 关键字:朴素贝叶斯.python.源码解析作者:米仓山下时间:2018-10-2 ...

  4. CS229 笔记08

    CS229 笔记08 Kernel 回顾之前的优化问题 原始问题为: \[ \min_{w,b} \frac{1}{2}||w||^2\\[1.5em] {\text{s.t.}}y^{(i)}\le ...

  5. CS229 笔记07

    CS229 笔记07 Optimal Margin Classifier 回顾SVM \[ \begin{eqnarray*} h_{w,b}&=&g(w^{\rm T}x+b)\\[ ...

  6. CS229 笔记06

    CS229 笔记06 朴素贝叶斯 事件模型 事件模型与普通的朴素贝叶斯算法不同的是,在事件模型中,假设文本词典一共有 \(k\) 个词,训练集一共有 \(m\) 封邮件,第 \(i\) 封邮件的词的个 ...

  7. CS229 笔记05

    CS229 笔记05 生成学习方法 判别学习方法的主要思想是假设属于不同target的样本,服从不同的分布. 例如 \(P(x|y=0) \sim {\scr N}(\mu_1,\sigma_1^2) ...

  8. CS229 笔记03

    CS229 笔记03 局部加权线性回归 Non-Parametric Learning Algorithm (非参数学习方法) Number of parameters grows with the ...

  9. CS229 笔记02

    CS229 笔记02 公式推导 $ {\text {For simplicity, Let }} A, B, C \in {\Bbb {R}}^{n \times n}. $ ​ $ {\bf {\t ...

随机推荐

  1. PHPMyWind5.4存储XSS(CVE-2017-12984)

    0x0 环境 操作机:xp   192.168.110.128 目标:win2003    192.168.110.133 目标cms:PHPMyWind5.4 0x11 漏洞介绍 允许恶意访问者在客 ...

  2. mac osx 初次使用PHP环境搭建

    非常简单,一共2个步骤: Step1: 启动Apache mac osx 系统默认安装Apache服务. 首先打开terminal,输入: sudo apachectl start 如果需要输入密码, ...

  3. 软工实践练习一 git使用心得

    使用git进行代码管理的心得 小组 1.结对的同学创建了小组,我属于被邀请的.附上图片一张. 2.已将代码库https://github.com/sefzu2015/AutoCS fork到了小组or ...

  4. Java 笔记——在 IDEA 中使用 Maven 配置和使用 MyBatis

    1.前言 MyBatis 是什么? MyBatis 是一款优秀的持久层框架,它支持定制化 SQL.存储过程以及高级映射. MyBatis 避免了几乎所有的 JDBC 代码和手动设置参数以及获取结果集. ...

  5. “耐撕”团队 2016.03.25 站立会议

    1.时间:2016.3.23  2.成员: Z 郑蕊 * 组长 (博客:http://www.cnblogs.com/zhengrui0452/), P 濮成林(博客:http://www.cnblo ...

  6. 12th 对礼物挑选小工具的WBS功能分解

    WBS功能分解: 功能 一级子功能 二级子功能 预计用时(分钟) 主页 进入相应页面 1.如果用户已处于登录状态,则返回用户登录时的主页 10 2.如果用户处于未登录状态,则返回用户预览主页. 10 ...

  7. Docker的安装和使用说明——Docker for Windows

    一.Docker安装 1.1官方方法 官方下载页面:http://www.docker.com/products/docker#/windows 官方下载地址:https://download.doc ...

  8. PAT 甲级 1022 Digital Library

    https://pintia.cn/problem-sets/994805342720868352/problems/994805480801550336 A Digital Library cont ...

  9. Xshell登录Docker

    使用SSH协议登录即可,用户名为docker,密码为tcuser

  10. Windows 使用 StarWind 创建的 Oracle RAC环境 异常关机之后的处理过程

    创建好了 虚拟机之后发现 偶尔会出现 蓝屏重启的现象, 这个时候 需要进行 异常处理 确定虚拟机已经开机之后 1. 打开iscsi的连接设备, 确认 iscsi的正常连接到虚拟机的 存储设备 注意 r ...