CS229 笔记07

Optimal Margin Classifier

回顾SVM

\[
\begin{eqnarray*}
h_{w,b}&=&g(w^{\rm T}x+b)\\[1em]
g(z)&=&\begin{cases}1&z\geq0\\[1em]-1&z<0\end{cases}\\[1em]
y&\in&\{-1,1\}\\[1em]
\hat\gamma^{(i)}&=&y^{(i)}\left(w^{\rm T}x+b\right)\tag{Functional Margin}\\[1em]
\gamma^{(i)}&=&y^{(i)}\left(\frac{w^{\rm T}}{||w||}x+\frac{b}{||w||}\right)\tag{Geometric Margin}\\[1em]
\hat\gamma&=&\min_i \hat\gamma^{(i)}\\[1em]
\gamma&=&\min_i \gamma^{(i)}\\[1em]
\end{eqnarray*}
\]
Optimal Margin Classifier（最大间隔分类器）

由于函数间隔 $\hat\gamma$ 是可以通过改变 $w$ 和 $b$ 来任意缩放的，所以这里说的“最大间隔”指的是几何间隔 $\gamma$ ，而几何间隔所需要满足的条件是，对于任意的样本 $(x^{(i)},y^{(i)})$ ，都有 $\gamma^{(i)}\geq\gamma$ ，即：

\[
\max \gamma\\
{\text{s.t. }}y^{(i)}\left(\frac{w^{\rm T}}{||w||}x+\frac{b}{||w||}\right)\geq\gamma
\]

这就是最大间隔分类器最原始的想法，在满足所有样本到超平面的距离都大于 $\gamma$ 的前提下，最大化这个 $\gamma$ 。但是这就有一个问题，当找到这么一组 $(w,b)$ 满足上面的最优化条件后， $(2w,2b)$ 也将满足上面的最优化条件（因为 $(w,b)$ 和 $(2w,2b)$ 其实就是同一个超平面），所以需要限定一下缩放的原则，比如规定 $||w||=1$ ，或者 $w_1=1$ 等等，这个原则可以有多种方式选定。假设约定 $||w||=1$ ，那么上面的优化问题就转变成以下的形式：

\[
\max \gamma\\
{\text{s.t. }}y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)\geq\gamma {\text{ and }} ||w||=1
\]

然而这并不是一个很好的优化问题，因为这个 $||w||=1$ 是一个很糟糕的非凸性约束（ $w$ 将在一个球面上取值，而球面集并不是一个凸集），所以还需要把优化问题再换一种表达方式。既然在约束条件里面很难给 $W$ 作一个约束（因为很难找到一个约束条件既能防止 $w$ 任意缩放，又能保证 $w$ 的取值集合是一个凸集），那么可以尝试把 $w$ 放到目标优化函数里面：

\[
\max \gamma=\max \frac{\hat\gamma}{||w||}\\
{\text{s.t. }}y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)\geq\hat\gamma
\]

但是这时候目标函数 $\hat\gamma/||w||$ 又不是一个凸函数了。注意到 $\hat\gamma$ 是可以任意缩放的，那么可以令 $\hat\gamma=1$ ，得到：

\[
\max \frac{1}{||w||}\\
{\text{s.t. }}y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)\geq1
\]

把最大化目标函数转为最小化其倒数，并平方：

\[
\min ||w||^2\\
{\text{s.t. }}y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)\geq1
\]

这就是最大间隔分类器的最终形式，其目标优化函数是一个凸函数，约束集是一个凸集。

Lagrange Multiplier

Lagrange Multiplier（拉格朗日常数法）的一般形式

要解决的问题为：

\[
\min f(w)\\
{\text{s.t. }}h_i(w)=0,\,(i=1,2,\cdots,l)
\]

要求解以上问题，首先要创建一个拉格朗日算子：

\[
{\mathcal L}(w,\beta)=f(w)+\sum_i\beta_ih_i(w)
\]

其中的 $\beta_i$ 被称为Lagrange Multiplier（拉格朗日乘数）。

然后令它的偏导数为0，求解方程组即可：

\[
\begin{eqnarray*}
\frac{\partial{\mathcal L}(w,\beta)}{\partial w}&=&0\\[1em]
\frac{\partial {\mathcal L}(w,\beta)}{\partial\beta}&=&0\\[1em]
\end{eqnarray*}
\]
Lagrange Multiplier（拉格朗日常数法）的扩展形式

要求解的问题为：

\[
\min_w f(w)\\
\begin{eqnarray*}
{\text{s.t. }}g_i(w)&\leq&0,\,(i=1,2,\cdots,k)\tag{1}\\
h_i(w)&=&0,\,(i=1,2,\cdots,l)\tag{2}\\
\end{eqnarray*}
\]

拉格朗日算子为：

\[
{\mathcal L}(w,\alpha,\beta)=f(w)+\sum_{i=1}^k\alpha_ig_i(w)+\sum_{i=1}^l\beta_ih_i(w)\tag{3}
\]

定义 $\Theta_P(w)$ 为：

\[
\Theta_P(w)\xlongequal{def}\max_{\alpha,\beta,\,{\text{s.t.}}\,\alpha\geq0}{\mathcal L}(w,\alpha,\beta)\tag{4}
\]

现在考虑另一个优化问题：

\[
p^*=\min_w\max_{\alpha,\beta,\,{\text{s.t.}}\,\alpha\geq0}{\mathcal L}(w,\alpha,\beta)=\min_w\Theta_P(w)
\]

若 $g_i(w)>0$ ，不满足条件 $(1)$ ，那么根据等式 $(3)$ 和 $(4)$ ， $\Theta_P(w)$ 将是一个无穷大值。若 $h_i(w)\neq0$ ，不满足条件 $(2)$ ，同理 $\Theta_P(w)$ 也将是一个无穷大值。

若同时满足条件 $(1)$ 和条件 $(2)$ ，那么显然：

\[
\Theta_P(w)=f(w)
\]

所以原来的优化问题也转变成新的优化问题：

\[
\min_w f(w)=\min_w \Theta_P(w)=p^*
\]

Dual Problem

Dual Problem（对偶问题）

定义：
\[
\Theta_D(\alpha, \beta)=\min_w{\mathcal L}(w,\alpha,\beta)\\
d^*=\max_{\alpha,\beta,\,{\text{s.t.}}\,\alpha\geq0}\min_w{\mathcal L}(w,\alpha,\beta)=\max_{\alpha,\beta,\,{\text{s.t.}}\,\alpha\geq0}\Theta_D(\alpha,\beta)
\]
则 $d^*$ 就是 $p^*$ 的对偶问题，其实就是交换了 $\min$ 和 $\max$ 的位置。在通常情况下， $d^*\leq p^*$ ，而这两个优化问题会有相同的解。
以上问题的完整表述

令 $f$ 是凸函数，假设 $h_i(w)$ 是仿射函数，即 $h_i(w)=\alpha_i^{\rm T}w+b_i$ 。再假设：

\[
\exists w, {\text { s.t. }} \forall_i\, g_i(w)<0
\]

那么，将存在 $w^*$ ， $\alpha^*$ ， $\beta^*$ ，使得 $w^*$ 是原始问题 $p^*$ 的解， $\alpha^*$ 和 $\beta^*$ 是对偶问题 $d^*$ 的解，并且 $p^*=d^*={\mathcal L}(w^*,\alpha^*,\beta^*)$ ，且：

\[
\begin{eqnarray*}
\frac{\partial}{\partial w}{\mathcal L}(w^*,\alpha^*,\beta^*)&=&0\\[1em]
\frac{\partial}{\partial \beta}{\mathcal L}(w^*,\alpha^*,\beta^*)&=&0\\[1em]
\alpha_i^*g_i(w^*)&=&0\\[1em]
g_i(w*)&\leq&0\\[1em]
\alpha_i^*&\geq&0\\[1em]
\end{eqnarray*}
\]

重新回到最大间隔分类器

准备工作

回顾一下最大间隔分类器要优化的目标：

\[
\min \frac{1}{2}||w||^2\\
{\text {s.t. }}y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)\geq1
\]

令 $g(w,b)=1-y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)\leq0$ 。

拉格朗日算子为（由于只有不等式约束，没有等式约束，所以只有参数 $\alpha$ ，没有参数 $\beta$ ：

\[
{\mathcal L}(w,b,\alpha)=\frac{1}{2}||w||^2-\sum_{i=1}^m\alpha_i\left[y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)-1\right]
\]

其对偶问题为：

\[
\Theta_D(\alpha)=\max_{w,b}{\mathcal L}(w,b,\alpha)
\]

要想最小化目标函数，只要用目标函数对 $w$ 求偏导，令偏导等于0，解方程即可：

\[
\begin{eqnarray*}
&&\frac{\partial}{\partial w}{\mathcal L}(w,b,\alpha)\\[1em]
&=&\frac{\partial}{\partial w}\left\{\frac{1}{2}||w||^2-\sum_{i=1}^m\alpha_i\left[y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)-1\right]\right\}\\[1em]
&=&w-\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}\xlongequal{set}0\\[1em]
\therefore\,w&=&\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)} \\[1em]
\end{eqnarray*}\\[1em]
\]

用目标函数对 $b$ 求导，得到：

\[
\begin{eqnarray*}
&&\frac{\partial}{\partial b}{\mathcal L}({w,b,\alpha})\\[1em]
&=&\frac{\partial}{\partial b}\left\{\frac{1}{2}||w||^2-\sum_{i=1}^m\alpha_i\left[y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)-1\right]\right\}\\[1em]
&=&-\sum_{i=1}^m\alpha_iy^{(i)}\xlongequal{set}0\\[1em]
&\therefore&\,\sum_{i=1}^m\alpha_iy^{(i)}=0 \tag{5} \\[1em]
\end{eqnarray*}
\]

这是一个约束条件，现在暂时还无法解出 $b$ 。

将上面的结果代入 ${\mathcal L}(w,b,\alpha)$ ：

\[
\begin{eqnarray*}
&&{\mathcal L}(w,b,\alpha)\\[1em]
&=&\frac{1}{2}||w||^2-\sum_{i=1}^m\alpha_i\left[y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)-1\right]\\[1em]
&=&\frac{1}{2}w^{\rm T}w-\sum_{i=1}^m\alpha_i\left[y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)-1\right]\\[1em]
&=&\frac{1}{2}\left(\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}\right)^{\rm T}\left(\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}\right)-\sum_{i=1}^m\alpha_i\left[y^{(i)}\left(\left(\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}\right)^{\rm T}x^{(i)}+b\right)-1\right]\\[1em]
&=&\frac{1}{2}\left(\sum_{i,j}^m\alpha_i\alpha_jy^{(i)}y^{(j)}\left\langle x^{(i)},x^{(j)}\right\rangle\right)-\sum_{i=1}^m\alpha_iy^{(i)}\left(\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}\right)^{\rm T}x^{(i)}-\sum_{i=1}^m\alpha_iy^{(i)}b+\sum_{i=1}^m\alpha_i\\[1em]
&=&\frac{1}{2}\left(\sum_{i,j}^m\alpha_i\alpha_jy^{(i)}y^{(j)}\left\langle x^{(i)},x^{(j)}\right\rangle\right)-\sum_{i,j}^m\alpha_i\alpha_jy^{(i)}y^{(j)}\left\langle x^{(i)},x^{(j)}\right\rangle-\sum_{i=1}^m\alpha_iy^{(i)}b+\sum_{i=1}^m\alpha_i\tag{Eq.5}\\[1em]
&=&\sum_{i=1}^m\alpha_i-\frac{1}{2}\left(\sum_{i,j}^m\alpha_i\alpha_jy^{(i)}y^{(j)}\left\langle x^{(i)},x^{(j)}\right\rangle\right)\\[1em]
&\xlongequal{def}&W(\alpha)\\[1em]
\end{eqnarray*}
\]

所以对偶问题为：

\[
\begin{eqnarray*}
\Theta_D(\alpha)&=&\max_{w,b}{\mathcal L}(w,b,\alpha)\\[1em]
&=&\max_{w,b}\left\{\sum_{i=1}^m\alpha_i-\frac{1}{2}\left(\sum_{i,j}^m\alpha_i\alpha_jy^{(i)}y^{(j)}\left\langle x^{(i)},x^{(j)}\right\rangle\right)\right\}\\[1em]
&=&\max_{w,b}W(\alpha)\\[1em]
{\text{s.t. }}&&\alpha_i\geq0\\[1em]
&&\sum_{i=1}^m\alpha_iy^{(i)}=0\\[1em]
\end{eqnarray*}
\]
解决SVM最大间隔分类器问题的步骤
1. 首先解决对偶问题，求出 $\alpha^*$
2. 然后代入 $w=\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}$ 求出 $w$
3. 最后由于 $b$ 代表着超平面的截距，所以只需将 $b$ 设置在最大间隔的中间即可。
模型训练之后的预测过程：

对于一个新样本 $x$ ，预测函数 $h_{w,b}(x)$ 为：

\[
\begin{eqnarray*}
h_{w,b}(x)&=&g(w^{\rm T}x+b)\\
&=&g\left(\sum_{i=1}^m\alpha_iy^{(i)}\left\langle x^{(i)},x \right\rangle+b\right)
\end{eqnarray*}
\]

CS229 笔记07的更多相关文章

机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习笔记,这次是第7章 - 利用AdaBoost元算法提高分类性能. 核心思想在使用某个特定的算法是, ...
JAVA自学笔记07
JAVA自学笔记07 1.构造方法 1) 例如:Student s = new Student();//构造方法 System.out.println(s);// Student@e5bbd6 2)功 ...
学习笔记 07 --- JUC集合
学习笔记 07 --- JUC集合在讲JUC集合之前我们先总结一下Java的集合框架,主要包含Collection集合和Map类.Collection集合又能够划分为LIst和Set. 1. Lis ...
机器学习实战（Machine Learning in Action）学习笔记————07.使用Apriori算法进行关联分析
机器学习实战(Machine Learning in Action)学习笔记————07.使用Apriori算法进行关联分析关键字:Apriori.关联规则挖掘.频繁项集作者:米仓山下时间:2018 ...
CS229 笔记08
CS229 笔记08 Kernel 回顾之前的优化问题原始问题为: \[ \min_{w,b} \frac{1}{2}||w||^2\\[1.5em] {\text{s.t.}}y^{(i)}\le ...
CS229 笔记06
CS229 笔记06 朴素贝叶斯事件模型事件模型与普通的朴素贝叶斯算法不同的是,在事件模型中,假设文本词典一共有 $k$ 个词,训练集一共有 $m$ 封邮件,第 $i$ 封邮件的词的个 ...
CS229 笔记05
CS229 笔记05 生成学习方法判别学习方法的主要思想是假设属于不同target的样本,服从不同的分布. 例如 \(P(x|y=0) \sim {\scr N}(\mu_1,\sigma_1^2) ...
CS229 笔记04
CS229 笔记04 Logistic Regression Newton's Method 根据之前的讨论,在Logistic Regression中的一些符号有: \[ \begin{eqnarr ...
CS229 笔记03
CS229 笔记03 局部加权线性回归 Non-Parametric Learning Algorithm (非参数学习方法) Number of parameters grows with the ...

随机推荐

codeforces 1141G Privatization of Roads in Treeland
题目链接:http://codeforces.com/contest/1141/problem/G 题目大意: 给你一个无向连通图.每条边都有颜色,如果存在一个点的临边中有超过两条边颜色相同,这个点就 ...
【MOOC EXP】Linux内核分析实验四报告
程涵原创博客 <Linux内核分析>MOOC课程http://mooc.study.163.com/course/USTC-1000029000 [使用库函数API和C代码中嵌入汇编代 ...
Javascript中Base64编码解码的使用实例
Javascript为我们提供了一个简单的方法来实现字符串的Base64编码和解码,分别是window.btoa()函数和window.atob()函数. 1 var encodedStr = win ...
3D开机动画
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <meta name ...
DOM父节点、子节点例子
父节点 <body> <ul id="oUl"> <li><a href="#">隐藏1</a>&l ...
浅谈|WEB 服务器 -- Caddy
浅谈|WEB 服务器 -- Caddy 2018年03月28日 12:38:00 yori_chen 阅读数:1490 标签: caddyserverwebhttps反向代理更多个人分类: ser ...
Spring MVC的路径匹配规则 Ant-style
Spring默认的策略实现了 org.springframework.util.AntPathMatcher,即Apache Ant的样式路径,Apache Ant样式的路径有三种通配符匹配方法(在下 ...
Cucumber java + Webdriver(一)
一.打开Eclipse,新建一个maven项目,打开pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0" xm ...
MT【200】一道自招的不等式
(2018武汉大学自招)设$x,y,z\ge0,xy+yz+zx=1$证明:$\dfrac{1}{x+y}+\dfrac{1}{y+z}+\dfrac{1}{z+x}\ge \dfrac{5}{2}$ ...
BZOJ 1565 [NOI2009]植物大战僵尸 | 网络流
传送门 BZOJ 1565 题解这道题也是个经典的最大权闭合子图-- 复习一下最大权闭合子图是什么? 就是一个DAG上,每个点有个或正或负的点权,有的点依赖于另外一些点(如果选这个点,则被依赖点必选 ...

CS229 笔记07

CS229 笔记07

Optimal Margin Classifier

Lagrange Multiplier

Dual Problem

重新回到最大间隔分类器

CS229 笔记07的更多相关文章

随机推荐

热门专题