CS229 笔记08
CS229 笔记08
Kernel
回顾之前的优化问题
原始问题为:
\[
\min_{w,b} \frac{1}{2}||w||^2\\[1.5em]
{\text{s.t.}}y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)\geq1
\]原始问题的对偶问题为:
\[
\max_{\alpha}\left\{ \sum_{i=1}^m \alpha_i - \frac{1}{2} \sum_{i,j}^m y{(i)} y^{(j)}\alpha_i \alpha_j \left\langle x^{(i)}, x^{(j)} \right\rangle \right\}\\[2em]
\begin{eqnarray*}
{\text{s.t. }}\alpha_i&\geq&0\\[1em]
\sum_{i=0}^my^{(i)}\alpha_i&=&0
\end{eqnarray*}
\]求解出对偶问题得到 \(\alpha_i\) 后,代入以下等式可求出 \(w\) :
\[
w=\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}
\]模型训练完成之后的预测函数 \(h_{w,b}(x)\) 为:
\[
\begin{eqnarray*}
h_{w,b}(x)&=&g(w^{\rm T}x+b)\\[1em]
&=&g\left(\sum_{i=1}^m\alpha_iy^{(i)}\left\langle x^{(i)},x\right\rangle+b\right)
\end{eqnarray*}
\]Kernel(核函数)
之前讨论的分类问题都是假设训练样本数据是线性可分的,而若样本线性不可分,则需要将样本(向量)从低维空间映射到高维空间,因为在低维空间线性不可分的样本,很有可能在高维空间线性可分。
假设从低维空间到高维空间的映射为 \(\phi: {\Bbb R}^a \to {\Bbb R}^b\) ,其中 \(b>a\) ,那么在之前讨论中所有出现 \(\left\langle x^{(i)},x^{(j)} \right\rangle\) 内积的地方都可以替换成 \(\left\langle \phi\left(x^{(i)}\right),\phi\left(x^{(j)}\right) \right\rangle\) 。
这样替换会有两个问题,第一是如何找到这样的将向量从低维空间转化到高维空间的映射,第二是映射之后的向量的维数很大,甚至是无限维的,这样计算内积的效率很低。
如果可以不把高维的向量算出来,也能知道两个向量在高维空间中的内积(或者等同于内积的量),就方便很多了。而Kernel(核函数)在很多情况下就能达到这样的效果。
这种思想的目标是,找到这样的函数 \(K\) ,使得:
\[
K(x^{(i)},x^{(j)})=\left\langle \phi\left(x^{(i)}\right),\phi\left(x^{(j)}\right) \right\rangle
\]一些常见的核函数
多项式核函数,映射之后的向量维数为组合数 \(C(n+d,d)\) :
\[
K(x,z)=\left(x^{\rm T}z+c\right)^d
\]高斯核函数(径向基函数核,Radial basis function kernel,RBF核),映射后的向量维数是无穷大:
\[
K(x,z)=\exp\left(-\frac{||x-z||^2}{2\sigma^2}\right)
\]构造核函数的原则
对于内积的一个直观但不一定准确的理解是:若两个向量相似度高,即它们指向的方向大致相同,那么它们的内积将会很大;反之若两个向量相似度很小,那么内积会很小。
对于一个新的问题,在其中的两个向量内积的表示,可以用多项式核函数,可以用高斯核函数,也可以另外构造一个函数,至于如何选择,则需要考察一下核函数的合法性。判断一个核函数 \(K\) 是否合法,也就是判断是否存在一个映射 \(\phi\) ,使得 \(K(x,z)=\left\langle\phi(x),\phi(z)\right\rangle\) 。
下面给出一个函数 \(K\) 是一个合法的核函数的充要条件,在此之前需要定义一些记号:
设原始向量为:
\[
x^{(1)},x^{(2)},\cdots,x^{(m)}
\]存在一个函数 \(K\) ,令一个矩阵 \(K \in {\Bbb R}^{m\times m}\) (这里两个概念用了相同的字母表示):
\[
K_{ij}=K(x^{(i)},x^{(j)})
\]那么函数 \(K\) 是一个合法的核函数的充要条件是:矩阵 \(K\) 是一个半正定矩阵。
必要性证明:
已知函数 \(K\) 是一个合法的核函数,那么存在映射 \(\phi\) ,使得 \(K(x,z)=\left\langle\phi(x),\phi(z)\right\rangle\) 。
对于任意的 \(z\in {\Bbb R}^{m}\) :
\[
\begin{eqnarray*}
z^{\rm T}Kz&=&\sum_{i=1}^m\sum_{j=1}^mz_iK_{ij}z_j\\[1em]
&=&\sum_{i=1}^m\sum_{j=1}^mz_iK(x^{(i)},x^{(j)})z_j\\[1em]
&=&\sum_{i=1}^m\sum_{j=1}^mz_i \left\langle\phi(x^{(i)}),\phi(x^{(j)})\right\rangle z_j\\[1em]
&=&\sum_{i=1}^m\sum_{j=1}^mz_i \left(\phi(x^{(i)})\right)^{\rm T}\phi(x^{(j)}) z_j\\[1em]
&=&\sum_{i=1}^m\sum_{j=1}^mz_i \left(\sum_{k=1}^{n}\phi(x^{(i)})_k\phi(x^{(j)})_k\right) z_j\\[1em]
&=&\sum_{k=1}^{n}\sum_{i=1}^m\sum_{j=1}^m z_i \phi(x^{(i)})_k\phi(x^{(j)})_k z_j\\[1em]
&=&\sum_{k=1}^{n}\left(\sum_{i=1}^mz_i \phi(x^{(i)})_k\right)\left(\sum_{j=1}^m z_j\phi(x^{(j)})_k\right)\\[1em]
&=&\sum_{k=1}^{n}\left(\sum_{i=1}^mz_i \phi(x^{(i)})_k\right)^2\\[1em]
&\geq&0
\end{eqnarray*}
\]将核函数应用到SVM问题中
要将核函数应用到SVM问题中,只需要将对偶问题中出现的内积变成核函数值,这样就达到了将原始向量从低维空间映射到高维空间的目的。
Soft Margin
Soft Margin SVM(软间隔SVM)
在很多情况下,训练样本并不一定是线性可分的,即使映射到无限维空间中也是这样。其中的原因可能是因为噪声,也可能是数据本身的性质就是如此。同时,即使数据能够线性可分,我们在大多数情况下也不希望其中的少量噪声影响我们超平面最终的选择,所以有必要提出一种 Soft Margin SVM(软间隔SVM)。
再回忆一下 SVM 的原始问题:
\[
\min_{w,b} \frac{1}{2}||w||^2\\[1.5em]
{\text{s.t.}}y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)\geq1
\]现在将原始问题进行改造:
\[
\min_{w,b,\xi} \frac{1}{2}||w||^2+C\sum_{i=1}^{m}\xi_i\\[1.5em]
{\text{s.t.}}y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)\geq1-\xi_i\\[1.5em]
\xi_i\geq0
\]有之前的讨论可知,当 \(y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)\geq0\) 时,表示分类结果正确。
现在不等式右边变成了 \(1-\xi_i\) ,表示某些 \(\xi_i\) 的取值可以让不等式的右面小于0,即可以容忍某一些样本的分类结果是错误的。
但是这样的容忍并不值得鼓励,所以需要在目标优化函数上面加上相应的惩罚项 \(C\sum_{i=1}^{m}\xi_i\) 。
所以原始的最优化问题就转化成了一个新的最优化问题,这也是一个凸优化问题,这个问题也可以推导出它的对偶问题。
拉格朗日算子为:
\[
{\mathcal L}(w,b,\xi,\alpha,r)=\frac{1}{2}\left\|w\right\|^2+C\sum_{i=1}^{m}\xi_i-\sum_{i=1}^m\alpha_i\left[y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)-1+\xi_i\right]-\sum_{i=1}^mr_i\xi_i
\]对偶问题为:
\[
\max_{w,b,\xi} {\mathcal L}(w,b,\xi,\alpha,r)
\]对 \(w\) 求导:
\[
\begin{eqnarray*}
\frac{\partial}{\partial w}{\mathcal L}(w,b,\xi,\alpha,r)&=&\frac{\partial}{\partial w}\left\{\frac{1}{2}\left\|w\right\|^2+C\sum_{i=1}^{m}\xi_i-\sum_{i=1}^m\alpha_i\left[y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)-1+\xi_i\right]-\sum_{i=1}^mr_i\xi_i\right\}\\[1em]
&=&w-\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}\xlongequal{set}0\\[1em]
\therefore\,w&=&\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}
\end{eqnarray*}
\]对 \(b\) 求导:
\[
\begin{eqnarray*}
\frac{\partial}{\partial b}{\mathcal L}(w,b,\xi,\alpha,r)&=&\frac{\partial}{\partial b}\left\{\frac{1}{2}\left\|w\right\|^2+C\sum_{i=1}^{m}\xi_i-\sum_{i=1}^m\alpha_i\left[y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)-1+\xi_i\right]-\sum_{i=1}^mr_i\xi_i\right\}\\[1em]
&=&-\sum_{i=1}^m\alpha_iy^{(i)}\xlongequal{set}0\\[1em]
\therefore\,\sum_{i=1}^m\alpha_iy^{(i)}&=&0
\end{eqnarray*}
\]对 \(\xi_i\) 求导:
\[
\begin{eqnarray*}
\frac{\partial}{\partial \xi_i}{\mathcal L}(w,b,\xi,\alpha,r)&=&\frac{\partial}{\partial \xi_i}\left\{\frac{1}{2}\left\|w\right\|^2+C\sum_{i=1}^{m}\xi_i-\sum_{i=1}^m\alpha_i\left[y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)-1+\xi_i\right]-\sum_{i=1}^mr_i\xi_i\right\}\\[1em]
&=&C-\alpha_i-r_i\xlongequal{set}0\\[1em]
\therefore\,\alpha_i&=&C-r_i\\[1em]
\because\, r_i &\geq& 0\\[1em]
\therefore\, \alpha_i&\leq&C
\end{eqnarray*}
\]最终得到的对偶问题为:
\[
\begin{eqnarray*}
&&\max_{w,b}{\mathcal L}(w,b,\alpha)\\[1em]
&=&\max_{w,b}\left\{\sum_{i=1}^m\alpha_i-\frac{1}{2}\left(\sum_{i,j}^m\alpha_i\alpha_jy^{(i)}y^{(j)}\left\langle x^{(i)},x^{(j)}\right\rangle\right)\right\}\\[1em]
&=&\max_{w,b}W(\alpha)\\[1em]
{\text{s.t. }}&&0\leq\alpha_i\leq C\\[1em]
&&\sum_{i=1}^m\alpha_iy^{(i)}=0\\[1em]
\end{eqnarray*}
\]
SMO Algorithm
Coordinate Ascent Algorithm (坐标上升法)
对于一个优化问题:
\[
\max W(\alpha_1,\alpha_2,\cdots,\alpha_m)
\]选择其中一个参数,固定其它的参数,改变这个参数使得函数取得最优值,即:
\[
\begin{eqnarray*}
&&{\text{Repeat \{ }} \\
&&\,\,\,\,\,\,\,\,{\text{For i=0 to m}}\\
&&\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\alpha_i:=\arg\max_{\hat\alpha_i} W(\alpha_1,\alpha_2,\cdots,\alpha_{i-1},\hat\alpha_{i},\alpha_{i+1},\cdots,\alpha_m)\\
&&{\text{\}}}
\end{eqnarray*}
\]这就是坐标上升法。
Sequential Minimal Optimization ( SMO ) Algorithm
考虑直接使用坐标上升法来解决 SVM 的对偶问题,由于约束 \(\sum_{i=1}^m\alpha_iy^{(i)}=0\) 的存在,若每次只改变一个参数 \(\alpha_i\) 且固定其它参数,那么这个参数也无法改变,因为要满足限制条件。
序列最小优化(SMO)算法可以用来求解以上的对偶最优化问题,它的主要思想是一次性改变数量尽可能少的参数。在这个问题中,可以是一次改变两个参数。
所以使用SMO算法来解决SVM的对偶问题的大致步骤为:利用一些启发式的方法,选择两个参数 \(\alpha_i\) 和 \(\alpha_j\) ,固定其它的参数,改变 \(\alpha_i\) 和 \(\alpha_j\) 使得 \(W\) 最优化,同时要满足其它的约束。重复这个步骤,直到满足收敛条件。
现在的问题就是如何在满足其它约束的前提下,改变 \(\alpha_i\) 和 \(\alpha_j\) 使得 \(W\) 最优化。
我们现在要优化的目标函数是:
\[
W(\alpha_1,\alpha_2,\cdots,\alpha_m)=\sum_{i=1}^m\alpha_i-\frac{1}{2}\left(\sum_{i,j}^m\alpha_i\alpha_jy^{(i)}y^{(j)}\left\langle x^{(i)},x^{(j)}\right\rangle\right)
\]由于其中一个约束条件是: \(\sum_{i=1}^m\alpha_iy^{(i)}=0\) ,对于任选的两个参数 \(\alpha_i\) 和 \(\alpha_j\) ,在其它参数固定的情况下,可以用 \(\alpha_j\) 来表示 \(\alpha_i\) :
\[
\alpha_i=-\frac{1}{y^{(i)}}\left(y^{(j)}\alpha_j+\sum_{k\neq i,k\neq j}^my^{(k)}\alpha_k\right)
\]如此一来函数 \(W\) 就变成了 \(\alpha_j\) 的二次函数(因为其它参数固定了,且 \(\alpha_i\) 被 \(\alpha_j\) 表示了),二次函数一定可以写成 \(W=W(\alpha_j)=A\alpha_j^2+B\alpha_j+C\) 的形式。
总结起来,只需要在以下条件中找到最优值即可:
\[
\alpha_i=-\frac{1}{y^{(i)}}\left(y^{(j)}\alpha_j+\sum_{k\neq i,k\neq j}^my^{(k)}\alpha_k\right)\\[2em]
W=W(\alpha_j)=A\alpha_j^2+B\alpha_j+C \\[1.5em]
0\leq\alpha_i\leq C\\[1.5em]
0\leq\alpha_i\leq C\\[1.5em]
\]在这组约束中可以求出最优的 \(\alpha_j\) ,进而可以求出 \(\alpha_i\) ,更新 \(\alpha_i\) 和 \(\alpha_j\) ,继续按照一定策略寻找下一组可变参数,重复这个步骤,直到满足某个收敛条件。
CS229 笔记08的更多相关文章
- JAVA自学笔记08
JAVA自学笔记08 1.构造方法私有,外界就不能再创建对象 2.说明书的制作过程 1)写一个工具类,在同一文件夹下,测试类需要用到工具类,系统将自动编译工具类:工具类的成员方法一般是静态的,因此在测 ...
- 机器学习实战(Machine Learning in Action)学习笔记————08.使用FPgrowth算法来高效发现频繁项集
机器学习实战(Machine Learning in Action)学习笔记————08.使用FPgrowth算法来高效发现频繁项集 关键字:FPgrowth.频繁项集.条件FP树.非监督学习作者:米 ...
- CS229 笔记07
CS229 笔记07 Optimal Margin Classifier 回顾SVM \[ \begin{eqnarray*} h_{w,b}&=&g(w^{\rm T}x+b)\\[ ...
- CS229 笔记06
CS229 笔记06 朴素贝叶斯 事件模型 事件模型与普通的朴素贝叶斯算法不同的是,在事件模型中,假设文本词典一共有 \(k\) 个词,训练集一共有 \(m\) 封邮件,第 \(i\) 封邮件的词的个 ...
- CS229 笔记05
CS229 笔记05 生成学习方法 判别学习方法的主要思想是假设属于不同target的样本,服从不同的分布. 例如 \(P(x|y=0) \sim {\scr N}(\mu_1,\sigma_1^2) ...
- CS229 笔记04
CS229 笔记04 Logistic Regression Newton's Method 根据之前的讨论,在Logistic Regression中的一些符号有: \[ \begin{eqnarr ...
- CS229 笔记03
CS229 笔记03 局部加权线性回归 Non-Parametric Learning Algorithm (非参数学习方法) Number of parameters grows with the ...
- CS229 笔记02
CS229 笔记02 公式推导 $ {\text {For simplicity, Let }} A, B, C \in {\Bbb {R}}^{n \times n}. $ $ {\bf {\t ...
- C++ GUI Qt4学习笔记08
C++ GUI Qt4学习笔记08 qtc++signal图形引擎文档 本章介绍Qt的二维图形引擎,Qt的二维图形引擎是基于QPainter类的.<span style="colo ...
随机推荐
- FSM Code Generator
FSM Code Generator is a script code generator for Finite State Machine, it has a viaual designer bas ...
- PAT甲题题解-1052. Linked List Sorting (25)-排序
三个注意点: 1.给出的n个节点并不一定都在链表中 2.最后一组样例首地址即为-1 3.输出地址的时候一直忘记前面要补0... #include <iostream> #include & ...
- PAT甲题题解-1071. Speech Patterns (25)-找出现最多的单词
分割字符串的用法+map映射给出input中出现次数最多的单词,如果次数相同,给出按字典序最小的. 这里我用了自定义分隔符来读取字符串,方法如下: //按照定义的分隔符d来分割字符串,对str进行读取 ...
- PAT甲题题解-1115. Counting Nodes in a BST (30)-(构建二分搜索树+dfs)
题意:给出一个序列,构建二叉搜索树(BST),输出二叉搜索树最后两层的节点个数n1和n2,以及他们的和sum: n1 + n2 = sum 递归建树,然后再dfs求出最大层数,接着再dfs计算出最后两 ...
- 使用jQuery的分页插件jquery.pagination.js进行分页
1,需要用到jquery.pagination.js和pagination.css https://pan.baidu.com/s/1G3PLQSRGjvLxl2ryqpV76w https://pa ...
- 冲刺Two之站立会议8
今天对软件进行了用户试用,找了一些同学让他们试用软件之后对软件给出了建议,这样我们可以在一定程度上对它进行进一步地优化.
- linq to sql中的自动缓存(对象跟踪)
linq to sql中,对于同一个DataContext上下文环境,根据表主键选择记录时(当然这里所指的“记录”会自动转成“对象”),如果该记录已经被select过,默认情况下会被自动缓存下来,下次 ...
- 《TCP-IP详解卷1》中BGP部分的笔记
- 小学四则运算APP 第一个冲刺阶段 第五天
团队成员:陈淑筠.杨家安.陈曦 团队选题:小学四则运算APP 第一次冲刺阶段时间:11.17~11.27 本次发布的是实现练习功能的成功 代码: public class CalculatorActi ...
- Alpha冲刺——事后诸葛亮
组长博客 作业博客 项目Postmortem 设想和目标 我们的软件要解决什么问题?是否定义得很清楚?是否对典型用户和典型场景有清晰的描述? 我们的软件针对的是福大学子来到食堂会犹豫不决无法决定吃什么 ...