几个重要的问题

现在已经知道了kernel function的定义, 以及使用kernel后可以将非线性问题转换成一个线性问题.
在使用kernel 方法时, 如果稍微思考一下的话, 就会遇到以下几个问题:

  • 可以略过特征映射函数\(\Phi\), 只使用kernel function \(\kappa\)吗?
    上一节的例子已经给出了答案, YES.
  • 什么样的函数才能被当做kernel function来使用, 总不能只要可以将两个原始输入映射到一个实数上\(\chi^2 \to R\), 就能用吧?
    当然了, 肯定有要求. \(\kappa\) 一定要是一个正半定函数(finitely positive semi-definite function). 下面会解释
  • 给定一个\(\Phi\)可以找到一个对应的\(\kappa\):\(\kappa(x_i, x_j) = <\Phi(x_i), \Phi(x_j)>\). 那么, 给定一个\(\kappa\), 能否根据\(\kappa\)得到它对应的\(\Phi\)?
    答案也是YES, 有一个专门的定理来证明这个. 理解起来有些难度, 暂时不讲, 现在只需要记住这个结论就行了.
  • kernel function \(\kappa\)与feature mapping function \(\Phi\)都可以将非线性问题转换为线性问题, 为什么要用 \(\kappa\), 而不是直接利用\(\Phi\)?
    这个好说, 因为计算成本. 直接在高维度的feature space上的进行运算代价高昂. 用\(\kappa\)而不用\(\Phi\)可以有效降低运算开销.

理解了上述问题后, 也就理解了kernel methods的核心思想.

正半定函数

正半定矩阵

正半定矩阵是线性代数里的一个概念.
矩阵 \(A_{n \times n}\)是一个正半定矩阵, 当且仅当A满足:
\[\forall x \in R^n, x^T A x \ge 0\]
例如单位矩阵 \(E = \left[ \begin{matrix}1 & 0 \\ 0 &1\end{matrix}\right]\)就是一个正半定矩阵:
对于任意二维向量\(x = (x_1, x_2)\), \(x^T E x = x_1^2 + x_2^2 \ge 0\).
成为正半定矩阵的充要条件是所有特征值不小于0.

kernel matrix

给定一个kernel function \(\kappa\)和\(n\)个训练样本\(\{x_1, x_2, \dots, x_n\}\), 对应的kernel matrix:
\[
K =
\left [
\begin{matrix}
\kappa(x_1, x_1), &\kappa(x_1, x_2), &\dots &\kappa(x_1, x_n) \\
\vdots &\dots &\dots &\vdots \\
\kappa(x_n, x_1), &\kappa(x_n, x_2), &\dots &\kappa(x_n, x_n)
\end{matrix}
\right ]
\]
因为kernel function 是定义在特征空间\(H\)上的点积操作, 所以它应该是对称的:
\[
\kappa (x_i, x_j) = \kappa (x_j, x_i)
\]
这样一来, kernel matrix \(K\) 就是一个对称矩阵了: \(K = K^T\), 并且\[
K =
\left [
\begin{matrix}
\Phi(x_1)^T \Phi(x_1), &\Phi(x_1)^T \Phi(x_2), &\dots &\Phi(x_1)^T \Phi(x_n) \\
\vdots &\dots &\dots &\vdots \\
\Phi(x_n)^T \Phi(x_1), &\Phi(x_n)^T \Phi(x_2), &\dots &\Phi(x_n)^T \Phi(x_n)
\end{matrix}
\right ]
=
\left[
\begin{matrix}
\Phi(x_1)^T \\ \Phi(x_2)^T \\ \vdots \\ \Phi(x_n)^T
\end{matrix}
\right]
\left[
\begin{matrix}
\Phi(x_1) , \Phi(x_2), \dots \Phi(x_n)
\end{matrix}
\right]
= ZZ^T
\]
\(Z\)在上文中出现过, 这里再解释一次: \(Z_{n \times d}\)的第\(i\)行为第\(i\)个训练样本在特征空间\(H\)中的表达: \(\Phi(x_i)^T\)

正半定函数

一个函数要成为一个正半定函数, 需要满足以下几个条件:

  • 对称: \(\kappa (x_i, x_j) = \kappa (x_j, x_i)\)
  • 对于任意有限个训练样本, 它的kernel matrix是正半定的.
    例如\(\kappa(x_i, x_j) = <x_i, x_j>\)它就是一个正半定函数:
    对于任意\(n\)个训练样本, 及\(\forall a \in R^n\),
    \[
    a^TKa = a^TZ Z^Ta = (Z^Ta)^TZa = ||Z^Ta||^2 \ge 0
    \]

Why 正半定函数?

为什么kernel function一定要是正半定函数?
因为只有当kernel function为正半定函数时, 才能保证能找到至少一个对应的feature mapping function \(\Phi\).
是否觉得有点熟悉, 没错, 这就是本文开始提出的问题中的第三个的答案.

常见的kernel function

  • Linear kernel: \(\kappa(x, y) = <x, y>\).
    它是直接定义在原空间的内积, 即对应的feature mapping function是identity, 即\(\Phi(x) = x\)
  • Polynomial kernel: \(\kappa(x, y) = (<x, y> + 1)^r, r\in Z^+\)
  • Guassion kernel: \(\kappa(x, y) = e^{-\frac {||x-y||^2}{2\sigma^2}}\)

Kernel Methods (2) Kernel function的更多相关文章

  1. Kernel Methods (4) Kernel SVM

    (本文假设你已经知道了hard margin SVM的基本知识.) 如果要为Kernel methods找一个最好搭档, 那肯定是SVM. SVM从90年代开始流行, 直至2012年被deep lea ...

  2. Kernel Methods (5) Kernel PCA

    先看一眼PCA与KPCA的可视化区别: 在PCA算法是怎么跟协方差矩阵/特征值/特征向量勾搭起来的?里已经推导过PCA算法的小半部分原理. 本文假设你已经知道了PCA算法的基本原理和步骤. 从原始输入 ...

  3. Kernel Methods (3) Kernel Linear Regression

    Linear Regression 线性回归应该算得上是最简单的一种机器学习算法了吧. 它的问题定义为: 给定训练数据集\(D\), 由\(m\)个二元组\(x_i, y_i\)组成, 其中: \(x ...

  4. PRML读书会第六章 Kernel Methods(核函数,线性回归的Dual Representations,高斯过程 ,Gaussian Processes)

    主讲人 网络上的尼采 (新浪微博:@Nietzsche_复杂网络机器学习) 网络上的尼采(813394698) 9:16:05 今天的主要内容:Kernel的基本知识,高斯过程.边思考边打字,有点慢, ...

  5. Kernel Methods - An conclusion

    Kernel Methods理论的几个要点: 隐藏的特征映射函数\(\Phi\) 核函数\(\kappa\): 条件: 对称, 正半定; 合法的每个kernel function都能找到对应的\(\P ...

  6. 核方法(Kernel Methods)

    核方法(Kernel Methods) 支持向量机(SVM)是机器学习中一个常见的算法,通过最大间隔的思想去求解一个优化问题,得到一个分类超平面.对于非线性问题,则是通过引入核函数,对特征进行映射(通 ...

  7. Kernel methods on spike train space for neuroscience: a tutorial

    郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! 时序点过程:http://www.tensorinfinity.com/paper_154.html Abstract 在过去的十年中,人 ...

  8. Kernel Methods for Deep Learning

    目录 引 主要内容 与深度学习的联系 实验 Cho Y, Saul L K. Kernel Methods for Deep Learning[C]. neural information proce ...

  9. Kernel Methods (6) The Representer Theorem

    The Representer Theorem, 表示定理. 给定: 非空样本空间: \(\chi\) \(m\)个样本:\(\{(x_1, y_1), \dots, (x_m, y_m)\}, x_ ...

随机推荐

  1. UVALive 4997 ABCD Tiles --DFS

    题意: NxN的地图,上面有A颜色的瓷砖以及一些空格点,要用B,C,D颜色去填充这些空格,只能十字形的填充,还要保证共角或共边的格子不能是相同颜色,求一种字典序最小的填充方法,如果不能,输出" ...

  2. javaSE ---OOP总结

    面向对象编程(Object Oriented Programming,OOP)是当前最主流的编程范式之一,Java是一门纯面向对象的编程语言.我们常说C++是一门面向对象的编程语言,C++是C语言的一 ...

  3. PAT 1023. 组个最小数 (20)

    给定数字0-9各若干个.你可以以任意顺序排列这些数字,但必须全部使用.目标是使得最后得到的数尽可能小(注意0不能做首位).例如:给定两个0,两个1,三个5,一个8,我们得到的最小的数就是1001555 ...

  4. usb驱动开发22之驱动生命线

    我们总是很喜欢高潮,不是吗?那就好好对待她哦.我们来看一下linux中的高潮部分设备是怎么从Address进入Configured的. usb_set_configuration函数的代码就不贴了,可 ...

  5. Cordova - 使用Cordova开发iOS应用实战5(获取手机里照片,并编辑)

    使用Cordova可以很方便的通过js代码读取系统相簿里面的照片,同使用设备摄像头拍照一样,同样需要先添加camera插件. 一,添加camera插件 首先我们要在“终端”中进入工程所在的目录,然后运 ...

  6. noi题库(noi.openjudge.cn) 1.5编程基础之循环控制T36——T45

    T36 计算多项式的值 描述 假定多项式的形式为xn+xn-1+-+x2+x+1,请计算给定单精度浮点数x和正整数n值的情况下这个多项式的值. 输入 输入仅一行,包括x和n,用单个空格隔开.x在flo ...

  7. 利用ganymed-ssh2远程执行其它Linux机器上的shell命令

    实际应用中,有时候需要从web管理界面上,远程去启动其它linux主机上的程序,利用ssh协议可以方便的满足这一需求.事实上hadoop架构中,从nn上启动dn时,就是利用了免密码ssh登录.gany ...

  8. spring mvc4的日期/数字格式化、枚举转换

    日期.数字格式化显示,是web开发中的常见需求,spring mvc采用XXXFormatter来处理,先看一个最基本的单元测试: package com.cnblogs.yjmyzz.test; i ...

  9. Ubuntu环境下安装TinyOS系统

    1.输入下面命令会弹出source list窗口   1 sudo gedit /etc.apt/sources.list 在尾部添加以下地址:   1 2 deb http://tinyos.sta ...

  10. Oracle On 、Where、Having 区别

    ON .WHERE.HAVING都能通过限制条件筛选数据,但他们的使用及其不同.下面我们来分析三者之间的区别. 1. ON 和WHERE 所有的查询都回产生一个中间临时报表,查询结果就是从返回临时报表 ...