目前在研究Automated Machine Learning,其中有一个子领域是实现网络超参数自动化搜索，而常见的搜索方法有Grid Search、Random Search以及贝叶斯优化搜索。前两者很好理解，这里不会详细介绍。本文将主要解释什么是体统(沉迷延禧攻略2333)，不对应该解释到底什么是贝叶斯优化。

I Grid Search & Random Search

我们都知道神经网络训练是由许多超参数决定的，例如网络深度，学习率，卷积核大小等等。所以为了找到一个最好的超参数组合，最直观的的想法就是Grid Search，其实也就是穷举搜索，示意图如下。

但是我们都知道机器学习训练模型是一个非常耗时的过程，而且现如今随着网络越来越复杂，超参数也越来越多，以如今计算力而言要想将每种可能的超参数组合都实验一遍(即Grid Search)明显不现实，所以一般就是事先限定若干种可能，但是这样搜索仍然不高效。

所以为了提高搜索效率，人们提出随机搜索，示意图如下。虽然随机搜索得到的结果互相之间差异较大，但是实验证明随机搜索的确比网格搜索效果要好。

II Bayesian Optimization

假设一组超参数组合是$X={x_1,x_2,...,x_n}$($x_n$表示某一个超参数的值)，而这组超参数与最后我们需要优化的损失函数存在一个函数关系，我们假设是$f(X)$。

而目前机器学习其实是一个黑盒子(black box),即我们只知道input和output，所以上面的函数$f$很难确定。所以我们需要将注意力转移到一个我们可以解决的函数上去，下面开始正式介绍贝叶斯优化。

假设我们有一个函数$f:\cal{X}→\Bbb{R}$,我们需要在$X\subseteq\cal{X}$内找到

$x^*=\underset{x\in X}{\operatorname{argmin}}f(x) \tag{1}$

当$f$是凸函数且定义域$X$也是凸的时候，我们可以通过已被广泛研究的凸优化来处理，但是$f$并不一定是凸的，而且在机器学习中$f$通常是expensive black-box function，即计算一次需要花费大量资源。那么贝叶斯优化是如何处理这一问题的呢？

1. 详细算法

Sequential model-based optimization (SMBO) 是贝叶斯优化的最简形式，其算法思路如下：

下面详细介绍一下上图中的算法：

1. Input:

$f$: 就是那个所谓的黑盒子
$\cal{X}$:是输入数据，例如图像、语音等。
$S$:是Acquisition Function(采集函数)，这个函数的作用是用来选择公式(1)中的$x$，后面会详细介绍这个函数。
$\cal{M}$:是基于输入数据假设的模型，即已知的输入数据$x$都是在这个模型上的，可以用来假设的模型有很多种，例如随机森林，Tree Parzen Estimators(想要了解这两种的可以阅读参考文献[1])等，但是本文主要介绍高斯模型。

2. InitSamples(f,x)→D

这一步骤就是初始化获取数据集$\cal{D}={(X_1,Y_1),...,(X_n,Y_n)}$，其中$Y_i=f(X_i)$,这些都是已知的。

3. 循环选参数$T$次

因为每次选出参数$x$后都需要计算$f(x)$,而正如前面介绍的没计算一次函数$f$，都会消耗大量资源，所以一般需要固定选参次数(或者是函数评估次数)。

$p(y|x,D)←FITMODEL(M,D)$

首先我们预先假设了模型$\cal{M}$服从高斯分布，且已知了数据集$\cal{D}$，所以可以通过计算得出具体的模型具体函数表示。假设下图中的绿色实现就是基于数据集$\cal{D}$经过计算后的服从高斯分布模型。可以看到Each additional band of green is another half standard deviation on the output distribution.

那么高斯分布是如何计算的呢？

因为我们已经假设$f$~$GP(μ,K)$。 (GP:高斯过程，μ:均值 K:协方差kernel,)。所以预测也是服从正态分布的，即有$p(y|x,D)=\cal{N}(y|\hat{μ},\hat{σ}^2)$

$x_i←\underset{x\in X}{\operatorname{argmax}}S(X,p(y|X,D))$

现在已经将假设的模型计算出来了，那么下一步我们需要基于假设模型的基础上选择满足公式(1)的参数了，也就是选择$X$，那么如何选择呢？这就涉及到了Acquisition Function，为了让文章篇幅更易阅读，想了解Acquisition Function移步到文末。

$y_i←f(x_i)$

既然参数选出来了，那么当然就是要计算咯。例如我们通过上述步骤已经选出了一组超参数$x_i$，那么我们下一步就是将超参数带入网络中去进行训练，最后得到输出$y_i$。这一步骤虽然expensive，但是没办法还是得走啊。

$D←D \bigcup{(x_i,y_i)}$

更新数据集。

2. Acquisition Function

Acquisition Function的选择可以有很多种，下面将分别介绍不同的AC function。

1） Probability of improvement

假设$f'=min \, f$,这个$f'$表示目前已知的$f$的最小值。

然后定义utility function如下：
\[
u(x) =
\begin{cases}
o, & \text{if $f(x)>f'$} \\
1, & \text{if $f(x)≤f'$ }
\end{cases}
\]

其实也可以把上面的$u(x)$理解成一个reward函数，如果f(x)不大于f'就有奖励，反之没有。

probability of improvement acquisition function定义为the expected utility as a function of x:

\[
\begin{align}
a_{PI}(x)=E[u(x)|x,D] & = \int_{-∞}^{f'}\cal{N}(f;μ(x),K(x,x))df \notag{} \\
& = \cal{\Phi}(f';μ(x),K(x,x)) \notag{}
\end{align}
\]

之后只需要求出$a(x)$的最大值即可求出基于高斯分布的满足要求的$x$。

2) Excepted improvement

上面的AC function有个缺点就是找到的$x$可能是局部最优点，所以有了Excepted improvement。$f'$的定义和上面一样，即$f'=min \, f$。utility function定义如下:

\[u(x)=max(0,f'-f(x))\]

因为我们最初的目的是找到使得f(x)最小的x，所以这个utility function的含义很好理解，即接下来找到的$f(x)$比已知最小的$f'$越小越好，然后选出小的程度最大的那个$f(x)$和$f'$之间的差距的绝对值作为奖励，如果没有更小的那么奖励则为0.

AC function定义如下：

\[
\begin{align}
a_{EI}(x)=E[u(x)|x,D] & = \int_{-∞}^{f'}(f'-f)\cal{N}(f;μ(x),K(x,x))df \notag{} \\
& = (f'-μ(x))\cal{\Phi}(f';μ(x),K(x,x)) \, + \, K(x,x)\cal{N}(f';μ(x),K(x,x)) \notag{}
\end{align}
\]

通过计算使得$a_{EI}$值最大的点即为最优点。

上式中有两个组成部分。要使得上式值最大则需要同时优化左右两个部分：

左边需要尽可能的减少$μ(x)$
右边需要尽可能的增大方差(或协方差)$K(x,x)$

但是二者并不同能是满足，所以这是一个exploitation-exploration tradeoff。

3) Entropy search

4） Upper confidence bound

Reference

[1] Sigopt.com. Bayesian Optimization Primer (2018). [online] Available at: https://sigopt.com/static/pdf/SigOpt_Bayesian_Optimization_Primer.pdf [Accessed 26 Oct. 2018].
[2] Cse.wustl.edu. Bayesian Optimization (2018). [online] Available at: https://www.cse.wustl.edu/~garnett/cse515t/spring_2015/files/lecture_notes/12.pdf [Accessed 26 Oct. 2018].
[3] Anon,How does Bayesian optimization work? (2018). [online] Available at: https://www.quora.com/How-does-Bayesian-optimization-work [Accessed 26 Oct. 2018].

贝叶斯优化(Bayesian Optimization)深入理解的更多相关文章

贝叶斯优化 Bayesian Optimization
贝叶斯优化 Bayesian Optimization 2018年07月02日 22:28:06 余生最年轻阅读数 4821更多分类专栏: 机器学习版权声明:本文为博主原创文章,遵循CC 4 ...
贝叶斯优化(Bayesian Optimization)只需要看这一篇就够了,算法到python实现
贝叶斯优化 (BayesianOptimization) 1 问题提出神经网咯是有许多超参数决定的,例如网络深度,学习率,正则等等.如何寻找最好的超参数组合,是一个老人靠经验,新人靠运气的任务. 穷 ...
基于贝叶斯优化的超参数tuning
https://arimo.com/data-science/2016/bayesian-optimization-hyperparameter-tuning/ 贝叶斯优化:使用高斯过程作为代理函数, ...
DeepMind提出新型超参数最优化方法：性能超越手动调参和贝叶斯优化
DeepMind提出新型超参数最优化方法:性能超越手动调参和贝叶斯优化 2017年11月29日 06:40:37 机器之心V 阅读数 2183 版权声明:本文为博主原创文章,遵循CC 4.0 BY ...
朴素贝叶斯(Naive Bayesian)
简介 Naive Bayesian算法也叫朴素贝叶斯算法(或者称为傻瓜式贝叶斯分类) 朴素(傻瓜):特征条件独立假设贝叶斯:基于贝叶斯定理这个算法确实十分朴素(傻瓜),属于监督学习,它是一个常用 ...
调参贝叶斯优化(BayesianOptimization)
from sklearn.datasets import make_classification from sklearn.model_selection import cross_val_score ...
（ZT）算法杂货铺——分类算法之贝叶斯网络(Bayesian networks)
https://www.cnblogs.com/leoo2sk/archive/2010/09/18/bayes-network.html 2.1.摘要在上一篇文章中我们讨论了朴素贝叶斯分类.朴素贝 ...
条件独立(conditional independence) 结合贝叶斯网络(Bayesian network) 概率有向图（PRML8.2总结）
本文会利用到上篇,博客的分解定理,需要的可以查找上篇博客 D-separation对任何用有向图表示的概率模型都成立,无论随机变量是离散还是连续,还是两者的结合. 部分图为手写,由于本人字很丑,望见谅 ...
条件独立(conditional independence) 结合贝叶斯网络(Bayesian network) 概率有向图（PRML8.2总结）
转:http://www.cnblogs.com/Dzhouqi/p/3204481.html本文会利用到上篇,博客的分解定理,需要的可以查找上篇博客 D-separation对任何用有向图表示的概率 ...

随机推荐

cookie猜数字游戏（下）------------以及cookie使用的不安全之处
1.通过cookie可以解决上篇中多个用户对数据的修改,每个COOKIE保存不同用户的数据 <?php if(empty($_COOKIE['num'])||empty($_GET['num'] ...
rest_framework学习之路
目录 RESTful理解 APIView 序列化组件视图组件解析器认证组件权限组件频率组件分页器响应器 URL控制器版本控制器
go logs
安装导入 go get github.com/astaxie/beego/logs import "github.com/astaxie/beego/logs" 使用 packag ...
【C#】C#格式化文件大小
/// <summary> /// 格式化文件大小的C#方法 /// </summary> /// <param name="filesize"> ...
JDBC-Batch 批量执行
JDBC 批处理 SQL 语句首先在 jdbc 的 url 中加上 rewriteBatchedStatements=true,只有开启了这个 Mysql 才会执行批处理,否则还是一条一条执行 St ...
python css盒子型浮动
########################总结############### 块级标签能够嵌套某些块级标签和内敛标签内敛标签不能块级标签,只能嵌套内敛标签嵌套就是: <div> ...
python mysql索引优化神器explain 慢查询
##############总结########## 数据库中专门帮助用户快速找到数据的一种数据结构类似于字典的目录的索引索引的作用:约束和加速查找工作原理: b+树形结构最上层是树根,中间是 ...
谈谈关于PHP连接数据库的两种方法(PDO&Mysqli)
前言:在我们之前学习sql语句的时候都是停留在黑窗口的,怎样才能让mysql与程序代码发生联系呢?此时PDO和Mysqli应运而生,为了解决这个问题 (一)开启其中(pdo或者mysqli)的php扩 ...
HDU - 6315(2018 Multi-University Training Contest 2) Naive Operations (线段树区间操作)
http://acm.hdu.edu.cn/showproblem.php?pid=6315 题意 a数组初始全为0,b数组为1-n的一个排列.q次操作,一种操作add给a[l...r]加1,另一种操 ...
HDU 1024(新最大子序列和 DP)
题意是要在一段数列中求 m 段互不重合的子数列的最大和. 动态规划,用数组 num[ ] 存储所给数列,建二维数组 dp[ ][ ] , dp[ i ][ j ] 表示当选择了第 j 个数字( num ...

贝叶斯优化(Bayesian Optimization)深入理解