用“人话”解释不精确线搜索中的Armijo-Goldstein准则及Wolfe-Powell准则

line search（一维搜索，或线搜索）是最优化（Optimization）算法中的一个基础步骤/算法。它可以分为精确的一维搜索以及不精确的一维搜索两大类。
在本文中，我想用“人话”解释一下不精确的一维搜索的两大准则：Armijo-Goldstein准则＆ Wolfe-Powell准则。
之所以这样说，是因为我读到的所有最优化的书或资料，从来没有一个可以用初学者都能理解的方式来解释这两个准则，它们要么是长篇大论、把一堆数学公式丢给你去琢磨；要么是简短省略、直接略过了解释的步骤就一句话跨越千山万水得出了结论。
每当看到这些书的时候，我脑子里就一个反应：你们就不能写人话吗？

我下面就尝试用通俗的语言来描述一下这两个准则。

【1】为什么要遵循这些准则

由于采用了不精确的一维搜索，所以，为了能让算法收敛（即：求得极小值），人们逐渐发现、证明了一些规律，当你遵循这些规律的时候，算法就很有可能收敛。因此，为了达到让算法收敛的目的，我们就要遵循这些准则。如果你不愿意遵循这些已经公认有效的准则，而是要按自己的准则来设计算法，那么恭喜你，如果你能证明你的做法是有效的，未来若干年后，书本里可能也会出现你的名字。

文章来源：http://www.codelast.com/

【2】Armijo-Goldstein准则

此准则是在196X年的时候由Armijo和Goldstein提出的，当然我没有具体去搜过这俩人是谁。在有的资料里，你可能会看到“Armijo rule”（Armijo准则）的说法，可能是同一回事，不过，任何一个对此作出重要贡献的人都是不可抹杀的，不是么？

Armijo-Goldstein准则的核心思想有两个：①目标函数值应该有足够的下降；②一维搜索的步长α不应该太小。

这两个思想的意图非常明显。由于最优化问题的目的就是寻找极小值，因此，让目标函数函数值“下降”是我们努力的方向，所以①正是想要保证这一点。

同理，②也类似：如果一维搜索的步长α太小了，那么我们的搜索类似于在原地打转，可能也是在浪费时间和精力。

文章来源：http://www.codelast.com/
有了这两个指导思想，我们来看看Armijo-Goldstein准则的数学表达式：

其中，
文章来源：http://www.codelast.com/
(1)为什么要规定这个条件？其实可以证明：如果没有这个条件的话，将影响算法的超线性收敛性（定义看这个链接，第4条）。在这个速度至关重要的时代，没有超线性收敛怎么活啊！(开个玩笑)
具体的证明过程，大家可以参考袁亚湘写的《最优化理论与方法》一书，我没有仔细看，我觉得对初学者，不用去管它。
(2)第1个不等式的左边式子的泰勒展开式为：

去掉高阶无穷小，剩下的部分为：
而第一个不等式右边与之只差一个系数
我们已知了（这是为下降方向的充要条件），并且，因此，1式右边仍然是一个比小的数，即：

也就是说函数值是下降的（下降是最优化的目标）。
文章来源：http://www.codelast.com/
(3)由于且（是一个下降方向的充要条件），故第2个式子右边比第1个式子右边要小，即：

如果步长太小的话，会导致这个不等式接近于不成立的边缘。因此，式2就保证了不能太小。
(4)我还要把很多书中都用来描述Armijo-Goldstein准则的一幅图搬出来说明一下（亲自手绘）：

文章来源：http://www.codelast.com/
横坐标是，纵坐标是，表示在均为常量、为自变量变化的情况下，目标函数值随之变化的情况。
之所以说均为常量，是因为在一维搜索中，在某一个确定的点上，搜索方向确定后，我们只需要找到一个合适的步长就可以了。
当为常量，为自变量时，可能是非线性函数（例如目标函数为时）。因此图中是一条曲线。
右上角的并不是表示一个特定点的值，而是表示这条曲线是以为自变量、为常量的函数图形。
当时，函数值为，如图中左上方所示。水平的那条虚线是函数值为的基线，用于与其他函数值对比。
那条线在下方（前面已经分析过了，因为），又在的下方（前面也已经分析过了），所以Armijo-Goldstein准则可能会把极小值点（可接受的区间）判断在区间bc内。显而易见，区间bc是有可能把极小值排除在外的（极小值在区间ed内）。
所以，为了解决这个问题，Wolfe-Powell准则应运而生。
文章来源：http://www.codelast.com/
【3】Wolfe-Powell准则
在某些书中，你会看到“Wolfe
conditions”的说法，应该和Wolfe-Powell准则是一回事——可怜的Powell大神又被无情地忽略了...
Wolfe-Powell准则也有两个数学表达式，其中，第一个表达式与Armijo-Goldstein准则的第1个式子相同，第二个表达式为：

这个式子已经不是关于函数值的了，而是关于梯度的。
此式的几何解释为：可接受点处的切线斜率≥初始斜率的倍。
上面的图已经标出了那条线（即点处的切线），而初始点（的点）处的切线是比点处的切线要“斜”的，由于，使得点处的切线变得“不那么斜”了——不知道这种极为通俗而不够严谨的说法，是否有助于你理解。
这样做的结果就是，我们将极小值包含在了可接受的区间内（点右边的区间）。
文章来源：http://www.codelast.com/
Wolfe-Powell准则到这里还没有结束！在某些书中，你会看到用另一个所谓的“更强的条件”来代替(3)式，即：

这个式子和(3)式相比，就是左边加了一个绝对值符号，右边换了一下正负号（，）。
这样做的结果就是：可接受的区间被限制在了内，如图：

图中红线即为极小值被“夹击”的生动演示。

---------------------

本文来自萧洋的CSDN 博客，全文地址请点击：https://blog.csdn.net/u011584941/article/details/48163229?utm_source=copy

Armijo线性搜索的更多相关文章

Line Search and Quasi-Newton Methods 线性搜索与拟牛顿法
Gradient Descent 机器学习中很多模型的参数估计都要用到优化算法,梯度下降是其中最简单也用得最多的优化算法之一.梯度下降(Gradient Descent)[3]也被称之为最快梯度(St ...
Line Search and Quasi-Newton Methods
Gradient Descent 机器学习中很多模型的参数估计都要用到优化算法,梯度下降是其中最简单也用得最多的优化算法之一.梯度下降(Gradient Descent)[3]也被称之为最快梯度(St ...
每天一个小算法（matlab armijo）
下面是 armijo线搜索+最速下降法的小程序,matlab用的很不熟,费了不少劲. 函数: function g=fun_obj(x) syms a b f = 1/2*a^2+b^2-a*b-2* ...
有序线性搜索（Sorted/Ordered Linear Search）
如果数组元素已经排过序(升序),那我们搜索某个元素就不必遍历整个数组了.在下面给出的算法代码中,到任何一点,假设当前的arr[i]值大于搜索的值data,就可以停止搜索了. #include<s ...
Java入门：基础算法之线性搜索
本程序使用线性搜索算法从n个数中查找一个数. /* Program: 线性搜索示例 * @author: 理工云课堂 * Input: 元素个数,每个元素值,待查找数据的值 * Output:待查找数 ...
无序线性搜索（Unordered Linear Search）
假定有一个元素顺序情况不明的数组.这种情况如果我们要搜索一个元素就要遍历整个数组,才能知道这个元素是否在数组中. 这种方法要检查整个数组,核对每个元素.下面是算法实现: #include<std ...
基本数据结构(2)——算法导论(12)
1. 引言这一篇博文主要介绍链表(linked list),指针和对象的实现,以及有根树的表示. 2. 链表(linked list) (1) 链表介绍我们在上一篇中提过,栈与队 ...
梯度提升树(GBDT)原理小结
在集成学习之Adaboost算法原理小结中,我们对Boosting家族的Adaboost算法做了总结,本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting De ...
java基础杂烩
1. int ... arg: 可变参数 2. 数组拷贝放在JDK中的System类中,arraycopy(原数组,从原数组那一个索引开始拷贝,目标数组,在目标数组哪一个位置开始粘贴,拷贝元素的个 ...

随机推荐

this关键字、static关键字、block块、封装类以及继承、import、修饰符的初步了解
this关键字定义在类的方法定义中使用this关键字代表使用该方法的引用. this即"自己",代表对象本身,谁调用代表谁.在成员方法中或构造器中隐式的传递. this的两种用 ...
<scrapy爬虫>爬取quotes.toscrape.com
1.创建scrapy项目 dos窗口输入: scrapy startproject quote cd quote 2.编写item.py文件(相当于编写模板,需要爬取的数据在这里定义) import ...
c#窗体开发
奇: 常用控件的使用(期间参杂着VS快捷键/常用设置) 快捷键:引用命名空间:shift+alt+F10 断点:F9 调试:F5 逐句调试(每行代码一次跳转):F11 逐过程调试:F10 重构提取方法 ...
iOS开发系列-NSOutputStream
NSOutputStream 创建一个NSOutputStream实例 - (nullable instancetype)initToFileAtPath:(NSString *)path appen ...
搭建react的vw架构时候报 Cannot load preset "advanced".
原版的报错如下 Administrator@DESKTOP-EHCTIOR MINGW64 /e/821box/react-vw-layout (master) $ yarn start yarn r ...
Type.GetType(string.contains(','))
例如 Type type = Type.GetType("ACalCoreServiceLib.BaseService,ACalCoreServiceLib"); 里面的ACalC ...
[JZOJ4759] 【雅礼联考GDOI2017模拟9.4】石子游戏
题目描述题目大意在一棵树上,每个节点都有些石子. 每次将mmm颗石子往上移,移到根节点就不能移了. 双方轮流操作,问先手声还是后手胜. 有三种操作: 1. 询问以某个节点为根的答案. 2. 改变 ...
47 Majority Element II
原题网址; https://www.lintcode.com/problem/majority-element-ii/ 描述给定一个整型数组,找到主元素,它在数组中的出现次数严格大于数组元素个数的三 ...
JavaScript事件(随笔)
1. Javascript事件介绍 JavaScript中的事件和现实生活中的事件类似,现实生活中发生的一些事情,例如:交通事件,当这些事情发生时,我们需要提供处理方案: 在JavaScript中事件 ...
docker中使用源码方式搭建SRS流媒体服务
一.背景搭建流媒体服务的方式一般会采用nginx+rtmp和srs服务两种,前者是nginx加上插件所用,而后者是专门为了为了流媒体而生,在这一节中我们将从头搭建srs流媒体服务二. 运行环境为 ...

Armijo线性搜索

用“人话”解释不精确线搜索中的Armijo-Goldstein准则及Wolfe-Powell准则

Armijo线性搜索的更多相关文章

随机推荐

热门专题