一、BFGS算法

$B_{k+1}=B_k-\frac{B_ks_ks_k^TB_k}{s_k^TB_ks_k}+\frac{y_ky_k^T}{y_k^Ts_k}$

利用Sherman-Morrison公式可对上式进行变换，得到

$B_{k+1}^{-1}=\left ( I-\frac{s_ky_k^T}{y_k^Ts_k} \right )^TB_k^{-1}\left ( I-\frac{y_ks_k^T}{y_k^Ts_k} \right )+\frac{s_ks_k^T}{y_k^Ts_k}$

令 $H_{k+1}=B_{k+1}^{-1}$ ，则得到：

$H_{k+1}=\left ( I-\frac{s_ky_k^T}{y_k^Ts_k} \right )^TH_k\left ( I-\frac{y_ks_k^T}{y_k^Ts_k} \right )+\frac{s_ks_k^T}{y_k^Ts_k}$

二、BGFS算法存在的问题

在BFGS算法中。每次都要存储近似Hesse矩阵

B_k^{-1}" title="B_k^{-1}" alt="" />，在高维数据时，存储 $B_k^{-1}$ 浪费非常多的存储空间，而在实际的运算过程中。我们须要的是搜索方向。因此出现了L-BFGS算法。是对BFGS算法的一种改进算法。

在L-BFGS算法中。仅仅保存近期的 $m$ 次迭代信息。以减少数据的存储空间。

三、L-BFGS算法思路

令

\rho&space;_k=\frac{1}{y_k^Ts_k}" title="\rho _k=\frac{1}{y_k^Ts_k}" alt="" />。

V_k=I-\frac{y_ks_k^T}{y_k^Ts_k}" title="V_k=I-\frac{y_ks_k^T}{y_k^Ts_k}" alt="" />，则BFGS算法中的

H_{k+1}" title="H_{k+1}" alt="" />能够表示为：

$H_{k+1}=V_k^TH_kV_k+\rho _ks_ks_k^T$

若在初始时，假定初始的矩阵

H_0=I" title="H_0=I" alt="" />，则我们能够得到：

H_{1}=V_0^TH_0V_0+\rho&space;_0s_0s_0^T" title="H_{1}=V_0^TH_0V_0+\rho _0s_0s_0^T" alt="" />

\begin{align*}&space;H_2&space;&=&space;V_1^TH_1V_1+\rho&space;_1s_1s_1^T\\&space;&=&space;V_1^T\left&space;(&space;V_0^TH_0V_0+\rho&space;_0s_0s_0^T&space;\right&space;)V_1+\rho&space;_1s_1s_1^T\\&space;&=&space;V_1^TV_0^TH_0V_0V_1+V_1^T\rho&space;_0s_0s_0^TV_1+\rho&space;_1s_1s_1^T&space;\end{align*}" title="\begin{align*} H_2 &= V_1^TH_1V_1+\rho _1s_1s_1^T\\ &= V_1^T\left ( V_0^TH_0V_0+\rho _0s_0s_0^T \right )V_1+\rho _1s_1s_1^T\\ &= V_1^TV_0^TH_0V_0V_1+V_1^T\rho _0s_0s_0^TV_1+\rho _1s_1s_1^T \end{align*}" alt="" />

$\cdots$

$\begin{align*} H_{k+1} &= \left ( V_k^TV_{k-1}^T\cdots V_1^TV_0^T \right )H_0\left ( V_0V_1\cdots V_{k-1}V_k \right )\\ &+ \left ( V_k^TV_{k-1}^T\cdots V_1^T \right )\rho _1s_1s_1^T\left ( V_1\cdots V_{k-1}V_k \right )\\ &+ \cdots \\ &+ V_k^T\rho _{k-1}s_{k-1}s_{k-1}^TV_k\\ &+ \rho _ks_ks_k^T \end{align*}$

若此时。仅仅保留近期的 $m$ 步：

\begin{align*}&space;H_{k+1}&space;&=&space;\left&space;(&space;V_k^TV_{k-1}^T\cdots&space;V_{k-m}^T&space;\right&space;)H_0\left&space;(&space;V_{k-m}\cdots&space;V_{k-1}V_k&space;\right&space;)\\&space;&+&space;\left&space;(&space;V_k^TV_{k-1}^T\cdots&space;V_{k-m}^T&space;\right&space;)\rho&space;_1s_1s_1^T\left&space;(&space;V_{k-m}\cdots&space;V_{k-1}V_k&space;\right&space;)\\&space;&+&space;\cdots&space;\\&space;&+&space;V_k^T\rho&space;_{k-1}s_{k-1}s_{k-1}^TV_k\\&space;&+&space;\rho&space;_ks_ks_k^T&space;\end{align*}" title="\begin{align*} H_{k+1} &= \left ( V_k^TV_{k-1}^T\cdots V_{k-m}^T \right )H_0\left ( V_{k-m}\cdots V_{k-1}V_k \right )\\ &+ \left ( V_k^TV_{k-1}^T\cdots V_{k-m}^T \right )\rho _1s_1s_1^T\left ( V_{k-m}\cdots V_{k-1}V_k \right )\\ &+ \cdots \\ &+ V_k^T\rho _{k-1}s_{k-1}s_{k-1}^TV_k\\ &+ \rho _ks_ks_k^T \end{align*}" alt="" />

这样在L-BFGS算法中。不再保存完整的

H_k" title="H_k" alt="" />。而是存储向量序列 $\left \{ s_k \right \}$ 和 $\left \{ y_k \right \}$ 。须要矩阵 $H_k$ 时，使用向量序列

\left&space;\{&space;s_k&space;\right&space;\}" title="\left \{ s_k \right \}" alt="" style="font-family:KaiTi_GB2312; font-size:18px" />和 $\left \{ y_k \right \}$ 计算就能够得到。而向量序列 $\left \{ s_k \right \}$ 和 $\left \{ y_k \right \}$ 也不是全部都要保存，仅仅要保存最新的 $m$ 步向量就可以。

四、L-BFGS算法中的方向的计算方法

五、实验仿真

lbfgs.py

#coding:UTF-8

from numpy import *

from function import *

def lbfgs(fun, gfun, x0):

    result = []#保留终于的结果

    maxk = 500#最大的迭代次数

    rho = 0.55

    sigma = 0.4

    H0 = eye(shape(x0)[0])

    #s和y用于保存近期m个，这里m取6

    s = []

    y = []

    m = 6

    k = 1

    gk = mat(gfun(x0))#计算梯度

    dk = -H0 * gk

    while (k < maxk):

        n = 0

        mk = 0

        gk = mat(gfun(x0))#计算梯度

        while (n < 20):

            newf = fun(x0 + rho ** n * dk)

            oldf = fun(x0)

            if (newf < oldf + sigma * (rho ** n) * (gk.T * dk)[0, 0]):

                mk = n

                break

            n = n + 1

        #LBFGS校正

        x = x0 + rho ** mk * dk

        #print x

        #保留m个

        if k > m:

            s.pop(0)

            y.pop(0)

        #计算最新的

        sk = x - x0

        yk = gfun(x) - gk

        s.append(sk)

        y.append(yk)

        #two-loop的过程

        t = len(s)

        qk = gfun(x)

        a = []

        for i in xrange(t):

            alpha = (s[t - i - 1].T * qk) / (y[t - i - 1].T * s[t - i - 1])

            qk = qk - alpha[0, 0] * y[t - i - 1]

            a.append(alpha[0, 0])

        r = H0 * qk

        for i in xrange(t):

            beta = (y[i].T * r) / (y[i].T * s[i])

            r = r + s[i] * (a[t - i - 1] - beta[0, 0])

        if (yk.T * sk > 0):

            dk = -r            

        k = k + 1

        x0 = x

        result.append(fun(x0))

    return result

function.py

#coding:UTF-8

'''

Created on 2015年5月19日

@author: zhaozhiyong

'''

from numpy import *

#fun

def fun(x):

    return 100 * (x[0,0] ** 2 - x[1,0]) ** 2 + (x[0,0] - 1) ** 2

#gfun

def gfun(x):

    result = zeros((2, 1))

    result[0, 0] = 400 * x[0,0] * (x[0,0] ** 2 - x[1,0]) + 2 * (x[0,0] - 1)

    result[1, 0] = -200 * (x[0,0] ** 2 - x[1,0])

    return result

testLBFGS.py

#coding:UTF-8

'''

Created on 2015年6月6日

@author: zhaozhiyong

'''

from lbfgs import *

import matplotlib.pyplot as plt  

x0 = mat([[-1.2], [1]])

result = lbfgs(fun, gfun, x0)

print result

n = len(result)

ax = plt.figure().add_subplot(111)

x = arange(0, n, 1)

y = result

ax.plot(x,y)

plt.show()

实验结果

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvZ29vZ2xlMTk4OTAxMDI=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="" />

參考文献

libLBFGS: a library of Limited-memory Broyden-Fletcher-Goldfarb-Shanno (L-BFGS)

优化算法——拟牛顿法之L-BFGS算法的更多相关文章

拟牛顿法/Quasi-Newton，DFP算法/Davidon-Fletcher-Powell，及BFGS算法/Broyden-Fletcher-Goldfarb-Shanno
拟牛顿法/Quasi-Newton,DFP算法/Davidon-Fletcher-Powell,及BFGS算法/Broyden-Fletcher-Goldfarb-Shanno 转载须注明出处:htt ...
最优化算法【牛顿法、拟牛顿法、BFGS算法】
一.牛顿法对于优化函数$f(x)$,在$x_0$处泰勒展开, \[f(x)=f(x_0)+f^{'}(x_0)(x-x_0)+o(\Delta x) \] 去其线性部分,忽略高阶无穷小,令\ ...
牛顿法与拟牛顿法学习笔记（四）BFGS 算法
机器学习算法中经常碰到非线性优化问题,如 Sparse Filtering 算法,其主要工作在于求解一个非线性极小化问题.在具体实现中,大多调用的是成熟的软件包做支撑,其中最常用的一个算法是 L-BF ...
模拟退火算法SA原理及python、java、php、c++语言代码实现TSP旅行商问题，智能优化算法，随机寻优算法，全局最短路径
模拟退火算法SA原理及python.java.php.c++语言代码实现TSP旅行商问题,智能优化算法,随机寻优算法,全局最短路径模拟退火算法(Simulated Annealing,SA)最早的思 ...
Fundebug 微信小程 BUG 监控插件更新至 1.2.1，优化错误上报次数的限制算法，新增 silentHttpHeader 配置选项
摘要: 1.2.1优化错误上报次数的限制算法,新增silentHttpHeader配置选项,请大家及时更新哈! Fundebug提供专业的微信小程序 BUG 监控服务,可以第一时间为您捕获生存环境中小 ...
Machine Learning 算法可视化实现2 - Apriori算法实现
目录关联分析 Apriori原理 Apriori算法实现 - 频繁项集 Apriori算法实现 - 从频繁项集挖掘关联规则一.关联分析关联分析是一种在大规模数据集中寻找有趣关系的任务. 这些关系 ...
数据结构和算法(Golang实现)(23)排序算法-归并排序
归并排序归并排序是一种分治策略的排序算法.它是一种比较特殊的排序算法,通过递归地先使每个子序列有序,再将两个有序的序列进行合并成一个有序的序列. 归并排序首先由著名的现代计算机之父John_von_ ...
Linux系统编程【3.2】——ls命令优化版和ls -l实现
前情提要在笔者的上一篇博客Linux系统编程[3.1]--编写ls命令中,实现了初级版的ls命令,但是与原版ls命令相比,还存在着显示格式和无颜色标记的不同.经过笔者近两天的学习,基本解决了这两个问 ...
基于改进人工蜂群算法的K均值聚类算法（附MATLAB版源代码）
其实一直以来也没有准备在园子里发这样的文章,相对来说,算法改进放在园子里还是会稍稍显得格格不入.但是最近邮箱收到的几封邮件让我觉得有必要通过我的博客把过去做过的东西分享出去更给更多需要的人.从论文刊登 ...

随机推荐

Wordpress 通过 post id 获取文章 url
global $post; echo get_permalink($post->ID); 函数详解: Codex - get_permalink() 注意:有些链接是通过 SEO 重定向的,比如 ...
Spring框架的AOP
Spring学习笔记(四) 本文目录 1 AOP的介绍 2 Spring的AspectJ实现AOP(annotation) 3 Spring的AspectJ实现AOP (XML) Spring文档ht ...
【转】UGUI VS NGUI
原文:http://gad.qq.com/college/articledetail/7191053 注[1]:该比较是基于15年-16年期间使用NGUI(3.8.0版本)与UGUI(4.6.9版本) ...
Rust学习资源和路线
Rust学习资源和路线来源 https://rust-lang-cn.org/article/23 学习资源 The Rust Programming Language 堪称Rust的"T ...
论S B的自我修养【2015/10/18更】
to do list: 1.正则表达式引擎 (done 2.五子棋AI jquery && canvas 游戏 (这个搞定好多好玩的idea可以实现了php 暂时不想玩各种框架吧, ...
【VBA】随机数
[说明] 随机数.生成2个随机数m.n,取值范围为1~R.1~C Randomize m = )) + ) ' 1~R Random Int Randomize n = )) + ) ' 1~C Ra ...
HDR 高动态范围图像
以下来源于百度百科: 高动态范围图像(High-Dynamic Range,简称HDR),相比普通的图像,可以提供更多的动态范围和图像细节,根据不同的曝光时间的LDR(Low-Dynamic Rang ...
HTML+CSS 滚动条样式自定义 - 适用于 div,iframe, html 等
友言:这两天被滚动条整的无与伦比,在此做下总结: 首先自定义浏览器滚动条的实现原理:计算浏览器滚动条的高度,层级1的高度与滚动条的总高度是一样的,通过相似比例计算: 浏览器滚动条总高度 :滚动条高度 ...
T-SQL还有个内置方法NULLIF()
declare @cypic varchar if (NULLIF(@cypic, '') IS NOT NULL) begin print 1 end else begin print 2 end ...
【CF1016D】Vasya And The Matrix（构造）
题意: 思路:构造方式见代码…… #include<cstdio> #include<cstring> #include<iostream> #include< ...

优化算法——拟牛顿法之L-BFGS算法