一、BFGS算法

在“优化算法——拟牛顿法之BFGS算法”中,我们得到了BFGS算法的校正公式:

利用Sherman-Morrison公式可对上式进行变换,得到

,则得到:

二、BGFS算法存在的问题

在BFGS算法中。每次都要存储近似Hesse矩阵

B_k^{-1}" title="B_k^{-1}" alt="" />,在高维数据时,存储浪费非常多的存储空间,而在实际的运算过程中。我们须要的是搜索方向。因此出现了L-BFGS算法。是对BFGS算法的一种改进算法。

在L-BFGS算法中。仅仅保存近期的次迭代信息。以减少数据的存储空间。

三、L-BFGS算法思路

\rho&space;_k=\frac{1}{y_k^Ts_k}" title="\rho _k=\frac{1}{y_k^Ts_k}" alt="" />。

V_k=I-\frac{y_ks_k^T}{y_k^Ts_k}" title="V_k=I-\frac{y_ks_k^T}{y_k^Ts_k}" alt="" />,则BFGS算法中的

H_{k+1}" title="H_{k+1}" alt="" />能够表示为:

若在初始时,假定初始的矩阵

H_0=I" title="H_0=I" alt="" />,则我们能够得到:

H_{1}=V_0^TH_0V_0+\rho&space;_0s_0s_0^T" title="H_{1}=V_0^TH_0V_0+\rho _0s_0s_0^T" alt="" />

\begin{align*}&space;H_2&space;&=&space;V_1^TH_1V_1+\rho&space;_1s_1s_1^T\\&space;&=&space;V_1^T\left&space;(&space;V_0^TH_0V_0+\rho&space;_0s_0s_0^T&space;\right&space;)V_1+\rho&space;_1s_1s_1^T\\&space;&=&space;V_1^TV_0^TH_0V_0V_1+V_1^T\rho&space;_0s_0s_0^TV_1+\rho&space;_1s_1s_1^T&space;\end{align*}" title="\begin{align*} H_2 &= V_1^TH_1V_1+\rho _1s_1s_1^T\\ &= V_1^T\left ( V_0^TH_0V_0+\rho _0s_0s_0^T \right )V_1+\rho _1s_1s_1^T\\ &= V_1^TV_0^TH_0V_0V_1+V_1^T\rho _0s_0s_0^TV_1+\rho _1s_1s_1^T \end{align*}" alt="" />

若此时。仅仅保留近期的步:

\begin{align*}&space;H_{k+1}&space;&=&space;\left&space;(&space;V_k^TV_{k-1}^T\cdots&space;V_{k-m}^T&space;\right&space;)H_0\left&space;(&space;V_{k-m}\cdots&space;V_{k-1}V_k&space;\right&space;)\\&space;&+&space;\left&space;(&space;V_k^TV_{k-1}^T\cdots&space;V_{k-m}^T&space;\right&space;)\rho&space;_1s_1s_1^T\left&space;(&space;V_{k-m}\cdots&space;V_{k-1}V_k&space;\right&space;)\\&space;&+&space;\cdots&space;\\&space;&+&space;V_k^T\rho&space;_{k-1}s_{k-1}s_{k-1}^TV_k\\&space;&+&space;\rho&space;_ks_ks_k^T&space;\end{align*}" title="\begin{align*} H_{k+1} &= \left ( V_k^TV_{k-1}^T\cdots V_{k-m}^T \right )H_0\left ( V_{k-m}\cdots V_{k-1}V_k \right )\\ &+ \left ( V_k^TV_{k-1}^T\cdots V_{k-m}^T \right )\rho _1s_1s_1^T\left ( V_{k-m}\cdots V_{k-1}V_k \right )\\ &+ \cdots \\ &+ V_k^T\rho _{k-1}s_{k-1}s_{k-1}^TV_k\\ &+ \rho _ks_ks_k^T \end{align*}" alt="" />

这样在L-BFGS算法中。不再保存完整的

H_k" title="H_k" alt="" />。而是存储向量序列。须要矩阵时,使用向量序列

\left&space;\{&space;s_k&space;\right&space;\}" title="\left \{ s_k \right \}" alt="" style="font-family:KaiTi_GB2312; font-size:18px" />和计算就能够得到。而向量序列也不是全部都要保存,仅仅要保存最新的步向量就可以。

四、L-BFGS算法中的方向的计算方法

五、实验仿真

lbfgs.py

  1. #coding:UTF-8
  2.  
  3. from numpy import *
  4. from function import *
  5.  
  6. def lbfgs(fun, gfun, x0):
  7. result = []#保留终于的结果
  8. maxk = 500#最大的迭代次数
  9. rho = 0.55
  10. sigma = 0.4
  11.  
  12. H0 = eye(shape(x0)[0])
  13.  
  14. #s和y用于保存近期m个,这里m取6
  15. s = []
  16. y = []
  17. m = 6
  18.  
  19. k = 1
  20. gk = mat(gfun(x0))#计算梯度
  21. dk = -H0 * gk
  22. while (k < maxk):
  23. n = 0
  24. mk = 0
  25. gk = mat(gfun(x0))#计算梯度
  26. while (n < 20):
  27. newf = fun(x0 + rho ** n * dk)
  28. oldf = fun(x0)
  29. if (newf < oldf + sigma * (rho ** n) * (gk.T * dk)[0, 0]):
  30. mk = n
  31. break
  32. n = n + 1
  33.  
  34. #LBFGS校正
  35. x = x0 + rho ** mk * dk
  36. #print x
  37.  
  38. #保留m个
  39. if k > m:
  40. s.pop(0)
  41. y.pop(0)
  42.  
  43. #计算最新的
  44. sk = x - x0
  45. yk = gfun(x) - gk
  46.  
  47. s.append(sk)
  48. y.append(yk)
  49.  
  50. #two-loop的过程
  51. t = len(s)
  52. qk = gfun(x)
  53. a = []
  54. for i in xrange(t):
  55. alpha = (s[t - i - 1].T * qk) / (y[t - i - 1].T * s[t - i - 1])
  56. qk = qk - alpha[0, 0] * y[t - i - 1]
  57. a.append(alpha[0, 0])
  58. r = H0 * qk
  59.  
  60. for i in xrange(t):
  61. beta = (y[i].T * r) / (y[i].T * s[i])
  62. r = r + s[i] * (a[t - i - 1] - beta[0, 0])
  63.  
  64. if (yk.T * sk > 0):
  65. dk = -r
  66.  
  67. k = k + 1
  68. x0 = x
  69. result.append(fun(x0))
  70.  
  71. return result

function.py

  1. #coding:UTF-8
  2. '''
  3. Created on 2015年5月19日
  4.  
  5. @author: zhaozhiyong
  6. '''
  7.  
  8. from numpy import *
  9.  
  10. #fun
  11. def fun(x):
  12. return 100 * (x[0,0] ** 2 - x[1,0]) ** 2 + (x[0,0] - 1) ** 2
  13.  
  14. #gfun
  15. def gfun(x):
  16. result = zeros((2, 1))
  17. result[0, 0] = 400 * x[0,0] * (x[0,0] ** 2 - x[1,0]) + 2 * (x[0,0] - 1)
  18. result[1, 0] = -200 * (x[0,0] ** 2 - x[1,0])
  19. return result

testLBFGS.py

  1. #coding:UTF-8
  2. '''
  3. Created on 2015年6月6日
  4.  
  5. @author: zhaozhiyong
  6. '''
  7.  
  8. from lbfgs import *
  9.  
  10. import matplotlib.pyplot as plt
  11.  
  12. x0 = mat([[-1.2], [1]])
  13. result = lbfgs(fun, gfun, x0)
  14. print result
  15.  
  16. n = len(result)
  17. ax = plt.figure().add_subplot(111)
  18. x = arange(0, n, 1)
  19. y = result
  20. ax.plot(x,y)
  21.  
  22. plt.show()

实验结果

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvZ29vZ2xlMTk4OTAxMDI=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="" />

參考文献

优化算法——拟牛顿法之L-BFGS算法的更多相关文章

  1. 拟牛顿法/Quasi-Newton,DFP算法/Davidon-Fletcher-Powell,及BFGS算法/Broyden-Fletcher-Goldfarb-Shanno

    拟牛顿法/Quasi-Newton,DFP算法/Davidon-Fletcher-Powell,及BFGS算法/Broyden-Fletcher-Goldfarb-Shanno 转载须注明出处:htt ...

  2. 最优化算法【牛顿法、拟牛顿法、BFGS算法】

    一.牛顿法 对于优化函数\(f(x)\),在\(x_0\)处泰勒展开, \[f(x)=f(x_0)+f^{'}(x_0)(x-x_0)+o(\Delta x) \] 去其线性部分,忽略高阶无穷小,令\ ...

  3. 牛顿法与拟牛顿法学习笔记(四)BFGS 算法

    机器学习算法中经常碰到非线性优化问题,如 Sparse Filtering 算法,其主要工作在于求解一个非线性极小化问题.在具体实现中,大多调用的是成熟的软件包做支撑,其中最常用的一个算法是 L-BF ...

  4. 模拟退火算法SA原理及python、java、php、c++语言代码实现TSP旅行商问题,智能优化算法,随机寻优算法,全局最短路径

    模拟退火算法SA原理及python.java.php.c++语言代码实现TSP旅行商问题,智能优化算法,随机寻优算法,全局最短路径 模拟退火算法(Simulated Annealing,SA)最早的思 ...

  5. Fundebug 微信小程 BUG 监控插件更新至 1.2.1,优化错误上报次数的限制算法,新增 silentHttpHeader 配置选项

    摘要: 1.2.1优化错误上报次数的限制算法,新增silentHttpHeader配置选项,请大家及时更新哈! Fundebug提供专业的微信小程序 BUG 监控服务,可以第一时间为您捕获生存环境中小 ...

  6. Machine Learning 算法可视化实现2 - Apriori算法实现

    目录 关联分析 Apriori原理 Apriori算法实现 - 频繁项集 Apriori算法实现 - 从频繁项集挖掘关联规则 一.关联分析 关联分析是一种在大规模数据集中寻找有趣关系的任务. 这些关系 ...

  7. 数据结构和算法(Golang实现)(23)排序算法-归并排序

    归并排序 归并排序是一种分治策略的排序算法.它是一种比较特殊的排序算法,通过递归地先使每个子序列有序,再将两个有序的序列进行合并成一个有序的序列. 归并排序首先由著名的现代计算机之父John_von_ ...

  8. Linux系统编程【3.2】——ls命令优化版和ls -l实现

    前情提要 在笔者的上一篇博客Linux系统编程[3.1]--编写ls命令中,实现了初级版的ls命令,但是与原版ls命令相比,还存在着显示格式和无颜色标记的不同.经过笔者近两天的学习,基本解决了这两个问 ...

  9. 基于改进人工蜂群算法的K均值聚类算法(附MATLAB版源代码)

    其实一直以来也没有准备在园子里发这样的文章,相对来说,算法改进放在园子里还是会稍稍显得格格不入.但是最近邮箱收到的几封邮件让我觉得有必要通过我的博客把过去做过的东西分享出去更给更多需要的人.从论文刊登 ...

随机推荐

  1. java中使用二进制进行权限控制

    基本概念 package test; publicclass Rights { publicstaticvoid main(String[] args) { int a=1; // 001 状态a i ...

  2. js日期处理

    Js获取当前日期时间及其它操作 var myDate = new Date(); myDate.getYear(); //获取当前年份(2位) myDate.getFullYear(); //获取完整 ...

  3. nyoj 题目5 Binary String Matching

    Binary String Matching 时间限制:3000 ms  |  内存限制:65535 KB 难度:3   描述 Given two strings A and B, whose alp ...

  4. vue-cli 脚手架分析

    Vue-cli 一.安装vue-cli 安装vue-cli的前提是你已经安装了npm,安装npm你可以直接下载node的安装包进行安装.你可以在命令行工具里输入npm -v  检测你是否安装了npm和 ...

  5. CLion 使用笔记

    我并不会写 CMakeFiles . 我要对拍,所以需要按下 Ctrl + F9 后同时编译 main.cpp 和 ref.cpp 两个文件,并生成 main.exe 和 ref.exe 以备进一步处 ...

  6. Hall 定理

    Hall 定理 是匈牙利算法的基础 大意是说,对于一个二分图 左边的集合记为X,右边的集合记为Y 存在完美匹配,(即匹配数目=min(|X|,|Y|))的充分必要条件是 对于任意一个X的子集,设大小为 ...

  7. http2新特性

    1.二进制分帧   http1.x是文本格式传输,http2二进制格式传输,并且被切分未过个帧发送,帧可以根据头部流标识重新组装.   2. 单一长连接   同一个域名使用一个TCP连接,(http1 ...

  8. Codeforces Round #440(Div.2)

    一句话题意: A:给出两个长为\(n\),\(m\)的的数组,每个数在\(1\)到\(9\)之间,求出一个最小的数使得至少有一位出现在一个数组中,且至少有一位出现在另一个数组中.\(n,m\leq9\ ...

  9. codevs 1690 开关灯 线段树区间更新 区间查询Lazy

    题目描述 Description YYX家门前的街上有N(2<=N<=100000)盏路灯,在晚上六点之前,这些路灯全是关着的,六点之后,会有M(2<=m<=100000)个人 ...

  10. http://www.codeproject.com/KB/validation/MultipleDataAnnotations.aspx

    原文发布时间为:2011-08-12 -- 来源于本人的百度文章 [由搬家工具导入] http://www.codeproject.com/KB/validation/MultipleDataAnno ...