优化与深度学习

优化与估计

尽管优化方法可以最小化深度学习中的损失函数值，但本质上优化方法达到的目标与深度学习的目标并不相同。

优化方法目标：训练集损失函数值
深度学习目标：测试集损失函数值（泛化性）

 %matplotlib inline

 import sys

 import d2lzh1981 as d2l

 from mpl_toolkits import mplot3d # 三维画图

 import numpy as np

 def f(x): return x * np.cos(np.pi * x)

 def g(x): return f(x) + 0.2 * np.cos(5 * np.pi * x)

 d2l.set_figsize((5, 3))

 x = np.arange(0.5, 1.5, 0.01)

 fig_f, = d2l.plt.plot(x, f(x),label="train error")

 fig_g, = d2l.plt.plot(x, g(x),'--', c='purple', label="test error")

 fig_f.axes.annotate('empirical risk', (1.0, -1.2), (0.5, -1.1),arrowprops=dict(arrowstyle='->'))

 fig_g.axes.annotate('expected risk', (1.1, -1.05), (0.95, -0.5),arrowprops=dict(arrowstyle='->'))

 d2l.plt.xlabel('x')

 d2l.plt.ylabel('risk')

 d2l.plt.legend(loc="upper right")

优化在深度学习中的挑战

局部最小值
鞍点
梯度消失

局部最小值

 def f(x):

     return x * np.cos(np.pi * x)

 d2l.set_figsize((4.5, 2.5))

 x = np.arange(-1.0, 2.0, 0.1)

 fig,  = d2l.plt.plot(x, f(x))

 fig.axes.annotate('local minimum', xy=(-0.3, -0.25), xytext=(-0.77, -1.0),

                   arrowprops=dict(arrowstyle='->'))

 fig.axes.annotate('global minimum', xy=(1.1, -0.95), xytext=(0.6, 0.8),

                   arrowprops=dict(arrowstyle='->'))

 d2l.plt.xlabel('x')

 d2l.plt.ylabel('f(x)');

鞍点

 x = np.arange(-2.0, 2.0, 0.1)

 fig, = d2l.plt.plot(x, x**3)

 fig.axes.annotate('saddle point', xy=(0, -0.2), xytext=(-0.52, -5.0),

                   arrowprops=dict(arrowstyle='->'))

 d2l.plt.xlabel('x')

 d2l.plt.ylabel('f(x)');

 x, y = np.mgrid[-1: 1: 31j, -1: 1: 31j]

 z = x**2 - y**2

 d2l.set_figsize((6, 4))

 ax = d2l.plt.figure().add_subplot(111, projection='3d')

 ax.plot_wireframe(x, y, z, **{'rstride': 2, 'cstride': 2})

 ax.plot([0], [0], [0], 'ro', markersize=10)

 ticks = [-1,  0, 1]

 d2l.plt.xticks(ticks)

 d2l.plt.yticks(ticks)

 ax.set_zticks(ticks)

 d2l.plt.xlabel('x')

 d2l.plt.ylabel('y');

梯度消失

 x = np.arange(-2.0, 5.0, 0.01)

 fig, = d2l.plt.plot(x, np.tanh(x))

 d2l.plt.xlabel('x')

 d2l.plt.ylabel('f(x)')

 fig.axes.annotate('vanishing gradient', (4, 1), (2, 0.0) ,arrowprops=dict(arrowstyle='->'))

凸性（Convexity）

基础

集合

函数

 def f(x):

     return 0.5 * x**2  # Convex

 def g(x):

     return np.cos(np.pi * x)  # Nonconvex

 def h(x):

     return np.exp(0.5 * x)  # Convex

 x, segment = np.arange(-2, 2, 0.01), np.array([-1.5, 1])

 d2l.use_svg_display()

 _, axes = d2l.plt.subplots(1, 3, figsize=(9, 3))

 for ax, func in zip(axes, [f, g, h]):

     ax.plot(x, func(x))

     ax.plot(segment, func(segment),'--', color="purple")

     # d2l.plt.plot([x, segment], [func(x), func(segment)], axes=ax)

Jensen 不等式

性质

无局部极小值
与凸集的关系
二阶条件

无局部最小值

与凸集的关系

 x, y = np.meshgrid(np.linspace(-1, 1, 101), np.linspace(-1, 1, 101),

                    indexing='ij')

 z = x**2 + 0.5 * np.cos(2 * np.pi * y)

 # Plot the 3D surface

 d2l.set_figsize((6, 4))

 ax = d2l.plt.figure().add_subplot(111, projection='3d')

 ax.plot_wireframe(x, y, z, **{'rstride': 10, 'cstride': 10})

 ax.contour(x, y, z, offset=-1)

 ax.set_zlim(-1, 1.5)

 # Adjust labels

 for func in [d2l.plt.xticks, d2l.plt.yticks, ax.set_zticks]:

     func([-1, 0, 1])

凸函数与二阶导数

 def f(x):

     return 0.5 * x**2

 x = np.arange(-2, 2, 0.01)

 axb, ab = np.array([-1.5, -0.5, 1]), np.array([-1.5, 1])

 d2l.set_figsize((3.5, 2.5))

 fig_x, = d2l.plt.plot(x, f(x))

 fig_axb, = d2l.plt.plot(axb, f(axb), '-.',color="purple")

 fig_ab, = d2l.plt.plot(ab, f(ab),'g-.')

 fig_x.axes.annotate('a', (-1.5, f(-1.5)), (-1.5, 1.5),arrowprops=dict(arrowstyle='->'))

 fig_x.axes.annotate('b', (1, f(1)), (1, 1.5),arrowprops=dict(arrowstyle='->'))

 fig_x.axes.annotate('x', (-0.5, f(-0.5)), (-1.5, f(-0.5)),arrowprops=dict(arrowstyle='->'))

限制条件

拉格朗日乘子法

惩罚项

投影

机器学习（ML）十四之凸优化的更多相关文章

Stanford机器学习---第十四讲.机器学习应用举例之Photo OCR
http://blog.csdn.net/l281865263/article/details/50278745 本栏目(Machine learning)包括单参数的线性回归.多参数的线性回归.Oc ...
SIGAI机器学习第十四集支持向量机1
讲授线性分类器,分类间隔,线性可分的支持向量机原问题与对偶问题,线性不可分的支持向量机原问题与对偶问题,核映射与核函数,多分类问题,libsvm的使用,实际应用大纲: 支持向量机简介线性分类器分类间 ...
【转】机器学习教程十四-利用tensorflow做手写数字识别
模式识别领域应用机器学习的场景非常多,手写识别就是其中一种,最简单的数字识别是一个多类分类问题,我们借这个多类分类问题来介绍一下google最新开源的tensorflow框架,后面深度学习的内容都会基 ...
Redis教程(十四)：内存优化介绍
转载于:http://www.itxuexiwang.com/a/shujukujishu/redis/2016/0216/142.html 一.特殊编码: 自从Redis 2.2之后,很多数据类型都 ...
SIGAI机器学习第二十四集聚类算法1
讲授聚类算法的基本概念,算法的分类,层次聚类,K均值算法,EM算法,DBSCAN算法,OPTICS算法,mean shift算法,谱聚类算法,实际应用. 大纲: 聚类问题简介聚类算法的分类层次聚类算法 ...
JMeter学习（三十四）测试报告优化
如果按JMeter默认设置,生成报告如下: 从上图可以看出,结果信息比较简单,对于运行成功的case,还可以将就用着.但对于跑失败的case,就只有一行assert错误信息.(信息量太少了,比较难找到 ...
机器学习（十四）— kMeans算法
参考文献:https://www.jianshu.com/p/5314834f9f8e # -*- coding: utf-8 -*- """ Created on Mo ...
猪猪的机器学习笔记（十四）EM算法
EM算法作者:樱花猪摘要: 本文为七月算法(julyedu.com)12月机器学习第十次次课在线笔记.EM算法全称为Expectation Maximization Algorithm,既最大 ...
只需十四步：从零开始掌握 Python 机器学习（附资源）
分享一篇来自机器之心的文章.关于机器学习的起步,讲的还是很清楚的.原文链接在:只需十四步:从零开始掌握Python机器学习(附资源) Python 可以说是现在最流行的机器学习语言,而且你也能在网上找 ...

随机推荐

springmvc接收json数据的常见方式
经常使用Ajax异步请求来进行数据传输,传的数据是json数据,json数据又有对象,数组.所有总结下springmvc获取前端传来的json数据方式:1.以RequestParam接收前端传来的是j ...
GPU图形绘制管线简介
(阅读GPU+编程与CG+语言之阳春白雪下里巴人所得总结) GPU图形绘制管线是描述GPU渲染(把三维世界显示为屏幕上的二维图像)的流程,主要分为三个主要阶段应用程序阶段.几何阶段.光栅阶段. 1.应 ...
微信小程序----日期时间选择器（自定义精确到分秒或时段）
声明 bug:由于此篇博客是在bindcolumnchange事件中做的值的改变处理,因此会出现当你选择时,没有点击确定,直接取消返回后,会发现选择框的值依然改变.造成原因:这一点就是由于在bindc ...
python集合的运算
& 交集 | 并集 - 差集 ^ 异或集 # 在对集合做运算时,不会影响原来的集合,而是返回一个运算结果 # 创建两个集合 s = {1,2,3,4,5} s2 = {3,4,5, ...
一个简易的 LED 数字时钟实现方法
这个应该是已经有很多人做过的东西,我应该只是算手痒,想写一下,所以,花了点时间折腾了这个,顺便把 Dark Mode 的处理也加上了. 首先可以很明确的一点,这个真没技术含量存在,只是需要点耐心. L ...
acmPush模块示例demo
感谢论坛版主马浩川的分享. 模块介绍: 阿里移动推送(Alibaba Cloud Mobile Push)是基于大数据的移动智能推送服务,帮助App快速集成移动推送的功能,在实现高效.精确.实时 ...
border-radius属性失效了Ծ‸Ծ
.btn-circle { width: 30px; height: 30px; text-align: center; padding: 4px ; font-size: 16px; font-we ...
java byte/short/char补充（了解）
1.在数学运算中会自动提升数据类型为 int 2.在基本赋值中,若右册的常量不超过取值范围,javac 添加强制转换,否则报错 3.若右册含有变量而不是直接使用常量相加,编译报错例子 pub ...
如何高效实用 Git
Git 工作流只要项目是多人参与的,那么就需要使用正确的 Git 工作流程. 下面介绍一个简单有效的工作流程. 场景假设有一个项目,要开发下一代的 Facebook,你就是这个项目的技术 lead ...
异数OS 2017 DPDK 峰会观后感
1.DPDK in Container 使用虚拟网卡设备技术为每一个容器分配一个IP 网卡适配器(queue).容器技术可以解决虚拟机技术中虚拟机过于臃肿,难于热迁移的问题,可能可以代替美团OVS方案 ...

机器学习（ML）十四之凸优化

优化与深度学习

优化与估计

优化在深度学习中的挑战

局部最小值

鞍点

梯度消失

凸性 （Convexity）

基础

集合

函数

Jensen 不等式

性质

无局部最小值

与凸集的关系

凸函数与二阶导数

限制条件

拉格朗日乘子法

惩罚项

投影

机器学习（ML）十四之凸优化的更多相关文章

随机推荐

热门专题

凸性（Convexity）