TensorFlow学习笔记6-数值计算

本笔记内容为“数值计算的基础知识”。内容主要参考《Deep Learning》中文版。

$X$表示训练集的矩阵，其大小为m行n列，m表示训练集的大小(size)，n表示特征的个数；
$y$表示训练集对应标签，其大小为m行，m表示训练集的大小(size)；
$y’$表示将测试向量$x$输入后得到的测试结果；

上溢与下溢、softmax函数

下溢：当某数值很接近于0时，有可能被舍去为0，这时下一步计算(被0除，取0的对数等)会导致溢出的异常。
上溢：当数值接近于无穷大，进一步计算可能会导致将这些大值变为非数字。
softmax函数常用于数值稳定：定义$softmax(\boldsymbol{x})_ {i} = \frac{\exp(x_ {i})}{\sum_ {j=1}^n exp(x_ {j})}$，利用$softmax(z)$(其中$\boldsymbol{z}=\boldsymbol{x}-\max_ {i}x_ {i}$)可以解决上溢和下溢的问题。

病态条件

条件数指函数相对于输入的微小变化而变化的快慢程度。考虑函数$f(\boldsymbol{x})=A^{-1}\boldsymbol{x}$，当$A \in R^{n \times n}$有特征值分解时，
其条件数为\[\max_ {i,j} |\frac{\lambda_ {i}}{\lambda_ {j}}|\]即最大和最小特征值的模之比。该数很大时，矩阵求逆对输入的误差特别敏感。

基于梯度的优化方法

优化指改变$x$以最大化/最小化某个函数$f(x)$的任务。用最小化$f(x)$指代大多数问题。最大化$f(x)$就是最小化$-f(x)$。

这里$f(x)$为目标函数(最小化时的$f(x)$也称为代价函数，损失函数或误差函数等)。当$f(x)$取到最小值时，$x$的值为\[x^{*}=\arg \min f(x)\]
梯度下降
由于$f(x+\epsilon)=f(x)+\epsilon f'(x)$，如求出当前$x$对应的$f'(x)$，则$f(x-\epsilon\ sign(f'(x)))$是比$f(x)$小的。

$f'(x)=0$的点称为临界点(或驻点)。驻点一般是局部极大点或局部极小点或鞍点(同时存在更高和更低的相邻点，如$f(x)=x^3$的点$x=0$)。
多维的自变量(最常见的情况)

注意：输入常是多维的$x$，输出必须是一维的$f(\boldsymbol{x})$(，才能最小化)。

梯度$\nabla_ {\boldsymbol{x}}f(\boldsymbol{x})$是一个向量，驻点是梯度向量中所有元素均为0的点。

为了最小化$f$，需要找到使$f$下降最快的方向：方向导数\[\min_ {\boldsymbol{u,u^Tu=1}}u^T\nabla_ {x}f(\boldsymbol{x})=\min_ {\boldsymbol{u,u^Tu=1}}||\boldsymbol{u}||_ {2}||\nabla_ {x}f(\boldsymbol{x})||_ {2}\cos \theta
=\min_ {\boldsymbol{u,u^Tu=1}}||\nabla_ {x}f(\boldsymbol{x})||_ {2}\cos \theta=\min_ {\boldsymbol{u}}\cos \theta\]
这叫最速下降法，它建议$x'=x-\epsilon\ \nabla_{x}f(x)$，其中$\epsilon$是学习率，即学习速度，决定了算法里的移动步长。
多维$f$一阶导数之Jacobian矩阵：对于函数$f:R^{m}\rightarrow R^{n}$，其Jacobian矩阵$J \in R^ {n \times m}$定义为$J_ {i,j}=\frac{\partial f_ {i}}{\partial x_ {j}}$，行变y列变x。

基于二阶导数的优化方法

常用二阶导数去选择最优的步长$\epsilon$。

一维$f$二阶导数之Hessian矩阵：$H(f)(x)_ {i,j}=\frac{\partial^2 f(x)}{\partial x_i \partial x_j}$

由于$\frac{\partial^2 f(x)}{\partial x_j \partial x_i}=\frac{\partial^2 f(x)}{\partial x_i \partial x_j}$，即$H_ {i,j}=H_ {j,i}$，Hessian矩阵是实对称矩阵。故可分解为一组实特征值和特征向量的正交基。
当$d$为特征向量时，对应特征值为$\lambda = d^T Hd$。
函数f(x)的二阶泰勒级数展开为：\[f(x)=f(x_ {0})+(x-x_ {0})^ {T}g+\frac{1}{2}(x-x_ {0})^{T}H(x-x_ {0})\]
其中$g$为梯度，代入$x'=x_ {0}-\epsilon g$，得到$f(x_ {0}-\epsilon g)=f(x_ {0})- \epsilon g^{T}g+\frac{1}{2}\epsilon ^2 g^T Hg$。
- $g^T Hg \leq 0$时，保证了$f(x_ {0}-\epsilon g)<f(x_ {0})$，将使$f$不断下降。
- $g^T Hg > 0$时，最优步长为 $\epsilon ^* = \frac{g^T g}{g^T Hg}$，最坏时，g与H的$\lambda_{max}$对应的特征向量方向一致时，最优步长变为$\frac{1}{\lambda_{max}}$。
  Hessian矩阵的特征值决定了学习率的量级。
如果Hessian是正定阵，则方向二阶导数在任意方向都是正的，则该临界点是一个局部极小点。如果Hessian是负定阵，则该临界点时一个局部极大点。如果至少一个负特征值一个正特征值，则是鞍点。

如果f是正定或近似正定的二次函数，用牛顿法可以更快地跳转到极小值点：$x^* =x_ {0}-H(f)(x_ {0})^{-1} \nabla_ {x} f(x_ {0})$

优化运用最成功的是凸优化，它只对凸函数适用，即Hessian处处半正定的函数，这种函数没有鞍点且全局极小点必然是全局最小点，所以表现很好。

约束优化

这里理论较枯燥，直接查看机器学习里的支持向量机一节进行学习，效果拔群。

TensorFlow学习笔记6-数值计算基础的更多相关文章

tensorflow学习笔记二：入门基础好教程可用
http://www.cnblogs.com/denny402/p/5852083.html tensorflow学习笔记二:入门基础 TensorFlow用张量这种数据结构来表示所有的数据.用一 ...
TensorFlow学习笔记4-线性代数基础
TensorFlow学习笔记4-线性代数基础本笔记内容为"AI深度学习".内容主要参考<Deep Learning>中文版. $X$表示训练集的设计矩阵,其大小为 ...
Tensorflow学习笔记2019.01.22
tensorflow学习笔记2 edit by Strangewx 2019.01.04 4.1 机器学习基础 4.1.1 一般结构: 初始化模型参数:通常随机赋值,简单模型赋值0 训练数据:一般打乱 ...
tensorflow学习笔记——使用TensorFlow操作MNIST数据（2）
tensorflow学习笔记——使用TensorFlow操作MNIST数据(1) 一:神经网络知识点整理 1.1,多层:使用多层权重,例如多层全连接方式以下定义了三个隐藏层的全连接方式的神经网络样例 ...
tensorflow学习笔记——自编码器及多层感知器
1,自编码器简介传统机器学习任务很大程度上依赖于好的特征工程,比如对数值型,日期时间型,种类型等特征的提取.特征工程往往是非常耗时耗力的,在图像,语音和视频中提取到有效的特征就更难了,工程师必须在这 ...
TensorFlow学习笔记——LeNet-5（训练自己的数据集）
在之前的TensorFlow学习笔记——图像识别与卷积神经网络(链接:请点击我)中了解了一下经典的卷积神经网络模型LeNet模型.那其实之前学习了别人的代码实现了LeNet网络对MNIST数据集的训练 ...
tensorflow学习笔记——使用TensorFlow操作MNIST数据（1）
续集请点击我:tensorflow学习笔记——使用TensorFlow操作MNIST数据(2) 本节开始学习使用tensorflow教程,当然从最简单的MNIST开始.这怎么说呢,就好比编程入门有He ...
TensorFlow学习笔记5-概率与信息论
TensorFlow学习笔记5-概率与信息论本笔记内容为"概率与信息论的基础知识".内容主要参考<Deep Learning>中文版. $X$表示训练集的设计矩阵 ...
js学习笔记：webpack基础入门（一）
之前听说过webpack,今天想正式的接触一下,先跟着webpack的官方用户指南走: 在这里有: 如何安装webpack 如何使用webpack 如何使用loader 如何使用webpack的开发者 ...

随机推荐

Beta冲刺-（1/3）
这个作业属于哪个课程 https://edu.cnblogs.com/campus/xnsy/SoftwareEngineeringClass1/ 这个作业要求在哪里 https://edu.cnbl ...
u-boot makefile $$
define filechk_uboot.release echo "$(UBOOTVERSION)$$($(CONFIG_SHELL) $(srctree)/scripts/setl ...
wepy-开发总结(功能点)
开发小程序中,遇到的wepy的几点坑,记录一下; 更详细的项目总结记录请见我的个人博客:https://fanghongliang.github.io/ 1.定时器: 在页面中有需要用到倒计时或者其他 ...
LTM_本地流量管理（二）
会话保持首先要熟悉两个概念:连接connect和会话session 连接:在四层负载均衡中,连接是最小元素. l 源端口:客户端随机产生的端口. l 源地址:发起请求的源IP地址. l 目的端 ...
jquery获取元素
let $lis = $('#sidebar-menu li[to]')//获取sidebar-menu下包含to属性的li
HDU 2243 考研路茫茫——单词情结 ( Trie图 && DP && 矩阵构造幂和 )
题意 : 长度不超过L,只由小写字母组成的,至少包含一个词根的单词,一共可能有多少个呢?这里就不考虑单词是否有实际意义. 比如一共有2个词根 aa 和 ab ,则可能存在104个长度不超过3的单词, ...
[ZJU 1003] Crashing Balloon
ZOJ Problem Set - 1003 Crashing Balloon Time Limit: 2 Seconds Memory Limit: 65536 KB On every J ...
c++复习——类（2）
1.this指针 this指针是一个指向对象的指针.  this指针是一个隐含于成员函数中的对象指针.  this指针是一个指向正在调用成员函数的对象的指针.  类的静态成员函数没有this指针 ...
Nginx 作为代理服务与负载均衡
代理服务代理一代为办理(代理理财.代理收货等等) 代理区别区别在于代理的对象不一样正向代理代理的对象是客户端反向代理代理的对象是服务端反向代理配置 server { listen 80; s ...
USACO2018 DEC (Gold) (dp，容斥+哈希，最短路)
$T1$ 传送门解题思路傻逼$dp$..直接$ST$表处理最大值$O(n^2)$艹过了. 代码 #include<bits/stdc++.h> using namesp ...

TensorFlow学习笔记6-数值计算基础

TensorFlow学习笔记6-数值计算

上溢与下溢、softmax函数

病态条件

基于梯度的优化方法

基于二阶导数的优化方法

约束优化

TensorFlow学习笔记6-数值计算基础的更多相关文章

随机推荐

热门专题