Spurious Local Minima are Common in Two-Layer ReLU Neural Networks

2024-08-30 13:04:14 原文

目录

引
主要内容

Safran I, Shamir O. Spurious Local Minima are Common in Two-Layer ReLU Neural Networks[J]. arXiv: Learning, 2017.

@article{safran2017spurious,

title={Spurious Local Minima are Common in Two-Layer ReLU Neural Networks},

author={Safran, Itay and Shamir, Ohad},

journal={arXiv: Learning},

year={2017}}

引

文章的论证部分让人头疼，仅在这里介绍一下主要内容. 这篇文章关注的是单个隐层, 激活函数为ReLU的神经网络, 且对输入数据有特殊的限制, 数据为:

\[\sum_{i=1}^k [\mathbf{v}_i^T\mathbf{x}]_+,
\]

其中\(\mathbf{v}_i\)是给定的, 而\(\mathbf{x} \sim \mathcal{N}(\mathbf{0}, \mathbf{I})\). 而这篇文章考虑的是:

即, 这个损失函数是否具有局部最优解.

主要内容

定理1

注意, \(\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k\)是正交的, 且\(n=k\). 这个时候，损失函数是有局部最优解的, 不过在后面作者提到, 如果\(n>k\), 即overparameter的情况, 这个情况是大大优化的, 甚至出现没有局部最优解(不过是通过实验说明的).

推论1

引理1 引理2

这部分有些符号没有给出, 如果感兴趣回看论文, 这俩个引理是用来说明, 如何在实验中, 通过一些指标来判断是否收敛到某个极值点了(当然, 这需要特别的计算机制来避免舍入误差带来的影响, 作者似乎是通过Matlab里的一个包实现的).

Spurious Local Minima are Common in Two-Layer ReLU Neural Networks的更多相关文章

Learning local feature descriptors with triplets and shallow convolutional neural networks 论文阅读笔记
题目翻译:学习 local feature descriptors 使用 triplets 还有浅的卷积神经网络.读罢此文,只觉收获满满,同时另外印象最深的也是一个浅(文章中会提及)字. 1 Cont ...
缓存地图 ArcGIS ——Local compact and exploded tile cache layer for WPF API
ArcGISArcGIS 主页特色合约图库地图组帮助我的内容我的组织登录我的个人资料帮助管理员指南登出 0 搜索全部内容搜索地图搜索图层搜索应用程序搜索工具搜索 ...
Deep Linear Networks with Arbitrary Loss: All Local Minima Are Global
目录问题假设和重要结果证明注 Laurent T, Von Brecht J H. Deep linear networks with arbitrary loss: All local mi ...
Visualizing LSTM Layer with t-sne in Neural Networks
LSTM 可视化 Visualizing Layer Representations in Neural Networks Visualizing and interpreting represent ...
Local Binary Convolutional Neural Networks ---卷积深度网络移植到嵌入式设备上？
前言:今天他给大家带来一篇发表在CVPR 2017上的文章. 原文:LBCNN 原文代码:https://github.com/juefeix/lbcnn.torch 本文主要内容:把局部二值与卷积神 ...
课程一(Neural Networks and Deep Learning)，第三周（Shallow neural networks）—— 3.Programming Assignment : Planar data classification with a hidden layer
Planar data classification with a hidden layer Welcome to the second programming exercise of the dee ...
论文解读（LA-GNN）《Local Augmentation for Graph Neural Networks》
论文信息论文标题:Local Augmentation for Graph Neural Networks论文作者:Songtao Liu, Hanze Dong, Lanqing Li, Ting ...
论文翻译：LP-3DCNN: Unveiling Local Phase in 3D Convolutional Neural Networks
引言传统的3D卷积神经网络(CNN)计算成本高,内存密集,容易过度拟合,最重要的是,需要改进其特征学习能力.为了解决这些问题,我们提出了整流局部相位体积(ReLPV)模块,它是标准3D卷积层的有效替 ...
Neural Networks and Deep Learning（week3）Planar data classification with one hidden layer(基于单隐藏层神经网络的平面数据分类)
Planar data classification with one hidden layer 你会学习到如何: 用单隐层实现一个二分类神经网络使用一个非线性激励函数,如 tanh 计算交叉熵的损 ...

随机推荐

大数据学习day11------hbase_day01----1. zk的监控机制，2动态感知服务上下线案例 3.HDFS-HA的高可用基本的工作原理 4. HDFS-HA的配置详解 5. HBASE（简介，安装，shell客户端，java客户端）
1. ZK的监控机制 1.1 监听数据的变化 (1)监听一次 public class ChangeDataWacher { public static void main(String[] arg ...
cookie规范（RFC6265）翻译
来源:https://github.com/renaesop/blog/issues/4 RFC 6265 要点翻译 1.简介本文档定义了HTTP Cookie以及HTTP头的Set-Cookie字 ...
【Penetration】红日靶场（一）
nmap探查存活主机 nmap -sP 10.10.2.0/24 图片: https://uploader.shimo.im/f/cfuQ653BEvyA42FR.png!thumbnail?acce ...
寻找pair
给定n个整数使其两两组合成一对pair,例如给定 1 ,2 可以组成的pair为(1,1),(1,2),(2,1),(2,2),然后在这些pair中寻找第k小的pair. 输入第一行包含两个数字,第一 ...
容器之分类与各种测试（三）——list部分用法
list是一个双向链表例程 #include<stdexcept> #include<memory.h> #include<string> #include< ...
Oracle—全局变量
Oracle全局变量一.数据库程序包全局变量在程序实现过程中,经常用遇到一些全局变量或常数.在程序开发过程中,往往会将该变量或常数存储于临时表或前台程序的全局变量中,由此带来运行效率降 ...
Oracle之DBMS_LOCK包用法详解
概述与背景某些并发程序,在高并发的情况下,必须控制好并发请求的运行时间和次序,来保证处理数据的正确性和完整性.对于并发请求的并发控制,EBS系统可以通过Concurrent Program定义界面的 ...
使用MySQL的SELECT INTO OUTFILE ,Load data file,Mysql 大量数据快速导入导出
使用MySQL的SELECT INTO OUTFILE .Load data file LOAD DATA INFILE语句从一个文本文件中以很高的速度读入一个表中.当用户一前一后地使用SELECT ...
Java设计模式—Proxy动态代理模式
代理:设计模式代理是一种常用的设计模式,其目的就是为其他对象提供一个代理以控制对某个对象的访问.代理类负责为委托类预处理消息,过滤消息并转发消息,以及进行消息被委托类执行后的后续处理. 图 1. 代 ...
@NotBlank 注解不生效
1. @NotBlank 注解是用来校验 String 类型的参数是否为空的 2. 使用方法 (1)Spring-boot 某一个版本之前 spring-boot-starter-web 中有包含 h ...