Neural ODE相关论文摘要翻译
*****仅供个人学习记录*****
Neural Ordinary Differential Equations【2019】
论文地址:[1806.07366] Neural Ordinary Differential Equations (arxiv.org)
摘要:我们介绍了一个新的深度神经网络模型系列。我们不是指定一个离散的隐藏层序列,而是使用神经网络对隐藏状态的导数进行参数化。网络的输出是用一个黑盒微分方程解算器计算的。这些连续深度模型具有恒定的内存成本,使其评估策略适应每个输入,并且可以明确地以数字精度换取速度。我们在连续深度残差网络和连续时间潜变量模型中展示了这些特性。我们还构建了连续归一化流,一种可以通过最大似然进行训练的生成模型,不需要对数据维度进行分割或排序。对于训练,我们展示了如何通过任何ODE求解器进行可扩展的反向传播,而不接触其内部操作。这允许在更大的模型中对ODE进行端到端的训练。
Dissecting Neural ODEs【2021】
论文地址:[2002.08071] Dissecting Neural ODEs (arxiv.org)
摘要:连续深度学习架构最近重新出现了神经常微分方程(Neural ODEs)。这种无限深度的方法在理论上弥补了深度学习和动力系统之间的差距,提供了一个新的视角。然而,破译这些模型的内部工作仍然是一个开放的挑战,因为大多数应用将它们作为通用的黑盒子模块来应用。在这项工作中,我们 "打开了盒子",进一步发展了连续深度公式,目的是澄清几个设计选择对基本动态的影响。
Augmented Neural ODEs【2019】
论文地址:[1904.01681] Augmented Neural ODEs (arxiv.org)
摘要:我们表明,神经常微分方程(ODEs)学习的表征保留了输入空间的拓扑结构,并证明这意味着存在神经常微分方程无法表示的函数。为了解决这些限制,我们引入了增强的神经ODEs,它除了是更有表现力的模型外,在经验上也更稳定,概括性更好,计算成本也比神经ODEs低。
How to train your neural ODE: the world of Jacobian and kinetic regularization【2020】
摘要:由于必须允许自适应数值ODE求解器将其步长细化到非常小的数值,因此在大数据集上训练神经ODE是不可行的。在实践中,这导致了相当于数百甚至数千层的动力学。在本文中,我们通过引入有理论基础的最优传输和稳定性正则化的组合来克服这一明显的困难,鼓励神经ODEs在所有能很好解决问题的动力学中选择更简单的动力学。更简单的动力学导致更快的收敛和更少的离散化,在不损失性能的情况下大大减少了壁时钟的时间。我们的方法允许我们训练基于神经ODE的生成模型,使其达到与非规则化动力学相同的性能,同时大大减少了训练时间。这使神经ODEs在大规模应用中更接近实际意义。
On Neural Differential Equations【2022】
论文地址:[2202.02435] On Neural Differential Equations (arxiv.org)
摘要:动态系统和深度学习的结合已经成为一个备受关注的话题。特别是,神经微分方程(NDEs)表明,神经网络和微分方程是一个硬币的两面。传统的参数化微分方程是一个特例。许多流行的神经网络架构,如残差网络和递归网络,都是离散化的。
无差异化适合处理生成问题、动态系统和时间序列(特别是在物理学、金融学......),因此对现代机器学习和传统数学建模都有兴趣。无损检测提供了高容量的函数近似,对模型空间的强优先权,处理不规则数据的能力,内存效率,以及双方的大量可用理论。
这篇博士论文对该领域进行了深入调查。
主题包括:神经常微分方程(如用于物理系统的混合神经/机械建模);神经控制微分方程(如用于学习不规则时间序列的函数);以及神经随机微分方程(如产生能够代表复杂随机动态的生成模型,或从复杂的高维分布中采样)。
进一步的主题包括:无损检测的数值方法(如可逆微分方程求解器,通过微分方程的反向传播,布朗重建);动态系统的符号回归(如通过正则化进化);以及深度隐含模型(如深度平衡模型,可微调优化)。
我们预计,任何对深度学习与动力系统的结合感兴趣的人都会对这篇论文感兴趣,并希望它能为当前的技术状况提供有用的参考。
Beyond Finite Layer Neural Networks: Bridging Deep Architectures and Numerical Differential Equations【2020】
摘要:在我们的工作中,我们将深度神经网络设计与数值微分方程联系起来。我们表明,许多有效的网络,如ResNet、PolyNet、FractalNet和RevNet,可以被解释为微分方程的不同数值离散化。这一发现为我们带来了设计有效深度架构的全新视角。我们可以利用数值分析方面的丰富知识来指导我们设计新的、可能更有效的深度网络。作为一个例子,我们提出了一个线性多步骤架构(LM-架构),其灵感来自解决常微分方程的线性多步骤方法。LM-架构是一个有效的结构,可以用于任何类似ResNet的网络。特别是,我们证明了LM-ResNet和LM-ResNeXt(即分别在ResNet和ResNeXt上应用LM架构得到的网络)在CIFAR和ImageNet上,在可训练参数数量相当的情况下,可以达到明显高于ResNet和ResNeXt的精度。特别是在CIFAR和ImageNet上,LM-ResNet/LM-ResNeXt可以显著压缩(>50\%)原始网络,同时保持相似的性能。这可以用数值分析中的修正方程概念进行数学解释。最后但同样重要的是,我们还在训练过程中建立了随机控制和噪声注入之间的联系,这有助于提高网络的通用性。此外,通过将随机训练策略与随机动态系统联系起来,我们可以很容易地将随机训练应用于具有LM结构的网络。例如,我们在LM-ResNet中引入了随机深度,并在CIFAR10上取得了比原始LM-ResNet更明显的改进。
Latent ODEs for Irregularly-Sampled Time Series【2019】
论文地址:[1907.03907] Latent ODEs for Irregularly-Sampled Time Series (arxiv.org)
摘要:具有非均匀间隔的时间序列出现在许多应用中,并且很难使用标准的递归神经网络(RNN)来建模。我们将RNN概括为具有由常微分方程(ODE)定义的连续时间的隐性动力学,这种模型我们称之为ODE-RNNs。此外,我们使用ODE-RNNs来取代最近提出的Latent ODE模型的识别网络。ODE-RNNs和Latent ODEs都可以自然地处理观察之间的任意时间间隔,并且可以明确地使用泊松过程对观察时间的概率进行建模。我们通过实验表明,这些基于ODE的模型在不规则采样数据上的表现优于基于RNN的同类模型。
Learning Differential Equations that are Easy to Solve【2020】
论文地址:[2007.04504] Learning Differential Equations that are Easy to Solve (arxiv.org)
摘要:随着训练的进行,以神经网络为参数的微分方程在数值上的求解变得昂贵。我们提出了一个补救措施,鼓励学习的动力学更容易解决。具体来说,我们为标准数值求解器的时间成本引入了一个可微调的替代物,使用解轨迹的高阶导数。这些导数可以通过泰勒模式的自动微分进行有效计算。优化这个额外的目标,将模型性能与解决所学动力学的时间成本进行交易。我们通过在监督分类、密度估计和时间序列建模任务中训练速度大大加快,同时几乎同样准确的模型来证明我们的方法。
================================================================================================================================================================================================================================================================================================================
Automatic differentiation in machine learning: a survey【2018】
论文地址:[1502.05767v4] Automatic differentiation in machine learning: a survey (arxiv.org)
摘要:导数,主要是梯度和 Hessians 的形式,在机器学习中无处不在。自动微分 (AD),也称为算法微分或简称为“autodiff”,是一组与反向传播类似但比反向传播更通用的技术,用于有效和准确地评估以计算机程序表示的数值函数的导数。 AD 是一个小型但成熟的领域,其应用领域包括计算流体动力学、大气科学和工程设计优化。直到最近,机器学习和 AD 领域在很大程度上还没有意识到彼此,在某些情况下,它们已经独立地发现了彼此的结果。尽管具有相关性,但机器学习工具箱中仍然缺少通用 AD,随着它以“动态计算图”和“可微编程”的名义不断被采用,这种情况正在慢慢改变。我们调查了 AD 和机器学习的交叉点,涵盖了与 AD 直接相关的应用,并解决了主要的实现技术。通过精确定义主要的微分技术及其相互关系,我们的目标是使术语“autodiff”、“自动微分”和“符号微分”的用法更加清晰,因为这些术语在机器学习环境中越来越多地出现。
Reversible Architectures for Arbitrarily Deep Residual Neural Networks【2017】
论文地址:[1709.03698] Reversible Architectures for Arbitrarily Deep Residual Neural Networks (arxiv.org)
摘要:最近,深度残差网络已经成功地应用于许多计算机视觉和自然语言处理任务,以更深更广的架构推动了最先进的性能。在这项工作中,我们将深度残差网络解释为常微分方程(ODEs),这在数学和物理学中早已被研究,并取得了丰富的理论和经验成果。从这个解释出发,我们建立了一个关于深度神经网络的稳定性和可逆性的理论框架,并推导出三种可逆的神经网络架构,在理论上可以任意深入。可逆性的特性允许一个内存效率高的实现,它不需要存储大多数隐藏层的激活。再加上我们架构的稳定性,这使得我们可以只用少量的计算资源来训练更深的网络。我们提供了理论分析和实证结果。实验结果证明了我们的架构在CIFAR-10、CIFAR-100和STL-10上对几个强大的基线的功效,其性能优于或接近最先进的水平。此外,我们表明我们的架构在使用较少的训练数据进行训练时产生了卓越的结果。
Fast derivatives of likelihood functionals for ODE based models using adjoint-state method【2017】
论文地址:Fast derivatives of likelihood functionals for ODE based models using adjoint-state method | SpringerLink【https://arxiv.org/pdf/1606.04406v3.pdf】
摘要:我们考虑用常微分方程(ODEs)建模的时间序列数据,这是物理学、化学、生物学和一般科学中广泛使用的模型。这种动态系统的敏感性分析通常需要计算与模型参数有关的各种导数。我们采用邻接状态法(ASM)来有效地计算受ODE约束的似然函数的第一和第二导数,这些导数与基础ODE模型的参数有关。从本质上讲,梯度的计算成本(通过模型评估来衡量)与ODE模型参数的数量无关,而Hessian的计算成本与参数的数量成线性关系,而不是四次方的。即使参数空间是高维的,敏感性分析也是可行的。主要贡献是在统计学背景下,当离散数据与连续ODE模型耦合时,ASM的推导和严格的分析。此外,我们提出了一个高度优化的实施结果和它在一些问题上的基准。这些结果直接适用于(例如)基于ODE的统计模型的最大似然估计或贝叶斯抽样,允许对基础ODE模型的参数进行更快、更稳定的估计。
Normalizing Flows for Probabilistic Modeling and Inference【2019】
论文地址:[1912.02762] Normalizing Flows for Probabilistic Modeling and Inference (arxiv.org)
摘要:归一化流为定义富有表现力的概率分布提供了一种通用机制,只需要指定一个(通常是简单的)基数分布和一系列的偏向变换。最近有很多关于归一化流的工作,从提高其表达能力到扩大其应用范围。我们认为这个领域现在已经成熟了,需要一个统一的视角。在这篇评论中,我们试图通过概率建模和推理的视角来描述流量,从而提供这样一个视角。我们特别强调流程设计的基本原则,并讨论了基础性的话题,如表达能力和计算权衡。我们还通过将它们与更普遍的概率转换联系起来,扩大了流量的概念框架。最后,我们总结了流在生成建模、近似推理和监督学习等任务中的应用。
Variational Inference with Normalizing Flows【2015】
论文地址:[1505.05770] Variational Inference with Normalizing Flows (arxiv.org)
摘要:近似后验分布的选择是变分推理的核心问题之一。变分推理的大多数应用都采用了简单的后验近似族,以便进行有效的推理,重点是均值场或其他简单的结构化近似。这种限制对使用变分方法进行推理的质量有很大影响。我们引入了一种新的方法来指定灵活的、任意复杂的和可扩展的近似后验分布。我们的近似分布是通过归一化流构建的分布,即通过应用一连串的可逆变换将简单的初始密度转化为更复杂的密度,直到达到所需的复杂程度。我们用这种归一化流的观点来发展有限和无限小流的类别,并为构建丰富的后验近似的方法提供一个统一的观点。我们证明了具有更好地匹配真实后验的后验的理论优势,结合摊销变异方法的可扩展性,为变异推理的性能和适用性提供了明显的改进。
Deep Neural Networks Motivated by Partial Differential Equations【2018】
论文地址:[1804.04272] Deep Neural Networks Motivated by Partial Differential Equations (arxiv.org)
摘要:偏微分方程(PDEs)对于许多物理现象的建模是不可或缺的,同时也常用于解决图像处理任务。在后一领域,基于PDE的方法将图像数据解释为多变量函数的离散化,将图像处理算法的输出解释为某些PDE的解决方案。在无限维度的环境中提出图像处理问题,为其分析和解决提供了强有力的工具。在过去的几十年里,通过PDE视角对经典图像处理问题的重新解释已经创造了多种著名的方法,使包括图像分割、去噪、注册和重建在内的广大领域的任务受益。
在本文中,我们为一类深度卷积神经网络(CNN)建立了新的PDE解释,这些网络通常用于从语音、图像和视频数据中学习。我们的解释包括卷积残差神经网络(ResNet),它是图像分类等任务中最有前途的方法,在著名的基准挑战中提高了最先进的性能。尽管最近取得了成功,深度ResNets仍然面临着一些关键的挑战,这些挑战与他们的设计、巨大的计算成本和内存要求有关,并且对他们的推理缺乏了解。
在成熟的PDE理论指导下,我们推导出三种新的ResNet架构,属于两个新的类别:抛物线和双曲线CNNs。我们展示了PDE理论如何为深度学习提供新的见解和算法,并通过数字实验证明了三种新的CNN架构的竞争力。
Black-box Variational Inference for Stochastic Differential Equations【2018】
论文地址:[1802.03335] Black-box Variational Inference for Stochastic Differential Equations (arxiv.org)
摘要:由于潜伏扩散过程的存在,随机微分方程的参数推断具有挑战性。在对扩散进行Euler-Maruyama离散化时,我们使用变分推理来共同学习参数和扩散路径。我们使用参数后验的标准均值场变异近似,并引入一个循环神经网络来近似参数条件下的扩散路径的后验。这个神经网络学习如何提供高斯状态转换,这些状态转换以非常类似于有条件的扩散过程的方式在观测之间建立桥梁。由此产生的黑盒推理方法可以应用于任何具有轻度调整要求的SDE系统。我们在一个Lotka-Volterra系统和一个流行病模型上说明了该方法,在几个小时内产生准确的参数估计。
Optimization and uncertainty analysis of ODE models using second order adjoint sensitivity analysis【2018】
摘要:动机 生物过程的常微分方程(ODE)模型的参数估计方法可以利用目标函数的梯度和Hessians来实现收敛和计算效率。然而,已有的评估Hessian的方法的计算复杂性与状态变量的数量成线性关系,与参数的数量成二次关系。这限制了它们对低维问题的应用。
结果 我们介绍了用于计算Hessians的二阶邻接敏感性分析和用于轮廓似然计算的混合优化-积分方法。二阶邻接敏感性分析与参数和状态变量的数量呈线性关系。所提出的轮廓似然计算方法有效地利用了Hessians。我们在已发表的具有真实测量数据的生物模型上评估了我们的方法。我们的研究显示,与已有的方法相比,当使用邻接敏感性分析计算的Hessians时,优化的计算效率和稳健性得到了改善。混合计算方法比最好的竞争者快2倍以上。因此,所提出的方法和实施的算法可以改善大中型ODE模型的参数估计。
可用性 二阶邻接敏感性分析的算法在Advance MATLAB Interface CVODES和IDAS(AMICI,https://github.com/ICB-DCM/AMICI/)中实现。混合轮廓似然计算的算法在参数估计工具箱(PESTO,https://github.com/ICB-DCM/PESTO/)中实现。这两个工具箱在BSD许可证下都是免费提供的。
Automatic differentiation in PyTorch【2017】
论文地址:[PDF] Automatic differentiation in PyTorch | Semantic Scholar
摘要:在这篇文章中,我们描述了PyTorch的自动分化模块--一个旨在实现机器学习模型快速研究的库。它建立在一些项目的基础上,最主要的是Lua Torch、Chainer和HIPS Autograd[4],并提供了一个高性能的环境,可以方便地对不同设备(CPU和GPU)上执行的模型进行自动区分。为了使原型设计更容易,PyTorch没有遵循许多其他深度学习框架中使用的符号方法,而是专注于纯粹的命令式程序的区分,重点是可扩展性和低开销。请注意,这份预印本是即将发表的涵盖PyTorch所有功能的论文中某些章节的草稿。
Ueber die numerische Auflösung von Differentialgleichungen【关于微分方程的数值解:1895】
论文地址:Ueber die numerische Auflösung von Differentialgleichungen | SpringerLink
摘要:
Neural ODE相关论文摘要翻译的更多相关文章
- MR 图像分割 相关论文摘要整理
<多分辨率水平集算法的乳腺MR图像分割> 针对乳腺 MR 图像信息量大.灰度不均匀.边界模糊.难分割的特点, 提出一种多分辨率水平集乳腺 MR图像分割算法. 算法的核心是首先利用小波多尺度 ...
- sketch 相关论文
sketch 相关论文 Sketch Simplification We present a novel technique to simplify sketch drawings based on ...
- 【论文解析】MTCNN论文要点翻译
目录 0.论文连接 1.前言 2.论文Abstract翻译 3.论文的主要贡献 4.4 训练 5 模型性能分析 5.1 关于在线挖掘困难样本的性能 5.2 将人脸检测与对齐联合的性能 5.3 人脸检测 ...
- CVPR2020无人驾驶论文摘要
CVPR2020无人驾驶论文摘要 无人 导读/ Starsky是一种比较独特的方案.它是在高速上自动驾驶,第一公里最后一公里采用远程驾驶的模式,Starsky的卡车可以由人类远程操作.没有使用较为昂贵 ...
- Kintinuous 相关论文 Volume Fusion 详解
近几个月研读了不少RGBD-SLAM的相关论文,Whelan的Volume Fusion系列文章的效果确实不错,而且开源代码Kintinuous结构清晰,易于编译和运行,故把一些学习时自己的理解和经验 ...
- 《Deep Feature Extraction and Classification of Hyperspectral Images Based on Convolutional Neural Networks》论文笔记
论文题目<Deep Feature Extraction and Classification of Hyperspectral Images Based on Convolutional Ne ...
- Tachyon在Spark中的作用(Tachyon: Reliable, Memory Speed Storage for Cluster Computing Frameworks 论文阅读翻译)
摘要: Tachyon是一种分布式文件系统,能够借助集群计算框架使得数据以内存的速度进行共享.当今的缓存技术优化了read过程,可是,write过程由于须要容错机制,就须要通过网络或者 ...
- 分颜色通道SR的相关论文
1.SRCNN-译文.doc https://max.book118.com/html/2017/0628/118607667.shtm 见SRCNN翻译:彩色通道的实验 - wangxujin666 ...
- 《wifi加密破解论文》翻译介绍-wifi不再安全
前言 wifi的加密协议WPA2已经被破解,影响范围包括所有支持wifi的设备,包括Android,Linux,Apple,Windows,OpenBSD,联发科技,Linksys等.其中对Andro ...
随机推荐
- C# 读写文件从用户态切到内核态,到底是个什么流程?
一:背景 1. 一个很好奇的问题 我们在学习 C# 的过程中,总会听到一个词叫做 内核态 ,比如说用 C# 读写文件,会涉及到代码从 用户态 到 内核态 的切换,用 HttpClient 获取远端的数 ...
- Spring IOC 为什么能降低耦合
有同学在学习 Spring 框架中可能会问这样的问题,为什么通过依赖注入就可以降低代码间的耦合呢?我通过 new 生产对象不也可以吗,不就是一行代码的不同,一个是 @Resource 注入,一个是 n ...
- 面向对象的封装(粘贴Markdown代码解决缩进问题)
直接粘贴idea的代码会导致缩进错乱,建议先粘贴到记事本再粘贴到笔记!!! 1.先将属性私有化,再对外提供简单的接口可以访问内部.如set.get方法 2.set方法:修改年龄 public void ...
- 利用IDEA搭建SpringBoot项目,整合mybatis
一.配置文件.启动项目 生成之后这几个文件可以删掉的 配置application spring.datasource.url=jdbc:mysql://localhost:3306/test?serv ...
- 12.1 Android Studio如何手动下载Gradle文件
实际操作过程中,可能由于各方面原因,导致Gradle无法下载,或者下载比较慢,这个时候,其实我们可以手动下载,或者找一个最近的版本,替换他. 确认要下载的版本 不论是用命令编译Android项目,还是 ...
- vim插件pathogen的Helptags不起作用
如果你安装了中文vim帮助,并且在其中添加了自己的帮助文件,并且当你使用了pathogen的时候. 会发现Helptags不起作用. 原因是Helptags的实现没有考虑到中文的情况 解决办法如下: ...
- java controller 异常捕获
package com.aiyusheng.framework.exception; import lombok.Data; /** * base异常类 * @author :cza * @date ...
- Eclipse Ctrl+鼠标左键不能查看源代码
查询当前项目的使用的java包版本. 找到java包相应版本的安装路径. 在 "Source Attachment"对话框下,选择"External location&q ...
- day05 Java_循环_基本类型数组
精华笔记: 循环结构: for结构:应用率高.与次数相关的循环 三种循环结构的选择规则: 先看循环是否与次数相关: 若相关----------------------------直接上for 若无关, ...
- Solution -「简单 DP」zxy 讲课记实
魔法题位面级乱杀. 「JOISC 2020 Day4」治疗计划 因为是不太聪明的 Joker,我就从头开始理思路了.中途也会说一些和 DP 算法本身有关的杂谈,给自己的冗长题解找借口. 首先,治疗方案 ...