内容预览：

step(closure) 进行单次优化 (参数更新). 参数： closure (callable) –...~
参数： params (iterable) – 待优化参数的iterable或者是定义了参数组的...~
参数： params (iterable) – 待优化参数的iterable或者是定义了参数组的...~

torch.optim

torch.optim是一个实现了各种优化算法的库。大部分常用的方法得到支持，并且接口具备足够的通用性，使得未来能够集成更加复杂的方法。

如何使用optimizer

为了使用torch.optim，你需要构建一个optimizer对象。这个对象能够保持当前参数状态并基于计算得到的梯度进行参数更新。

构建

为了构建一个Optimizer，你需要给它一个包含了需要优化的参数（必须都是Variable对象）的iterable。然后，你可以设置optimizer的参
数选项，比如学习率，权重衰减，等等。

例子：

optimizer = optim.SGD(model.parameters(), lr = 0.01, momentum=0.9)
optimizer = optim.Adam([var1, var2], lr = 0.0001)

为每个参数单独设置选项

Optimizer也支持为每个参数单独设置选项。若想这么做，不要直接传入Variable的iterable，而是传入dict的iterable。每一个dict都分别定
义了一组参数，并且包含一个param键，这个键对应参数的列表。其他的键应该optimizer所接受的其他参数的关键字相匹配，并且会被用于对这组参数的
优化。

注意：

你仍然能够传递选项作为关键字参数。在未重写这些选项的组中，它们会被用作默认值。当你只想改动一个参数组的选项，但其他参数组的选项不变时，这是
非常有用的。

例如，当我们想指定每一层的学习率时，这是非常有用的：

optim.SGD([
                {'params': model.base.parameters()},
                {'params': model.classifier.parameters(), 'lr': 1e-3}
            ], lr=1e-2, momentum=0.9)

这意味着model.base的参数将会使用1e-2的学习率，model.classifier的参数将会使用1e-3的学习率，并且0.9的momentum将会被用于所
有的参数。

进行单次优化

所有的optimizer都实现了step()方法，这个方法会更新所有的参数。它能按两种方式来使用：

optimizer.step()

这是大多数optimizer所支持的简化版本。一旦梯度被如backward()之类的函数计算好后，我们就可以调用这个函数。

例子

for input, target in dataset:
    optimizer.zero_grad()
    output = model(input)
    loss = loss_fn(output, target)
    loss.backward()
    optimizer.step()

optimizer.step(closure)

一些优化算法例如Conjugate Gradient和LBFGS需要重复多次计算函数，因此你需要传入一个闭包去允许它们重新计算你的模型。这个闭包应当清空梯度，
计算损失，然后返回。

例子：

for input, target in dataset:
    def closure():
        optimizer.zero_grad()
        output = model(input)
        loss = loss_fn(output, target)
        loss.backward()
        return loss
    optimizer.step(closure)

算法

class torch.optim.Optimizer(params, defaults) [source]

Base class for all optimizers.

参数：

params (iterable) —— Variable 或者 dict的iterable。指定了什么参数应当被优化。

defaults —— (dict)：包含了优化选项默认值的字典（一个参数组没有指定的参数选项将会使用默认值）。

load_state_dict(state_dict) [source]

加载optimizer状态

参数：

state_dict (dict) —— optimizer的状态。应当是一个调用state_dict()所返回的对象。

state_dict() [source]

以dict返回optimizer的状态。

它包含两项。

state – 一个保存了当前优化状态的dict。optimizer的类别不同，state的内容也会不同。

param_groups – 一个包含了全部参数组的dict。

step(closure) [source]

进行单次优化 (参数更新).

参数：

closure (callable) – 一个重新评价模型并返回loss的闭包，对于大多数参数来说是可选的。

zero_grad() [source]

清空所有被优化过的Variable的梯度.

class torch.optim.Adadelta(params, lr=1.0, rho=0.9, eps=1e-06, weight_decay=0)[source]

实现Adadelta算法。

它在ADADELTA: An Adaptive Learning Rate Method.中被提出。

参数：

params (iterable) – 待优化参数的iterable或者是定义了参数组的dict

rho (float, 可选) – 用于计算平方梯度的运行平均值的系数（默认：0.9）

eps (float, 可选) – 为了增加数值计算的稳定性而加到分母里的项（默认：1e-6）

lr (float, 可选) – 在delta被应用到参数更新之前对它缩放的系数（默认：1.0）

weight_decay (float, 可选) – 权重衰减（L2惩罚）（默认: 0）

step(closure) [source]

进行单次优化 (参数更新).

参数：

closure (callable) – 一个重新评价模型并返回loss的闭包，对于大多数参数来说是可选的。

class torch.optim.Adagrad(params, lr=0.01, lr_decay=0, weight_decay=0)[source]

实现Adagrad算法。

它在 Adaptive Subgradient Methods for Online Learning and Stochastic Optimization中被提出。

参数：

params (iterable) – 待优化参数的iterable或者是定义了参数组的dict

lr (float, 可选) – 学习率（默认: 1e-2）

lr_decay (float, 可选) – 学习率衰减（默认: 0）

weight_decay (float, 可选) – 权重衰减（L2惩罚）（默认: 0）

step(closure) [source]

进行单次优化 (参数更新).

参数：

closure (callable) – 一个重新评价模型并返回loss的闭包，对于大多数参数来说是可选的。

class torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0)[source]

实现Adam算法。

它在Adam: A Method for Stochastic Optimization中被提出。

参数：

params (iterable) – 待优化参数的iterable或者是定义了参数组的dict

lr (float, 可选) – 学习率（默认：1e-3）

betas (Tuple[float, float], 可选) – 用于计算梯度以及梯度平方的运行平均值的系数（默认：0.9，0.999）

eps (float, 可选) – 为了增加数值计算的稳定性而加到分母里的项（默认：1e-8）

weight_decay (float, 可选) – 权重衰减（L2惩罚）（默认: 0）

step(closure) [source]

进行单次优化 (参数更新).

参数：

closure (callable) – 一个重新评价模型并返回loss的闭包，对于大多数参数来说是可选的。

class torch.optim.Adamax(params, lr=0.002, betas=(0.9, 0.999), eps=1e-08, weight_decay=0)[source]

实现Adamax算法（Adam的一种基于无穷范数的变种）。

它在Adam: A Method for Stochastic Optimization中被提出。

参数：

params (iterable) – 待优化参数的iterable或者是定义了参数组的dict

lr (float, 可选) – 学习率（默认：2e-3）

betas (Tuple[float, float], 可选) – 用于计算梯度以及梯度平方的运行平均值的系数

eps (float, 可选) – 为了增加数值计算的稳定性而加到分母里的项（默认：1e-8）

weight_decay (float, 可选) – 权重衰减（L2惩罚）（默认: 0）

step(closure) [source]

进行单次优化 (参数更新).

参数：

closure (callable) – 一个重新评价模型并返回loss的闭包，对于大多数参数来说是可选的。

class torch.optim.ASGD(params, lr=0.01, lambd=0.0001, alpha=0.75, t0=1000000.0, weight_decay=0)[source]

实现平均随机梯度下降算法。

它在Acceleration of stochastic approximation by averaging中被提出。

参数：

params (iterable) – 待优化参数的iterable或者是定义了参数组的dict

lr (float, 可选) – 学习率（默认：1e-2）

lambd (float, 可选) – 衰减项（默认：1e-4）

alpha (float, 可选) – eta更新的指数（默认：0.75）

t0 (float, 可选) – 指明在哪一次开始平均化（默认：1e6）

weight_decay (float, 可选) – 权重衰减（L2惩罚）（默认: 0）

step(closure) [source]

进行单次优化 (参数更新).

参数：

closure (callable) – 一个重新评价模型并返回loss的闭包，对于大多数参数来说是可选的。

class torch.optim.LBFGS(params, lr=1, max_iter=20, max_eval=None, tolerance_grad=1e-05, tolerance_change=1e-09, history_size=100, line_search_fn=None)[source]

实现L-BFGS算法。

警告

这个optimizer不支持为每个参数单独设置选项以及不支持参数组（只能有一个）

警告

目前所有的参数不得不都在同一设备上。在将来这会得到改进。

注意

这是一个内存高度密集的optimizer（它要求额外的param_bytes * (history_size + 1) 个字节）。如果它不适应内存，尝试减小history size，或者使用不同的算法。

参数：

lr (float) – 学习率（默认：1）

max_iter (int) – 每一步优化的最大迭代次数（默认：20）)

max_eval (int) – 每一步优化的最大函数评价次数（默认：max * 1.25）

tolerance_grad (float) – 一阶最优的终止容忍度（默认：1e-5）

tolerance_change (float) – 在函数值/参数变化量上的终止容忍度（默认：1e-9）

history_size (int) – 更新历史的大小（默认：100）

step(closure) [source]

进行单次优化 (参数更新).

参数：

closure (callable) – 一个重新评价模型并返回loss的闭包，对于大多数参数来说是可选的。

class torch.optim.RMSprop(params, lr=0.01, alpha=0.99, eps=1e-08, weight_decay=0, momentum=0, centered=False)[source]

实现RMSprop算法。

由G. Hinton在他的课程中提出.

中心版本首次出现在Generating Sequences With Recurrent Neural Networks.

参数：

params (iterable) – 待优化参数的iterable或者是定义了参数组的dict

lr (float, 可选) – 学习率（默认：1e-2）

momentum (float, 可选) – 动量因子（默认：0）

alpha (float, 可选) – 平滑常数（默认：0.99）

eps (float, 可选) – 为了增加数值计算的稳定性而加到分母里的项（默认：1e-8）

centered (bool, 可选) – 如果为True，计算中心化的RMSProp，并且用它的方差预测值对梯度进行归一化

weight_decay (float, 可选) – 权重衰减（L2惩罚）（默认: 0）

step(closure) [source]

进行单次优化 (参数更新).

参数：

closure (callable) – 一个重新评价模型并返回loss的闭包，对于大多数参数来说是可选的。

class torch.optim.Rprop(params, lr=0.01, etas=(0.5, 1.2), step_sizes=(1e-06, 50))[source]

实现弹性反向传播算法。

参数：

params (iterable) – 待优化参数的iterable或者是定义了参数组的dict

lr (float, 可选) – 学习率（默认：1e-2）

etas (Tuple[float, float], 可选) – 一对（etaminus，etaplis）, 它们分别是乘法的增加和减小的因子（默认：0.5，1.2）

step_sizes (Tuple[float, float], 可选) – 允许的一对最小和最大的步长（默认：1e-6，50）

step(closure) [source]

进行单次优化 (参数更新).

参数：

closure (callable) – 一个重新评价模型并返回loss的闭包，对于大多数参数来说是可选的。

class torch.optim.SGD(params, lr=, momentum=0, dampening=0, weight_decay=0, nesterov=False)[source]

实现随机梯度下降算法（momentum可选）。

Nesterov动量基于On the importance of initialization and momentum in deep learning中的公式.

参数：

params (iterable) – 待优化参数的iterable或者是定义了参数组的dict

lr (float) – 学习率

momentum (float, 可选) – 动量因子（默认：0）

weight_decay (float, 可选) – 权重衰减（L2惩罚）（默认：0）

dampening (float, 可选) – 动量的抑制因子（默认：0）

nesterov (bool, 可选) – 使用Nesterov动量（默认：False）

例子：

>>> optimizer = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9)
>>> optimizer.zero_grad()
>>> loss_fn(model(input), target).backward()
>>> optimizer.step()

Note

带有动量/Nesterov的SGD的实现稍微不同于Sutskever等人以及其他框架中的实现。

考虑动量的具体情况，更新可以写成

v=ρ∗v+g

p=p−lr∗v

其中，p、g、v和ρ分别是参数、梯度、速度和动量。

这跟Sutskever等人以及其他框架的实现是相反的，它们采用这样的更新

v=ρ∗v+lr∗g

p=p−v

Nesterov的版本也类似地被修改了。

step(closure) [source]

进行单次优化 (参数更新).

参数：

closure (callable) – 一个重新评价模型并返回loss的闭包，对于大多数参数来说是可选的。

艾伯特(http://www.aibbt.com/)国内第一家人工智能门户

以上就是：PyTorch官方中文文档：torch.optim 的全部内容。

本站部分内容来源于互联网和用户投稿，如有侵权请联系我们删除，谢谢。
Email：server@01hai.com

PyTorch官方中文文档：torch.optim 优化器参数的更多相关文章

PyTorch官方中文文档：torch.nn
torch.nn Parameters class torch.nn.Parameter() 艾伯特(http://www.aibbt.com/)国内第一家人工智能门户,微信公众号:aibbtcom ...
PyTorch官方中文文档：PyTorch中文文档
PyTorch中文文档 PyTorch是使用GPU和CPU优化的深度学习张量库. 说明自动求导机制 CUDA语义扩展PyTorch 多进程最佳实践序列化语义 Package参考 torch to ...
PyTorch官方中文文档：torch.optim
torch.optim torch.optim是一个实现了各种优化算法的库.大部分常用的方法得到支持,并且接口具备足够的通用性,使得未来能够集成更加复杂的方法. 如何使用optimizer 为了使用t ...
PyTorch官方中文文档：torch
torch 包 torch 包含了多维张量的数据结构以及基于其上的多种数学操作.另外,它也提供了多种工具,其中一些可以更有效地对张量和任意类型进行序列化. 它有CUDA 的对应实现,可以在NVIDIA ...
PyTorch官方中文文档：torch.Tensor
torch.Tensor torch.Tensor是一种包含单一数据类型元素的多维矩阵. Torch定义了七种CPU tensor类型和八种GPU tensor类型: Data tyoe CPU te ...
PyTorch官方中文文档：自动求导机制
自动求导机制本说明将概述Autograd如何工作并记录操作.了解这些并不是绝对必要的,但我们建议您熟悉它,因为它将帮助您编写更高效,更简洁的程序,并可帮助您进行调试. 从后向中排除子图每个变量都有 ...
ReactNative官方中文文档0.21
整理了一份ReactNative0.21中文文档,提供给需要的reactnative爱好者.ReactNative0.21中文文档.chm 百度盘下载:ReactNative0.21中文文档来源: ...
学习Python 新去处：Python 官方中文文档
Python 作为世界上最好用的语言,官方支持的文档一直没有中文.小伙伴们已经习惯了原汁原味的英文文档,但如果有官方中文文档,那么查阅或理解速度都会大大提升.本文将介绍隐藏在 Python 官网的中文 ...
django2.0 官方中文文档地址
django2.0 官方开始发布中文文档了,之前还想着一直翻译完成所有有必要的内容,想着可以省事一些了,打开以后看了一下,发现官方的中文文档还没翻译完成, 现在(2018-7-10)最新章节是是编 ...

随机推荐

【BZOJ2809】【APIO2012】dispatching
左偏树. 每个子节点维护大根堆,遍历一个儿子就往自己合并,合并发现钱不够了就删除队顶. //Achen #include<algorithm> #include<iostream&g ...
QT_获取运行进程所在目录路径_1
QString getProcessPathForWin(int idProcess) { #ifdef Q_OS_WIN // access process path WCHAR name[]; Z ...
jmeter 通过csv data set config 设置参数化后，执行结果显示为<EOF>
通过csv data set config 设置参数化后,执行结果显示为<EOF>: 反复确认相应的参数的设置均没有问题,其中csv文件编码方式采用uft-8.在csv data set ...
org.apache.jasper.JasperException: xxxx.jsp(118,24) Attribute style invalid for tag formatNumber according to TLD
错误:org.apache.jasper.JasperException: /projm/projBudgetChangeOverview.jsp(118,24) Attribute style in ...
Win7下IIS的安装配置与文件发布
出于兴趣,抽空弄了一下Windows上的IIS,把过程记录下来与大家分享.高手请略过... 一.安装IIS.打开控制面板,单击“程序与功能” 二.点击左侧“打开或关闭Windows功能” 三.找到“I ...
【水滴石穿】bstmy-blend-app
这个项目是一个简单的底部导航切换页面项目的地址为:https://github.com/Bstmy/bstmy-blend-app 先看效果点击首页是首页面,点击个人中心是个人中心页面先看代码 ...
微信小程序开发资源整理
有兴趣学习微信小程序开发的可以关注简书专题微信小程序开发由于微信已经开发文档和开发工具了,所以下面的内容用处不大了. 具体参考:http://mp.weixin.qq.com/wiki/ 这篇文章 ...
KiCad 安装后没有元件怎么办？
KiCad 安装后没有元件怎么办? 按以下步骤试试. 卸载 KiCad EDA. 按 Win+R 输入 %appdata%/kicad 进入 KiCad 的配置目录. 将里面的内容打包成一个 zip ...
linux 系统下如何进行用户之间的切换
切换用户的命令是su,su是(switch user)切换用户的缩写.通过su命令,可以从普通用户切换到root用户,也可以从root用户切换到普通用户.从普通用户切换到root用户需要密码(该密码是 ...
2019-2-27-如何替换一个-exe-的图标
title author date CreateTime categories 如何替换一个 exe 的图标 lindexi 2019-02-27 20:33:16 +0800 2019-2-27 2 ...

PyTorch官方中文文档：torch.optim 优化器参数

torch.optim

如何使用optimizer

构建

为每个参数单独设置选项

进行单次优化

算法

class torch.optim.Optimizer(params, defaults) [source]

load_state_dict(state_dict) [source]

state_dict() [source]

step(closure) [source]

zero_grad() [source]

class torch.optim.Adadelta(params, lr=1.0, rho=0.9, eps=1e-06, weight_decay=0)[source]

step(closure) [source]

class torch.optim.Adagrad(params, lr=0.01, lr_decay=0, weight_decay=0)[source]

step(closure) [source]

class torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0)[source]

step(closure) [source]

class torch.optim.Adamax(params, lr=0.002, betas=(0.9, 0.999), eps=1e-08, weight_decay=0)[source]

step(closure) [source]

class torch.optim.ASGD(params, lr=0.01, lambd=0.0001, alpha=0.75, t0=1000000.0, weight_decay=0)[source]

step(closure) [source]

class torch.optim.LBFGS(params, lr=1, max_iter=20, max_eval=None, tolerance_grad=1e-05, tolerance_change=1e-09, history_size=100, line_search_fn=None)[source]

警告

警告

注意

step(closure) [source]

class torch.optim.RMSprop(params, lr=0.01, alpha=0.99, eps=1e-08, weight_decay=0, momentum=0, centered=False)[source]

step(closure) [source]

class torch.optim.Rprop(params, lr=0.01, etas=(0.5, 1.2), step_sizes=(1e-06, 50))[source]

step(closure) [source]

class torch.optim.SGD(params, lr=, momentum=0, dampening=0, weight_decay=0, nesterov=False)[source]

Note

step(closure) [source]

PyTorch官方中文文档：torch.optim 优化器参数的更多相关文章

随机推荐

热门专题