[pytorch笔记] 调整网络学习率

1. 为网络的不同部分指定不同的学习率

 class LeNet(t.nn.Module):

     def __init__(self):

         super(LeNet, self).__init__()

         self.features = t.nn.Sequential(

             t.nn.Conv2d(3, 6, 5),

             t.nn.ReLU(),

             t.nn.MaxPool2d(2, 2),

             t.nn.Conv2d(6, 16, 5),

             t.nn.ReLU(),

             t.nn.MaxPool2d(2, 2)

         )

         # 由于调整shape并不是一个class层，

         # 所以在涉及这种操作（非nn.Module操作）需要拆分为多个模型

         self.classifier = t.nn.Sequential(

             t.nn.Linear(16*5*5, 120),

             t.nn.ReLU(),

             t.nn.Linear(120, 84),

             t.nn.ReLU(),

             t.nn.Linear(84, 10)

         )

     def forward(self, x):

         x = self.features(x)

         x = x.view(-1, 16*5*5)

         x = self.classifier(x)

         return x

这里LeNet被拆解成features和classifier两个模型来实现。在训练时，可以为features和classifier分别指定不同的学习率。

 model = LeNet()

 optimizer = optim.SGD([{'params': model.features.parameters()},

                        {'params': model.classifier.parameters(), 'lr': 1e-2}

                       ], lr = 1e-5)

对于{'params': model.classifier.parameters(), 'lr': 1e-2} 被指定了特殊的学习率 'lr': 1e-2，则按照该值优化。

对于{'params': model.features.parameters()} 没有特殊指定学习率，则使用 lr = 1e-5。

SGD的param_groups中保存着 'params'， 'lr'， 'momentum'， 'dampening'，'weight_decay'，'nesterov'及对应值的字典。

在 CLASS torch.optim.Optimizer(params, defaults) 中，提供了 add_param_group(param_group) 函数，可以在optimizer中添加param group. 这在固定与训练网络模型部分，fine-tuning 训练层部分时很实用。

2. 动态调整网络模块的学习率

 for p in optimizer.param_groups:

     p['lr'] = rate()

如果需要动态设置学习率，可以以这种方式，将关于学习率的函数赋值给参数的['lr']属性。

还以以上定义的LeNet的optimizer为例，根据上面的定义，有两个param_groups, 一个是model.features.parameters()，一个是{'params': model.classifier.parameters()。

那么在for的迭代中，可以分别为这两个param_group通过函数rate()实现动态赋予学习率的功能。

如果将optimizer定义为：

optimizer = optim.SGD(model.parameters(), lr = 0.001, momentum = 0.9)

那么param_groups中只有一个param group,也就是网络中各个模块共用同一个学习率。

3. 使用pytorch封装好的方法

https://pytorch.org/docs/stable/optim.html#how-to-adjust-learning-rate

torch.optim.lr_scheduler中提供了一些给予epochs的动态调整学习率的方法。

https://www.jianshu.com/p/a20d5a7ed6f3 这篇blog中绘制了一些学习率方法对应的图示。

1）torch.optim.lr_scheduler.StepLR

 import torch

 import torch.optim as optim

 from torch.optim import lr_scheduler

 from torchvision.models import AlexNet

 import matplotlib.pyplot as plt

 model = AlexNet(num_classes=2)

 optimizer = optim.SGD(params=model.parameters(), lr=0.05)

 # lr_scheduler.StepLR()

 # Assuming optimizer uses lr = 0.05 for all groups

 # lr = 0.05     if epoch < 30

 # lr = 0.005    if 30 <= epoch < 60

 # lr = 0.0005   if 60 <= epoch < 90

 scheduler = lr_scheduler.StepLR(optimizer, step_size=30, gamma=0.1)

 plt.figure()

 x = list(range(100))

 y = []

 for epoch in range(100):

     scheduler.step()

     lr = scheduler.get_lr()

     print(epoch, scheduler.get_lr()[0])

     y.append(scheduler.get_lr()[0])

 plt.plot(x, y)

2）torch.optim.lr_scheduler.MultiStepLR

与StepLR相比，MultiStepLR可以设置指定的区间

 # ---------------------------------------------------------------

 # 可以指定区间

 # lr_scheduler.MultiStepLR()

 #  Assuming optimizer uses lr = 0.05 for all groups

 # lr = 0.05     if epoch < 30

 # lr = 0.005    if 30 <= epoch < 80

 #  lr = 0.0005   if epoch >= 80

 print()

 plt.figure()

 y.clear()

 scheduler = lr_scheduler.MultiStepLR(optimizer, [30, 80], 0.1)

 for epoch in range(100):

     scheduler.step()

     print(epoch, 'lr={:.6f}'.format(scheduler.get_lr()[0]))

     y.append(scheduler.get_lr()[0])

 plt.plot(x, y)

 plt.show()

3）torch.optim.lr_scheduler.ExponentialLR

指数衰减

 scheduler = lr_scheduler.ExponentialLR(optimizer, gamma=0.9)

 print()

 plt.figure()

 y.clear()

 for epoch in range(100):

     scheduler.step()

     print(epoch, 'lr={:.6f}'.format(scheduler.get_lr()[0]))

     y.append(scheduler.get_lr()[0])

 plt.plot(x, y)

 plt.show()