adam优化器和学习率衰减 - yubo105139/paper GitHub Wiki

Adam优化器原理解释

ref：https://tangshusen.me/Dive-into-DL-PyTorch/#/chapter07_optimization/7.8_adam

adam公式总结：

$$ v_t = \beta_1*v_{t-1} + (1-\beta_1)*g_t $$

$$ s_t = \beta_2*s_{t-1} + (1-\beta_2)*g_{t}^2 $$

$$ \hat{v_t} = \frac{v_t}{1-\beta_1^t} $$

$$ \hat{s_t} = \frac{s_t}{1-\beta_2^t} $$

$$ \Delta x = -\frac{\hat{v_t}}{\sqrt{\hat{s_t}} + \epsilon}*\eta $$

$$ x_{t} = x_{t-1} + \Delta x $$

adam伪代码

adam优化器torch源码实现：

def step(self, closure=None):
        """Performs a single optimization step.

        Arguments:
            closure (callable, optional): A closure that reevaluates the model
                and returns the loss.
        """
        loss = None
        if closure is not None:
            loss = closure()

        for group in self.param_groups:
            for p in group['params']:
                if p.grad is None:
                    continue
                grad = p.grad.data
                if grad.is_sparse:
                    raise RuntimeError('Adam does not support sparse gradients, please consider SparseAdam instead')
                amsgrad = group['amsgrad']

                state = self.state[p]

                # State initialization
                if len(state) == 0:
                    state['step'] = 0
                    # Exponential moving average of gradient values
                    state['exp_avg'] = torch.zeros_like(p.data)
                    # Exponential moving average of squared gradient values
                    state['exp_avg_sq'] = torch.zeros_like(p.data)
                    if amsgrad:
                        # Maintains max of all exp. moving avg. of sq. grad. values
                        state['max_exp_avg_sq'] = torch.zeros_like(p.data)

                exp_avg, exp_avg_sq = state['exp_avg'], state['exp_avg_sq']
                if amsgrad:
                    max_exp_avg_sq = state['max_exp_avg_sq']
                beta1, beta2 = group['betas']

                state['step'] += 1
                bias_correction1 = 1 - beta1 ** state['step']
                bias_correction2 = 1 - beta2 ** state['step']

                if group['weight_decay'] != 0:
                    grad.add_(group['weight_decay'], p.data)

                # Decay the first and second moment running average coefficient
                exp_avg.mul_(beta1).add_(1 - beta1, grad)
                exp_avg_sq.mul_(beta2).addcmul_(1 - beta2, grad, grad)
                if amsgrad:
                    # Maintains the maximum of all 2nd moment running avg. till now
                    torch.max(max_exp_avg_sq, exp_avg_sq, out=max_exp_avg_sq)
                    # Use the max. for normalizing running avg. of gradient
                    denom = (max_exp_avg_sq.sqrt() / math.sqrt(bias_correction2)).add_(group['eps'])
                else:
                    denom = (exp_avg_sq.sqrt() / math.sqrt(bias_correction2)).add_(group['eps'])

                step_size = group['lr'] / bias_correction1

                p.data.addcdiv_(-step_size, exp_avg, denom) # -step_size*(exp_avg/denom)

        return loss

adam优化器参数中的衰减权重和学习率衰减权重

根据torch下的adam算法源码，adam的参数decay参与梯度更新的方式为，$grad = grad + decay*x$, 然后更新后的grad 再参与到adam算法来更新元素值，decay的设置参数的量级和梯度的量级有关。
输入adam算法中的lr是固定的，参数的更新是自适应变化的，因为其考虑到了最近的n个时间步长的梯度以及更新量。训练过程中的lr变化主要由调度策略影响。
平常所指的学习率衰减权重直接参与到学习率变化中。常见的学习率衰减： $$ lr = \frac{1}{1+decay*epoch}*lr_0 $$

$$ lr = 0.95^{epoch} lr $$