深度学习笔记【理论篇】一、梯度下降法

Bryce2020/3/2大约 2 分钟

疫情在家，无意翻出之前学的深度学习笔记，略微整理，以做巩固。这篇整理的是：梯度下降法的优化发展。

1. 教材和现实的差距

原始梯度下降法（BGD）是几乎所有的教案和网课都默认去介绍的梯度下降法，但是后来在做一些项目的时候，发现几乎很少直接会用BGD。反而最常见的是一种叫Adam的优化器 + mini-batch SGD，这是为啥呢？

还是从公式说起，BGD的公式为：

\theta_{t+1} = \theta_t - \eta \cdot \nabla J(\theta_t)

其中:

公式中，反映了BGD的特点：

从而引出了BGD的缺点：

从公式中可以看出，可以从这三个方面去做优化：

Momentum核心："惯性"，累计过去的梯度。
分为标准动量法和指数加权平均动量法。

解决的问题：

未解决的问题：

核心：动态学习率

解决的问题：

未解决的问题：

解决的问题：

未解决的问题：

优点：
自动调学习率 + 动量、默认表现好。

缺点：
状态多、泛化未必最优。

batch_size = 1 -> SGD
batch_size = N -> BGD
batch_size = [1, N] -> mini-batch SGD

优点:

缺点: