深度学习笔记【实践篇】三、CV奠基者-ResNet

Bryce2020/3/10大约 2 分钟

延续前两篇的实践记录，这次聚焦在CV领域的奠基架构——ResNet，并总结训练中常出现的几种归一化手段。

1. 深度越深越差？

理论上，网络越深，表达能力越强；但在真实训练中，堆叠更多卷积层反而出现训练误差上升。根因包括：

这就是ResNet要解决的“退化问题”：它不追求花哨结构，而是让深层网络至少能学到一个恒等映射。一句话：加一层不会更差。

ResNet block会让网络显式学习残差函数 $F(x) = H(x) - x$ ，从而将目标表示成：

y = F(x, W) + x

这样即便 $F(x)$ 训练得不好，模型仍可退化为恒等映射 $y \approx x$ ，避免层数增加带来的性能下降。

方法	归一化范围	是否依赖 batch	适用场景
BatchNorm	对每个通道在 batch 和空间维上统计	需要 batch 信息	CNN 图像分类、较大 batch 训练
LayerNorm	对单个样本的所有通道/特征整体归一化	不依赖 batch	序列模型（RNN/Transformer）
InstanceNorm	对单样本、逐通道地做归一化	不依赖 batch	图像生成、风格迁移
GroupNorm	对单样本，将通道分组后归一化	不依赖 batch	小 batch 训练、检测/分割