深度学习笔记【理论篇】二、损失函数

Bryce2020/3/3大约 2 分钟

继续深度学习基本概念的整理，第二篇，这篇整理的是：损失函数。

结论先行

回归问题：用均方差损失函数（Mean Squared Error, MSE）

分类问题：用交叉熵损失函数（Cross-Entropy）

基本概念&原理

求概率：已知模型参数，求预测事件发生结果
求似然：正好反过来。已知事件发生结果，反推出模型参数
似然函数：求似然的函数，本质上就是联合概率:
$L(\theta \mid x_1,...,x_n) = f(x_1,\dots,x_n \mid \theta) = \prod_{i=1}^n f(x_i \mid \theta)$
后面都用 $L(\theta)$ 指代 $L(\theta \mid x_1,...,x_n)$
- 中间是联合概率
- 右边是独立（不要求同分布）时候的联合概率（可以直接进行乘积）
- 左边是关于参数 $\theta$ 的函数
最大似然估计（Maximum Likelihood Estimation, MLE）：在所有可能的参数值 $\theta$ 中，选择能够使观测数据 $x_1,\dots,x_n$ 的似然函数最大的那个参数值 $\theta^*$
$\theta^* = argmax L(\theta)$
- n越大，似然估计越准确
- 概率取值[0,1]，导致累乘的值会越来越小，且乘法链条求导麻烦（浮点数下溢等）;
- 对数函数是单调递增函数，因此最大似然等价于最大对数似然
- 综上取对数
$\log L(\theta) = \log \prod_{i=1}^n f(x_i \mid \theta) = \sum_{i=1}^n \log f(x_i \mid \theta)$
即最大似然估计：
$\theta^* = argmax L(\theta) = argmax \log L(\theta)$
最大似然估计&损失函数
- 预测任务概率：
  - $y_i$ 是第i个样本的标签
  - $x_i$ 是第i个样本的特征
  - $\theta$ 是模型参数(一连串的w和b)
  - $p(y_i \mid x_i, \theta)$ 是第i个样本的预测概率
  - 样本独立同分布情况下，似然函数可以写成
  $L(\theta) = \prod_{i=1}^n p(y_i \mid x_i, \theta)$
  - 对数似然函数：
  $\log L(\theta) = \sum_{i=1}^n \log p(y_i \mid x_i, \theta)$
- 分别代入正态分布和伯努利/多项分布，就能得到均方差和交叉熵
  - 回归问题：正态分布下的MLE -> 均方差
  - 分类问题：伯努利/多项分布下的MLE -> 交叉熵

因此

损失函数本质是负的对数似然，最小化损失 ⇔ 最大化对数似然 ⇔ 最大化似然

深度学习笔记【理论篇】二、损失函数

结论先行

基本概念&原理

最大似然估计&损失函数

因此