继续深度学习基本概念的整理,第二篇,这篇整理的是:损失函数。
回归问题:用均方差损失函数(Mean Squared Error, MSE)
分类问题:用交叉熵损失函数(Cross-Entropy)
求概率:已知模型参数,求预测事件发生结果
求似然:正好反过来。已知事件发生结果,反推出模型参数
似然函数:求似然的函数,本质上就是联合概率:
L(θ∣x1,...,xn)=f(x1,…,xn∣θ)=i=1∏nf(xi∣θ)
后面都用L(θ)指代L(θ∣x1,...,xn)
- 中间是联合概率
- 右边是独立(不要求同分布)时候的联合概率(可以直接进行乘积)
- 左边是关于参数θ的函数
最大似然估计(Maximum Likelihood Estimation, MLE):在所有可能的参数值 θ 中,选择能够使观测数据 x1,…,xn 的 似然函数 最大的那个参数值θ∗
θ∗=argmaxL(θ)
- n越大,似然估计越准确
- 概率取值[0,1],导致累乘的值会越来越小,且乘法链条求导麻烦(浮点数下溢等);
- 对数函数是单调递增函数,因此最大似然等价于最大对数似然
- 综上取对数
logL(θ)=logi=1∏nf(xi∣θ)=i=1∑nlogf(xi∣θ)
即最大似然估计:
θ∗=argmaxL(θ)=argmaxlogL(θ)
预测任务概率:
- yi是第i个样本的标签
- xi是第i个样本的特征
- θ是模型参数(一连串的w和b)
- p(yi∣xi,θ)是第i个样本的预测概率
- 样本独立同分布情况下,似然函数可以写成
L(θ)=i=1∏np(yi∣xi,θ)
logL(θ)=i=1∑nlogp(yi∣xi,θ)
分别代入正态分布和伯努利/多项分布,就能得到均方差和交叉熵
损失函数本质是负的对数似然,最小化损失 ⇔ 最大化对数似然 ⇔ 最大化似然