![统计学习必学的十个问题:理论与实践](https://wfqqreader-1252317822.image.myqcloud.com/cover/933/44509933/b_44509933.jpg)
上QQ阅读APP看书,第一时间看更新
3.2 极大似然估计和平方损失
回归问题中,我们可以将每一个样本x对应的目标值看作一个均值为ωx的连续分布,如图3.1所示,它只假设分布p(y|x)服从高斯分布,而不关心p(x),所以训练过程本质上是在对这个条件分布的参数做估计(此章讨论一维变量的情形,下同)。
以这样的视角来重新考虑目标值的分布会发现,每一个样本的目标值yi都服从高斯分布N(ωTxi,σ2),它的均值为ωTxi,假设样本是独立同分布的,那么目标值的分布就是所有样本分布的乘积,形式为:
![](https://epubservercos.yuewen.com/06CE0C/23721657201043606/epubprivate/OEBPS/Images/Figure-P36_5184.jpg?sign=1739236004-WQNxY75KU7O4aTOSV1OY1IYe9GWkltft-0-529100978a308e63c1c2369d97afbe8a)
图3.1 每一个样本x0都对应着一个高斯分布,分布的均值作为真实值
![](https://epubservercos.yuewen.com/06CE0C/23721657201043606/epubprivate/OEBPS/Images/Figure-P36_5232.jpg?sign=1739236004-SBpcB1xIDv5EXHBidvoVxxmQ2WyHpTrw-0-1ac2f707851f189daee32c4dd929d85b)
定理3.2(极大似然估计) 给定分布的概率密度函数f,这个概率分布由参数θ控制,我们从分布中采样X1,X2,X3,…,Xn,似然函数就是样本关于该参数的条件概率:
![](https://epubservercos.yuewen.com/06CE0C/23721657201043606/epubprivate/OEBPS/Images/Figure-P36_5234.jpg?sign=1739236004-Zhe58P8UiBL0YJbaLs0J3F59rexGrKxd-0-3f2c11ef77e261f473a1592a5e3c4682)
最大化似然函数的意义就是在参数θ的所有的可能取值中,寻找一个使得采样最可能出现的θ,可能性最大,意味着似然函数也达到了最大值。
因为总的似然函数等于所有样本分布的乘积,大量的小的数连乘会造成数值下溢,所以我们将似然函数取对数,连乘就变为了对数求和:
![](https://epubservercos.yuewen.com/06CE0C/23721657201043606/epubprivate/OEBPS/Images/Figure-P36_5236.jpg?sign=1739236004-9EDyL2H89gwiJwOYN1RFSP5OwgXpLSO7-0-956d6ce4cc179a0facb436a209241961)
最大化对数似然就是最大化多个高斯分布的对数和:
![](https://epubservercos.yuewen.com/06CE0C/23721657201043606/epubprivate/OEBPS/Images/Figure-P36_5237.jpg?sign=1739236004-1kpjDzAJtDhvmeVfCE85CEFkQdqmTsbI-0-de098ac42e0ad52277b59b98813ac1e9)
利用对数的性质,就可以将其拆开:
![](https://epubservercos.yuewen.com/06CE0C/23721657201043606/epubprivate/OEBPS/Images/Figure-P36_5242.jpg?sign=1739236004-jMyEtZmshQKbAilYnK5jUKv8IGmax3F7-0-a2b427d2142ce6012721f4fce32e353f)
其中ln(σ)与ω无关,最大化对数似然,相当于最小化其负值,所以,我们有:
![](https://epubservercos.yuewen.com/06CE0C/23721657201043606/epubprivate/OEBPS/Images/Figure-P36_5241.jpg?sign=1739236004-HH0G0ijwt44F1PASO7zndATrrcyi3stK-0-48d9b193c66f9437819c880e5489179b)
其中标准差σ独立于ω,不参与优化。这样,我们就以极大似然估计的方法得到了均方误差的表达式。极大似然估计是贯穿统计学习和深度学习的参数估计办法,我们会经常使用它来得到损失函数,因为极大似然估计可以获得参数估计的一致性(见第4章)。