首页  思维导图  详情

极大似然估计与交叉熵损失函数介绍

2025-04-28 11:39:52   0  举报





AI智能生成

极大似然估计与交叉熵损失函数介绍

极大似然估计与交叉熵损失

作者其他创作

大纲/内容

1. 极大似然估计与交叉熵损失函数算法理论讲解

交叉熵损失函数

交叉熵损失函数是独立于均方差损失函数（MSE）的另一种损失函数。它们在不同的应用场合发挥作用：

均方差损失函数：主要应用于回归和拟合领域（例如，用直线或曲线拟合一些点）。

交叉熵损失函数：主要应用于分类领域。

例如，在对猫和狗的图片进行分类时，输入猫和狗的照片，然后提取特征，得到两类结果。可以先用 softmax 函数得到两类的概率值，然后通过交叉熵计算损失进行模型优化。

分类问题

分类问题是机器学习中最常见的问题之一。目标是根据给定的特征将数据分为不同的类别。

优化方法

分类问题主要通过最小化交叉熵损失来优化。

MSE 在分类问题的弊端

在回归预测问题中，使用 MSE 作为损失函数，L2 距离（欧式距离）能够很好地体现预测值与实际值的差距。但在分类问题中，网络输出的是属于某个类的概率，最后一层使用 softmax 或 sigmoid 激活函数处理。如果使用 MSE，当与 sigmoid 或 softmax 搭配使用时，损失的偏导数变化趋势和预测值及真实值之间的数值变化趋势不一致。

例如，当真实值 ( y=1 ) 时，若预测值等于 1，损失为 0；当真实值 ( y=1 ) 时，如预测值等于 0，损失也为 0。这意味着，预测错误时，依然没有梯度让网络可以学习。因此，MSE 对于分类问题无法有效地度量类别之间的差异，导致对分类任务的优化不够敏感。

1.1 伯努利分布

伯努利分布是一种离散型概率分布，描述的是一次伯努利试验中成功和失败的概率分布。在伯努利分布中，只有两种可能的结果，用 0 和 1 表示，其中 0 表示失败，1 表示成功。

伯努利分布的数学公式表达如下：

其中 ( n ) 表示试验次数，( k ) 表示成功的次数，( p ) 表示单次实验成功的概率。

1.2 二项分布

二项分布描述了 ( n ) 次独立的伯努利试验中成功的次数的概率分布。在二项分布中，每次试验都是独立的，且成功和失败的概率保持不变。二项分布的概率质量函数公式如下：

其中 ( n ) 表示试验次数，( k ) 表示成功的次数，( p ) 表示单次实验成功的概率。

1.3 极大似然估计

极大似然估计，通俗理解来说，就是利用已知的样本结果信息，反推最有可能（最大概率）导致这些样本结果出现的模型参数值。

假设进行伯努利试验 10 次，结果用随机变量 ( X_i ) 表示，则 ( X_1, X_2, ..., X_{10} ) 满足独立同分布。其值为 (1,0,1,0,0,0,0,1,0,0,0)，每个样本出现的概率的乘积为：

L(p)表达式的基本构成