极大似然估计与交叉熵损失函数介绍
2025-04-28 11:39:52 0 举报
AI智能生成
极大似然估计与交叉熵损失函数介绍
作者其他创作
大纲/内容
1. 极大似然估计与交叉熵损失函数算法理论讲解
交叉熵损失函数
交叉熵损失函数是独立于均方差损失函数(MSE)的另一种损失函数。它们在不同的应用场合发挥作用:
均方差损失函数:主要应用于回归和拟合领域(例如,用直线或曲线拟合一些点)。
交叉熵损失函数:主要应用于分类领域。
例如,在对猫和狗的图片进行分类时,输入猫和狗的照片,然后提取特征,得到两类结果。可以先用 softmax 函数得到两类的概率值,然后通过交叉熵计算损失进行模型优化。
分类问题
分类问题是机器学习中最常见的问题之一。目标是根据给定的特征将数据分为不同的类别。
优化方法
分类问题主要通过最小化交叉熵损失来优化。
MSE 在分类问题的弊端
在回归预测问题中,使用 MSE 作为损失函数,L2 距离(欧式距离)能够很好地体现预测值与实际值的差距。但在分类问题中,网络输出的是属于某个类的概率,最后一层使用 softmax 或 sigmoid 激活函数处理。如果使用 MSE,当与 sigmoid 或 softmax 搭配使用时,损失的偏导数变化趋势和预测值及真实值之间的数值变化趋势不一致。
例如,当真实值 ( y=1 ) 时,若预测值等于 1,损失为 0;当真实值 ( y=1 ) 时,如预测值等于 0,损失也为 0。这意味着,预测错误时,依然没有梯度让网络可以学习。因此,MSE 对于分类问题无法有效地度量类别之间的差异,导致对分类任务的优化不够敏感。
1.1 伯努利分布
伯努利分布是一种离散型概率分布,描述的是一次伯努利试验中成功和失败的概率分布。在伯努利分布中,只有两种可能的结果,用 0 和 1 表示,其中 0 表示失败,1 表示成功。
伯努利分布的数学公式表达如下:
其中 ( n ) 表示试验次数,( k ) 表示成功的次数,( p ) 表示单次实验成功的概率。
1.2 二项分布
二项分布描述了 ( n ) 次独立的伯努利试验中成功的次数的概率分布。在二项分布中,每次试验都是独立的,且成功和失败的概率保持不变。二项分布的概率质量函数公式如下:
其中 ( n ) 表示试验次数,( k ) 表示成功的次数,( p ) 表示单次实验成功的概率。
1.3 极大似然估计
极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最有可能(最大概率)导致这些样本结果出现的模型参数值。
假设进行伯努利试验 10 次,结果用随机变量 ( X_i ) 表示,则 ( X_1, X_2, ..., X_{10} ) 满足独立同分布。其值为 (1,0,1,0,0,0,0,1,0,0,0),每个样本出现的概率的乘积为:
L(p)表达式的基本构成
p与(1-p)的交替出现
p代表成功的概率
(1-p)代表失败的概率
交替模式的意义与应用
在概率论中的体现
在随机过程中的应用
L(p)表达式的数学性质
乘积形式的特性
连续概率事件的累积效应
概率的乘法原理
L(p)与二项式分布的关系
二项式分布的定义
L(p)作为二项式分布特例的解读
L(p)表达式的应用场景
在抛硬币问题中的应用
单次抛硬币的概率计算
正面朝上的概率
反面朝上的概率
多次抛硬币的L(p)表达式应用
连续两次正面朝上的概率
特定序列出现的概率
在抽奖活动中的应用
抽奖活动的概率模型
每次抽奖独立事件
L(p)表达式计算中奖概率
多次抽奖的累积效应
多次未中奖后中奖的概率
中奖次数的期望值
L(p)表达式的计算与优化
直接计算法
逐项乘积的计算步骤
确定p的值
按照顺序计算乘积
计算复杂度的分析
乘积项数的影响
p值对计算量的影响
近似计算与优化方法
二项式定理的应用
近似公式的推导
误差分析与适用范围
蒙特卡洛模拟法
模拟过程的描述
模拟结果的解读与验证
L(p)表达式的推广与变体
L(p,n)的扩展形式
n次独立试验的L(p,n)表达式
n的含义与取值范围
L(p,n)的计算方法
连续型概率分布的L(p)变体
连续概率密度函数的L(p)形式
连续概率的定义与性质
L(p)在连续分布中的应用实例
多维随机变量的L(p)表达式
多维随机变量的定义与性质
多维概率空间的构建
L(p)在多维空间中的表达
多维L(p)表达式的计算与解析
计算方法的探讨
对于上面的例子结果为:
极大似然估计的目标是要求最大的 ( L(p) ) 值中对应的 ( p ) 值。
举个例子
怎么求最大的 ( L(p) ) 对应的 ( p ) 值呢?
1.3.1 连乘变连加
通过取对数(log 的底数为 e),将连乘变成连加,方便计算。
将 ( X_i ) 带入得到如下公式:
对上面求导,然后通过求导数,令导数等于零来解方程,找到使得对数似然函数最大化的参数值 ( p )。
1.4 最小化损失函数
1.4.1 交叉熵
交叉熵(Cross Entropy)是一种用于衡量两个概率分布之间差异的度量方法。在机器学习中,交叉熵常用于衡量模型的预测结果与真实标签之间的差异,交叉熵越小,两个概率分布就越接近,即拟合的更好。
交叉熵的计算公式:
其中,( y ) 是真实标签,( \hat{y} ) 是模型预测的概率值。
通过上面的讲解,发现对极大似然估计公式前面加上负号,使用负对数似然函数来定义损失函数和交叉熵公式一样(通常称为交叉熵损失函数),这样就将最大化似然函数转化为最小化损失函数的问题。这样,在求解问题时,可以使用梯度下降等优化算法来最小化负对数似然函数(或交叉熵损失函数),从而得到最大似然估计的参数值。
二分类交叉熵
在二分类情况下,模型最后需要预测的结果只有两种情况,对于每个类别我们的预测得到的概率为 ( p ) 和 ( 1-p ),此时表示式为(log 的底数为 e):
( N ) 表示实验次数也相当于样本数。
多分类交叉熵
多分类交叉熵就是对二分类的交叉熵的扩展,在计算公式中和二分类稍微有些区别,但是还是比较容易理解,具体公式如下所示:
补充:交叉熵怎么衡量损失的。
如果预测的概率值接近 1 损失小,如果预测的概率值接近于 0 损失大,可以通过 softmax(把数值转换成概率)再结合交叉熵就能做分类损失函数。

收藏
0 条评论
下一页