首页  思维导图  详情

Ai产品养成（4）模型评估指标的基础概念

2023-04-26 19:09:34   2  举报





AI智能生成

为你推荐

查看更多



AI产品养成（2）如何转AI产品？ AI模型设计、训练、部署

AI产品养成（1）AI产业架构产品能力模型

模型评估指标是衡量AI产品性能的重要工具，它可以帮助开发者了解模型的准确性、稳定性和效率。常见的评估指标包括准确率、召回率、F1分数等。准确率是指模型预测正确的样本数占总样本数的比例；召回率是指模型正确预测为正例的样本数占所有实际为正例的样本数的比例；F1分数则是准确率和召回率的调和平均数，用于综合评价模型的性能。此外，还有AUC-ROC曲线、均方误差等指标，它们分别用于评估二分类问题和回归问题的模型性能。通过这些指标，我们可以对模型进行细致的分析和优化，从而提高AI产品的质量和用户体验。

作者其他创作

大纲/内容

在线评估关注的是业务相关指标，比如新用户的转化率、优惠券的核销率、信贷审核的通过率等

模型部署上线后，使用线上真实数据对模型进行的评估。这个时候，产品经理或者运营同学大多采用 ABTest 的方式去判断业务的表现。

在线评估

评估模型中重要性比较高的特征

PSI来判断，PSI是指评估某个特征的数据随着时间推移发生变化而不再稳定的指标

特征自身的稳定性

内部数据

第三方数据

主要看特征是从哪里接入的

特征来源的稳定性

模型带来的增益是否可以覆盖掉它们的成本，以及能否通过数据缓存来减少模型对它们的调用

特征获取的成本进行

特征评估

模型覆盖度为例，它表示模型可以覆盖人群的百分比，

模型的覆盖度 = 模型可以打分的人数 / 需要模型打分的人数。

覆盖度越高，代表模型可以打分的人数越多，也就是说模型可以评估更多人。如果模型覆盖度过低，即使它的性能表现很好，在某些业务场景下模型也不可用。

覆盖度、

模型最大值和最小值设置得是不是合理

模型输出的分数范围太窄，就会导致一个分数点集中很多人，人群没有得到很好的区分

值域

模型对人打分后，分数和人群的分布形态

评估标准：应该符合常识

分布

统计性

不同场景下，由于我们的业务目标不同，对模型的要求不同，对模型统计性指标的关注点也不会相同

二分类模型在实际业务中使用比较多，比如，它经常用于判断用户的性别、用户的购买偏好、支付宝的芝麻分、京东的小白信用、微信的支付分等问题

二分类模型

多分类模型

分类问题

正确分类的样本数占总样本数的比例

准确率

预测的正样本中有多少是真正的正样本

精确率

正样本中有多少被分类器正确预测出来了

召回率

F1值是精确率和召回率的调和平均数

F1值

ROC曲线是一种以假阳性率为横坐标、真阳性率为纵坐标的二维坐标图，用于评估分类器在不同阈值下的性能。AUC值表示ROC曲线下的面积，AUC值越大，分类器性能越好。

ROC曲线和AUC值

混淆矩阵是一种分类模型性能评价的可视化工具，它将真实类别和预测类别的交叉情况以矩阵的形式呈现出来，可以更直观地分析模型的分类效果

混淆矩阵

关注指标

预测值与真实值之间差距的绝对值的平均值。MAE值越小，说明模型预测的结果与真实值越接近。

MAE（平均绝对误差）

预测值与真实值之间的差距的平方和的平均值。MSE值越小，说明模型预测的结果与真实值越接近

MSE（均方误差）、

它是均方误差（MSE）的平方根。均方误差是模型预测结果与真实结果之差的平方和的平均值，而RMSE是MSE的平方根，用于表示模型预测结果与真实结果之间的平均偏差。

RMSE（均方根误差）

决定系数用于衡量模型对总方差的解释能力，它表示模型预测结果的方差占总方差的比例。R²值越接近1，说明模型对数据的拟合效果越好

决定系数（Coefficient of Determination，R²）

回归问题

评估模型效果的指标，它和模型要解决的问题相关

模型性能

判断模型输出结果，是否会随着时间推移，而发生较大变化不再稳定的指标，模型的稳定性会直接影响模型的结果

模型稳定性

模型评估

离线评估

模型评估指标体系

混淆矩阵是机器学习中用于衡量分类模型性能的一种可视化工具。混淆矩阵将分类器预测结果和真实结果的交叉情况以矩阵的形式呈现出来，可以更直观地分析模型的分类效果

它有两个定义，分别是Positive和Negative概念，一般教材上会说明Positive为正例，Negative为负例。在混淆矩阵中，T和F代表模型判断的对和错，P和N代表模型预测结果的好和坏

概念

模型预测为正例，现实也是正例

TP 是指模型预测这个人是好人，实际上这个人是好人，模型预测正确

FP指模型预测这个人是好人，实际上这个人是坏人，模型预测错误

模型预测为反例，现实也是反例

TN 是指模型预测这个人是坏人，实际上这个人是坏人，模型预测正确。

FN 是指模型预测这个人是坏人，实际上这个人是好人，模型预测错误

混淆矩阵四个元素举例说明

预测正确的样本数量占总样本数量的比例

公式为（TP＋TN）／（TP＋TN＋FP＋FN）

准确率：

预测为正例的样本数占预测为正例的样本数的比例

公式为 TP／（TP＋FP）

正确预测为正例的样本数占真实为正例的样本数的比例

公式为：TP／（TP＋FN）

召回率：

FI值：F1值是精确率和召回率的调和平均数

混淆矩阵的指标：准确率、精确率、召回率

什么是混淆矩阵？

TPR和FPR是ROC曲线中的两个重要指标，而ROC AUC和KS则是基于这两个指标计算得出的模型性能评价指标。

TPR|FRPROC曲线|KS值|AUC

回归算法的评估和分类算法的评估在底层逻辑上是一致的，都是为了找到真实标签和预测值之间的差异。只是对于分类算法来说，我们关注的是预测分类和实际分类是否相同，而对于回归算法来说，我们关注的是模型是否预测到了正确的数值。

它测量模型预测值和真实值之间的均方差，即预测值与真实值之差的平方和再求平均值。

均方误差 MSE，它的应用最广泛，用来判断预测值和实际值之间误差的指标。它的范围是 0 到正无穷，数值越小代表模型性能越好。

MSE 均方误差（Mean Squared Error）

它是由 MSE 开根号得到的，也是用来判断预测值和实际值之间误差的指标。它的范围也是 0 到正无穷，数值越小代表模型性能越好

RMSE 均方根误差（Root-mean-squared Error）

MAE （平均绝对误差）（Mean Absolute Error ）

R2（R Squared 决定系数）。

回归算法常用的评估指标

群体稳定性指数（Population Stability Index），通过 PSI 指标，我们可以得到不同样本（不同时间段给到模型的样本）下，模型在各分数段分布的稳定性。

计算模型的稳定性，我们需要先有一个参照物。在评分模型中，为了进行对比，我们至少需要两个分布结果，一个是预期分布结果一个是实际分布结果

产品验收阶段，我会使用模型上线时的 OOT 样本作为预期样本，非 OOT 时段的近期抽样样本作为实际样本

将数据按照某个关键变量（例如时间戳、群体分类变量）进行排序，并将排序后的数据划分为若干组。

对于每一组数据，计算该组在新旧数据中的占比。

计算各组占比之差的加权平均值，得到PSI值。

根据PSI值进行评估，PSI值在0.1-0.25 都是可接受如果PSI值小于0.1，则表示两个数据集之间的分布稳定性比较好；如果PSI值大于0.25，则表示两个数据集之间的分布差异比较明显。

PSI值计算流程

模型上线前、后都要关注PSI

影响PSI的变化因素很多，如客群变化等等，我们要重点关注

上线后建议根据业务要求，对模型PSI进行按日、按月或者按季度监控

注意事项

稳定性指标：PSI值

学习来源：刘海丰《成为AI产品经理》京东高级架构师 +Chatgpt学习查询

Ai产品养成（4）模型评估指标的基础概念

 收藏

立即使用

AI产品经理要知道的 3种大模型优化方式

 收藏

立即使用

干货解析：内容型产品 3大评价指标

 收藏

立即使用

能赚钱的「极速版APP」背后的产品逻辑

 收藏

立即使用

茶颜悦色："新中式鲜茶” 出圈分析

小七的产品笔记

职业：产品经理

去主页





0 条评论

回复删除



取消

下一页

Ai产品养成（4） 模型评估指标的 基础概念

Ai产品养成（4）模型评估指标的基础概念