智能评阅算法综合评价
2025-04-27 23:25:53 5 举报
AI智能生成
智能评阅算法综合评价体系
作者其他创作
大纲/内容
稳定性
评分标准差(std_AI)
评估AI自身评分的波动性,过高说明算法不稳定。
人工-AI Kappa一致性
Cohen's Kappa (需将得分率离散化为等级,如 A/B/C/D)
消除随机性后的分类一致性,适用于等级评价场景(如作文分档)。
准确性
绝对误差(MAE)
直接衡量AI与人工终评的偏差。
相对误差(MRE)
反映误差占人工评分的比例,避免满分值差异的影响(如作文vs选择题)。
高分段一致性(P_top)
针对高分考生,验证AI能否识别优质答案。
鲁棒性
极端误差比例(Extreme_error)
阈值建议:附件3标准,识别AI严重失误(如异常标记题型)。

收藏
0 条评论
下一页