传统评分卡模型建模流程
2024-09-07 17:17:43 0 举报
AI智能生成
传统评分卡模型是一种广泛应用于信用风险评估、欺诈检测等领域的统计方法。这种模型通常包括两个主要步骤:首先,通过逻辑回归等方法从大量历史数据中提取出一组特征,这些特征通常包括客户的基本信息、信用记录、消费行为等;然后,根据这些特征建立一个评分卡,用于对新客户的信用风险进行评估。评分卡的表现形式通常是一系列加减分规则,得分越高,表示客户的信用风险越低。这种模型的优点是简单易懂,易于实施,但由于其基于历史数据,可能无法准确预测未来的风险变化。
作者其他创作
大纲/内容
定义方法:滚动率分析(roll rate analysis)
定义逾期
学习目标
方法:通过账龄分析(vintage analysis)
建模样本横跨的历史区间
定义观察期
模型预测的时间长度
定义表现期
样本选取
离散化:根据数据情况,划分为不同的区间
处理方法
提升模型稳定性
方便观察不同变量与逾期率的关系
离散目的
连续型数据
不额外处理
合并成更紧密的区间
缺失值单独一个区间
离散型数据
变量分箱
10-15个变量
传统评分卡模型的变量数限制
稳定性高
PSI<0.1
稳定性一般
0.1<PSI<0.25
稳定性差
子主题0.25<PSI
通过群体稳定性指标PSI(Population Stability Index)筛选
稳定性
无预测能力
IV<0.02
预测能力一般
0.02<IV<0.1
预测能力强
0.3<IV
IV(Information Value)
信息值
绝对值越大,相关性越强
皮尔逊相关系数
单变量间的相关性
可以理解为:VIF描述:变量间存在共线性时的方差/不存在共线性时的方差
VIF>10,具有强共线性
VIF越大,共线性越严重
方差膨胀系数VIF(Variance Inflation Factor)
多变量间的共线性
相关性
每个变量入模前,需要变量具有解释性
需要每个变量的WOE分布具有单调性
即:逾期率在这个区间递增或递减
若不满足单调性,合并区间后单调性依旧难以保证,则需要剔除这个变量
可解释性
筛选原则
计算前先将变量分箱
根据公式计算
得到WOE值后带入IV值计算公式
外框
WOE(证据权重:Weight of Evidence)
IV的计算基于WOE
变量筛选(入模筛选) 可以理解为N个变量与Y之间的趋势图
传统评分卡模型趋向于使用逻辑回归模型—LR模型
模型选择
使用极大似然轨迹求解参数
逻辑回归模型实际上是一个线性模型
TP真阳
FP家养
TN真阴
FN假阴
混淆矩阵
假阳性为横轴,真阳性为纵轴
ROC曲线
越接近100%越好
实际为ROC曲线下方的面积
稳定性好,不受到正负样本不均衡的影响
AUC值
模型评估
建模
Score为最终输出分数,Odds为分数对应的好坏比PDO表示分数间隔固定值
Score+PDO = A+Bln(Odds)
需要进一步映射
Score和PDO通常根据业务和业务人员经验设定
需要求解A、B
模型应用
传统评分卡模型-建模步骤和要点
MOB0:放款日至当月月底
MOB1:放款后的第二个完整月份
MOB2:放款后的第三个完整月份
以此类推……MOB的最大值取决于信贷产品的期限。
基本定义
横坐标为账龄,根据数据划分
纵坐标为逾期人数/逾期率,根据业务自定
观察曲线变化,若放款X月后,逾期人数趋于平稳说明X月为账户成熟期,可以作为该平台用户表现期长度
分析方法
辅助理解:https://zhuanlan.zhihu.com/p/410696783
账龄(Moth on book,MOB)
0 条评论
回复 删除
下一页