【评分卡】评分卡入门与创建原则——分箱、WOE、IV、分值分配

news/2024/7/3 11:38:32

这里写图片描述

本文主要讲“变量选择”“模型开发”“评分卡创建和刻度”

变量分析

首先,需要确定变量之间是否存在共线性,若存在高度相关性,只需保存最稳定、预测能力最高的那个。需要通过 VIF(variance inflation factor)也就是 方差膨胀因子进行检验。
变量分为连续变量和分类变量。在评分卡建模中,变量分箱(binning)是对连续变量离散化(discretization)的一种称呼。要将logistic模型转换为标准评分卡的形式,这一环节是必须完成的。信用评分卡开发中一般有常用的等距分段、等深分段、最优分段。

单因子分析,用来检测各变量的预测强度,方法为WOE、IV;

WOE

WOE(weight of Evidence)字面意思证据权重,对分箱后的每组进行。假设good为好客户(未违约),bad为坏客户(违约)。
woe公式
#good(i)表示每组中标签为good的数量,#good(T)为good的总数量;bad相同。

这里说一下,有的地方计算WOE时使用的是 b a d 占 比 g o o d 占 比 \frac{bad占比}{good占比} goodbad的,其实是没有影响的,因为我们计算WOE的目的其实是通过WOE去计算IV,从而达到预测的目的。后面IV计算中,会通过相减后相乘的方式把负号给抵消掉。所以不管谁做分子,谁做分母,最终的IV预测结果是不变的。

IV

IV(information value)衡量的是某一个变量的信息量,公式如下:
iv公式
N为分组的组数;
IV可用来表示一个变量的预测能力。

IV预测能力
<0.03无预测能力
0.03~0.09
0.1~0.29
0.3~0.49
>=0.5极高

根据IV值来调整分箱结构并重新计算WOE和IV,直到IV达到最大值,此时的分箱效果最好。

分组一般原则

  1. 组间差异大
  2. 组内差异小
  3. 每组占比不低于5%
  4. 必须有好、坏两种分类

举例说明

例如按年龄分组,一般进行分箱,我们都喜欢按照少年、青年、中年、老年几大类进行分组,但效果真的不一定好:

AgegoodbadWOE
<185040 l n ( 50 / 330 40 / 220 ) = − 0.182321556793955 ln(\frac{50/330}{40/220}) = -0.182321556793955 ln(40/22050/330)=0.182321556793955
18~3010060 l n ( 100 / 330 60 / 220 ) = 0.105360515657826 ln(\frac{100/330}{60/220}) = 0.105360515657826 ln(60/220100/330)=0.105360515657826
30~6010080 l n ( 100 / 330 80 / 220 ) = − 0.182321556793955 ln(\frac{100/330}{80/220}) = -0.182321556793955 ln(80/220100/330)=0.182321556793955
>608040 l n ( 80 / 330 40 / 220 ) = 0.287682072451781 ln(\frac{80/330}{40/220}) = 0.287682072451781 ln(40/22080/330)=0.287682072451781
ALL330220

计算
根据IV值可以看出,预测能力低,建议重新调整分箱。

建立模型

先进行数据划分,一般70%训练集、30%测试集。训练集用于训练模型,测试集用于检测训练后的模型。
一般采用Logistic Regression建立模型,训练模型。将建好的模型对待测样本进行预测。
模型创建标准

评分卡

评分卡计算方法

odds为good用户概率(p)与bad用户概率(1-p)的比值。
o d d s = 好 客 户 概 率 坏 客 户 概 率 = p 1 − p odds=\frac{好客户概率}{坏客户概率}=\frac{p}{1-p} odds==1pp
评分卡设定的分值刻度可以通过将分值表示为比率对数的线性表达式来定义。公式如下:
s c o r e 总 = A + B ∗ l n ( o d d s ) score_总=A+B*ln(odds) score=A+Bln(odds)
注:若odds是 好 客 户 概 率 坏 客 户 概 率 \frac{好客户概率}{坏客户概率} ,odds应取倒数,再经过 l n ln ln转换则B前面是减号。所以有的地方此公式B前为负号。

设置比率为 θ 0 \theta_0 θ0(也就是odds)的特定点分值为 P 0 P_0 P0,比率为 2 θ 0 2\theta_0 2θ0的点的分值为 P 0 + P D O P_0+PDO P0+PDO。带入上面公式可得到:
{ P 0 = A + B l n ( θ 0 ) P 0 + P D O = A + B l n ( 2 θ 0 ) \begin{cases} P_0 &= A+Bln(\theta_0) \\ P_0+PDO &= A+Bln(2\theta_0) \end{cases} {P0P0+PDO=A+Bln(θ0)=A+Bln(2θ0)
求解上述公式,可以得到A、B值:
{ B = P D O l n 2 A = P 0 − B l n ( θ 0 ) \begin{cases} B &= \frac{PDO}{ln2} \\ A &= P_0-Bln(\theta_0) \end{cases} {BA=ln2PDO=P0Bln(θ0)

P 0 P_0 P0 P D O PDO PDO 的值都是已知常数,可以设置 P 0 = 600 P_0 = 600 P0=600 P D O = 20 PDO = 20 PDO=20
可以计算出A、B值。
这里 P 0 P_0 P0 P D O PDO PDO 主要是根据你想要分数落在一个什么范围内,然后进行人为设定,不用太纠结取值的意义。

分值分配

在实际的应用中,我们会计算出每个变量的各分箱对应的分值。新用户产生时,对应到每个分箱的值,将这些值相加,最后加上初始基础分,得到最终的结果。
如果用户某个变量发生改变,由一个分箱变成另一个,只需将更新后所在分箱的值做替换,再重新相加即可得到新的总分。

我们都知道,假设模型结果为p,根据Logistic Regression计算公式有:
p = 1 1 + e − θ T x p = \frac{1}{1+e^{-\theta^Tx}} p=1+eθTx1
经过转换得到
l n ( p 1 − p ) = θ T x ln(\frac{p}{1-p})=\theta^Tx ln(1pp)=θTx
由于上面提到的公式
l n ( p 1 − p ) = l n ( o d d s ) ln(\frac{p}{1-p})=ln(odds) ln(1pp)=ln(odds)
所以
l n ( o d d s ) = θ T x = w 0 + w 1 x 1 + ⋅ ⋅ ⋅ + w n x n ln(odds)=\theta^Tx =w_0+w_1x_1+···+w_nx_n ln(odds)=θTx=w0+w1x1++wnxn
这里带入评分卡公式,
s c o r e 总 = A + B ∗ ( θ T x ) = A + B ∗ ( w 0 + w 1 x 1 + ⋅ ⋅ ⋅ + w n x n ) score_总 = A+B*(\theta^Tx)=A+B*(w_0+w_1x_1+···+w_nx_n) score=A+B(θTx)=A+B(w0+w1x1++wnxn)
= ( A + B ∗ w 0 ) + B ∗ w 1 x 1 + ⋅ ⋅ ⋅ + B ∗ w n x n =(A+B*w_0)+B*w_1x_1+···+B*w_nx_n =(A+Bw0)+Bw1x1++Bwnxn
这里 w 1 , w 2 , . . . , w n w_1,w_2,...,w_n w1,w2,...,wn是Logistic Regression中不同变量 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn的系数。 w 0 w_0 w0是截距。
( A + B ∗ w 0 ) (A+B*w_0) (A+Bw0)为基础分数, B ∗ w 1 x 1 , ⋅ ⋅ ⋅ , B ∗ w n x n B*w_1x_1,···,B*w_nx_n Bw1x1,,Bwnxn为每个变量对应分配到的分数。

之前步骤中每个变量都有进行分箱操作,分为若干类。所以下一步的话,把每个变量对应的分数,分别乘以变量中每个分箱的WOE,得到每个分箱的评分结果。

变量分箱类别分值
基础分数- ( A + B ∗ w 0 ) (A+B*w_0) (A+Bw0)
x 1 x_1 x11
2

i i i
( B ∗ w 1 ) ∗ W O E 11 (B*w_1)*WOE_{11} (Bw1)WOE11
( B ∗ w 1 ) ∗ W O E 12 (B*w_1)*WOE_{12} (Bw1)WOE12
···
( B ∗ w 1 ) ∗ W O E 1 i (B*w_1)*WOE_{1i} (Bw1)WOE1i
x 2 x_2 x21
2

j j j
( B ∗ w 2 ) ∗ W O E 21 (B*w_2)*WOE_{21} (Bw2)WOE21
( B ∗ w 2 ) ∗ W O E 22 (B*w_2)*WOE_{22} (Bw2)WOE22
···
( B ∗ w 2 ) ∗ W O E 2 j (B*w_2)*WOE_{2j} (Bw2)WOE2j
·········
x n x_n xn1
2

k k k
( B ∗ w n ) ∗ W O E n 1 (B*w_n)*WOE_{n1} (Bwn)WOEn1
( B ∗ w n ) ∗ W O E n 2 (B*w_n)*WOE_{n2} (Bwn)WOEn2
···
( B ∗ w n ) ∗ W O E n k (B*w_n)*WOE_{nk} (Bwn)WOEnk

以上步骤都完成后,假如新产生一个用户,我们只需将此用户每个变量对应到各分箱中得到其对应的WOE值,再根据上面的公式计算出这个样本在每个变量下的分数。最后将所有变量对应的分数相加,即为最终评分结果。

最后说一下,特征选择方面,并不是维度越多越好。一个评分卡中,一般不超过15个维度。可根据Logistic Regression模型系数来确定每个变量的权重,保留权重高的变量。通过协方差计算的相关性大于0.7的变量一般只保留IV值最高的那一个。

引用
《信用风险评分卡研究》Mamdouh Refaat著
《互联网金融时代消费信贷评分建模与应用》单良著
手把手教你用R语言建立信用评分模型
《统计学习方法》李航著


http://www.niftyadmin.cn/n/2246216.html

相关文章

CF-631-.Interview-水题

A.Interview Time Limit:1000MS Memory Limit:262144KB 64bit IO Format:%I64d & %I64u Submit Status Practice CodeForces 631A Description Blake is a CEO of a large company called “Blake Technologies”. He loves his company very much and he thinks th…

ntp多台主机时间同步

通俗的讲&#xff0c;多台主机ntp时间同步&#xff0c;就是自定义集群中一台机器&#xff08;我们这里叫它server&#xff09;与网络时间同步&#xff0c;然后其它主机与server主机时间同步 另外&#xff0c;ntp时间同步机制不是我们想象的那样直接同步&#xff0c;而是“逐渐”…

5G已来,5G精品系列课免费送?

5G不再只是从2G.txt到3G.jpg再到4G.avi的网络速率的提升&#xff0c;而是将人与人之间的通信扩展到万物互联&#xff0c;打造全移动和全连接的数字化社会。 众所周知&#xff0c;2018年6月中旬&#xff0c;3GPP全会批准通过了5G NR独立组网(SA)规范标准。全球各电信厂商和运营商…

Java大数简单题---Yet another A + B

PracticeGym 100735I Description Statements You are given three numbers. Is there a way to replace variables A, B and C with these numbers so the equality A  B  C is correct? Input There are three numbers X1, X2 and X3 (1 ≤ Xi ≤ 10100), each…

Cisco HyperFlex 多区域上联(Disjoint Networks Upstream)

Cisco HyperFlex 多区域上联&#xff08;Disjoint Networks Upstream&#xff09;Deploy Layer 2 Disjoint Networks Upstream in End Host Mode for HyperFlex一般意义上的HX平台是部署在大二层环境中&#xff0c;不同vlan跑不同的功能&#xff08;data&#xff0c;mgt&#x…

Restore 数学题,水题(转)

C - Restore Time Limit:25000MS Memory Limit:65536KB 64bit IO Format:%I64d & %I64u Submit Status Practice Gym 100735E Description standard input/output Statements Given a matrix A of size N * N. The rows are numbered from 0 to N-1, the column…

unity实战 手机屏幕适配

使用背景 为了在UI中使用特效层&#xff0c;项目Canvas采用了Screen Space-Camera类型 UI的Scale Mode 选择的是Scale With Screen Size 的Expand&#xff0c;画布大小填的是1334, 750 在该选择下&#xff0c;会自动根据分辨率适配宽度/高度。 自动适配的规则是&#xff1a; 屏…

八皇后问题---递归回溯

每次需要满足的条件&#xff1a;abs(x[j]-x[k])abs(j-k) || x[j]x[k] #include <iostream> #include <cmath> using namespace std; const int num8; int sum0; int x[num]{0}; bool place (int k) {for(int j1;j<k;j){if(abs(x[j]-x[k])abs(j-k)||x[j]x[k])re…