评分卡模型开发中,需要对变量进行分箱操作才能放入模型中
什么是分箱操作
- 对于数值型变量,将其分为若干有限的几个分段。例如,将收入分为<5k,5k~10k,10k~20k,>20k等
- 对于类别型变量,如果取值个数很多,将其合并为个数较少的几个分段。例如,将省份分为{北,上,广},{苏,浙,皖},{黑,吉,辽},{闽,粤,湘},其他等
为什么要分箱
- 评分结果需要一定稳定性。例如,当借款人总体信用资质不变,评分结果也应稳定,某些数值变量一点波动不应该影响评分结果。例如他月收入从6k到7k,其他因素不变,评分结果也不变化
- 类别型变量如果取值个数很多,不分箱将会导致变量膨胀。例如31个省级行政区,独热编码会产生31个变量,哑变量也会产生30个变量
分箱的要求
- 不需要分箱的变量:取值个数较少的类别型变量,一般无需分箱
- 分箱结果的有序性:有序变量(数值型和有序离散型变量),分箱要求保持有序性
- 分箱的平衡性:在较严格的情况下,分箱后每一箱的占比不能相差太大,一般要求占比最小的箱,占比不低于5%
- 分箱的单调性:在较严格的情况下,有序型变量分箱后每箱的坏样本率要求与箱呈单调关系。例如,学历分为{低于高中},{高中,大专},{本科,硕士},{博士}后,坏样本率分别是15% 10% 5% 1%…
- 分箱的个数:通常要求分箱后,箱的个数不能太多,一般在7或5个以内
分箱的优缺点
- 分箱的优点
- 稳定:分箱后,变量原始值在一定范围内的波动不会影响到评分结果
- 缺失值处理:缺失值可以作为一个单独的箱,或者与其他值进行合并作为一个箱
- 异常值处理:异常值可以和其他值合并作为一个箱
- 无需归一化:从数值型变为类别型,没有尺度的差异
- 分箱的缺点
- 有一定的信息丢失:数值型变量在分箱后,变为取值有限的几个箱
- 需要编码:分箱后的变量是类别型,不能直接带入逻辑回归模型中,需要进行一次数值编码
分箱的方法
- 有监督
- 优缺点
- 优点:与目标变量相结合,最大程度地将目标变量的信息反映在特征中
- 缺点:计算量大
- 类别
- 卡方分箱法
- 决策树分箱法
- 优缺点
- 无监督
- 优缺点
- 优点:计算简单
- 缺点:合理性得不到保证;不能充分利用目标变量的信息
- 类别
- 等距
- 等频
- 聚类
- 优缺点
- 分箱的初衷,是将相似度高的样本归为一组。无监督分箱考虑的是特征在样本上的分布的相似度,有监督分箱考虑的是特征业务含义的相似度

发表回复