1.背景介绍
在大数据自动化审批实践中,信用评分技术已经是一项逐渐成熟的风险估值方法。在消费金融的风险控制实践中,信用评分卡模型已经得到广泛地应用。
何为信用评分卡?
简而言之就是利用客户已有的信息,这些数据可以来自一些三方平台(例如芝麻分、京东白条、微信、银行信用卡)等。利用已有的历史数据对客户的信用状况进行量化,这种量化的直观反映就是信用的分值。
今天大家向大家展示如何来构造一个银行业普遍使用的信用卡评分模型。这里大家使用的数据是国际上鼎鼎有名的data比赛Kaggle上的数据集:Give Me Some Credit ,一家德国银行的信用卡客户历史数据。整个数据集上有超过10万条客户数据,数据量的庞大也为模型的准确度提高了保障。Kaggle大神Zoe已经给出了一个庞大且系统的完成代码集,大家这里则简化很多,以期能够管中窥豹。
一个完整的信用卡评分模型主要包括以下几个部分:
数据处理、特征变量选择、变量WOE编码离散化、logistic回归模型开发评估、信用评分卡和自动评分系统创建以及模型评估。
数据来源于Kaggle上的数据集:Give Me Some Credit,共计有15万条样本数据,主要包括以下11个变量。
2 数据预处理
说句实话,这一步很繁琐。任何一个统计分析的过程,数据的预处理占据了7层甚至更多的时间。可以第一手的数据总是杂乱无章的,无用的数据太多。一个不干净的数据会让大家得到很多匪夷所思的结果。因此,大家还是乖乖地去|“清洗“数据。无奈清洗数据真实太熬人了,为了方便,大家索性就直接删去了清洗数据这一步。。。
现在你们看到的就是一个非常干净和清爽的数据。此处省略……字
3 变量WOE 分箱处理
特征变量选择(排序)对于数据分析、机器学习来说非常重要。好的特征选择能够提升模型的性能,更能帮助大家理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。 首先选择对连续变量进行最优分段,在连续变量的分布不满足最优分段的要求时,再考虑对连续变量进行等距分段。
针对不能最优分箱的变量,分箱如下:
4 Logistic 模型建立
假设显著性水平设定为0.01,因此,大家构造的逻辑斯特回归模型是非常显著的。对已经构建的模型进行验证,ROC曲线和AUC来评估模型的拟合能力。
从上图可知,AUC值为0.85,说明模型的预测能力较好,正确率较高。证明了用当前这五个特征,去构成信用评分卡的一部分分值是有效的,预测能力是较好的。
5 信用评分卡模型构建
实际上,评分卡模型构建一个最基本的要素就是基础分值和翻倍分值。
评分卡的参数设定:基础分值+PDO(比率翻倍分值)
基础分值:设定为600分
比率翻倍分值PDO: 20–每高20分好坏比翻一倍,好坏比为20。
个人总评分= 基础分+ 各部分得分
Score = offset + factor * log(odds)
总结
在大数据自动化审批实践中,信用评分技术已经是一项逐渐成熟的风险估值方法。在消费金融的风险控制实践中,信用评分卡模型已经得到广泛地应用。利用已有的历史数据对客户的信用状况进行量化,这种量化的直观反映就是信用的分值。通过对kaggle上的数据Give Me Some Credit的挖掘分析,结合信用评分卡的建立原理,通过数据预处理、变量选择、建模分析预测等方法创建了一个简单的信用评分系统。