随着互联网经济的迅猛发展,个人信贷规模在近年来呈现了爆炸式增长。信用风险 管控一直是金融机构研究的热点问题。信贷违约预测目标包括两个方面。其一是为了使 债务人通过模型来进行财务方面良性的决策。其二是债权人可以通过模型预测贷款人是 否会贷款后陷入财务方面的困境。我们以信贷平台上的数据(查看文末了解数据获取方式)作为信贷数 据样本,构造一个经典的传统信贷申请评分卡模型和随机森林预测模型帮助我们决策是否放贷。其中数据集24万条数据,59个特征。
相关视频
根据申请贷款人的各项指标数据,我们通过机器学习算法解决放贷与不放贷的二分类问题。
在着手处理数据之前,我们先了解一下基本的数据情况,为接下来的数据预处理,
特征工程和建模做准备。首先我们明确目标特征为 loan_status,原数据集中fully paid 表示贷款完全结清,charged off 表示坏账注销。为了后期运用逻辑回归算法的方便,我们直接将其转换成数值变量,用 1 来表示违约,0 表示正常偿还。
因为我们使用的算法为基于逻辑回归的评分卡和随机森林模型,特征之间的线性相关性会对模型建立的环节有所影响,所以利用热力图展示一下特征之间的相关性。
图中颜色越浅的部分,对应两两元素的相关性越强。我们在预处理和特征工程步骤对其需要着重处理。
对于缺失值,我们选择删除缺失值超过80%的特征,没有超过阈值的用众数补充。对于同值性变量,我们选择将大于95%的变量删除。因为异常值不多,所以那一行数据选择直接删除。由下图可以看出这是一个不平衡样本。
我们使用Smote上采样算法,使其平衡。
最后我们将数值型特征emp_length,home_ownership,verification_status,term,addr_state,purpose进行LabelEncoder编码。
联系客服