打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
【数据分享】简化的评分卡、Smote采样和随机森林的信贷违约预测

查看全文:http://tecdat.cn/?p=27949

作者:Youming Zhang

随着互联网经济的迅猛发展,个人信贷规模在近年来呈现了爆炸式增长。信用风险 管控一直是金融机构研究的热点问题。信贷违约预测目标包括两个方面。其一是为了使 债务人通过模型来进行财务方面良性的决策。其二是债权人可以通过模型预测贷款人是 否会贷款后陷入财务方面的困境。我们以信贷平台上的数据查看文末了解数据获取方式作为信贷数 据样本,构造一个经典的传统信贷申请评分卡模型和随机森林预测模型帮助我们决策是否放贷。其中数据集24万条数据,59个特征。

相关视频

解决方案

任务/目标

根据申请贷款人的各项指标数据,我们通过机器学习算法解决放贷与不放贷的二分类问题。

数据源准备

在着手处理数据之前,我们先了解一下基本的数据情况,为接下来的数据预处理,

特征工程和建模做准备。首先我们明确目标特征为 loan_status,原数据集中fully paid 表示贷款完全结清,charged off 表示坏账注销。为了后期运用逻辑回归算法的方便,我们直接将其转换成数值变量,用 1 来表示违约,0 表示正常偿还。

数据探索

因为我们使用的算法为基于逻辑回归的评分卡和随机森林模型,特征之间的线性相关性会对模型建立的环节有所影响,所以利用热力图展示一下特征之间的相关性。

图中颜色越浅的部分,对应两两元素的相关性越强。我们在预处理和特征工程步骤对其需要着重处理。

数据预处理

对于缺失值,我们选择删除缺失值超过80%的特征,没有超过阈值的用众数补充。对于同值性变量,我们选择将大于95%的变量删除。因为异常值不多,所以那一行数据选择直接删除。由下图可以看出这是一个不平衡样本。

我们使用Smote上采样算法,使其平衡。

最后我们将数值型特征emp_length,home_ownership,verification_status,term,addr_state,purpose进行LabelEncoder编码。


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
阿里云工程师:用机器学习破解雾霾成因
案例:恒丰银行——对公客户贷后违约预测模型
美国信用体系综述及特点
实用贴:机器学习的关键环节——数据预处理
人工智能助力某银行提高放贷效率—基于Python语言开发信用评分卡(一)
一场与“微贷技术”的对话!
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服