大家好,我是小一
又到了新一期的数分实验室了,话不多说
先看项目
首先是一个贷款违约预测的项目
项目是以个人信贷为真实背景,根据贷款申请人的个人信息预测其是否会违约,如果会则不会通过此项贷款,否则则正常放款
项目的数据来自某信贷平台历史贷款记录,总数据量120w,包含47个特征,其中15个特征为匿名变量,并且因为数据比较敏感,已经对其中的部分字段做了脱敏处理。
项目比较长,主要分为两部分:
①数据探索性分析
此过程中主要借助于各个简单的统计量来对数据整体的了解
分析各个类型变量相互之间的关系,以及用合适的图形可视化出来直观观察。
数据探索性分析是我们初步了解数据,熟悉数据为特征工程做准备的阶段
甚至很多时候EDA阶段提取出来的特征可以直接当作规则来用。
项目地址:
https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.0.0.3b3068561jNcAq&postId=129320
②数据建模
此过程主要通过划分数据集、交叉验证等方式对模型的性能进行评估验证,并通过可视化方式绘制模型ROC曲线
最后对模型进行调参,通过贪心调参、网格搜索调参、贝叶斯调参等三种调参手段,并对贝叶斯调参做了重点介绍
这篇是我之前学习算法时写的笔记,项目中介绍的概念比较详细,但是可能也会有些啰嗦。
大家在实际操作的过程中可以参考笔记中的思路进行优化,不必拘泥于具体实例。
项目地址:
https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.0.0.3b3068561jNcAq&postId=129346
其次是信用卡欺诈检测项目
项目的目标是通过信用卡的284807笔交易数据建立一个信用卡欺诈检测模型,对欺诈和非欺诈交易进行检测
由于284807笔交易中有只492笔属于欺诈,只占整体交易的0.172%,所以如何使用数据集是项目的重点,如何解决样本不平衡问题是项目的核心
数据探索部分:
数据建模部分:
对了,在这种项目中,有一个点比较重要,那就是准确率。
想象一下,如果模型将正常交易归类为欺诈交易,正在进行正常消费的人被封卡,这对金融机构来说将是一个巨大的bug。
另外,因为欺诈交易的案例比较少,在做数据过采样的时候,由于模型无法正确检测大量的非欺诈交易,如果将非欺诈交易归类为欺诈交易,这也将是巨大的问题。
不过,这些问题在项目也都有相应的解决方法,感兴趣的可以学习下
项目地址:
https://www.kaggle.com/code/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets
写文章的时候看到了朋友圈转发的一款写论文神器,号称是最强 AI 对话系统的 ChatGPT
写得了代码、改得了 Bug,小说、段子统统不在话下
但是,在StackOverflow上,ChatGPT却被暂时封禁了
官方是这样说的:
Stack Overflow 称 ChatGPT 答案的正确率非常低,因此对整个网站以及寻求正确答案的用户来说是有害的。
例如,要求 ChatGPT 写一个公众人物的传记,它可能会很自信地插入不正确的传记数据。
再比如要求它解释如何为特定功能编写软件程序,它同样可以生成可信但最终不正确的代码。如果用户被发现使用 ChatGPT 回答问题,他们可能会受到禁止继续发帖的惩罚。
所以啊,想着用ChatGPT写代码、做毕设的宝子们
可得小心了
毕竟,正确率可是非常低的
今天就聊这么多吧,我是小一,我们下期见~
联系客服