这2个项目，写进简历直接秀翻200%

大家好，我是小一

又到了新一期的数分实验室了，话不多说

先看项目

>1、贷款违约预测

首先是一个贷款违约预测的项目

项目是以个人信贷为真实背景，根据贷款申请人的个人信息预测其是否会违约，如果会则不会通过此项贷款，否则则正常放款

项目的数据来自某信贷平台历史贷款记录，总数据量120w，包含47个特征，其中15个特征为匿名变量，并且因为数据比较敏感，已经对其中的部分字段做了脱敏处理。

项目比较长，主要分为两部分：

①数据探索性分析

此过程中主要借助于各个简单的统计量来对数据整体的了解

分析各个类型变量相互之间的关系，以及用合适的图形可视化出来直观观察。

数据探索性分析是我们初步了解数据，熟悉数据为特征工程做准备的阶段

甚至很多时候EDA阶段提取出来的特征可以直接当作规则来用。

项目地址：
https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.0.0.3b3068561jNcAq&postId=129320

②数据建模

此过程主要通过划分数据集、交叉验证等方式对模型的性能进行评估验证，并通过可视化方式绘制模型ROC曲线

最后对模型进行调参，通过贪心调参、网格搜索调参、贝叶斯调参等三种调参手段，并对贝叶斯调参做了重点介绍

这篇是我之前学习算法时写的笔记，项目中介绍的概念比较详细，但是可能也会有些啰嗦。

大家在实际操作的过程中可以参考笔记中的思路进行优化，不必拘泥于具体实例。

项目地址：
https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.0.0.3b3068561jNcAq&postId=129346

>2、信用卡欺诈检测

其次是信用卡欺诈检测项目

项目的目标是通过信用卡的284807笔交易数据建立一个信用卡欺诈检测模型，对欺诈和非欺诈交易进行检测

由于284807笔交易中有只492笔属于欺诈，只占整体交易的0.172％，所以如何使用数据集是项目的重点，如何解决样本不平衡问题是项目的核心

数据探索部分：

数据建模部分：

对了，在这种项目中，有一个点比较重要，那就是准确率。

想象一下，如果模型将正常交易归类为欺诈交易，正在进行正常消费的人被封卡，这对金融机构来说将是一个巨大的bug。

另外，因为欺诈交易的案例比较少，在做数据过采样的时候，由于模型无法正确检测大量的非欺诈交易，如果将非欺诈交易归类为欺诈交易，这也将是巨大的问题。

不过，这些问题在项目也都有相应的解决方法，感兴趣的可以学习下

项目地址：
https://www.kaggle.com/code/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets

>3、收尾

写文章的时候看到了朋友圈转发的一款写论文神器，号称是最强 AI 对话系统的 ChatGPT

写得了代码、改得了 Bug，小说、段子统统不在话下

但是，在StackOverflow上，ChatGPT却被暂时封禁了

官方是这样说的：

Stack Overflow 称 ChatGPT 答案的正确率非常低，因此对整个网站以及寻求正确答案的用户来说是有害的。
例如，要求 ChatGPT 写一个公众人物的传记，它可能会很自信地插入不正确的传记数据。
再比如要求它解释如何为特定功能编写软件程序，它同样可以生成可信但最终不正确的代码。如果用户被发现使用 ChatGPT 回答问题，他们可能会受到禁止继续发帖的惩罚。

所以啊，想着用ChatGPT写代码、做毕设的宝子们

可得小心了

毕竟，正确率可是非常低的

今天就聊这么多吧，我是小一，我们下期见～

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。