打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
浅谈数据分析之统计学描述

我们的数据分析为什么会牵扯到统计学?接下来我们就讲讲统计学的知识来告诉大家,为什么我们的数据分析总是会参杂着许多的统计学知识。

数据分析之统计学描述

前面我们提到数据分析涉及数学、计算机、经济、统计学等多门学科,其中统计学是其核心,统计学的描述对数据的分析和应用至关重要,当我们收集到需要的足够多的数据集之后,不是马上就应用EXCEL或其他分析软件直接分析,在此之前我们还需要做一个非常重要的动作,那就是进行统计学描述,统计学描述可以帮助梳理我们想要分析的问题是什么?我们需要用哪些关键的指标来获得我们想要的分析结果?不然一拿到数据就分析那会乱套,很可能你分析的不是您所想要的答案。为了达成此目的我们首先需要知道统计学描述和数据的关系。

一、统计学描述和数据的关系

统计学描述里通常分成集中趋势和离散趋势 。我们收集到的数据,有些数据值很集中,我们可以使用集中趋势的均数就可以反映该组数据的集中位置,但有的数据资料很分散,就需要用到离散趋势的“标准差”来反映数据的变动情况,也就是说集中趋势和离散趋势相结合才能更好的描述数据分布的特点。

1. 描述集中趋势的统计量

统计学中常用平均数来描述一组变量值的集中位置或平均水平。常用的统计量指标有均值、中位数和众数。

1) 算数均数:即为均数,用以反映一组呈对称分布的变量值在数量上的平均水平。

2)中位数:适用于偏态分布资料和一端或两端无确切的数值的资料,它统计第50百分位数。

3)众数:适用于数据中存在不同分组或类别数值的资料,挑出频数最高的数就是众数。

2. 描述离散趋势的统计量

离散趋势是反映资料的变异程度,常用指标有极差、四分位间距、方差与标准差。

1)极差(全距):为一组数据的最大值和最小值之差,但极差不能反映所有数据的变异大小,且极易受样本含量的影响。常用以描述偏态分布。

2)四分位数间距:它是由第3四分位数与第1四分位数相减得到,常和中位数一起描述偏态分布资料的分布,可以处理极差中遇到的异常值。

3)方差与标准差:反映一组数据的平均离散水平,消除了样本含量的影响,常和均数一起用来描述一组数据中的离散和集中趋势。

从统计学描述中我们也可以看到,单纯拥有有精确的数据集是没有任何价值,还需要准确的描述和分析方法,数据是静态的,而只有通过统计学描述把静态的数据转化为我们需要解决问题的具体分析报告才能解决问题,产生价值。

二、数据集的统计学描述

当我们理清楚了数据和统计学描述的关联后,我们现在就可以拿之前我们收集的行业数据来做统计学描述了;可以按下面三个步骤来进行描述。

1.熟悉数据集,数据来源、数据集大小、数据集各个字段的含义是什么?

数据来源:kaggle里下载的借款数据--借款人贷款偿还情况

数据集的大小:500×13列

数据集包括的字段有: loan_status(贷款状态)、Principal(原始借款金额)、terms(期限)、effective_date(起始时间)、due_date(计划到期时间)、paid_off_time(实际尝清时间)、past_due_days(逾期天数)、age(年龄)、education(学历)、Gender(性别)、custID(客户ID)、custname(客户名称)。

2.你想从该数据集中得到什么描述统计分析?

1)想要了解男性和女性贷款者的比例各自多少,以此了解男性贷款多还是女性贷款多。

2)想要了解客户逾期和不逾期的概率是多少,还有不同逾期区间的分析。

3)了解绝大部分贷款客户的年龄分布是在多少?

4)了解客户贷款金额的分布

其中:从性别字段可以得到女性贷款者与男性贷款者的比例各是多少。

从逾期天数字段可以得到逾期偿还与规定时间内偿还的概率和差异。

从年龄和逾期天数可以得到女性/男性逾期偿还的概率是多少。

从年龄列算出四分位数,可以由此画出箱线图,看中位数离哪个近,进一步得到大部分借款者的年龄在那个年龄段之间。也可以用同样的方法得到大部分贷款者贷款的原始贷款金额是多少。

3.你想从该数据集中分析那几个业务问题?

①原始借款金额与期限,对是否逾期贷款的影响?

②逾期贷款的人主要集中在哪个年龄段?哪个学历?

③年龄对贷款期限的影响?

看到没!数据分析会夹杂着这么多的统计学知识,但是亿信华辰的ABI让你不用懂统计学知识也能轻松进行数据分析。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
统计学之描述性统计 | Descriptive Statistics
SPSS基本统计分析
|管理科学与工程|《统计学》(10)描述性统计数据
Excel有哪些常用的数据描述与分析类函数?
统计学常用数据类型
Excel应用大全 | 正态分布
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服