打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
数据分析之前,描绘数据所对应的可视化图形有多么的重要!

线性回归基本条件是x与y间存在线性关系,如何判断呢,我们可以事先画一张散点图来观察,比如下图:


x与y的关系似乎可以用直线关系刻画,也不排除用曲线关系刻画,对吧。看完这张图,至少了解到就该样本数据拟合线性关系是可以尝试的,曲线关系有,不是很明显,样本量增加后再做考虑。

为什么强调开始回归前,一定要散点图观察线性关系呢?大家看下面这个统计学发现。

1973年,统计学家F.J. Anscombe构造出了四组奇特的数据。它告诉人们,数据分析之前,描绘数据所对应的可视化图形有多么的重要!


咱们暂且称之为:安斯库姆四重奏。数据如上表,有四组x与y的数据。

我现在直接用Anscombe的四组数据拟合回归,你看下面的四个回归系数表格,几乎完全一致。


四组不同的数据,直接得到的回归方程均为:

y=3+0.5x

相关系数均为:0.82

太惊人了,这四组数据实际上是完全不同的!但线性回归、相关系数结果竟然完全一致!

然而,然并卵,当我们分别绘制四组数据的散点图后,再细看,点的分布差异完全不同。


图1 线性关系
图2 曲线关系
图3 极端异常值
图4 太辣眼睛

可就是这样的四组数据,如果我们不做散点图进行线性观察判断的话,假设你先做相关分析,相关系数同为0.82,高度相关,再马上做线性回归,好像很顺利,其实错的是一塌糊涂。

安斯库姆四重奏不仅是提示线性回归前统计图辅助观察判断额重要性,几乎所有统计分析/数据分析都适用的。

在分析数据之前,描绘数据所对应的可视化图形有多么的重要!

本文完
文/图=数据小兵


给自家课程打个广告:


坚持更新维护4年多的视频课程,在虎年即将全面提价,一次购买可享后期所有更新迭代,学习过程中如有疑问疑惑,可及时联系小兵答疑讨论交流解决问题。

不做僵尸课,不做代分析,专心做好课程内容、1对1问题答疑,打磨升级,保价保值,越早加入越实惠。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
回归分析无意义时莫要灰心
使用Excel做数据分析之回归分析方法
日常教学数据分析与可视化方法 参考论文
挖掘数据与表达,是时候提升数据分析水平了
数据科学家应该拥有的8个好习惯
数据分析要会简单线性回归
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服