打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
【神预测】数据分析精准预测2019天猫双11成交额! 误差仅仅千分一!


 CDA数据分析师 出品  

编辑:Mika

视频主播:曹鑫

后期:泽龙 Mika

设计:一凡    参与:海龙

大家好,2019 年的双 11 过去了,成交额又破记录了!你贡献了多少?

在上期节目的最后,我们留下了一个问题,就是这次双十一成交额会冲到多少。(上期内容请看《今年双11,你盖楼了吗? | 用数据解读不一样的双11》)

很多朋友留言,有的说会破3000亿,也有人说会不如去年。

点击下方视频,先睹为快:

【神预测】

数据分析精准预测2019天猫双11成交额! 

差仅仅千分一!

我也跑去问了我那个睿智的同事,他预测能到多少。他推了推眼镜对我说,今年成交额会在2680亿元左右。

当时我不知道这个有多厉害,直到今天12号零点钟声敲响,天猫官方公布的最终数据,双11成交额为2684亿元,我才震惊地发现,我这个睿智的同事,他竟然神预测了,误差仅仅千分之一

我知道你们有人肯定会觉得我们这个是不是搞什么马后炮的事件营销,来博眼球!

不要忘了我们的口号:Show me data,用数据说话!

我睿智的同事给我展示了一堆代码,画了一堆图....

下面,我用最通俗的语言来给大家讲一遍。

首先,我们要观察数据,对着 Excel 表光光看肯定是不行的,很难看出规律。让我们用散点图的形式来列出2009-2018这十年的天猫双11成交额数据。

这个图的形态,不管你是不是专业的数据分析师,就算是小孩子,都能拿个笔、画个线,把点连起来。

没错,我们接下来要做的就是这事儿,不过数据分析领域的专业名词叫做“拟合”,我们用 sklearn 这个库来做一个多项式回归拟合。

不要问为什么,问就是 Python !

这个函数就是帮我们来画个能连起来最多点的曲线。

这个过程我们也称为训练,一般情况我们需要反复地训练,结果这个数据太完美,轻松一画,点一个不落地被曲线串起来了。

关键点来了,让人来画线的话,跟着点连线没问题,点没了线往哪儿画就各有各的方向了。而数据分析的代码已经把这个曲线的参数记录了下来,要预测未来的数据就非常简单了。

这就是我睿智的同事预测的2680 亿元的方法。

具体代码如下:

import sklearn.pipeline as pl
import sklearn.linear_model as lm
import sklearn.preprocessing as sp
import matplotlib.pyplot as mp
import numpy as np
import sklearn.metrics as sm

# 采集数据
x, y = np.loadtxt('ex0.txt', delimiter=',', usecols=(01), unpack=True)
# 把输入变为二维数组,一行一样本,一列一特征
x = x.reshape(-11)

# 创建模型
model = pl.make_pipeline(
    sp.PolynomialFeatures(5),  # 多项式特征拓展器
    lm.LinearRegression()  # 线性回归器
)
# 训练模型
model.fit(x, y)
# 求预测值y
pred_y = model.predict(x)
# 绘制多项式回归线
px = np.linspace(x.min(), x.max(), 1000)
px = px.reshape(-11)
pred_py = model.predict(px)

# 绘制图像
mp.figure("Poly Regression", facecolor='lightgray')
mp.title('Poly Regression', fontsize=16)
mp.tick_params(labelsize=10)
mp.grid(linestyle=':')
mp.xlabel('x')
mp.ylabel('y')

mp.scatter(x, y, s=60, marker='o', c='dodgerblue', label='Points')
mp.plot(px, pred_py, c='orangered', label='PolyFit Line')
mp.tight_layout()
mp.legend()
mp.show()

其实通过这个方法,我们靠着2016年之前的数据,就能够预测出 2017年的成交额是1660亿元,与实际的1682亿元,误差是1.28%,能够预测出 2018年的成交额是2139亿元,与实际的2135亿元,误差是0.21%

而今年预测的 2680 亿元,与实际的 2684 亿元,误差仅仅0.14%,千分之一。

按照同样的方法,如果让我们提前一年预测一下 2020 年的双11成交额,将成功打破 3000 亿,达到3282亿元,至于准不准,我们只能等到明年的双十一了。

下面开始技术总结

第一,用Python的可视化库matplotlib绘制散点图,观察并选取适合的模型

第二,用Python的机器学习库sklearn进行多项式回归建模

第三,预测并非如此简单,拟合也可能过度拟合,因此还要考虑其他很多因素

本期技术总结完毕


Show me data,用数据说话

今天就到这里,如果你喜欢本期内容

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
用Python开始机器学习(3:数据拟合与广义线性回归)
[Python从零到壹] 十二.机器学习之回归分析万字总结全网首发(线性回归、多项式回归、逻辑回归)...
如何选择合适的损失函数,请看......
一文全览机器学习建模流程(Python代码)
解密天猫双11成交数据的“神奇”拟合:统计的障眼法 | 陈经
每天一点数据分析——数据分析工作全剖析
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服