打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测

本文通过利用回归模型对天猫商品流行度进行了研究,确定了决定天猫商品流行度的重要因素。并讲述、论证了预测天猫商品流行度是天猫商品交易的至关重要的环节。通过对天猫商品流行度预测技术的发展和探讨,深度剖析了天猫商品流行度预测这个研究课题

相关视频

一、 天猫商品流行度预测发展简介

本文使用的数据集为天猫商品数据集查看文末了解数据免费获取方式

它包含562个商品的属性数据。每个商品包括4个属性,具体的4个属性如下:

该数据集有以下一些变量:

列名 描述 
Item_id[ 1 , 8133507]为整数,表示唯一项(备注:两个以上商家同时提供的 A产品记录在多个不同ID的行中。例如,流行的手机如iPhone 6。)。 
Title一个包含多个关键字的 字符串,由' '  分隔。通过NLP系统从原始标题中提取单词。
Pict_url在线链接到对应图片的URL  。
Category 字符串' x-y ',其中  ' x '表示其父类,' y '表示其余类。
Brand_id字符串为' b1 '、' b89366 ',表示商品的品牌。
Seller_id字符串' s1 ',' s86799 ',表示出售该物品的卖方。

对数据进行概览

summary(data)

删除缺失值


datanew=na.omit(data)

主要思路

为了准确的估计流行度,了解天猫商品流行度的一般规律,更好为天猫商品投资方提供参考意见,本文从天猫商品流行度和天猫商品相关属性出发,采用多元回归分析方法,建立了线性回归模型,得出了天猫商品流行度变动的影响因素. 具体分析步骤:

1.关系分析

基于以上原理,为大致了解流行度与诸因素之间的关系,先分别绘制流行度与各个因素之间的散点图,并分析它们之间的关系 ,这样可以减少人为因素对流行度的影响,尽量将注意力集中在我们假设选用的自变量上。

2.选择多项式回归模型

2.1变量选取

通过向前向后逐步迭代回归模型筛选出显著性较强的变量进行回归建模。

2.2显著性检验

根据F值和p值统计量来判断模型是否具有显著的统计意义。

2.3拟合预测

使用得到的模型对实际数据进行拟合和预测。

3.拟合不同的模型。查看模型效果,包括对数回归模型,迭代回归模型。

4.分析得出结论

得出各个自变量之间的关系,以及它们对因变量的影响及其意义。   

流行度

查看每个类别的出现频率作为流行度,通过直方图查看每个类别出现的频率:

hist(datanew$category)

对每个类别出现的频数的多少进行排序:

order(table(dataneg = T)

datanew$pop=   order(

然后将出现最多的流行度排序为1,然后根据类比的出现频数递增。流行度越大,则出现越少。

建立多元线性:imdb

尝试通过最直观的解释建立模型:

进行多元线性模型并进行分析

设置dummy 变量 :从全变量模型可以看出大部分变量无法估计出其参数,说明部分变量不适合用来预测流行度,因此对其中的部分变量进行删减后。得到筛选后的回归模型。

筛选变量

显示回归结果:


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
R语言函数总结
最全整理!万字原创读书笔记,数据分析的知识点全在这里了
一分钟看完初级计量经济学核心
论文解读:Factorization Machine(FM)
关于R square的一点总结与心得
【机器学习系列】广义线性模型
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服