数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测

news2024/10/6 8:25:41


全文链接:https://tecdat.cn/?p=33212

本文通过利用回归模型对天猫商品流行度进行了研究,确定了决定天猫商品流行度的重要因素。并讲述、论证了预测天猫商品流行度是天猫商品交易的至关重要的环节。通过对天猫商品流行度预测技术的发展和探讨,深度剖析了天猫商品流行度预测这个研究课题点击文末“阅读原文”获取完整代码数据)。

相关视频

一、 天猫商品流行度预测发展简介

本文使用的数据集为天猫商品数据集查看文末了解数据免费获取方式

8ed0ddbda9014f57a59891970cfcc4a4.png

它包含562个商品的属性数据。每个商品包括4个属性,具体的4个属性如下:

该数据集有以下一些变量:

列名 描述 
Item_id[ 1 , 8133507]为整数,表示唯一项(备注:两个以上商家同时提供的 A产品记录在多个不同ID的行中。例如,流行的手机如iPhone 6。)。 
Title一个包含多个关键字的 字符串,由' '  分隔。通过NLP系统从原始标题中提取单词。
Pict_url在线链接到对应图片的URL  。
Category 字符串' x-y ',其中  ' x '表示其父类,' y '表示其余类。
Brand_id字符串为' b1 '、' b89366 ',表示商品的品牌。
Seller_id字符串' s1 ',' s86799 ',表示出售该物品的卖方。

对数据进行概览

summary(data)

61adc66917af935e1fb143557448d1be.png

删除缺失值

datanew=na.omit(data)

主要思路

为了准确的估计流行度,了解天猫商品流行度的一般规律,更好为天猫商品投资方提供参考意见,本文从天猫商品流行度和天猫商品相关属性出发,采用多元回归分析方法,建立了线性回归模型,得出了天猫商品流行度变动的影响因素. 具体分析步骤:

1.关系分析

基于以上原理,为大致了解流行度与诸因素之间的关系,先分别绘制流行度与各个因素之间的散点图,并分析它们之间的关系 ,这样可以减少人为因素对流行度的影响,尽量将注意力集中在我们假设选用的自变量上。

2.选择多项式回归模型

2.1变量选取

通过向前向后逐步迭代回归模型筛选出显著性较强的变量进行回归建模。

2.2显著性检验

根据F值和p值统计量来判断模型是否具有显著的统计意义。

2.3拟合预测

使用得到的模型对实际数据进行拟合和预测。

3.拟合不同的模型。查看模型效果,包括对数回归模型,迭代回归模型。

4.分析得出结论

得出各个自变量之间的关系,以及它们对因变量的影响及其意义。   

流行度

查看每个类别的出现频率作为流行度,通过直方图查看每个类别出现的频率:

hist(datanew$category)

14671f6e0c34d4ba243d543d23f58e8b.png

对每个类别出现的频数的多少进行排序:

order(table(dataneg = T)

datanew$pop=   order(

da4c88e8258a2bc41d466df9008b255d.png

然后将出现最多的流行度排序为1,然后根据类比的出现频数递增。流行度越大,则出现越少。

建立多元线性:imdb

尝试通过最直观的解释建立模型:

进行多元线性模型并进行分析

设置dummy 变量 :从全变量模型可以看出大部分变量无法估计出其参数,说明部分变量不适合用来预测流行度,因此对其中的部分变量进行删减后。得到筛选后的回归模型。

筛选变量

显示回归结果:

1520a25dd58b4a99cdc2f58e0aafd26f.png

8f20f705528c548dba3f87336a0f10d5.png


点击标题查阅往期内容

1f7256e35fa73f7fdf3faab4011351c0.jpeg

贝叶斯线性回归和多元线性回归构建工资预测模型

outside_default.png

左右滑动查看更多

outside_default.png

01

50caa807db6515ecc8898c86ab1f540f.png

02

9f99173af29b98d4a11ce076552832fa.png

03

2824b54a3a79f226727e940b57e14df3.png

04

baef378b4ece78afd7f8b40b53a63f5a.png

模型比较

js
**取对数后的结果**  
summary(lmmod2)显示回归结果

d1af0553564c071e47073e6428a63958.png

58ef95a1492e28bec9a6cf2cdcf9bbe4.png

回归结果

plot(datanew$category

57c88209adb9360976cf2f2601de2846.png

回归结果分析

从输出结果可以看出, 流行度和类别和品牌图片地址 有显著相关关系 ,可以看到他们的回归系p数在显著性水平0.05下均显著不为零。进一步地剩余方差的估计值,f统计量的估计值对应的p值< 2.2e-16说明,回归方程是显著的。可决系数R,修正的可决系数R为 0.1左右说明方程的拟合效果一般,还有部分的流行度被其他变量所解释。

回归结果

99029ee8afeacc9bd4549e914f828764.png

置信区间与预测区间:

置信区间是给定自变量值后,由回归方程得到的的预测值(实际上是的平均值)的置信区间;预测区间是实际值的置信区间,在这里称为预测区间。预测区间要比置信区间稍大,命令与显示结果如下:

head(predict(lm))

14cb964be0baf55efd89b660478442d1.png

head(predict(lmmod

51d27108e38ae88889a718bdb36b9139.png

残差分析:

残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验,同时还可以找出离群点。命令语句为plot(lm.1),显示结果如下

par(mfrow=c(2,2))  
plot(lmmod2)

abc255c043f02f5618a2aba1eff80b18.png

左上图是拟合值与残差的散点图,从图上可以发现,除去第2个离群点外,所有点基本上是随机地分散在纵坐标值为-1和+1的两条平行线之间,这说明随机误差项具有同方差性;左下图是拟合值与残差的标准差的散点图,其意义与上面类似;右上图表明随机误差项是服从正态分布的,其原因是正态Q-Q图近似地可以看成一条直线;右下图的CooK距离图进一步证实第2个观测值是一个离群点,它对回归方程的影响是比较大的,要根据具体问题,讨论出现这一观测值的实际背景。


点击标题查阅往期内容

f02ee5e1db49d254a407e706f3af5410.jpeg

数据分享|R语言逐步回归、方差分析anova电影市场调查问卷数据可视化

outside_default.png

左右滑动查看更多

outside_default.png

01

outside_default.png

02

outside_default.png

03

outside_default.png

04

outside_default.png

逐步回归优化

使用逐步回归法建立“最优”的回归方程

stepmod=step

outside_default.png

summary(stepmod)查看模型参数与结果

outside_default.png

上面用“逐步向前向后回归法”,通过软件分析建立“最优”回归方程。向后回归法就是建立包含全部因子的回归方程,通过回归系数的检验,从回归方程中逐个剔除不显著的因子,直到留在方程中的因子都是显著的。

总结

从分析结果可以看出, 流行度和类别和品牌图片地址有显著相关关系 ,因此可以认为在天猫购物时,用户会比较关注商品的品牌因素,因为天猫都是正品商铺,购买的用户会比较关注商品的品牌是否为正品等。同时,由于天猫的商品质量有一定的保证,因此用户也会关注该商品的图片,同一个商品可能会因为图片不同而造成不同的流行度。图片好看的商品会有更好的流行度。

数据获取

在公众号后台回复“商品”,可免费获取完整数据。

outside_default.png

本文中分析的数据和代码分享到会员群,扫描下面二维码即可加群!

outside_default.png

outside_default.png

点击文末“阅读原文”

获取全文完整代码数据资料。

本文选自《R语言基于逐步多元回归模型的天猫商品流行度预测》。

outside_default.png

outside_default.png

点击标题查阅往期内容

Python用Keras神经网络序列模型回归拟合预测、准确度检查和结果可视化

R语言分位数回归Quantile Regression分析租房价格

数据分享|R语言逐步回归、方差分析anova电影市场调查问卷数据可视化

Eviews基于多元回归模型OLS的CPI影响因素分析

R语言逐步多元回归模型分析长鼻鱼密度影响因素

PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化

R语言集成模型:提升树boosting、随机森林、约束最小二乘法加权平均模型融合分析时间序列数据

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

R语言基于树的方法:决策树,随机森林,Bagging,增强树

R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

spss modeler用决策树神经网络预测ST的股票

R语言中使用线性模型、回归决策树自动组合特征因子水平

R语言中自编基尼系数的CART回归决策树的实现

R语言用rle,svm和rpart决策树进行时间序列预测

python在Scikit-learn中用决策树和随机森林预测NBA获胜者

python中使用scikit-learn和pandas决策树进行iris鸢尾花数据分类建模和交叉验证

R语言里的非线性模型:多项式回归、局部样条、平滑样条、 广义相加模型GAM分析

R语言用标准最小二乘OLS,广义相加模型GAM ,样条函数进行逻辑回归LOGISTIC分类

R语言ISLR工资数据进行多项式回归和样条回归分析

R语言中的多项式回归、局部回归、核平滑和平滑样条回归模型

R语言用泊松Poisson回归、GAM样条曲线模型预测骑自行车者的数量

R语言分位数回归、GAM样条曲线、指数平滑和SARIMA对电力负荷时间序列预测

R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化

如何用R语言在机器学习中建立集成模型?

R语言ARMA-EGARCH模型、集成预测算法对SPX实际波动率进行预测

在python 深度学习Keras中计算神经网络集成模型

R语言ARIMA集成模型预测时间序列分析

R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林分析心脏病患者

R语言基于树的方法:决策树,随机森林,Bagging,增强树

R语言基于Bootstrap的线性回归预测置信区间估计方法

R语言使用bootstrap和增量法计算广义线性模型(GLM)预测置信区间

R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析

R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

Matlab建立SVM,KNN和朴素贝叶斯模型分类绘制ROC曲线

matlab使用分位数随机森林(QRF)回归树检测异常值

outside_default.png

outside_default.png

outside_default.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/768138.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ModuleNotFoundError: No module named ‘neobolt.packstream._packer‘解决办法

python打包完成后运行报下述错误 在打包得python文件加入以下包&#xff0c;重新打包&#xff0c;问题解决 代码如下&#xff1a; import neobolt.packstream.packer import neobolt.packstream.unpacker import neobolt.bolt.io

PostgreSQL 的就业前景如何?

PostgreSQL的就业前景非常广阔&#xff0c;它是一种功能强大、可靠且开源的关系型数据库管理系统。以下是说明PostgreSQL就业前景的几个关键点&#xff1a; 1.高需求&#xff1a;随着企业和组织对数据存储和管理的需求不断增长&#xff0c;对数据库专业人员的需求也在持续上升…

基于linux下的高并发服务器开发(第二章)- 2.11 匿名管道概述

03 / 匿名管道 04 / 管道的特点 05 / 为什么可以使用管道进行进程间的通信 管道对应一个读端&#xff0c;一个写端。比如说往父进程的文件描述符5 往管道里面写数据&#xff0c;子进程的文件描述符6读出数据。 06 / 管道的数据结构 07 / 匿名管道的使用

win10下解决git报错 Permission denied(publickey)

今天在csdn的GitCode新建了一个项目&#xff0c;然后在windows下git clone时出现错误 gitgitcode.net: Permission denied (publickey). fatal: Could not read from remote repository. Please make sure you have the correct access rights and the repository exists. 完整…

transforms

batch norm是列标准化&#xff0c;layer norm是行标准化 transforms的encoder&#xff0c;这里省略了一些东西。每一个block都是输入一段向量&#xff0c;然后输出一段向量。每一个block不仅仅是一层layer。每一个block所做的事情&#xff0c;大概是先输出一段向量&#xff0c…

Elasticsearch 集群某一节点修改 IP 后无法启动问题复盘

1、集群环境及问题描述 集群版本&#xff1a;6.8.X集群节点&#xff1a;5节点&#xff08;三个节点为主数据节点&#xff0c;另外两个独立数据节点&#xff09;。问题描述&#xff1a;由于IP冲突&#xff0c;修改了一台服务器的IP&#xff0c;然后5台配置改了一下一次重启&…

导入虚拟机指定NAT模式 IP地址

选vmx扩展名的文件 然后设置IP 选择你自定义的那个网段 大功告成

基于51单片机和proteus的电流采集系统

此系统是基于51单片机和proteus的仿真设计&#xff0c;功能如下&#xff1a; 1. LCD1602实时显示获取到电流值及设定值。 2. 按键可调整电流设定值。 3. 电流值过高则蜂鸣器报警。 4. 指示灯指示电流及系统状态。 5. 系统信息可通过串口实时更新。 功能框图如下&#xff1…

C#窗体添加自定义控件

C#窗体添加自定义控件。 新建一个窗体项目&#xff1a; 在左侧工具箱点击右键选择添加选项卡&#xff1a; 将自定义控件的动态链接库&#xff08;.dll&#xff09;放到项目中&#xff1a;文件夹名字随意 在工具箱中选中刚刚添加的工具项&#xff0c;点击右键&#xff0c;选择添…

大模型开发(六):OpenAI Completions模型详解并实现多轮对话机器人

全文共8500余字&#xff0c;预计阅读时间约17~30分钟 | 满满干货(附代码)&#xff0c;建议收藏&#xff01; 代码下载点这里 一、 Completions与Chat Completions基本概念 经过海量文本数据训练的大模型会在全量语义空间内学习语法关系和表达风格&#xff0c;并通过某些微调过…

13.postgresql--函数

文章目录 标量示例复合示例有返回值函数返回voidRETURN NEXT ,RETURN QUERYRETURN EXECUTEIF THEN END IFFOREACH,LOOPSLICE &#xff08;1&#xff09;如果函数返回一个标量类型&#xff0c;表达式结果将自动转行成函数的返回类型。但要返回一个复合&#xff08;行&#xff09…

python如何打包整个项目成exe文件?

首先需要进入项目打包文件所在的目录 运行以下命令打包 build_medicalgraph.py文件 pyinstaller -D build_medicalgraph.py 打包完成后一定要记得下面这个步骤&#xff0c;否则运行会发现报错 把数据文件给放到exe文件同级别目录下 除了以下文件保留&#xff0c;其他文件可以…

EXISTS和IN的区别

一.EXISTS和IN的介绍 1. exists exists返回的是true(空)和flase(非空) 对user表的每行数据逐条取出,每取一行,就判断exists后面的子语句的结果是否为空,是空,这行数据就不要,不是空,这行数据就留下. 如下&#xff1a; select * from user where exists (select 1); 对user表…

js计算数组中每个元素出现的次数

tip&#xff1a;空值合并运算符&#xff08;??&#xff09;是一个逻辑运算符&#xff0c;当左侧的操作数为 null 或者 undefined 时&#xff0c;返回其右侧操作数&#xff0c;否则返回左侧操作数。reduce() 方法对数组中的每个元素按序执行一个提供的 reducer 函数&#xff0…

VUE之基本组成和使用

参考资料&#xff1a; 参考视频 视频资料及个人demo vue官网 vue官网-vue.js组成说明 VUE之基本部署及VScode常用插件 关闭驼峰命名法的使用异常 VUE项目结构介绍&#xff1a; 通过上文步骤&#xff08;VUE之基本部署及VScode常用插件&#xff09;,我们创建了一个基本的…

【业务功能篇48】后端接口开发的统一规范

业务背景&#xff1a;日常工作中&#xff0c;我们开发接口时&#xff0c;一般都会涉及到参数校验、异常处理、封装结果返回等处理。而我们项目有时为了快速迭代&#xff0c;在这方面上有所疏忽&#xff0c;后续导致代码维护比较难&#xff0c;不同的开发人员的不同习惯&#xf…

5、Java入门教程【数组】

数组是用于存储同种类型的多个数据的容器。 一、声明 //语法 dataType[] arrayRefVar; // 首选的方法 或 dataType arrayRefVar[]; // 效果相同&#xff0c;但不是首选方法//示例 double[] myList; // 首选的方法 或 double myList[]; // 效果相同&…

服务机器人应用

随着时代的发展&#xff0c;机器人技术在各个领域越来越普及。在服务领域&#xff0c;服务机器人的应用也越来越受到人们的欢迎。服务机器人将会在商业、医疗、教育、酒店等领域得到应用&#xff0c;并成为未来发展的趋势。 在商业领域中&#xff0c;服务机器人可以承担很多工作…

分类预测 | MATLAB实现LSTM(长短期记忆神经网络)分类预测

分类效果 基本介绍 长短期记忆网络Q通常被称为LSTM,是一种特殊的RNN,能够学习长期依赖性。由Hochreiter和Schmidhuber(1997)提出的,并且在接下来的工作中被许多人改进和推广。 LSTM在各种各样的问题上表现非常出色,现在被广泛使用。LSTM被明确设计用来避免长期依赖性问…

vue3基础+进阶(一、Vue3项目创建并相比vue2熟悉项目结构)

目录 第一章、认识create-vue 1.1 简介 1.2 使用create-vue创建项目 1.2.1 创建步骤以及注意事项 1.2.2 注意事项 1.2.3 熟悉项目&#xff0c;与vue2区分 第一章、认识create-vue 1.1 简介 create-vue是Vue官网新的脚手架工具&#xff0c;底层切换到了vite(下一代前端工…