多元统计分析——基于R的笔记本电脑价格与参数可视化

news2024/9/20 22:56:31

注:能力有限,存在不足之处。

         现如今,笔记本电脑现在已经成为了我们日常生活中所必备的一种工具,使用笔记本既可以为我们在学习上带来便利也可以在为我们在工作上带来便利,但是笔记本的价格与许多参数有关,因此,关于笔记本的价格与参数,展开研究。

一、提出问题(要解决或分析的问题)

        1、根据笔记本电脑参数预测价格

        2、笔记本电脑的参数为什么区别大

二、数据来源及选取方法

数据集来源:kaggle(Laptop price predictor | Kaggle)。

数据集说明:该数据集的上传时间为2019年,因此可以说该数据集是关于2019年印度四大笔记本制造商的笔记本电脑(intel处理器)的参数与销售价格。

选取方法:根据提出的问题,选择作图分析的方法以及利用主成分回归分析对价格进行预测的方法。

 三、数据可视化分析

 3.1数据信息基本描述

#导入数据集
data <- read.csv('C:\\Users\\leglon\\Desktop\\假期r\\1\\多元统计分析\\期末1\\laptop_pricing.csv')
#查看并修改列名,便于操作
colnames(data) <- c("Manufacturer","Series","IntelCoreGen","processingSpeed","Ram","HDD","SSD","Graphics","ScreenSize","Price")
#查看数据集的基本信息
data$Manufacturer <- factor(data$Manufacturer,levels = c("Dell","HP","ASUS","Lenovo"),labels = c(0,1,2,3))
data$Manufacturer <- as.numeric(data$Manufacturer)
head(data)
str(data)
summary(data)

 数据集中各参数的解释如下:

其中,SSD为0表示没有固态硬盘只有机械硬盘;Graphics为0表示没有独立显卡,显存为0。 

3.2 采用的多元分析方法 

        主成分分析法:主成分分析(PCA)的目标是用一组较少的不相关变量代替大量相关变量,同时尽可能保留初始变量的信息,这些推导所得的变量称为主成分,它们是观测变量的线性组合。假如此时有第一主成分为: 

PC1 = a1X1 + a2X2 + … + akXk

它是k个观测变量的加权组合,对初始变量集的方差解释性最大。第二主成分也是初始变量的线性组合,对方差的解释性排第二,同时与第一主成分正交(不相关)。后面每一个主成分都最大化它对方差的解释程度,同时与之前所有主成分都正交。理论上来说我们可以与变量数相同的主成分,但从实用的角度来看,我们更希望能用较少的主成分来近似全变量集。

3.3数据可视化分析结果及解释

 (1)不同品牌的笔记本数量

brand <- factor(data$Manufacturer,labels = c("Dell","HP","ASUS","Lenovo"),levels = c(1,2,3,4))
plot(brand,main = "不同品牌的笔记本数量",xlab = "笔记本制造商",ylab = "笔记本数量")
#可以看出,该地区HP和Lenovo两个品牌的电脑型号较多,而ASUS以及Dell品牌的笔记本电脑较少

(2) 固态与机械硬盘可视化

hdd <- table(data$HDD);hdd
ssd <- table(data$SSD);ssd
opar <- par(mfrow = c(1,2))
barplot(hdd,main = "机械硬盘",xlab = "机械硬盘大小(Gb)", ylab = "配备数量")
barplot(ssd,main = "固态硬盘",xlab = "固态硬盘大小(Gb)", ylab = "配备数量")
par(opar)

         如图,该地区的笔记本电脑大多数都配备了1000Gb的机械硬盘,并且大多数电脑没有配备固态硬盘。

(3)笔记本电脑配备可视化


opar <- par(mfrow = c(2,2))
barplot(table(data$Ram),main = "内存配备图",xlab = "内存大小)", ylab = "配备数量")
barplot(table(data$Graphics),main = "独显显存",xlab = "显存大小", ylab = "配备数量")
barplot(table(data$ScreenSize),main = "屏幕尺寸配备图",xlab = "屏幕尺寸", ylab = "配备数量")
par(opar)

        如图,当地笔记本电脑配备的不同内存、独显、屏幕尺寸如图,可以看出,大多数配置都在中下水平。 

(4)不同销售商的笔记本电脑价格可视化


x <- data[order(data$Price), ] #排序
x$color[x$Manufacturer == 1] <- "red"
x$color[x$Manufacturer == 2] <- "blue"
x$color[x$Manufacturer == 3] <- "green"
x$color[x$Manufacturer == 4] <- "pink"
x$color 
dotchart(x$Price, labels = row.names(x), cex = 0.8, 
         pch = 11, groups = x$Manufacturer, 
         gcolor = "black", color = x$color, 
         main = "不同销售商的笔记本电脑价格", 
         xlab = "价格(卢比)")

        如图,该地区HP和Lenovo两个笔记本制造商发售的笔记本型号最多。还可以看出不同销售商的笔记本电脑价格,其中红色为Dell,蓝色为HP,绿色为ASUS,粉色为Lenovo,其中,ASUS有着价格最高的电脑。 

 3.4 做主成分可视化分析

# 进行主成分分析
PCA <- princomp(data,cor = TRUE);summary(PCA)
#前四个主成分累积贡献率达到85%,第四主成分的标准差也接近1
#碎石图
screeplot(PCA,type="lines")
#选择前四个主成分,达到了降维的目的

 

根据碎石图和特征值,选择了前四个主成分做主成分回归分析,进行模型测试。 


# 主成分载荷
PCA$loadings
c <- cor(data);eigen(c)

#主成分回归
pre<-predict(PCA)
data$z1<-pre[,1]
data$z2<-pre[,2]
data$z3<-pre[,3]
data$z4<-pre[,4]
data.lm<-lm(
  data$Price~z1+z2+z3+z4, data=data)
summary(data.lm)
#根据主成分分析的结果,F检验对应P值 = 5.535e-15,并且调整后的R平方为0.9386  ,模型通过了检验,可以认为模型的拟合效果较好。

#对主成分模型作变换, 得到原坐标下的关系表达式:
beta<-coef(data.lm); A<-loadings(PCA)
x.bar<-PCA$center; x.sd<-PCA$scale
coef<-(beta[2]*A[,1]+ beta[3]*A[,2]+ beta[4]*A[,3]+beta[5]*A[,4])/x.sd
beta0 <- beta[1]- sum(x.bar * coef)
c(beta0, coef)
#得到的关系表达式为:
#Price = -323912.8 - 5313.315 * Manufacturer + 593.7563 * Series - 2284.516 * IntelCoreGen + 11652.16 * processingSpeed + 4293.208 * Ram 
# - 4.322066 * HDD + 37.29517 * SSD + 5564.728 * Graphics + 21796.82 * ScreenSize

#测试模型,用第一组数据预测价格
Price = -323912.8 - 5313.315 * 1 + 593.7563 * 3 - 2284.516 * 7 + 11652.16 * 2.29 + 4293.208 * 4 - 4.322066 * 1000 + 37.29517 * 0 + 5564.728 * 0 + 21796.82 * 15.6
Price / 39057 #第一组的准确率为92.5%

         根据主成分分析的结果,F检验对应P值 = 5.535e-15,并且调整后的R平方为0.9386  ,模型通过了检验,可以认为模型的拟合效果较好。

        对主成分模型作变换, 得到原坐标下的关系表达式系数:

使用第一组数据对模型进行测试,结果如下: 

 如图,测试的结果有92.5%的准确率。

四、讨论和小结:联系实际,分析问题(对应第一部分提出的问题)

        1、根据分析,在使用主成分回归的方法后,得到了回归模型,并利用数据对笔记本电脑的价格进行了预测。可以说明,笔记本电脑的价格Manufacturer(笔记本制造商),Series(intel处理器系列),IntelCoreGen(intel处理器核心), processingSpeed(处理器主频), Ram(内存), HDD(机械硬盘), SSD(固态硬盘), Graphics(显存大小), ScreenSize(屏幕尺寸)之间有关系,但我认为该模型还可以再添加其他的参数,如散热水平,音质等,这些我认为也是影响笔记本电脑价格的因素。 

         2、 根据作图分析,以intel处理器的笔记本电脑为例,印度地区在2019年发售最多的笔记本电脑品牌是HP与Lenovo,而剩下的Dell与ASUS发售的款式较少,其中Dell发售的款式售价都较低,或许主打的是低端市场,而ASUS发售的款式价格有低的也有高的,面向了更多的用户。

        而发售机型较多的HP与Lenovo,然用户有了更多选择的空间。 用户也可能会考虑到不同制造商的口碑,来选择是否购买产品,而制造商也会因为口碑来调整产品的价格。

        在这四家厂商发售的电脑中,大多数笔记本电脑都配备了机械硬盘而没有配备固态硬盘,固态硬盘比机械硬盘有着更快的速度,但价格也更贵,可以看出配备了固态硬盘的笔记本电脑价格都比较高,内存与它相同,内存越大,笔记本电脑的价格也越高。可以看出,厂商们在选择了中等容量的内存条以及机械硬盘的时候,就是考虑到了印度的消费水平,这也解释了为什么笔记本电脑的参数为什么区别大,用户可以通过后期自行升级内存与硬盘的方式来得到更好的体验,同时满足了客户对价格与配置的需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2058878.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

构建个人编程学习的知识宝库:高效笔记记录与整理策略

文章目录 每日一句正能量前言笔记工具选择笔记结构设计实践与复习策略后记 每日一句正能量 人生之美&#xff0c;不在争求&#xff0c;而在静守。只愿此心&#xff1a;一世清宁&#xff0c;安然盛开&#xff01; 前言 在编程的广阔天地中&#xff0c;我们如同探险者&#xff0…

Stable Diffusion最强插件ControlNet简介

前言 随着人工智能技术的飞速发展&#xff0c;图像生成已经成为了一个热门领域。在这其中&#xff0c;Stable Diffusion插件ControlNet凭借其创新的技术和强大的功能&#xff0c;获得了一致好评。 所有的AI设计工具&#xff0c;模型和插件&#xff0c;都已经整理好了&#xff…

SpringBoot笔记01

第1章 Spring Boot概要 1.1 SpringBoot介绍 随着动态语言的流行&#xff08;Ruby、Scala、Node.js&#xff09;, Java的开发显得格外的笨重&#xff1b;繁多的配置、低下的开 发效率、复杂的部署流程以及第三方技术整合难度大。 在上述环境下&#xff0c;Spring Boot由此诞生…

《Techporters架构搭建》-Day06 Springboot国际化

Springboot国际化 什么是国际化&#xff1f;为什么使用国际化&#xff1f;国际化细分国际化相关知识Locale对象MessageSource接口LocaleResolver接口国际化文件 国际化一般实现国际化改进版框架中国际化 源码地址&#xff1a;请看day06 什么是国际化&#xff1f; 国际化&#…

Ubuntu24.04用C++ Connector连接MySQL数据库

首先安装MySQL官方提供的C Connector库。 sudo apt-get install libmysqlcppconn-dev 然后找一个目录&#xff0c;建立一个main.cpp文件。 #include <iostream> #include <mysql_driver.h> #include <mysql_connection.h> #include <cppconn/statemen…

vscode提升:JSON 中不允许有注释

解决方案 &#xff1a; 运行&#xff1a; json with comment 参考链接&#xff1a; https://blog.csdn.net/eqizhihui/article/details/134014010 人工智能学习网站 https://chat.xutongbao.top

逆变器的防孤岛测试基础知识

防孤岛测试是逆变器并网前的重要测试项目&#xff0c;主要用于验证并网发电系统在电网断电的情况下&#xff0c;能否快速、准确地检测到电网的失电状态&#xff0c;并在规定的时间内停止向电网输送电能&#xff0c;以防止电力系统出现孤岛效应。 孤岛效应是指当电网因故障或停电…

Chainlit接入FastGpt接口快速实现自定义用户聊天界面

前言 由于fastgpt只提供了一个分享用的网页应用&#xff0c;网页访问地址没法自定义&#xff0c;虽然可以接入NextWeb/ChatGPT web等开源应用。但是如果我们想直接给客户应用&#xff0c;还需要客户去设置配置&#xff0c;里面还有很多我们不想展示给客户的东西怎么办&#xf…

数论(二)——博弈论与组合计数

文章目录 4题单A - [有趣的数](https://www.acwing.com/problem/content/description/3198/)B - [取数游戏 II](https://www.luogu.com.cn/problem/P1288)C - [acwing-nim](https://www.acwing.com/problem/content/submission/code_detail/29453954/)D - [排列计数](https://w…

C语言小tip之整型提升

今天让我们来学习一下C语言中的一个小知识点-----整型提升 什么叫整型提升呢&#xff1f; C语言中整型算术运算总是至少以缺省&#xff08;默认&#xff09;整型类型的精度来进行的。​为了获得这个精度&#xff0c;表达式中的字符和短整型操作数在使用之前被转换为普通整型&a…

从大模型到通用AI《智能计算系统》带你揭秘大模型背后的智能计算革命

“只要你想把大模型做得更好、做得更大、做得更快、做得更省电&#xff0c;你就必须要有系统的人才跟思维。 . 我们这个领域变化得特别快,教的内容,教的方式,都要不断地变化。如果我们中国的研究者和教育者做得更好一点如果我们在具身智能的大模型上,或者是说在未来终极的通用人…

AI预测福彩3D采取888=3策略+和值012路或胆码测试8月21日新模型预测第63弹

经过62多期的测试&#xff0c;当然有很多彩友也一直在观察我每天发的预测结果&#xff0c;得到了一个非常有价值的信息&#xff0c;那就是9码定位的命中率非常高&#xff0c;62多期一共只错了6次&#xff0c;这给喜欢打私房菜的朋友提供了极高价值的预测结果~当然了&#xff0c…

【JVM】JVM解析字节码文件过程(二)

JVM解析字节码文件过程 字节码中的数据结构 field_info 在Java字节码中&#xff0c;field_info结构是用来描述类或接口中的字段(成员变量的)。每个field_info结构对应类文件中的一个字段。其中它的组成部分包括如下&#xff1a; 1.access_flags:访问标志,表示字段的访问级别(如…

哪款骨传导耳机好?2024不同价位骨传导耳机推荐!

对于我个人而言&#xff0c;蓝牙耳机早已成为了我形影不离的“私人音乐盒”&#xff0c;满足了我日常各式各样的需求&#xff0c;仿佛是身体的一部分&#xff0c;不可或缺。然而&#xff0c;我也曾面临一个不小的挑战——由于耳孔小巧且敏感&#xff0c;长时间佩戴传统的入耳式…

使用钉群发送告警通知

创建钉群&#xff0c;添加机器人 创建群 添加机器人并设置信息 需要注意的是设置“安全设置”时如果使用自定义关键词方式&#xff0c;那设置的内容必须要包含告警消息的内容 代码 模拟http请求发送通知 /*** param content 消息内容* param webhook 设置告警通知的群中机器…

基于vue框架的搬家网平台iz216(程序+源码+数据库+调试部署+开发环境)系统界面在最后面。

系统程序文件列表 项目功能&#xff1a;用户,服务项目,订单信息,工人,商家,项目类型,指派信息,进度情况,服务评价 开题报告内容 基于Vue框架的搬家网平台开题报告 一、引言 随着城市化进程的加快和人们生活水平的提高&#xff0c;搬家服务需求日益增长。传统的搬家服务往往…

pygame开发课程系列(8):进阶开发

第八章 进阶学习 在本章中&#xff0c;我们将深入探讨一些高级的游戏开发技巧。这些技术可以使你的游戏更具吸引力和互动性&#xff0c;从动画效果到复杂的碰撞检测&#xff0c;再到多人网络功能。掌握这些技巧将帮助你提升游戏的质量&#xff0c;并为玩家带来更丰富的体验。 …

QWidget加border-color,一定要使用确定的名字。要不然整个qwidget内部的子控件都会添加边框

QWidget加border-color&#xff0c;一定要使用确定的名字。要不然整个qwidget内部的子控件都会添加边框

【学术会议征稿】第二届物联网与云计算技术国际学术会议 (IoTCCT 2024)

第二届物联网与云计算技术国际学术会议 (IoTCCT 2024) 2024 2nd International Conference on Internet of Things and Cloud Computing Technology (IoTCCT 2024) 第二届物联网与云计算技术国际学术会议(IoTCCT 2024)将于2024年9月27日至29日于广西桂林召开。本次会议将围绕…

zabbix常见架构及组件

Zabbix作为一个开源的、功能全面的监控解决方案&#xff0c;广泛应用于各类组织中&#xff0c;以实现对网络、服务器、云服务及应用程序性能的全方位监控。部署架构灵活性高&#xff0c;可支持从小型单一服务器环境到大型分布式系统的多种场景。基本架构通常包括监控端&#xf…