【SPSS】基于因子分析法对葡萄酒数据进行分析

news2024/11/14 0:12:11

🤵‍♂️ 个人主页:@艾派森的个人主页

✍🏻作者简介:Python学习者
🐋 希望大家多多支持,我们一起进步!😄
如果文章对你有帮助的话,
欢迎评论 💬点赞👍🏻 收藏 📂加关注+


目录

1.项目背景

2.项目简介

2.1分析目标

2.2数据集介绍

3.算法理论

4.实验过程

4.1数据探索

4.2因子分析

4.3 构建模型

5.总结


摘要

        葡萄酒作为世界上最早的饮料酒之一,其品质和文化早已被人们所认可。据统计2021年,全球葡萄酒产量260亿升,较2020年下降了近1%,至此已连续3年略低于10年平均水平。由于我国本土葡萄酒长期以来受到进口葡萄酒的冲击及2020年疫情期间节日聚会、家庭餐会均被取消,餐饮业完全停滞,导致葡萄酒的需求短期内大幅下降。2020年我国葡萄酒行业市场规模下滑至498.2亿元,2021年小幅度上涨至510.8亿元。预计2022年我国葡萄酒行业市场规模将进一步上升至587.2亿元。本次实验使用葡萄酒数据集进行因子分析,最后构建葡萄酒分类模型,用来对葡萄酒的分类。

1.项目背景

        作为世界上最早的饮料酒之一,葡萄酒的发展与西方文明紧密相关。根据酿造历史和生产工艺,葡萄酒生产国被划分为传统酿造工艺为代表的“旧世界”,包括法国、意大利、西班牙、德国等,以及以现代酿造技术为代表的“新世界”,包括美国、澳大利亚、新西兰、智利、阿根廷和南非等。据统计2021年,全球葡萄酒产量260亿升,较2020年下降了近1%,至此已连续3年略低于10年平均水平。受霜冻影响,欧盟的葡萄酒产量153.7亿升,较2020年下降8%。这主要是由于2021年4月份霜冻导致法国葡萄酒产量大幅下降。意大利(50.2亿升,增2%)、法国(37.6亿升,降19%)、西班牙(35.3亿升,降14%)三个国家占全球葡萄酒产量的47%。

        由于我国本土葡萄酒长期以来受到进口葡萄酒的冲击及2020年疫情期间节日聚会、家庭餐会均被取消,餐饮业完全停滞,导致葡萄酒的需求短期内大幅下降。2020年我国葡萄酒行业市场规模下滑至498.2亿元,2021年小幅度上涨至510.8亿元。预计2022年我国葡萄酒行业市场规模将进一步上升至587.2亿元。

        葡萄酒行业产业链上游参与主体为原材料及相关设备,主要包括葡萄、淀粉、酵母、食品添加剂、包装材料和酿造设备等;中游为葡萄酒行业,主要有白葡萄酒、红葡萄酒和桃红葡萄酒三大类;下游为各类消费渠道,最后到达终端消费者。近年来,随着葡萄酒产业链延伸,出现了各类“葡萄酒+”产业的新型模式,如“葡萄酒+旅游”、“葡萄酒+科技”等。

        随着我国全面步入小康社会,人们的生活水平不断提高,消费市场持续升级,为具有一定品牌溢价能力的中高端葡萄酒带来较大发展空间。经过近几年的努力,中国葡萄酒的品质与风味已经赢得广大消费者认可,这也为中国葡萄酒搏击中高端葡萄酒市场奠定了基础。综合看来,中高端葡萄酒将是2022年乃至中国葡萄酒产业更长时间的发展热点。

        近年来,随着民族、文化自信等因素助力国产品牌崛起,中国葡萄酒品质与世界接轨,屡次斩获国际性大奖,越来越多的消费者和经销商关注并选择国产葡萄酒。国产葡萄酒收割存量市场持续加速,“国产”替代“进口”的趋势明显。同时,伴随着进口葡萄酒的持续下滑,国产葡萄酒的替代效应越发明显。预计2022年,我国葡萄酒行业国产替代的速度将进一步加快。

2.项目简介

2.1分析目标

 通过研究葡萄酒数据集做出以下分析:

①使用因子分析对数据进行因子提取

②构建葡萄酒分类模型

2.2数据集介绍

        wine样本数据集中是double类型的178 * 14矩阵包括了三种酒中13种不同成分的数量。文件中,每行代表一种酒的样本,共有178个样本,一共有14列,其中,第一个属性是类标识符,分别是1/2/3来表示,代表葡萄酒的三个分类。后面的13列为每个样本的对应属性的样本值。剩余的13个属性是,酒精、苹果酸、灰、灰分的碱度、镁、总酚、黄酮类化合物、非黄烷类酚类、原花色素、颜色强度、色调、稀释葡萄酒的OD280/OD315、脯氨酸。其中第1类有59个样本,第2类有71个样本,第3类有48个样本。具体属性描述如下:

属性

属性描述

Label

类别

Alcohol

酒精

Malic acid

苹果酸

Ash

Alkalinity of ash

灰分的碱度

Magnesium

Total phenoids

总酚

Flavonoids

黄酮类化合物

Noflavanoid phenols

非黄烷类酚类

Proanthocyanins

原花色素

Color intensity

颜色强度

Hue

色调

0D280/0315ofdiluted wines

稀释葡萄酒的0D280/0315

proline

脯氨酸

3.算法理论

  因子分析(Factor Analysis)是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。

        例如,在企业形象或品牌形象的研究中,消费者可以通过一个由24个指标构成的评价体系评价百货商城的24个方面的优劣。但消费者主要关心三个方面,即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量找出反映商店环境、商店服务水平和商品价格的3个潜在的因子,对商店进行综合评价。这3个公共因子可以表示为:

1.因子分析与主成分分析的区别

主成分分析仅仅是变量变换,而因子分析需要构造因子模型。

因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。

主成分分析:原始变量的线性组合表示新的综合变量,即主成分。

因子分析数学模型

假设有P个变量X,有m个因子(m≤p),则因子分析的数学模型可以表示如下:

2.因子旋转

    若因子分析中得出的各个因子有明确的含义,则因子分析的模型会更加易于解释和有实际意义。在因子分析中可以对因子载荷矩阵进行旋转,使每个变量仅在一个公共因子上有较大的载荷,而在其余的公共因子上的载荷比较小。通过旋转,因子可以有更加明确的含义。常用的一种方法是方差最大旋转。

3.因子得分及其计算

    前面我们主要解决了用公共因子的线性组合来表示一组观测变量的有关问题。如果要使用这些因子做其他的研究,比如把得到的因子作为自变量来进行回归分析,对样本进行分类或评价,就需要计算每个个体在每个因子上的得分。

要计算因子得分,需要估计以下表达式:

4.因子分析的步骤

因子分析解决的3个基本问题:

因子载荷阵A的估计

当因子难以得到合理的解释时,对因子载荷阵进行正交变换,即因子旋转。对因子的实际意义做出合理的解释。

给出每个变量(或样品)关于m个公共因子的得分,通常表示为原始变量的线性组合,即因子得分函数。对公共因子做出估计。

因子分析的步骤:

(1)根据问题选取原始变量。

(2)求其相关阵R,探讨其相关性,

(3)从R求解初始公共因子F及其因子载荷矩阵A(主成分法)。

(4)因子旋转,分析因子的含义。

(5)计算因子得分函数。

(6)根据因子得分值进行进一步分析(例如综合评价)。

5.因子分析与主成分分析的区别和联系

(1)因子分析、主成分分析都是重要的降维方法(即数据简化技术),因子分析可以看作主成分分析的推广和发展。

(2)主成分分析不能作为一个模型来描述,它只能作为一般的变量变换,主成分是可观测的原始变量的线性组合。因子分析需要构造因子模型,公共因子是潜在的不可观测的变量,一般不能表示为原始变量的线性组合。

(3)因子分析是用潜在的、不可观测的变量和随机变量的线性组合来表示原始变量,即通过这样的分解来分析原始变量的协方差结构(相依关系)。

4.实验过程

4.1数据探索

首先使用SPSS导入葡萄酒数据集

查看数据描述性统计

从描述性统计结果中可看出各个变量的个案数、最大最小值、均值、标准偏差等信息。

查看不同类别的酒精alcohol分布

从结果可看出不同类别的酒精含量都近似服从正态分布。

查看不同类别的数目

从图中可看出label为1的数量最多,2的最少。

4.2因子分析

1.选择变量

2.勾选描述中的选项

3.在提取中勾选碎石图

4.在旋转中勾选选项

5.勾选因子得分中的选项

6.勾选选项

7.结果如下

从描述统计中可以看到各个变量的平均值,标准偏差及分析个案数。

从相关性矩阵中可以看到,每个变量与每个变量之间的相关性高。从显著性值可以看每个变量与每个变量之间是否显著相关。从表中发现大多数概率P值都是小于 0.05的,说明大多数变量之间相关性显著。

从结果中看出,KMO值为0.779,巴特勒球形检验P值为0,两个指标都符合因子分析的前提,所以此数据适合做因子分析。

 从公因子方差表中可以看到提取值都比较高,表明变量中大部分信息能被因子所提取,说明因子分析结果有效。

第一个成分的初始特征值为4.706能解释的方差比例为36.199%,第二个特征值为2.497,能解释的方差比例为19.207%,第三个特征值为1.446,能解释的方差比例为11.124%。其余成分都小于1,说明这几个成分的解释力度还不如直接引入原变量大。这些变量只需要提取出前三个成分即可。

 碎石图中,从第三个成分以后的特征值就降得非常低。第三个成分就是这一图形的拐点。在这一实例中,只需要提取三个主要成分就行了。 

表中列出未使用旋转方法时使用因子能解释的各个变量的比例。

  表中列出了使用旋转方法后因子能解释的各个变量的比例。和上面未旋转对比可以看出,旋转后,原先较大的比例值仍然大,较小的比例则变得更小。

4.3 构建模型

这里我们使用SPSS构建决策树分类模型

从模型分类结果来看,模型在0分类上正确率为96.6%,在1分类上正确率为60.6%,在2分类上正确率为66.7%,最后综合的准确率为74.2%。

前面我们使用的是原始自变量,现在我们使用通过因子分析提取的3个主因子作为自变量重新训练模型

可以看出使用因子分析提取的3个主因子作为自变量训练模型,使得模型的综合准确率提高了3%.

5.总结

 本次实验对葡萄酒数据进行了因子分析,将13维的数据提取了3个主要因子,最后通过构建决策树分类模型得出的模型准确率为0.77,相比于没有经过因子分析处理的数据构建的模型而言,经过处理后的数据构建的模型准确率提高了3%,说明本次因子分析是有效果的,最后构建的模型效果也很不错。

资料获取,更多粉丝福利,关注下方公众号获取

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2101515.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用合同比对工具时,有哪些常见问题和解决方案?

在使用合同比对工具的过程中,企业可能会面临一系列挑战,这些问题可能会影响工具的效率和效果。以下是一些常见的问题: 1.兼容性问题:在不同的工作环境中,合同文档可能以不同的格式存在,如PDF、Word、Excel…

手撕Python之散列类型

1.字典 思考:如果有多个数据,例如:“凯子”,“男”,19,如何快速存储这些数据 多数我们是通过列表进行存储的 li[凯子,男,19] 在定义完这个列表之后我们如何来找到数据凯子呢? 我们可以通过…

数据结构基本知识

一、什么是数据结构 1.1、组织存储数据 ---------》内存(存储) 1.2、研究目的 如何存储数据(变量,数组....)程序数据结构算法 1.3、常见保存数据的方法 数组:保存自己的数据指针:是间接访问已经存在的…

【笔试练习】深信服校园招聘c/c 软件开发H卷

题目链接 一、填空题 如图所示,平面上有两条平行的线段,上面的线段有A0~A3 4个点,下面的线段有B0到B5 6个点,现在需要把所有的点都连接起来,有如下约束: 每个端点,都至少有一条到另一平行线上端…

仿微信聊天系统开发功能架构分析

仿微信聊天系统是一种旨在模仿微信核心聊天功能的应用或软件,它允许用户通过即时通讯进行交流。该系统通常由客户端、服务器端和数据库组成,以支持用户间的实时消息传送。以下是对仿微信聊天系统的一个概述: 一、系统架构 客户端 用户界面&…

【面试05】PID控制算法

一、 PID算法简介 PID(Proportional-Integral-Derivative)控制算法是一种经典的反馈控制方法,广泛应用于自动控制系统,例如温度控制、速度控制、位置控制等。 PID控制算法的核心包含三个部分:比例项(P&…

一键掌控园区运营,数字化管理平台如何实现?

在当今数字化时代,高效的管理是企业成功的关键。对于各类园区而言,如何实现一键掌控园区运营,成为了提升竞争力的重要课题。幸运的是,数字化管理平台的出现如同一把智慧钥匙,为实现园区运营提供了完美的解决方案。 数字…

<Rust>egui学习之小部件(九):如何在窗口中添加下拉列表combobox部件?

前言 本专栏是关于Rust的GUI库egui的部件讲解及应用实例分析,主要讲解egui的源代码、部件属性、如何应用。 环境配置 系统:windows 平台:visual studio code 语言:rust 库:egui、eframe 概述 本文是本专栏的第九篇博…

系统编程-数据库

数据库 目录 数据库 引入 1、先安装数据库 2、数据库设置密码 3、数据库的进入和退出(前提 你的密码更改过了) 数据库的基本操作 1、显示所有的数据库 2、创建数据库 3、删除数据库 4、选择数据库 在数据库中对表进行操作 1、查看当前数据库中的表 2、在数据库中…

Spring框架——springweb(一篇包会)

目录 一、Springweb概述 1.SpringWeb特点 2.SpringWeb组件 3.SpringWeb运行流程 二、搭建Springweb 1.导入框架所需的包 2.配置 DispatcherServlet 3.开启SpringWeb注解 4.处理器类搭建 5.请求处理 (1)接收请求RequestMapping (2&…

大疆上云API基于源码部署

文章目录 大疆上云API基于源码部署1、学习官网2、环境准备注意事项3、注册成为DJI开发者4、下载前后端运行所需要的包/依赖前端依赖下载后端所需要的Maven依赖包 用到的软件可以在这里下载5、MySQL数据库安装安装MySQL启动MySQL服务在IDEA中配置MySQL的连接信息 6、Redis的安装…

Visual Studio Code大大提升工作效率小技巧~~~

Visual Studio Code ( VS Code )是一个知名且评价很高的代码编辑器,具有大量功能和扩展以增强开发体验。使用 VS Code 的主要好处之一是它的灵活性,允许开发人员根据他们的特定需求对其进行自定义。 此外,VS Code 轻巧…

(十五)SpringCloudAlibaba-Sentinel持久化到Nacos

前言 在前面我们已经将Sentinel配置的规则持久化到系统的文件中。本章节我们将Sentinel持久化到Nacos中; 传送门(Sentinel数据持久化到文件)https://blog.csdn.net/weixin_45876411/article/details/140742963 默认情况下 Sentinel 只能接收到 Nacos 推送的消息,但…

JNPF低代码:可视化如何赋能企业的转型之路

在数字化转型的浪潮中,企业面临着前所未有的挑战与机遇。传统的软件开发方式往往耗时长、成本高,且难以快速适应市场变化。低代码开发平台的出现,为企业的数字化转型提供了新的思路和工具。其中,JNPF低代码平台以其独特的可视化特…

LDR6023:革新手机转接器体验,快充与OTG并存的科技杰作

在智能设备日益普及的今天,手机已经成为我们日常生活中不可或缺的一部分。然而,随着功能的不断增加,手机对于电力和数据传输的需求也日益提升。为了应对这一挑战,深圳市乐得瑞科技有限公司凭借其深厚的科技积累和创新精神&#xf…

嵌入式系统------ARM

目录 一.c语言回顾 1.特殊符号 (1)const (2)static (3)extern 2.内存的结构 (1)kernel:内核 (2)栈区 (3)堆区 &#xff08…

Java 入门指南:Java 并发编程 —— 并发容器 ConcurrentSkipListMap

ConcurrentMap ConcurrentMap 是 Java 并发包中提供的一个接口,它继承了 java.util.Map 接口,专门用于支持高并发环境下的线程安全操作。ConcurrentMap 提供了一系列线程安全的方法,旨在解决在多线程环境下使用普通 Map 类型(如 …

用ChatGPT三分钟写一个完美的PPT,彻底告别繁琐的制作过程

用AI或ChatGPT来制作PPT的方式多得很! 下面就用超级简单的语言,一步步教你怎么搞定,三分钟内保准搞定你的PPT。 所有需要的方法和工具都在这里! 很简单,只要你输入一个标题,AI就能完成PPT的制作。 如果…

文件 fd

目录 1. 建立共识原理2. 回忆 C 文件接口2.1 当前工作路径2.2 w / a 方式写入2.3 默认打开的三个文件流 3. 认识文件系统调用3.1 O_WRONLY|O_CREAT 写时创建3.2 O_TRUNC 截断长度(也即全覆盖式写入)3.3 O_APPEND 追加 4. 浅谈文件访问的本质4.1 简证 1. …

高级算法设计与分析 学习笔记 2 希尔排序 线性时间内的排序——计数排序,基数排序,桶排序

希尔排序(比较排序) 要选定一个步长(比如4),那么0,4,8……它们是一组,1,5,9……他们是一组。分组排完之后再换成2步长,最后改成1,就行…