【SPSS】基于因子分析法对葡萄酒数据进行分析

🤵‍♂️ 个人主页：@艾派森的个人主页

✍🏻作者简介：Python学习者
🐋 希望大家多多支持，我们一起进步！😄
如果文章对你有帮助的话，
欢迎评论 💬点赞👍🏻 收藏 📂加关注+

1.项目背景

2.项目简介

2.1分析目标

2.2数据集介绍

3.算法理论

4.实验过程

4.1数据探索

4.2因子分析

4.3 构建模型

5.总结

摘要

葡萄酒作为世界上最早的饮料酒之一，其品质和文化早已被人们所认可。据统计2021年，全球葡萄酒产量260亿升，较2020年下降了近1%，至此已连续3年略低于10年平均水平。由于我国本土葡萄酒长期以来受到进口葡萄酒的冲击及2020年疫情期间节日聚会、家庭餐会均被取消，餐饮业完全停滞，导致葡萄酒的需求短期内大幅下降。2020年我国葡萄酒行业市场规模下滑至498.2亿元，2021年小幅度上涨至510.8亿元。预计2022年我国葡萄酒行业市场规模将进一步上升至587.2亿元。本次实验使用葡萄酒数据集进行因子分析，最后构建葡萄酒分类模型，用来对葡萄酒的分类。

1.项目背景

作为世界上最早的饮料酒之一，葡萄酒的发展与西方文明紧密相关。根据酿造历史和生产工艺，葡萄酒生产国被划分为传统酿造工艺为代表的“旧世界”，包括法国、意大利、西班牙、德国等，以及以现代酿造技术为代表的“新世界”，包括美国、澳大利亚、新西兰、智利、阿根廷和南非等。据统计2021年，全球葡萄酒产量260亿升，较2020年下降了近1%，至此已连续3年略低于10年平均水平。受霜冻影响，欧盟的葡萄酒产量153.7亿升，较2020年下降8%。这主要是由于2021年4月份霜冻导致法国葡萄酒产量大幅下降。意大利(50.2亿升，增2%)、法国(37.6亿升，降19%)、西班牙(35.3亿升，降14%)三个国家占全球葡萄酒产量的47%。

由于我国本土葡萄酒长期以来受到进口葡萄酒的冲击及2020年疫情期间节日聚会、家庭餐会均被取消，餐饮业完全停滞，导致葡萄酒的需求短期内大幅下降。2020年我国葡萄酒行业市场规模下滑至498.2亿元，2021年小幅度上涨至510.8亿元。预计2022年我国葡萄酒行业市场规模将进一步上升至587.2亿元。

葡萄酒行业产业链上游参与主体为原材料及相关设备，主要包括葡萄、淀粉、酵母、食品添加剂、包装材料和酿造设备等;中游为葡萄酒行业，主要有白葡萄酒、红葡萄酒和桃红葡萄酒三大类;下游为各类消费渠道，最后到达终端消费者。近年来，随着葡萄酒产业链延伸，出现了各类“葡萄酒+”产业的新型模式，如“葡萄酒+旅游”、“葡萄酒+科技”等。

随着我国全面步入小康社会，人们的生活水平不断提高，消费市场持续升级，为具有一定品牌溢价能力的中高端葡萄酒带来较大发展空间。经过近几年的努力，中国葡萄酒的品质与风味已经赢得广大消费者认可，这也为中国葡萄酒搏击中高端葡萄酒市场奠定了基础。综合看来，中高端葡萄酒将是2022年乃至中国葡萄酒产业更长时间的发展热点。

近年来，随着民族、文化自信等因素助力国产品牌崛起，中国葡萄酒品质与世界接轨，屡次斩获国际性大奖，越来越多的消费者和经销商关注并选择国产葡萄酒。国产葡萄酒收割存量市场持续加速，“国产”替代“进口”的趋势明显。同时，伴随着进口葡萄酒的持续下滑，国产葡萄酒的替代效应越发明显。预计2022年，我国葡萄酒行业国产替代的速度将进一步加快。

2.项目简介

2.1分析目标

通过研究葡萄酒数据集做出以下分析：

①使用因子分析对数据进行因子提取

②构建葡萄酒分类模型

2.2数据集介绍

wine样本数据集中是double类型的178 * 14矩阵包括了三种酒中13种不同成分的数量。文件中，每行代表一种酒的样本，共有178个样本，一共有14列，其中，第一个属性是类标识符，分别是1/2/3来表示，代表葡萄酒的三个分类。后面的13列为每个样本的对应属性的样本值。剩余的13个属性是，酒精、苹果酸、灰、灰分的碱度、镁、总酚、黄酮类化合物、非黄烷类酚类、原花色素、颜色强度、色调、稀释葡萄酒的OD280/OD315、脯氨酸。其中第1类有59个样本，第2类有71个样本，第3类有48个样本。具体属性描述如下：

属性	属性描述
Label	类别
Alcohol	酒精
Malic acid	苹果酸
Ash	灰
Alkalinity of ash	灰分的碱度
Magnesium	镁
Total phenoids	总酚
Flavonoids	黄酮类化合物
Noflavanoid phenols	非黄烷类酚类
Proanthocyanins	原花色素
Color intensity	颜色强度
Hue	色调
0D280/0315ofdiluted wines	稀释葡萄酒的0D280/0315
proline	脯氨酸

3.算法理论

因子分析（Factor Analysis）是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系探求观测数据中的基本结构，并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量，而假想变量是不可观测的潜在变量，称为因子。

例如，在企业形象或品牌形象的研究中，消费者可以通过一个由24个指标构成的评价体系评价百货商城的24个方面的优劣。但消费者主要关心三个方面，即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量找出反映商店环境、商店服务水平和商品价格的3个潜在的因子，对商店进行综合评价。这3个公共因子可以表示为: