主成分分析——SPSS实例分析

news2024/12/23 19:27:42

主成分分析是用原始变量的线性组合来表示主成分,且主成分彼此之间互不相关,且能反映出原始数据的绝大部分信息。 一般来说,当研究的问题涉及到多变量且变量之间存在很强的相关性时,我们可考虑使用主成分分析的方法来对数据进行简化。

SPSS 软件中主成分分析与因子分析均在“因子分析”模块中完成。因此,在 SPSS 数据表中录人以上数据后,依次点击“分析-降维-因子”进入“因子分析”对话框,然后将12个变量全部选入“变量”框中。

 点击右侧的“描述”按钮,在弹出的对话框中,在“相关矩阵”中选择“系数”。点击右侧的“降维”按钮打开相应对话框,其中“方法”是“主成分”,“分析”部分可以选择是从相关阵还是从协方整阵出发求解主成分,默认是从相关阵出发。本例中各变量的量纲差别较大,选择从相关阵出发求解主成分。“显示”部分可以选择输出“未旋转的因子解”和“碎石图”。“降维”部分可以选择提取大于1的特征根与其所对应的主成分或者设定固定的因子(此处为主成分)个数,但是如果选择从协方差阵出发,则会提取大于特征根均值的指定倍数(默认为1)的特征根。点击“确定”运行,即可得到输出结果。

表1 相关性矩阵a

X1

X2

X3

X4

X5

X6

X7

X8

X9

X10

X11

X12

X1

1

0.244

0.18

0.807

-0.023

-0.009

0.023

0.107

-0.118

-0.359

0.097

-0.155

X2

0.244

1

0.861

-0.195

-0.138

0.145

-0.548

-0.39

0.686

-0.294

-0.35

0.461

X3

0.18

0.861

1

-0.185

-0.402

0.408

-0.367

-0.557

0.751

-0.195

-0.167

0.281

X4

0.807

-0.195

-0.185

1

0.027

-0.067

0.318

0.179

-0.351

-0.403

0.176

-0.277

X5

-0.023

-0.138

-0.402

0.027

1

-0.999

-0.546

0.726

-0.416

-0.331

-0.566

0.523

X6

-0.009

0.145

0.408

-0.067

-0.999

1

0.532

-0.731

0.429

0.346

0.558

-0.511

X7

0.023

-0.548

-0.367

0.318

-0.546

0.532

1

-0.253

-0.299

0.357

0.523

-0.728

X8

0.107

-0.39

-0.557

0.179

0.726

-0.731

-0.253

1

-0.847

-0.292

0.137

-0.15

X9

-0.118

0.686

0.751

-0.351

-0.416

0.429

-0.299

-0.847

1

0.092

-0.422

0.548

X10

-0.359

-0.294

-0.195

-0.403

-0.331

0.346

0.357

-0.292

0.092

1

0.131

-0.217

X11

0.097

-0.35

-0.167

0.176

-0.566

0.558

0.523

0.137

-0.422

0.131

1

-0.908

X12

-0.155

0.461

0.281

-0.277

0.523

-0.511

-0.728

-0.15

0.548

-0.217

-0.908

1

a. 此矩阵不是正定矩阵。

输出结果中,表1是样本相关阵,可以看到12个变量之间部分变量存在较强的相关关系,适合进行主成分分析。

表2 总方差解释

成分

初始特征值

提取载荷平方和

总计

方差百分比

累积 %

总计

方差百分比

累积 %

1

4.031

33.591

33.591

4.031

33.591

33.591

2

3.930

32.746

66.337

3.930

32.746

66.337

3

2.175

18.122

84.459

2.175

18.122

84.459

4

.973

8.108

92.567

5

.513

4.278

96.845

6

.210

1.749

98.594

7

.104

.864

99.458

8

.041

.338

99.795

9

.024

.202

99.998

10

.000

.002

100.000

11

5.402E-7

4.501E-6

100.000

12

-1.167E-16

-9.728E-16

100.000

提取方法:主成分分析法。

表2给出了相关阵的特征根及对应主成分的方差贡献率和累积贡献率。本例保留了大于1的特征根,可看到提取了3个主成分,其方差贡献率为84.459%,说明该三个主成分基本上提取了原始变量的大部分信息。这样由分析原来的12个变量转化为仅需分析3个综合变量,极大地起到了降维的作用。【注:lamda10、11、12接近于0,意味着中心化以后的原始变量之间存在着多重共线性,即原始变量存在不可忽视的重叠信息】

 从碎石图中也可以看出,前三个特征根较大,因此选取三个特征根是合适的。

表3 成分矩阵a

成分

1

2

3

VAR1

-.102

-.030

.908

VAR2

.836

.084

.368

VAR3

.782

.353

.345

VAR4

-.423

-.070

.790

VAR5

-.032

-.991

-.086

VAR6

.048

.992

.055

VAR7

-.632

.604

-.036

VAR8

-.550

-.732

.060

VAR9

.889

.390

-.040

VAR10

-.132

.433

-.646

VAR11

-.648

.547

.141

VAR12

.773

-.536

-.135

提取方法:主成分分析法。a

a. 提取了 3 个成分。

表3是因子载荷阵,需要将其每个元素除以响应主成分的特征根的平方根,才可以得到第一主成分关于标准化的原始变量的变换系数,如表4所示。

表4 成分得分系数矩阵

成分

1

2

3

VAR1

-.025

-.008

.418

VAR2

.208

.021

.169

VAR3

.208

.090

.159

VAR4

-.105

-.018

.363

VAR5

-.008

-.252

-.040

VAR6

.012

.252

.025

VAR7

-.157

.154

-.016

VAR8

-.136

-.186

.028

VAR9

.221

.099

-.018

VAR10

-.033

.110

-.297

VAR11

-.161

.139

.065

VAR12

.192

-.136

-.062

由此可得,主成分Y关于各标准化变量的线性组合为:

式中各变量的系数的大小可以表示其重要性。

本例中有12个指标,通过主成分计算后,选择了3个主成分。其中,第一主成分的线性组合表达式中X2、X3、X7、X9、X11、X12的系数相对较大,因此第一主成分可看成X2、X3、X7、X9、X11、X12的综合变量,可以理解为第一主成分主要体现了第二、三产业从业人员数、第一、三产业产出结构、第二、三产业劳动生产率,大致反映了产业结构合理化情况;同理,第二主成分可看成X5、X6、X8的综合变量,可以理解为第二主成分主要体现了第二、三产业就业结构及第二产业产出结构,大致反映了产业结构升级化情况;第三主成分可看成X1、X4、X10的综合变量,可以理解为第三主成分主要体现了第一产业从业人员数、产业就业结构及产业劳动生产率,大致反映了产业结构合理化情况。

 通常为了分析各样品在主成分上所反映的经济意义方面的情况,还需将原始数据代入主成分表达式计算出各样品的主成分得分,根据各样品的主成分得分就可以对样品进行大致分类或者排序。

表5 主成分1的样品排序

排序

地区

Y1

排序

地区

Y1

1

北京市

180.5150607

13

临汾市

10.46116696

2

天津市

64.58425815

14

阳泉市

9.58268787

3

太原市

28.6908458

15

运城市

9.576200993

4

石家庄市

27.51126238

16

朔州市

9.403504998

5

保定市

20.44835652

17

晋中市

9.333657238

6

唐山市

16.13782061

18

晋城市

8.618180294

7

邯郸市

14.34404851

19

邢台市

8.55713213

8

大同市

14.18527824

20

秦皇岛市

8.001142876

9

张家口市

12.49250853

21

承德市

7.456756398

10

沧州市

12.13317336

22

忻州市

7.275499933

11

长治市

10.97995128

23

吕梁市

5.205538483

12

廊坊市

10.5379542

24

衡水市

4.263760211

表6 主成分2的样品排序

排序

地区

Y2

排序

地区

Y2

1

北京市

68.95036761

13

承德市

5.738359679

2

廊坊市

21.7017499

14

晋中市

5.250730169

3

衡水市

21.32785977

15

邯郸市

5.050358973

4

天津市

18.6740728

16

临汾市

4.428244365

5

石家庄市

17.85848122

17

大同市

3.900698174

6

秦皇岛市

14.01048574

18

忻州市

2.923556626

7

保定市

11.93600734

19

朔州市

0.677891108

8

邢台市

11.26217305

20

唐山市

0.675547677

9

沧州市

10.72374997

21

长治市

-1.095271353

10

运城市

9.121019677

22

阳泉市

-1.189746842

11

太原市

7.647849868

23

吕梁市

-1.534529357

12

张家口市

7.563284738

24

晋城市

-1.951322435

表7 主成分3的样品排序

排序

地区

Y3

排序

地区

Y3

1

北京市

124.0088998

13

吕梁市

-1.403670484

2

天津市

39.57507582

14

保定市

-1.740401389

3

唐山市

12.41857457

15

临汾市

-3.664946889

4

太原市

9.96648314

16

忻州市

-3.96973901

5

长治市

4.219456963

17

石家庄市

-6.378107088

6

晋城市

2.40563238

18

晋中市

-7.704121015

7

阳泉市

2.125268721

19

运城市

-9.152635185

8

邯郸市

2.007346431

20

沧州市

-14.18356557

9

朔州市

1.315259427

21

邢台市

-17.43441436

10

大同市

0.76826382

22

秦皇岛市

-24.86005785

11

张家口市

-0.194855256

23

廊坊市

-43.0706488

12

承德市

-1.191899812

24

衡水市

-45.14251758

注意表中各地区得分中,有许多地区的得分是负数,但并不表明这些地区的指标为负,这里的正负仅表示该地区与平均水平的位置关系。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/661493.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

智能的突破或许在智能之外

人工智能已经取得了不少令人瞩目的成果,但是仍然存在着许多问题和挑战,这些问题和挑战也许只能通过跨学科的合作和人类的智慧来解决,因此智能的突破在智能之外。在人工智能的决策过程中,往往会缺乏人类的道德判断和社会责任感&…

2018年全国硕士研究生入学统一考试管理类专业学位联考英语(二)试题

2018 年全国硕士研究生入学统一考试 管理类专业硕士学位联考 英语(二)试卷 考生须知 1.考生必须严格遵守各项考场规则。 2.答题前,考生将答题卡上的“姓名”、“考生编号”等信息填写清楚,并与准考证上的致…

【SpringCloud】Eureka 案例上手稍微带点原理

文章目录 1. 前置工作1.1 搭建 user-server1.1.1 pom1.1.2 po,mapper,controller1.1.3 yml1.1.4 启动类1.1.5 启动并访问 1.2 搭建 order-server1.2.1 pom1.2.2 po mapper controller1.2.3 yml1.2.4 启动类1.2.5 启动并访问 1.3 两个服务通信 2. Eureka2…

Qt Xml的读、写、修改、删除

一、说明 Xml文件的创建、读取、修改、删除以下图格式为例。 二、导入xml QT core gui xml三、创建Xml void MainWindow::Xml_Write(QString path) {//! 打开或创建文件QFile file(path);if(!file.open(QIODevice::WriteOnly | QIODevice::Truncate)) return; //! …

【MySQL篇】Select语句原理详解

文章目录 MYSQL体系结构模块详解架构分层连接层服务层存储引擎 SQL的执行流程连接查询缓存语法解析和预处理词法解析语法分析预处理器 查询优化器执行计划存储引擎存储引擎基本介绍如何选择存储引擎? 执行引擎举例说明 对于一个开发工程师来说,了解一下 …

C语言读写ini配置文件

环境 windows 10 64bitClion 2023.1 ini简介 ini 文件格式是一种用于保存配置信息的简单文本格式。它通常由多个节(section)组成,每个节包含多个键值对(key-value pair)。 下面是 ini 文件的基本语法规则 一个ini文件由多个节组成,每个节用方括号([])括起…

《Java黑皮书基础篇第10版》 第17章【笔记】

第十七章 二进制I/O 17.1 引言 文件可以不严谨的分类为文本文件和二进制文件。文本文件指的是可以用文件编辑器进行查看和修改的,二进制文件则不可以使用文本编辑器查看和修改。 例如,Test.java文件储存在文本文件中,因此可以用文本编辑器…

MapReduce程序基本架构

MapReduce程序是以(键/值)对的形式来处理数据的,即可以通过以下的形式来表示: map: (K1,V1) ➞ list(K2,V2) reduce: (K2,list(V2)) ➞ list(K3,V3) 不令人惊奇的是,这是一种超越一般数据的数据流表示形式。在本文中…

使用PyMC进行时间序列分层建模

在统计建模领域,理解总体趋势的同时解释群体差异的一个强大方法是分层(或多层)建模。这种方法允许参数随组而变化,并捕获组内和组间的变化。在时间序列数据中,这些特定于组的参数可以表示不同组随时间的不同模式。 今天,我们将深…

ood的5C解题法(1)----管理类面试对象设计

管理类 概念 可以模拟/代替管理员日常工作的系统 下面用停车场系统做演示 答题流程 Clarify What:除题目中的名词外,从管理的名词考虑 parking lot是什么类型的?如果楼有多层,停车位也是多层,则parking lot->pa…

Windows Server 2019 OVF, updated Jun 2023 (sysin) - VMware 虚拟机模板

Windows Server 2019 OVF, updated Jun 2023 (sysin) - VMware 虚拟机模板 2023 年 6 月版本更新,现在自动运行 sysprep,支持 ESXi Host Client 部署 请访问原文链接:https://sysin.org/blog/windows-server-2019-ovf/,查看最新…

5、产品经理的工作职责OR主要工作技能和工具

1、产品经理的工作职责 我们通过一个案例来了解产品经理的工作职责。 老板让你给他点餐,你应该怎么做?你需要考虑哪一些方面的问题? 例如:你预算多少,预算是十块钱还是100块还是1000块。有没有忌口,口味…

【MYSQL篇】Update语句原理详解

文章目录 前言缓冲池Buffer PoolInnoDB 内存结构redo logundo logBinlog 总结 前言 前面的文章我们已经对MySQL的查询语句的执行流程进行了说明,感兴趣的可以去看看: 【MySQL篇】Select语句原理详解 本篇文章我们来聊聊 MySQL更新语句的执行原理。更新…

Win7系统提示Windows Defender无法扫描选定的文件解决方法

Win7 64位系统提示“Windows Defender无法扫描选定的文件”怎么办呢?使用Windows Defender扫描文件,结果弹出如下图窗口,该怎么解决呢,参考下文,一起来解决Win7系统提示“Windows Defender无法扫描选定的文件”的解决方法。 原因分析: 这是因为开启Defender扫描压…

java的序列化注解Serial、序列化版本号serialVersionUID

例如,jdk源码NTLMException类的定义,其中涉及到了序列化注解Serial和序列化版本号字段serialVersionUID: 序列化注解java.io.Serial: 序列化注解java.io.Serial是在javaSE-14版本引入的。通常注解实现了序列化类的序列化相关的函…

【JUC进阶】02. volatile关键字

目录 1、回顾JMM 1.1、可见性(Visibility) 1.2、原子性(Atomicity) 1.3、有序性(Ordering) 2、volatile 2.1、保证可见性 2.2、不保证原子性 2.3、防止指令重排 2.4、什么时候使用volatile 3、小…

微服务中「组件」集成

有品:There is no silver bullet; 一、简介 在微服务工程的技术选型中,会涉及到很多组件的集成,最常用包括:缓存、消息队列、搜索、定时任务、存储等几个方面; 如果工程是单服务,对于集成组件…

有趣的数学 关于自然常数e

一、e的值 自然常数(也称欧拉数)e是数学中最重要的数字之一。 2.7182818284590452353602874713527...... 二、从复利理解e 设想你在一家银行有一个银行账户,该银行付给你一个慷慨的利息年利率12%,一年计一次复利.你将一笔初始存款…

测试(二)

1.软件测试的生命周期 需求分析→测试计划→ 测试设计→ 测试开发→ 测试执行→ 测试评估 2.如何描述一个Bug 3.Bug的优先级 1、Blocker(崩溃): 阻碍开发或测试工作的问题;造成系统崩溃、死机、死循环,导致数据库数…

Windows Server 2016 OVF, updated Jun 2023 (sysin) - VMware 虚拟机模板

2023 年 6 月版本更新,现在自动运行 sysprep,支持 ESXi Host Client 部署 请访问原文链接:https://sysin.org/blog/windows-server-2016-ovf/,查看最新版。原创作品,转载请保留出处。 作者主页:sysin.org…