【数学建模】--主成分分析

news2024/11/26 22:45:10

本讲将介绍主成分分析(Principal Component Analysis,PCA),主成分分析是一种降维算法,它能将多个指标转换为少数几个主成分,这些主成分是原始变量的线性组合,且彼此之间互不相关,其能反映出原始数据的大部分信息,一般来说,当研究的问题涉及到多变量且变量之间存在很强的相关性时,我们可以考虑使用主成分分析的方法来对数据进行简化。

将多个指标转换为少数几个主成分

问题的提出:

对于变量多,分析时难度大=>因此用较少新变量代替原来较多就变量。

数据降维的作用:

 

主成分分析的思想:

 

 

严谨的数学符号:

 

 

PCA的计算步骤(理论步骤):

 

 

 

 

 

案列1

 

计算关键变量:

一般看累积贡献率,一般选择累积贡献率较大且所选变量少时情况。如下图的累积贡献率到第三个时已经为85.9%,后面的已经相对增加的趋势较少说明后面变量的贡献率相对较少可以不用考虑。

 

 

写出主成分并简要分析:

 

主成分分析的说明:

 

案例2:

 

计算关键变量:

 

对主成分分析:

 

主成分分析的MATLAB代码实现:

 

  1. 标准化数据。利用函数zscore(数据)
  2. 计算标准化后样本的协方差。函数cov(标准化后数据)

补:在我们进行完1,2步后得到了样本相关系数矩阵,可对其相关系数进行可视化。

步骤:

a.复制相关系数矩阵->excel,调整表格的行高列宽。

b.色阶->三色表->管理规则->编辑规则->修改数字,范围->应用。

 

 

让我们继续回到matlab的操作:

3.根据PCA计算步骤,接下来计算R(相关系数矩阵)的特征值和特征向量。函数eig(R)。若eig不给返参数,默认只返回特征值。

 

4.计算主成分贡献率和累积贡献率。(计算过程复杂,后期会有代码和注释的补充)

5.根据累积贡献率选择主成分变量的个数,并且进行主成分变量的计算。

 

6.根据实际问题选择,如果为聚类模型则将数据复制到excel,再用spss解决;如果为主成分回归,则还需要计算标准化y值(利用函数zscore),再将得到的标准化y和主成分变量F1,F2……Fm复制到excel再导入到stata中进行分析。

Matlab进行主成分分析:

 

结果的解释:

 

主成分分析的滥用(了解):

 

对于聚类问题的主成分分析的使用:

 

 

将数据有导入spss中再进行聚类:

(关于聚类模型可以参考博主之前的一篇文章:【数学建模】--聚类模型_Wei&Yan的博客-CSDN博客)

分析-分类-系统聚类-导入重要变量-图-普系图-生成谱系图后根据普系图确定类的个数。

 

 

确定类的个数后再重新运行生成散点图:

(在确定类的个数后要手动输入)

 

 

 

Spss聚类:

 

效果图:

 

主成分回归:

 

 

利用Stata来解决主成分回归:

 

关于主成分回归的看法:

 

课后作业:

 

 

 如果不了解多元回归和stata的应用可参考博主的:数学建模—多元线性回归分析(+lasso回归的操作)_Wei&Yan的博客-CSDN博客

  1. 直接回归,并用异方差(estat imtest,white)和多重共线性检验(estat vif):

 

 

 

2.逐步回归分析(向后逐步):

3.主成分分析:

 

观察到前两项的累积贡献率已经较高,所以选择前两项为主成分自变量,得到了标准化后的主成分自变量F1,F2和Y。

将数据导出到excel再导入stata进行分析:

 

 

 Stata运行结果:

 MATLAB代码参考:

 

clear;clc
  % 主成分聚类
  % 主成分回归
load data3.mat%博主在作业测试中的数据。
% 注意,这里可以对数据先进行描述性统计
% 描述性统计的内容见第5讲.相关系数
[n,p] = size(x);  % n是样本个数,p是指标个数

%% 第一步:对数据x标准化为X
X=zscore(x);   % matlab内置的标准化函数(x-mean(x))/std(x)

%% 第二步:计算样本协方差矩阵
R = cov(X);

%% 注意:以上两步可合并为下面一步:直接计算样本相关系数矩阵
R = corrcoef(x);
disp('样本相关系数矩阵为:')
disp(R)

%% 第三步:计算R的特征值和特征向量
% 注意:R是半正定矩阵,所以其特征值不为负数
% R同时是对称矩阵,Matlab计算对称矩阵时,会将特征值按照从小到大排列哦
% eig函数的详解见第一讲层次分析法的视频
[V,D] = eig(R);  % V 特征向量矩阵  D 特征值构成的对角矩阵


%% 第四步:计算主成分贡献率和累计贡献率
lambda = diag(D);  % diag函数用于得到一个矩阵的主对角线元素值(返回的是列向量)
lambda = lambda(end:-1:1);  % 因为lambda向量是从小大到排序的,我们将其调个头
contribution_rate = lambda / sum(lambda);  % 计算贡献率
cum_contribution_rate = cumsum(lambda)/ sum(lambda);   % 计算累计贡献率  cumsum是求累加值的函数
disp('特征值为:')
disp(lambda')  % 转置为行向量,方便展示
disp('贡献率为:')
disp(contribution_rate')
disp('累计贡献率为:')
disp(cum_contribution_rate')
disp('与特征值对应的特征向量矩阵为:')
% 注意:这里的特征向量要和特征值一一对应,之前特征值相当于颠倒过来了,因此特征向量的各列需要颠倒过来
%  rot90函数可以使一个矩阵逆时针旋转90度,然后再转置,就可以实现将矩阵的列颠倒的效果
V=rot90(V)';
disp(V)


%% 计算我们所需要的主成分的值
m =input('请输入需要保存的主成分的个数:  ');
F = zeros(n,m);  %初始化保存主成分的矩阵(每一列是一个主成分)
for i = 1:m
    ai = V(:,i)';   % 将第i个特征向量取出,并转置为行向量
    Ai = repmat(ai,n,1);   % 将这个行向量重复n次,构成一个n*p的矩阵
    F(:, i) = sum(Ai .* X, 2);  % 注意,对标准化的数据求了权重后要计算每一行的和
end

%% (1)主成分聚类 : 将主成分指标所在的F矩阵复制到Excel表格,然后再用Spss进行聚类
% 在Excel第一行输入指标名称(F1,F2, ..., Fm)
% 双击Matlab工作区的F,进入变量编辑中,然后复制里面的数据到Excel表格
% 导出数据之后,我们后续的分析就可以在Spss中进行。

%%(2)主成分回归:将x使用主成分得到主成分指标,并将y标准化,接着导出到Excel,然后再使用Stata回归
%Y = zscore(y);  % 一定要将y进行标准化哦~
% 在Excel第一行输入指标名称(Y,F1, F2, ..., Fm)
% 分别双击Matlab工作区的Y和F,进入变量编辑中,然后复制里面的数据到Excel表格
% 导出数据之后,我们后续的分析就可以在Stata中进行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/858839.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

企业这样给员工谋福利!看完直呼绝了!

当我们谈论新零售模式时,自动售货机无疑是一个引人注目的亮点。在这个数字化和智能化的时代,自动售货机作为新零售模式的重要代表,正在改变着我们的购物方式和消费体验。 通过自动售货机,消费者可以在24小时内购买所需商品&#x…

linux配置上网 linux adsl拨号上网设置

Linux里面配置ADSL上网是件很麻烦的事。但配置完成之后就能开机自动拨号上网,可谓十分的方便。支持的系统有Redhat,CentOS,SuSE,FreeBSD,Ubuntu等常见的Linux。 工具/原料 ADSL网络,电信,网通,移动等常见宽带。 Linux系统的安装光…

【逗老师的PMP学习笔记】9、项目资源管理

目录 一、规划资源管理1、【关键工具】责任分配矩阵RACI矩阵2、【关键工具】组织理论2.1、马斯洛需求层次理论2.2、麦格雷戈-X-Y理论2.3、赫兹伯格双因素理论 3、【关键输出】资源管理计划4、【关键输出】团队章程 二、估算活动资源1、【关键输入】资源日历 三、获取资源1、【关…

中电金信:国际结算系统的“王冠”,为什么十年都戴在“它”的头上

2001年,中国正式加入WTO,在此后的二十多年里,中国出口席卷全球,迅速成长为一个贸易大国。 作为跨国贸易不可或缺的一环,无论是商品交易、服务提供、资金分配还是国际借贷等,都需要通过银行办理的外汇收支业…

什么是自定义表单和工作流?看完这篇文章就懂了

在很多中大型企业中,低代码技术平台的应用价值是较高的,也深得广大用户朋友的青睐和喜爱。其中的自定义表单和工作流是该平台的主要功能,可以解决当前工作效率低下、解放程序员时间和精力等各种现实问题,可以说是实现办公流程化、…

UnityWebGL移动端兼容性说明

官方文档说明 依据Unity官方最新版本文档(2021.3LTS),关于WebGL的兼容性说明为"Unity WebGL不支持移动设备。它可能适用于高端设备,但当前的设备通常不够强大,并且没有足够的内存来支持Unity WebGL内容。为了让最…

(leecode)设计循环队列

(温馨提示:这是博主最最喜欢的歌曲哦,没有之一) 题目: 题解: 思路: 方法一(数组): 方法二(链表): 题目: 设计你的循环队列实现。 循环队列是一种线性数…

使用chatGPT-4 畅聊量子物理学

与chatGPT深入研究起源、基本概念,以及海森堡、德布罗意、薛定谔、玻尔、爱因斯坦和狄拉克如何得出他们的想法和方程。 1965 年,费曼(左)与朱利安施温格(未显示)和朝永信一郎(右)分享…

bootloader跳转APP注意事项

在gd32f427 时跳转异常 参考文章: https://club.rt-thread.org/ask/question/425321.html%20https:/club.rt-thread.org/ask/question/eab19452583b5959.html https://club.rt-thread.org/ask/question/eab19452583b5959.html 关闭全部中断,并且清除中…

每天一道leetcode:剑指 Offer 27. 二叉树的镜像(适合初学者递归树)

今日份题目: 请完成一个函数,输入一个二叉树,该函数输出它的镜像。 例如输入: 4 / \ 2 7 / \ / \ 1 3 6 9 镜像输出: 4 / \ 7 2 / \ / \ 9 6 3 1 示例 输入:root [4,2,7…

小白到运维工程师自学之路 第七十一集 (kubernetes网络设置)

一、概述 Master 节点NotReady 的原因就是因为没有使用任何的网络插件,此时Node 和Master的连接还不正常。目前最流行的Kubernetes 网络插件有Flannel、Calico、Canal、Weave 这里选择使用flannel。 二、安装flannel 1、master下载kube-flannel.yml,所…

Leetcode-每日一题【剑指 Offer 19. 正则表达式匹配】

题目 请实现一个函数用来匹配包含. 和*的正则表达式。模式中的字符.表示任意一个字符,而*表示它前面的字符可以出现任意次(含0次)。在本题中,匹配是指字符串的所有字符匹配整个模式。例如,字符串"aaa"与模式…

OSI参考模型及TCP/IP协议栈

一、网络概述 1.1、什么是网络? 1、网络的本质就是实现资源共享 2、将各个系统联系到一起,形成信息传递、接收、共享的信息交互平台 1.2、典型的园区网拓扑 1.3、网络历史发展,ARPA和ARPANET 1、1969年,美国国防部高级研究计…

Python下载的11种方法,一种比一种高级

概要 今天我们一起学习如何使用不同的Python模块从web下载文件。此外,你将下载到常规文件、web页面、Amazon S3和其他资源。 最后,你将学习到如何克服可能遇到的各种挑战,例如下载重定向的文件、下载大型文件、完成一个多线程下载以及其他策…

element-ui表格跨页多选实现

前言 在我们日常项目开发中,经常会有表格跨页多选的需求,接下来让我们用 el-table 示例一步步来实现这个需求。 动手开发 在线体验 https://codesandbox.io/s/priceless-mcclintock-4cp7x3?file/src/App.vue 常规版本 本部分只写了一些重点代码,心急的彦祖可以直接看 性…

量化投研之如何获取所需的数据?

数据是决策和分析的基础,数据的速度、完整性非常重要。 掘金量化提供两大类数据获取方式:订阅数据获取实时数据、接口直通获取历史数据。 下面是两个方式各自的步骤介绍。 获取数据 1. 通过订阅获取高频行情数据 步骤 1、设置初始化函数: init, 使用…

开放世界实例分割:Exploring Transformers for Open-world Instance Segmentation

论文作者:Jiannan Wu,Yi Jiang,Bin Yan,Huchuan Lu,Zehuan Yuan,Ping Luo 作者单位:The University of Hong Kong;ByteDance;Dalian University of Technology;Shanghai AI Laboratory 论文链接:https://arxiv.org/pdf/2308.04206v1.pdf 内…

《孤注一掷》现实版:29万打水漂,华为程序员也躲不过的诈骗!!!

明天周五,约吗? 不管怎样,反正播妞已经订好了《孤注一掷》的电影票。不为别的,《孤注一掷》太敢拍了!!! 美女荷官在线发牌,高知程序员在线养“猪”,诈骗头目“虔诚”拜佛…

HTML笔记(2)

列表标签 项目标识符(项目符号)一般是不需要的 代码演示 改变符号样式,type属性 表格标签 代码演示 练习案例 布局标签 div是块儿级标签,占一整行; span标签不会占一整行,它只占包裹内容的那块儿区域&a…

甭提ChatGPT了,这个新的AI助手将永远改变人们的工作方式

我使用ChatGPT和Bard已有一段时间了,这些工具已成为我工作流程中不可或缺的一部分。我依靠它们来生成代码、进行统计测试、理解新的术语,并生成分析报告和总结论文。然而当我改用Poe后,使用体验却有了大幅改善。 我在本文中解释为什么我不再…