利用PCA科学确定各个指标的权重系数

news2025/4/13 7:21:50

背景参考:
在这里插入图片描述
在这里插入图片描述

1、提取主成分

  • 对样本进行PCA分析,查看不同变量贡献率,确定主要的指标。

我们可以通过下列代码获取需要的所有数据:

import numpy as np
from sklearn.decomposition import PCA

# 创建一个数据
np.random.seed(0)
data = np.random.random((100,5))
y = np.random.randint(0,6,100)

# 进行pca
pca = PCA()
x_new = pca.fit_transform(data)

# 获取每个特征对于每个主成分的贡献率
explained_variance_ratio = pca.explained_variance_ratio_
print("排序的贡献率:",explained_variance_ratio)

# 获取每个特征对于每个主成分的特征值(排序了的)
explained_variance = pca.explained_variance_
print("排序的特征值:",explained_variance)

# 获取每个特征对于每个主成分的特征值(未排序的)
cov_matrix = np.cov(data.T) # 计算协方差矩阵
eigen_values, eigen_vectors = np.linalg.eig(cov_matrix) # 计算特征值和特征向量
print("未排序的特征值:",eigen_values)

# 获取载荷系数,即特征向量
components = pca.components_
print("排序的载荷系数,即特征向量:\n",components) # 行代表主成分,即第一行为第一主成分

我们获得输出如下:

排序的贡献率: [0.2679184  0.22563357 0.20109877 0.16265843 0.14269083]
排序的特征值: [0.11390347 0.09592639 0.08549561 0.06915299 0.06066392]
未排序的特征值: [0.11390347 0.09592639 0.08549561 0.06066392 0.06915299]
排序的载荷系数,即特征向量:
 [[ 0.2792074   0.32459124  0.54648931  0.5063108   0.51154917]
 [ 0.38799128 -0.41011012  0.47386964 -0.6498715   0.18543747]
 [-0.48817892  0.14380819 -0.23333252 -0.33626022  0.75728829]
 [-0.11980573 -0.83842108 -0.10090177  0.45633566  0.25352175]
 [-0.72030127 -0.05309911  0.64200605 -0.00179817 -0.25723834]]

2、计算各个变量的权重系数

  • 从上述结果中我们可以看出,前4个主成分的贡献率达到了85.73%,因此我们可以说所有指标基本可以由前四个主成分对应的指标代替(通过未排序的特征值确定是那几个指标)。
  • 随后我们计算这四个主成分的线性组合公式。计算这四个主成分的线性组合公式,我们需要计算他们的系数。
    • 确定主成分在各线性组合中的系数。
      在之前,我们先假设这5个变量分别是:a1、a2、a3、a4、a5。他们的系数分别是: λ 1 \lambda _{1} λ1 λ 2 \lambda _{2} λ2 λ 3 \lambda _{3} λ3 λ 4 \lambda _{4} λ4 λ 5 \lambda _{5} λ5
      公式: 系数 = 载荷系数 / 对应主成分的特征值的开方
      即: λ i = L i j V i ,其中: L i j 代表第 i 个主成分中第 j 个载荷的数值, V i 代表第 i 个主成分的特征值。 \lambda _{i}= \frac{L_{ij}}{\sqrt{V_{i}}} , 其中:L_{ij}代表第i个主成分中第j个载荷的数值,V_{i}代表第i个主成分的特征值。 λi=Vi Lij,其中:Lij代表第i个主成分中第j个载荷的数值,Vi代表第i个主成分的特征值。
      例如第一主成分的线性组合公式:
      λ 1 = 0.2792074 0.11390347 = 0.82729 \lambda _{1}=\frac{0.2792074}{\sqrt{0.11390347}} = 0.82729 λ1=0.11390347 0.2792074=0.82729
      λ 2 = 0.32459124 0.11390347 = 0.96176 \lambda _{2}=\frac{0.32459124}{\sqrt{0.11390347}} = 0.96176 λ2=0.11390347 0.32459124=0.96176
      λ 3 = 0.54648931 0.11390347 = 1.61924 \lambda _{3}=\frac{0.54648931}{\sqrt{0.11390347}} = 1.61924 λ3=0.11390347 0.54648931=1.61924
      λ 4 = 0.5063108 0.11390347 = 1.50019 \lambda _{4}=\frac{0.5063108}{\sqrt{0.11390347}} = 1.50019 λ4=0.11390347 0.5063108=1.50019
      λ 5 = 0.51154917 0.11390347 = 1.51572 \lambda _{5}=\frac{0.51154917}{\sqrt{0.11390347}} = 1.51572 λ5=

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1016737.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深入理解CI/CD流程:改变你的开发生命周期

🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🦄 博客首页——🐅🐾猫头虎的博客🎐 🐳 《面试题大全专栏》 🦕 文章图文…

投后管理系统的主要功能及开发

投后管理系统是一种用于跟踪和管理投资组合中的投资的工具,通常由私募股权、风险投资公司、资产管理公司和投资者使用。其主要功能包括以下内容,希望对大家有所帮助。北京木奇移动技术有限公司,专业的软件外包开发公司,欢迎交流合…

全新跑分软件GeekRUN-7问世

实测非常好用CPU跑分神器点击下载 感兴趣的可以测测你的手机跑的多少。 我的峰值是7340,低值是4685,测试时后台不能有任何APP

丙烯酸共聚聚氯乙烯树脂

声明 本文是学习GB-T 42790-2023 丙烯酸共聚聚氯乙烯树脂. 而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们 1 范围 本文件规定了丙烯酸共聚聚氯乙烯树脂的外观、物化性能等技术要求,描述了相应的采样、试验方 法、检验规则、标志、包装、…

2023年中国场馆产业研究报告

第一章 行业综述 1.1 定义与分类 场馆,作为一个多元化和充满活力的行业,为人们提供了一个为不同目的而聚集的空间。无论是为了活动、表演、展览还是聚会,场馆都在为社区的社会、文化和经济建设做出了不可或缺的贡献。 场馆是一个为举办各类…

深入思考redis面经

1 redission分布式锁 1.1 为了保证数据一致性,引入了redission的锁,你是为了抗住高并发而去为了引入这个锁还是说为了保证数据一致性去引入的 答:主要是为了抗住高并发问题,解决redis的缓存击穿问题,但是也能解决一定…

【算法|链表】环形链表Ⅱ

环形链表Ⅱ 给定一个链表的头节点 head ,返回链表开始入环的第一个节点。 如果链表无环,则返回 null。 如果链表中有某个节点,可以通过连续跟踪 next 指针再次到达,则链表中存在环。 为了表示给定链表中的环,评测系统…

原创 VTK 基础入门 ( 一 ) 贴纹理

纹理 这个示例先读入一幅JPEG的二维纹理图;然后定义一个纹理类vtkTexture对象,接着把读入的NPG图像输入到vtkTexture 里, 作为它即将“贴”到平面上的一个纹理图;再定义一个vtkPlaneSource对象,类vtkPlaneSource 可以生成一个…

Pytorch学习:torch.max(input,dim,keepdim=False)

文章目录 torch.max()dimkeepdimdim0dim1 out:返回命名元组 (values, indices) torch.max() torch.max(input) → Tensor:返回 input 张量中所有元素的最大值。 注意输入的必须是张量形式,输出的也为张量形式 当输入为tuple类型时&#xf…

Attention is all you need 论文笔记

该论文引入Transformer,主要核心是自注意力机制,自注意力(Self-Attention)机制是一种可以考虑输入序列中所有位置信息的机制。 RNN介绍 引入RNN为了更好的处理序列信息,比如我 吃 苹果,前后的输入之间是有…

计算机组成原理之计算机系统概论、计算机的发展史、系统总线,三章开篇讲

第一章-计算机系统概论 1计算机系统简介 现代计算机的多态性 把感应器嵌入和装备到电网、铁道、桥梁、隧道、公路、建筑、供水系统、大坝、油气管道等各种物体中,并且被普遍连接,形成“物联网”,然后将“物联网”与现有的网络整合起来&…

无涯教程-JavaScript - ACOT函数

描述 ACOT函数以0至π之间的弧度(以弧度为单位)返回数的反正切或反余切的主值。 语法 ACOT (number)争论 Argument描述Required/OptionalNumberNumber is the cotangent of the angle you want. This must be a real number.Required Notes 要将输出从弧度转换为度, 使用D…

【计算机视觉 | 目标检测】YOLO-NAS的介绍以及如何使用?(含源代码)

文章目录 一、介绍1.1 亮点1.2 方案简介1.3 训练简介 二、使用案例 一、介绍 Github 仓库: https://github.com/Deci-AI/super-gradients/blob/master/YOLONAS.md1.1 亮点 参考QARepVGG,该方案引入了QSP与QCI模块以同时利用重参数与8-bit量化的优化&a…

C语言练习题解析(2)

💓博客主页:江池俊的博客⏩收录专栏:C语言刷题专栏👉专栏推荐:✅C语言初阶之路 ✅C语言进阶之路💻代码仓库:江池俊的代码仓库🎉欢迎大家点赞👍评论📝收藏⭐ 文…

d3dx9_43.dll文件缺失的修复方法有哪些?4个方法快速修复d3dx9_43.dll

最近有很多小伙伴反映说他的电脑经常出现一个问题,那就是d3dx9_43.dll文件缺失了,然后一些程序都打不开,他们都是一脸懵逼,不知道怎么去处理这个问题,今天小编就要来给大家详细的说说这方面,d3dx9_43.dll文…

小谈设计模式(3)—策略模式

小谈设计模式(3)—策略模式 专栏介绍专栏地址专栏介绍 策略模式主要角色环境(Context)抽象策略(Strategy)具体策略(Concrete Strategy)角色总结 核心思想封装算法定义抽象策略使用环…

Minio入门系列【3】MinIO Client使用详解

1 简介 简称mc,是minio服务器的客户端,对ls,cat,cp,mirror,diff,find等UNIX命令提供了一种替代方案,它支持文件系统和兼容Amazon S3的云存储服务(AWS Signature v2和v4&…

nginx知识点详解:反向代理+负载均衡+动静分离+高可用集群

一、nginx基本概念 1. nginx是什么,做什么事情? Nginx是一个高性能的HTTP和反向代理服务器,特点是占有内存少,并发能力强。Nginx转为性能优化而开发,能经受高负载考验。支持热部署,启动容易,运…

(三十二)大数据实战——Maxwell安装部署及其应用案例实战

前言 Maxwell是一个开源的MySQL数据库binlog解析工具,用于将MySQL数据库的binlog转换成易于消费的JSON格式,并通过Kafka、RabbitMQ、Kinesis 等消息队列或直接写入文件等方式将其输出。本节内容主要介绍如何安装部署Maxwell以及如何使用Maxwell完成数据…

通用商城项目(下)

记录一些踩坑的地方,以及理顺一些思路。 通过管理系统页面,完成商品属性分组和商品属性(基本属性)关联维护 属性表 与 属性组表 的功能完善:显示属性组与属性表的一对多关系 前端 1. 引入组件,是否显示使…