实验1 主成分分析

news2024/11/28 12:31:31

目 录

二、实验环境... 1

三、实验内容... 1

3.1 导入数据... 2

3.2 求相关系数矩阵.. 3

3.3 数据规范化处理.. 3

3.4 主成分分析... 4

四 实验心得... 5

一、实验目的

(1)理解主成分分析的思想;

(2)掌握主成分分析方法的步骤;

(3)能熟练地使用主成分分析方法分析相应的数据。

二、实验环境

(1)操作系统:windows11;

(2)python版本:3.10;

(3)Python开发环境:pycharm、jupyter notebook。

三、实验内容

某金融服务公司为了了解贷款客户的信用程度,评价客户的信用等级,采用信用评级常用的5C(能力,品格,担保,资本,环境)方法对15名客户进行打分,由此判断客户违约的可能性。

品格:指客户的名誉;

能力:指客户的偿还能力;

资本:指客户的财务实力和财务状况;

担保:指对申请贷款项担保的覆盖程度;

环境:指外部经济政策环境对客户的影响;

由于各项指标的难易程度不同,因此需要对5项指标进行赋权,以便能够更加合理的对15名客户进行评价。

3.1 导入数据

将上图的数据编辑在txt文本中,便于后续导入程序,如下图所示:

编写代码使用pandas中的read_csv方法导入文本数据,参数保证:第0行为标题行,单元之间以空格分隔,代码如下:

import pandas as pd
data = pd.read_csv(
'bank.txt',header = 0,sep = ' ')
print(data)

运行结果如下:

3.2 求相关系数矩阵

求解相关系数矩阵可以让我们进一步了解数据属性间的相关情况,便于后续数据处理。使用iloc方法获取数据的后5列,随后使用corr方法求出5个属性间的相关系数,代码如下:

x = data.iloc[:,1:]

  #求相关系数矩阵

  r = x.corr()

r

运行结果如下:

3.3 数据规范化处理

标准化后的数据可以消除数据中量纲和量级的影响,提取出数据的主要特征。引入sklearn.preprocessing的StandardScaler方法对数据进行标准化,代码如下:

#数据规范化处理

  from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

scaler.fit(x)

x = scaler.transform(x)

x

运行结果如下,将每个属性都转化为均值为0,方程为1的正态分布形式,一共得到了15个5维向量,表示15个用户标准化后的信息:

3.4 主成分分析

使用sklearn.decomposition中的PCA方法进行主成分分析,PCA(n_components=0.95)将选择足够的主成分来解释至少95%的数据方差。然后,这些主成分将被用于转换数据集X,生成新的低维表示Y。代码如下:

#主成分分析

  from sklearn.decomposition import PCA

pca = PCA(n_components = 0.95)

pca.fit(x)

y = pca.transform(x)

tzxl = pca.components_

tz=pca.explained_variance_

gxl=pca.explained_variance_ratio_

Y00=sum(x[0,:]*tzxl[0,:])

Y01=sum(x[1,:]*tzxl[0,:])

Y02=sum(x[2,:]*tzxl[0,:])

Y03=sum(x[3,:]*tzxl[0,:])

  #综合排名

  F=gxl[0]*y[:,0]+gxl[1]*y[:,1]+gxl[2]*y[:,2] #综合得分=各个主成分*贡献率之和

  dq=list(data['客户编号'].values)  #提取客户编号

  Rs=pd.Series(F,index=dq)           #以客户编号作为index,综合得分为值,构建序列

  Rs=Rs.sort_values(ascending=False) #按综合得分降序进行排序

  Rs

运行结果如下,以降序展现用户得分情况,其中用户编号为10的用户得分最高,因为其5个属性的分数均为68左右,而编号为3的用户得分最低,因为其有三个属性未超过60分:

 

四 实验心得

(1)导入数据文件要设置sep和header参数,确保导入正确结构的数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1902960.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

昇思25天学习打卡营第19天 | CycleGAN图像风格迁移互换

内容介绍: CycleGAN(Cycle Generative Adversarial Network) 即循环对抗生成网络,该模型实现了一种在没有配对示例的情况下学习将图像从源域 X 转换到目标域 Y 的方法。 该模型一个重要应用领域是域迁移(Domain Adaptation),可以通俗地理解…

常用SQL语句(基础篇)

前言 查询的sql的结构是 select...from...where...group by...having...order by...limit... 写查询sql的时候需要按照如下顺序写 from,where(and,or,!),group by,select&#xf…

文件系统技术架构分析

一文读懂:什么是文件系统 ,有哪几类? ▉ 什么是文件系统? 技术大拿眉头皱了皱,忍住快要爆发的情绪。解释到: 数据以二进制形式存储于介质,但高低电平含义难解。文件系统揭秘这些二进制背后的意…

智能交通(3)——Learning Phase Competition for Traffic Signal Control

论文分享 https://dl.acm.org/doi/pdf/10.1145/3357384.3357900https://dl.acm.org/doi/pdf/10.1145/3357384.3357900 论文代码 https://github.com/gjzheng93/frap-pubhttps://github.com/gjzheng93/frap-pub 摘要 越来越多可用的城市数据和先进的学习技术使人们能够提…

代码随想录 数组部分+代码可在本地编译器运行

代码随想录 数组部分,代码可在本地编译器运行 文章目录 数组理论基础704.二分查找题目:思路二分法第一种写法二分法第二种写法 代码 27.移除元素题目:思路-双指针法代码 977.有序数组的平方题目思路-双指针代码 209.长度最小的子数组题目&am…

《Windows API 每日一练》8.4 edit控件

编辑类是最简单的预定义窗口类,而另一方面却又是最复杂的。当你用“edit”作为类名创建子窗口时,可以基于CreateWindow调用的x坐标、y坐标、宽度和高度参数定义一个矩形。这个矩形包含可编辑的文本。一旦子窗口控件获得输入焦点,你就可以输入…

黑色矩形块检测数据集VOC+YOLO格式2000张1类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):2000 标注数量(xml文件个数):2000 标注数量(txt文件个数):2000 标注…

使用ifconfig命令获取当前服务器的内网IP地址

如何使用ifconfig命令获取当前服务器的内网IP地址呢? ifconfig eth0 | grep inet | awk {print $2}

Zookeeper分布式锁原理说明【简单易理解】

Zookeeper 非公平锁/公平锁/共享锁 。 1.zookeeper分布式锁加锁原理 如上实现方式在并发问题比较严重的情况下,性能会下降的比较厉害,主要原因是,所有的连接都在对同一个节点进行监听,当服务器检测到删除事件时,要通知…

2007-2022年 国内各上市公司绿色化转型数据.(Excel文件、dta文件、参考文献、计算方法与说明)

上市公司绿色化转型数据为研究者提供了评估企业在生态文明建设、循环经济和绿色管理方面表现的重要视角。以下是对中国各上市公司绿色化转型数据的介绍: 数据简介 定义:上市公司绿色化转型是指企业在发展模式上向可持续发展转变,实现资源节…

如何确保 PostgreSQL 在高并发写操作场景下的数据完整性?

文章目录 一、理解数据完整性二、高并发写操作带来的挑战三、解决方案(一)使用合适的事务隔离级别(二)使用合适的锁机制(三)处理死锁(四)使用索引和约束(五)批…

《linux系统内核设计与实现》-内核空间和用户空间的概念以及内核空间和用户空间的数据拷贝

1 内核空间和用户空间的概念 用户空间:0-3G 内核空间:3-4G PAGE_OFFSET配置用户空间和内核空间的界限 分离的原因: (1)处理器模式不同,权限不同 对于x86体系的cpu,用户空间代码运行在Ring3…

时间、查找、打包、行过滤与指令的运行——linux指令学习(二)

前言:本节内容标题虽然为指令,但是并不只是讲指令, 更多的是和指令相关的一些原理性的东西。 如果友友只想要查一查某个指令的用法, 很抱歉, 本节不是那种带有字典性质的文章。但是如果友友是想要来学习的,…

如何创建和规划 PMO 团队,并发挥其最大实际价值

在当今复杂多变的商业环境中,项目管理办公室(PMO)已成为许多组织中不可或缺的一部分。PMO 团队能够为企业的项目管理提供战略指导、资源协调、流程优化等支持,从而提升项目的成功率和组织的整体绩效。那么,如何创建和规…

【React】React18 Hooks 之 useReducer

目录 useReducer案例1:useReducer不带初始化函数案例2:useReducer带初始化函数注意事项1:dispatch函数不会改变正在运行的代码的状态注意事项2:获取dispatch函数触发后 JavaScript 变量的值注意事项3:触发了reducer&am…

【沐风老师】3DMAX样条线增强工具SplinePro使用方法详解

3DMAX样条线增强工具SplinePro使用教程 3DMAX样条线增强工具SplinePro,允许创建选定的多条样条曲线形状的轮廓并删除交叉点。 【适用版本】 3dMax2019 - 2025 【安装方法】 1.解压缩后,确认SplinePro-0.2.0.mse和logo.png两个文件在同一文件夹中。 2.…

移动校园(4):数据处理(sql server数据库)

昨天写入数据库后的数据 可以看到classname和timeandlocation有多个值,所以需要进行数据处理 let reawait req.app.locals.db.query(select distinct classname from courses)let data[]re.recordset.map((value)>{let namesvalue.classname.split(,)names.map(…

那你真的了解方法调用吗?

方法调用是不是很熟悉?那你真的了解它吗?今天就让我们来盘一下它。 首先大家要明确一个概念,此处的方法调用并不是方法中的代码被执行,而是要确定被调用方法的版本,即最终会调用哪一个方法。 之前我们了解到&#xff…

【Android】自定义换肤框架05之Skinner框架集成

引入依赖 api("io.github.hellogoogle2000:android-skinner:1.0.0")初始化Skinner 在所有功能前调用即可,建议在Application中初始化 SkinnerKit.init(application)安装皮肤包 在应用该皮肤包前安装即可,建议预安装,或应用皮肤…

【反悔堆 反悔贪心】2813. 子序列最大优雅度

本文涉及知识点 反悔堆 反悔贪心 LeetCode 2813. 子序列最大优雅度 给你一个长度为 n 的二维整数数组 items 和一个整数 k 。 items[i] [profiti, categoryi],其中 profiti 和 categoryi 分别表示第 i 个项目的利润和类别。 现定义 items 的 子序列 的 优雅度 可…