用Python分析定性变量之间的相关性_对应分析模板

news2024/9/23 15:30:48

对应分析是一种多元统计分析方法,主要用于分析定性变量构成的列联表,揭示变量之间的关系。它通过将列联表中的数据转换为点的形式,在低维空间中表示出来,从而实现数据的可视化。这种方法特别适用于有多个类别的定性变量分析,可以揭示同一变量的不同类别之间的差异以及不同变量的类别之间的对应关系。

对应分析的基本思想是将联列表的行和列中各元素的比例结构转换为点的形式,以直观地展示在二维或三维空间中。这种方法的特点是能够将多个样品和变量同时展示在同一张图上,直观地显示样品的大类及其属性。

对应分析的应用领域非常广泛,主要包括市场细分、产品定位、地质研究以及计算机工程等。它通过视觉化的数据分析方法,能够将看似无关的数据在视觉上展示出联系。

接下来将用一个实例来演示对应分析的步骤实现。问题背景如下:

假设我们有一个关于不同年龄段(青年、中年、老年)和他们对不同类型电影(动作片、喜剧片、爱情片)偏好的列联表数据。

# 导入所需的库
import pandas as pd
import prince 

# 创建示例数据
data = {
    "动作片": [50, 40, 30],
    "喜剧片": [30, 40, 10],
    "爱情片": [20, 20, 60]
}
index = ["青年", "中年", "老年"]
df = pd.DataFrame(data, index=index)

df

则创建数据如下:

目的是解释不同年龄段和电影类型之间的关系。

Step1:计算主成分上的得分

# 实施对应分析
ca = prince.CA(n_components=2)
ca = ca.fit(df)

# 查看前两个主成分的分数
df_scores = ca.row_coordinates(df)

df_scores

这段代码使用了prince库中的CorrAnalysis(对应分析)类来执行对应分析。下面是对代码的逐行解释:

  • ca = prince.CA(n_components=2)

    • 这行代码创建了一个CorrAnalysis类的实例,也就是对应分析的对象,命名为ca
    • n_components=2参数指定了降维后的维度数量,这里设置为2,意味着分析将把数据降到二维空间,以便在二维平面上进行可视化。
  • ca = ca.fit(df)

    • 这行代码对数据集df执行对应分析。df是一个DataFrame,应包含用于分析的数据。
    • fit方法用于计算对应分析,它将数据拟合到模型中,并计算行和列的坐标。
  • df_scores = ca.row_coordinates(df)

    • 这行代码从对应分析的结果中提取了行坐标,也就是数据集中每个观测点(例如,每个消费者或产品)在新的因子空间中的位置。
    • row_coordinates方法返回一个DataFrame,其中包含了每个观测点在前两个主成分上的得分,这些得分定义了它们在二维因子平面图上的位置。

通过使用对应分析,我们得到了前两个主成分(PC1,PC2):

结果解释:

在主成分分析(PCA)中,每个主成分上的得分反映了原始数据中的主要变化方向。这些得分可以是正的也可以是负的,具体含义如下:

  1. 正得分:表示该变量(或年龄段)在主成分上表现为正向变化,即随着主成分值的增加,该变量(或年龄段)的值也增加。

  2. 负得分:表示该变量(或年龄段)在主成分上表现为负向变化,即随着主成分值的增加,该变量(或年龄段)的值减少。

  • PC1:这个主成分上的得分显示了不同年龄段在电影偏好上的主要差异。例如,老年群体在PC1上的得分较高,表明他们的电影偏好与青年和中年群体有显著差异。
  • PC2:这个主成分上的得分显示了年龄段在第二个维度上的差异。虽然这些差异不如PC1上那么显著,但它们仍然提供了关于不同年龄段偏好的额外信息。

Step2:结果可视化

要将对应分析的结果可视化,我们可以使用散点图来展示不同年龄段在主成分上的得分。这样,我们可以直观地看到不同年龄段在电影偏好上的差异和相似性。

# 因子平面图的绘制
import matplotlib.pyplot as plt

# 使用之前通过对应分析得到的主成分得分
pc1 = df_scores[0]
pc2 = df_scores[1]

# 绘制图
plt.figure(figsize=(8, 6))
plt.scatter(pc1, pc2, color=['blue', 'green', 'red'])

# 添加标签和标题
plt.title('对应分析结果可视化')
plt.xlabel('主成分1 (PC1)')
plt.ylabel('主成分2 (PC2)')
plt.grid(True)
plt.xticks(fontsize=12)
plt.yticks(fontsize=12)

# 添加每个数据点的标签,使用 .iloc 方法
for i, txt in enumerate(df_scores.index):
    plt.annotate(txt, (pc1.iloc[i], pc2.iloc[i]), fontsize=12, ha='center')

# 显示图例
plt.legend(df_scores.index, fontsize=12)

# 显示图表
plt.show()

散点图如下:

通过散点图,我们可以直观地看到不同年龄段在两个主成分上的分布。每个点代表一个年龄段,横坐标和纵坐标分别对应主成分1(PC1)和主成分2(PC2)的得分。从图中可以观察到:

  • 青年群体在PC1上的得分较低,而在PC2上的得分居中。
  • 中年群体在两个主成分上的得分都较低。
  • 老年群体在PC1上的得分较高,而在PC2上的得分接近于0。

这种可视化帮助我们理解不同年龄段在电影偏好上的差异。例如,老年群体在PC1上的高分表明他们的电影偏好与青年和中年群体有显著差异。

以上演示了通过Python实现对应分析和可视化,探究了一个关于不同年龄段(青年、中年、老年)和他们对不同类型电影(动作片、喜剧片、爱情片)偏好的列联表数据之间的关系。

点下关注,分享更多有关AI,数据分析和量化金融相关的实用教程和案例分析。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2081439.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何将开发工具设置成滚动鼠标改变字体大小

就在刚刚与温州那边技术开会,温州那边技术提出:字体太小,代码看不清,需要将字体放大。然后让我将IDE设置成按住键盘的Ctrl滚动鼠标,可以放大字体大小。。。顿时间的小小尴尬。下面我来记录一下究竟是怎么操作的&#x…

Excel 导入和导出--前后端整合

文章目录 Excel基础Easy Excel导出会员数据导入会员数据 前端代码:代码解析总结组件简介详细解释总结 用来操作excel文件的。银行网银系统导出交易明细数据、各种业务系统导出excel报表数据、批量导入业务数据。 Excel基础 **工作簿 workbook**就是一个文件工作表 sheet属于…

element的el-date-picker组件实现只显示年月日时分,不显示秒

需求&#xff1a;使用element的el-date-picker组件&#xff0c;只显示时分&#xff0c;不消失秒 效果&#xff1a; 解决方法&#xff1a; <el-date-pickerv-model"ruleForm.startTime"type"datetime"placeholder"开始时间"format"yyyy-…

萌化人心!AI宠物视频,1条视频涨粉1W+,千万级播放量(附教程)

大家晚上好&#xff0c;今天给大家分享一个创意玩法—用AI 生成超萌动物&#xff0c;打造宠物互动虚拟场景。 这种视频内容非常受欢迎&#xff0c;吸引了大量观众。某音上有位博主通过这种创新方式迅速构建了AI宠物系列账号&#xff0c;短时间内便积累了大量粉丝。 比如这条视…

【前端】控制台彩蛋彩色键盘

效果如图 代码如下 const colors {reset: "\x1b[0m",red: "\x1b[31m",green: "\x1b[32m",yellow: "\x1b[33m",blue: "\x1b[34m",magenta: "\x1b[35m",cyan: "\x1b[36m",white: "\x1b[37m"…

神经网络算法 - 一文搞懂 Softmax 函数

本文将从Softmax的本质、Softmax的原理、Softmax的应用三个方面&#xff0c;带您一文搞懂 Softmax 函数。 Softmax激活函数 Softmax一般用来作为神经网络的最后一层&#xff0c;用于多分类问题的输出。其本质是一种激活函数&#xff0c;将一个数值向量归一化为一个概率分布向量…

《机器学习》 SVM支持向量机 推导、参数解析、可视化实现

目录 一、SVM支持向量机 1、什么是SVM 例如&#xff1a; 2、SVM的主要特点是&#xff1a; 二、SVM方程 1、超平面方程 2、标签问题 3、决策函数&#xff1a; 符号函数&#xff1a; 整合&#xff1a; 4、距离问题 1&#xff09;点到直线距离 2&#xff09;点到平面…

Python使用Tesseract OCR识别文字

Tesseract-OCR是一款由Google维护的开源光学字符识别&#xff08;OCR&#xff09;引擎&#xff0c;它能够从图像中识别出文本&#xff0c;并将其转换为可编辑的文本格式。以下是关于Tesseract-OCR的详细介绍&#xff1a; 一、背景与发展 起源&#xff1a;Tesseract最初是惠普…

5G Hz WiFi 频段划分

5GHz WiFi频段被划分为多个Band&#xff0c;这主要是基于国际通信标准和各国监管机构的规定。在常见的划分中&#xff0c;5GHz频段被分为以下几个部分&#xff1a; Band 1 (U-NII-1): 频率范围为5.15~5.25GHz&#xff0c;带宽为100MHz。Band 2 (U-NII-2 或 U-NII-2A/2C): 通常…

Visual Studio Code 自定义字体大小

常用编程软件自定义字体大全首页 文章目录 前言具体操作1. 打开首选项设置对话框2. 在Font Family里面输入字体 前言 Visual Studio Code 自定义字体大小&#xff0c;统一设置为 Cascadia Code SemiBold &#xff0c;大小为 14 具体操作 【文件】>【首选项】>【设置】&…

SSRF漏洞(服务器端请求伪造)相关案例

目录 前言&#xff1a; 案例&#xff1a;Web-ssrfme 一、redis未授权访问攻击 1.1 进入题目给出源码 1.2 测试ssrf 1.3 查看phpinfo发现主机 1.4 发现服务 1.5 攻击访问 1.6 FLAG 二、redis未授权写入任务计划 2.1 探测开放端口 2.2 导入任务计划 2.3 反弹shell成…

开源跨平台支持400多个国家语言屏幕键盘虚拟键盘Keyman开发指南

很多嵌入式开发平台或者移动端&#xff0c;桌面端开发都需要用到自定义的键盘&#xff0c;想要开发一个能够支持多国语言键盘布局的开源Keyboard可不容易&#xff0c;工作量非常大。 很多公司都是只开发英汉两种键盘布局&#xff0c;连Qt自带的VirtualKeyboard实际上要支持多国…

C++内存对齐和无符号有符号数混合运算

记录一下笔试中遇到的几个问题&#xff1a; C中无符号数与有符号数一起运算时&#xff0c;都会转换成无符号数运算 int main() {unsigned int a 100;signed b -100;cout << (unsigned)b << endl; // 4294967196signed c, d;c a / b; // 相当于 100 / 429496…

TCP数据包——报文头部组成

TCP协议报头包括以下字段: 源端口和目标端口:分别是发送方和接收方的端口号,用于标识通信的应用程序。 序列号:用于标识数据流的序列号,保证数据包的顺序性。每一个报文都有一个序列号。 确认号:用于确认收到的数据包序列号,用于实现可靠传输。每发送一个数据包都需要收…

系统分析师5-数据库特训专题

文章目录 1 数据库设计概述2 规范化与反规范化2.1 规范化2.2 反规范化2.3 案例分析例题1 3 数据库索引与视图的应用3.1 数据库索引3.2 数据库视图3.3 案例分析例题2 4 分布式数据库系统5 数据库分区分表分库5.1 案例分析例题3 6 分布式事务增补6.1 案例分析例题4 7 NoSQL8 附录…

优雅实现远程调用-OpenFeign

目录 OpenFeign介绍 OpenFeign最佳实践 我再来遇到个问题&#xff0c;我创建的com.xx.xxx包&#xff0c;放到一起了&#xff0c;不是那种一个在一个下面的那种 Nacos&#xff0c;只要看见这种什么网络报错啥的&#xff0c;java.net.SocketException: Network is unreachabl…

十、软件工程基础知识(考点篇)

1 软件工程 软件开发生命周期&#xff1a; 软件定义时期&#xff1a;包括可行性研究和详细需求分析过程&#xff0c;任务是确定软件开发工程必须完成的总目 标&#xff0c;具体(步骤)可分成问题定义、可行性研究、需求分析等。 软件开发时期&#xff1a;就是软件的设计与实…

Hive的体系架构、安装

目录 一、Hive体系架构二、安装1.嵌入模式2.本地模式和远程模式 一、Hive体系架构 二、安装 1.嵌入模式 特点 不需要Mysql支持&#xff0c;数据存储在自带的derby中只支持一个链接&#xff0c;即一时间只能有一个用户操作 部署 根据如下文件自行编写hive-site.xml hive-sit…

Docker 部署 Kafka 可视化 Kafka-UI

前言 本文部署的Kafka-UI 是基于Docker Compose 部署 Kafka的KRaft模式&#xff0c;如有需要可访问下文链接 Docker Compose 部署 Kafka的KRaft模式 不用依赖 Zookeeper 此部署也适用于不是docker部署的kafka集群 1.启动 Kafka-UI 服务 1.1 kafka 来自docker安装 docker r…

无法验证 Anaconda 仓库证书

无法验证 Anaconda 仓库证书 这个错误表明无法验证 Anaconda 仓库的证书。你可以尝试添加参数 --no-check-certificate 来解决这个问题&#xff08;不推荐但还挺好用&#xff0c;嘻嘻&#xff09;&#xff1a; wget --no-check-certificate https://repo.anaconda.com/archive…