【数据分析】1、用Pandas计算数据相关性系数

news2024/12/26 2:48:11

相关性系数和相关分析是了解变量之间关系的重要工具。通过合理选择相关性系数和科学分析数据,能够有效揭示变量之间的关系,为进一步研究和决策提供有力支持。在实际应用中,应结合业务背景、数据特性和统计原则,谨慎解释和应用相关分析结果。

相关性系数

相关性系数(Correlation Coefficient)是度量两个变量之间相关程度的统计指标。常见的相关性系数有以下几种:

  • 1. 皮尔逊相关系数(Pearson Correlation Coefficient)

    • 用于测量两个连续变量之间的线性相关程度。
    • 取值范围为[-1, 1]:
      • 1 表示完全正相关,两个变量呈线性正比例关系。
      • -1 表示完全负相关,两个变量呈线性反比例关系。
      • 0 表示没有线性相关关系。
    • 公式:

      其中,Xi 和 Yi​ 分别为两个变量的观测值, Xˉ 和Yˉ 为变量的均值。

  • 2. 斯皮尔曼相关系数(Spearman's Rank Correlation Coefficient

  • 用于测量两个变量之间的单调相关程度,适用于非线性关系或数据不满足正态分布的情况。
  • 通过计算变量排名之间的皮尔逊相关系数得到。
  • 公式:

其中,di​ 是每对观测值排名之差,n 是观测值的数量。

  • 3. 肯德尔相关系数(Kendall's Tau Coefficient):

  • 另一种用于测量两个变量之间单调关系的方法,特别适用于小样本数据。
  • 基于观测值对之间的一致性和不一致性计算。
  • 公式:

其中,C和 D 分别表示一致性和不一致性对数,T1​ 和 T2​ 分别表示两个变量的平局对数。

在Pandas库中,DataFrame.corr()方法用于计算DataFrame各列之间的相关系数。默认情况下,DataFrame.corr()使用的是皮尔逊相关系数(Pearson Correlation Coefficient)。

示例代码

以下是一个简单的示例,展示如何使用df.corr()计算DataFrame各列之间的皮尔逊相关系数:

import pandas as pd

# 创建示例数据
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [2, 4, 6, 8, 10],
    'C': [5, 4, 3, 2, 1]
}

df = pd.DataFrame(data)

# 计算相关系数矩阵
correlation_matrix = df.corr()
print(correlation_matrix)

输出

上述代码输出的相关系数矩阵可能如下:

          A         B         C
A  1.000000  1.000000 -1.000000
B  1.000000  1.000000 -1.000000
C -1.000000 -1.000000  1.000000

解释

  • A和B之间的相关系数为1,表示它们之间存在完全正相关关系。
  • A和C之间的相关系数为-1,表示它们之间存在完全负相关关系。
  • B和C之间的相关系数为-1,同样表示它们之间存在完全负相关关系。

其他相关系数方法

如果需要计算其他类型的相关系数,可以通过method参数指定,如:

  • method='pearson':计算皮尔逊相关系数(默认)。
  • method='kendall':计算肯德尔相关系数。
  • method='spearman':计算斯皮尔曼相关系数。
# 计算斯皮尔曼相关系数矩阵
spearman_corr = df.corr(method='spearman')
print(spearman_corr)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1876658.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于知识图谱的医药问答系统实战

数据及代码地址见文末 1.项目配置 (1)Neo4j数据库安装 JDK 安装:https://www.oracle.com/java/technologies/javase-downloads.html Neo4j 安装:https://neo4j.com/download-center/ 配置好 JDK 和 Neo4j 的环境变量 启动:neo4j.bat console 第一次启动有默认用户名和密…

数字信号处理教程(1)——简介

考了几天试,终于有时间来继续写了,接下来,我们主要对数字信号处理和通信原理这两本偏于理论书记录自己的简单看法。当然其他大家讲的比较好的地方,我也会摘录下来。 先来看数字信号处理的内容,数字信号处理中有…

Gradio 4.37.1官方教程二:Blocks

文章目录 一、Blocks及事件监听器1.1 Blocks结构1.2 事件监听器的类型1.3 多数据流1.4 多输入组件1.5 多输出组件1.6 更新组件配置1.7 添加示例1.8 连续运行事件1.9 持续运行事件1.9.1 every参数1.9.2 load方法1.9.3 change方法 1.10 收集事件数据1.11 绑定多个触发器到同一函数…

【ai】trition:tritonclient yolov4:ubuntu18.04部署python client成功

X:\05_trition_yolov4_clients\01-python server代码在115上,client本想在windows上, 【ai】trition:tritonclient.utils.shared_memory 仅支持linux 看起来要分离。 【ai】tx2 nx:ubuntu18.04 yolov4-triton-tensorrt 成功部署server 运行 client代码远程部署在ubuntu18.0…

从灵感到实践:Kimi辅助完成学术论文选题的文艺之旅

学境思源,一键生成论文初稿: AcademicIdeas - 学境思源AI论文写作 昨天我们为大家介绍了ChatGPT辅助完成实现设计(AI与学术的交响:ChatGPT辅助下的实验设计新篇章)。今天我们再来看看Kimi对于论文选题都能提供哪些帮助…

mindspore打卡第9天 transformer的encoder和decoder部分

mindspore打卡第9天 transformer的encoder和decoder部分 import mindspore from mindspore import nn from mindspore import ops from mindspore import Tensor from mindspore import dtype as mstypeclass ScaledDotProductAttention(nn.Cell):def __init__(self, dropout_…

如何修改PDF文档的作者名称?

要修改一个 PDF 文档的作者名称,你可以按照以下步骤进行操作: 1. **使用 Adobe Acrobat**(如果有): - Adobe Acrobat 是一个功能强大的 PDF 编辑工具,支持修改文档属性信息,包括作者名称。打开…

SSRF一篇文章实战举例全面学懂

前言 Gopher协议在SSRF漏洞中的深入研究(附视频讲解) - 知乎 (zhihu.com) 上面这篇文章真的写的很好,是目前看过最好的将SSRF(服务端请求伪造)和Gopher协议的内容。 然后这种题型,我记得在之前的文章,金砖里有个云启…

Python 面试【★★★】

欢迎莅临我的博客 💝💝💝,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

HIVE每日一题

select * from sku_info order by sku_id ; 为什么结果没有顺序排序。什么原因导致的?

第二十一课,列表的操作函数

一,len(列表):求列表的长度 当你需要知道一个列表中含有多少个元素时,可以使用len()函数,将列表的变量名放入len()函数的括号中,它将告诉你这个列表中有多少个元素,也就是它的长度! 需要注意的是&#xf…

电脑文件夹里的表格删除了怎样恢复?别急,可这样做

在日常工作中,我们经常会使用到各种电子表格来记录、整理和分析数据。然而,有时由于操作失误或其他原因,我们可能会不小心将电脑文件夹中的重要表格删除。面对这种情况,许多人可能会感到惊慌失措,担心数据丢失会给工作…

试析C#编程语言的特点及功能

行步骤,而不必创建新方法。其声明方法是在实例化委托基础上,加一对花括号以代表执行范围,再加一个分号终止语句。 2.3.3 工作原理 C#编译器在“匿名”委托时会自动把执行代码转换成惟一命名类里的惟一命名函数。再对存储代码块的委托进行设…

吉时利 Keithley2470 图形数字源表

Keithley2470吉时利图形SMU数字源表 2470 型图形化高压 SourceMeter SMU 2470 高压 SMU 凭借其 1100V 和 10fA 能力,经优化用于检定和测试高电压、低泄漏器件、材料和模块,如碳化硅 (SiC)、氮化镓(GaN)、功率 MOSFET、瞬态抑制器件、电路保护器件、功率…

5个大气的wordpress付费主题

Sesko赛斯科wordpress外贸主题 适合用于重型机械设备公司建外贸官方网站的橙红色wordpress外贸主题。 https://www.jianzhanpress.com/?p5886 Polar钋啦wordpress外贸主题 制造业wordpress网站模板,适合生产制造企业官方网站使用的wordpress外贸主题。 https:/…

【新能源汽车-电控】控制芯片、电机控制、电机结构、硬件相关、通讯协议、操作系统、上位机、C语言汇总

【新能源汽车-电控】控制芯片、电机控制、电机结构、硬件相关、通讯协议、操作系统、上位机、C语言汇总 文章目录 前言一、控制芯片二、电机控制三、电机结构三、硬件相关四、通讯协议五、操作系统六、上位机七、C语言总结 前言 提示:以下是本篇文章正文内容&#…

构建 Audio Unit 应用程序

构建 Audio Unit 应用程序 构建 Audio Unit 应用程序从选择设计模式开始I/O Pass ThroughI/O Without a Render Callback FunctionI/O with a Render Callback FunctionOutput-Only with a Render Callback Function其他设计模式 构建应用程序配置 audio session指定 audio uni…

分享一个导出数据到 Excel 的解决方案

前言 许多业务场景下需要处理和分析大量的数据,而 Excel 是广泛使用的文件格式,几乎所有人都能打开和查看 Excel 文件,因此将数据库中的原始数据处理后,导出到 Excel 是一个很常见的功能,对于数据管理、分析、备份、展…

汽车电子工程师入门系列——CAN 规范系列通读

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不对。非必要不费力证明自己,无利益不试图说服别人,是精神上的节…

【一生一芯】笔记

文章目录 一级目录二级目录三级目录缓存的验证 一级目录 二级目录 三级目录 缓存的验证