在Python中创建相关系数矩阵的6种方法

news2024/10/7 20:25:27

相关系数矩阵(Correlation matrix)是数据分析的基本工具。它们让我们了解不同的变量是如何相互关联的。在Python中,有很多个方法可以计算相关系数矩阵,今天我们来对这些方法进行一个总结

Pandas

Pandas的DataFrame对象可以使用corr方法直接创建相关矩阵。由于数据科学领域的大多数人都在使用Pandas来获取数据,因此这通常是检查数据相关性的最快、最简单的方法之一。

 import pandas as pd
 import seaborn as sns
 
 data = sns.load_dataset('mpg')
 correlation_matrix = data.corr(numeric_only=True)
 correlation_matrix

如果你是统计和分析相关工作的,你可能会问" p值在哪里?",在最后我们会有介绍

Numpy

Numpy也包含了相关系数矩阵的计算函数,我们可以直接调用,但是因为返回的是ndarray,所以看起来没有pandas那么清晰。

 import numpy as np
 from sklearn.datasets import load_iris
 
 iris = load_iris()
 np.corrcoef(iris["data"])

为了更好的可视化,我们可以直接将其传递给sns.heatmap()函数。

 import seaborn as sns
 
 data = sns.load_dataset('mpg')
 correlation_matrix = data.corr()
 
 sns.heatmap(data.corr(), 
             annot=True, 
             cmap='coolwarm')

annot=True这个参数可以输出一些额外的有用信息。一个常见hack是使用sns.set_context(‘talk’)来获得额外的可读输出。

这个设置是为了生成幻灯片演示的图像,它能帮助我们更好地阅读(更大的字体)。

Statsmodels

Statsmodels这个统计分析库也是肯定可以的

 import statsmodels.api as sm
 
 correlation_matrix = sm.graphics.plot_corr(
     data.corr(), 
     xnames=data.columns.tolist())

plotly

默认情况下plotly这个结果是如何从左下到右上运行对角线1.0的。这种行为与大多数其他工具相反,所以如果你使用plotly需要特别注意

 import plotly.offline as pyo
 pyo.init_notebook_mode(connected=True)
 
 import plotly.figure_factory as ff
 
 correlation_matrix = data.corr()
 
 fig = ff.create_annotated_heatmap(
     z=correlation_matrix.values, 
     x=list(correlation_matrix.columns), 
     y=list(correlation_matrix.index), 
     colorscale='Blues')
 
 fig.show()

Pandas + Matplotlib更好的可视化

这个结果也可以直接使用用sns.pairplot(data),两种方法产生的图差不多,但是seaborn只需要一句话

 sns.pairplot(df[['mpg','weight','horsepower','acceleration']])

所以我们这里介绍如何使用Matplotlib来实现

 import matplotlib.pyplot as plt
 
 pd.plotting.scatter_matrix(
     data, alpha=0.2, 
     figsize=(6, 6), 
     diagonal='hist')
 
 plt.show()

相关性的p值

如果你正在寻找一个简单的矩阵(带有p值),这是许多其他工具(SPSS, Stata, R, SAS等)默认做的,那如何在Python中获得呢?

这里就要借助科学计算的scipy库了,以下是实现的函数

 from scipy.stats import pearsonr
 import pandas as pd
 import seaborn as sns
 
 def corr_full(df, numeric_only=True, rows=['corr', 'p-value', 'obs']):
     """
     Generates a correlation matrix with correlation coefficients, 
     p-values, and observation count.
     
     Args:
     - df:                  Input dataframe
     - numeric_only (bool): Whether to consider only numeric columns for 
                            correlation. Default is True.
     - rows:                Determines the information to show. 
                            Default is ['corr', 'p-value', 'obs'].
     
     Returns:
     - formatted_table: The correlation matrix with the specified rows.
     """
     
     # Calculate Pearson correlation coefficients
     corr_matrix = df.corr(
         numeric_only=numeric_only)
     
     # Calculate the p-values using scipy's pearsonr
     pvalue_matrix = df.corr(
         numeric_only=numeric_only, 
         method=lambda x, y: pearsonr(x, y)[1])
     
     # Calculate the non-null observation count for each column
     obs_count = df.apply(lambda x: x.notnull().sum())
     
     # Calculate observation count for each pair of columns
     obs_matrix = pd.DataFrame(
         index=corr_matrix.columns, columns=corr_matrix.columns)
     for col1 in obs_count.index:
         for col2 in obs_count.index:
             obs_matrix.loc[col1, col2] = min(obs_count[col1], obs_count[col2])
         
     # Create a multi-index dataframe to store the formatted correlations
     formatted_table = pd.DataFrame(
         index=pd.MultiIndex.from_product([corr_matrix.columns, rows]), 
         columns=corr_matrix.columns
     )
     
     # Assign values to the appropriate cells in the formatted table
     for col1 in corr_matrix.columns:
         for col2 in corr_matrix.columns:
             if 'corr' in rows:
                 formatted_table.loc[
                     (col1, 'corr'), col2] = corr_matrix.loc[col1, col2]
             
             if 'p-value' in rows:
                 # Avoid p-values for diagonal they correlate perfectly
                 if col1 != col2:
                     formatted_table.loc[
                         (col1, 'p-value'), col2] = f"({pvalue_matrix.loc[col1, col2]:.4f})"
             if 'obs' in rows:
                 formatted_table.loc[
                     (col1, 'obs'), col2] = obs_matrix.loc[col1, col2]
     
     return(formatted_table.fillna('')
            .style.set_properties(**{'text-align': 'center'}))

直接调用这个函数,我们返回的结果如下:

 df = sns.load_dataset('mpg')
 result = corr_full(df, rows=['corr', 'p-value'])
 result

总结

我们介绍了Python创建相关系数矩阵的各种方法,这些方法可以随意选择(那个方便用哪个)。Python中大多数工具的标准默认输出将不包括p值或观察计数,所以如果你需要这方面的统计,可以使用我们子厚提供的函数,因为要进行全面和完整的相关性分析,有p值和观察计数作为参考是非常有帮助的。

https://avoid.overfit.cn/post/836b5590a96045faae2774bb3f23c9ef

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1033576.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

解决编译中遇到的问题:Please port gnulib freadahead.c to your platform

今天在编译旧版的gzip-1.7时遇到了一个错误: error: #error "Please port gnulib freadahead.c to your platform! Look at the definition of fflush, fread, ungetc on your system, then report this to bug-gnulib." 在网上搜了一下解决方法&#xf…

C++核心编程——P39~P44-运算符重载

运算符重载的概念:对已有的运算符重新进行定义,赋予其另一种功能,以适应不同的数据类型。 1.加号运算符重载 作用:实现两个自定义数据类型相加的运算。 例如:两个整型相加编译器知道该怎么进行运算,如果是两个自定义…

zabbix实现邮箱告

开启pop3/smtp/imap 安装mailx、sendmail、sendmail-cf yum install s-nail-14.9.22-6.el9.x86_64 sendmail sendmail-cf 修改配置文件 /etc/mail.rc、/etc/php.ini 注意 php.ini 里面sendmail值会影响发送邮件 [rootzabbix-server mail]# vim /etc/mail.rc set fromfcj_xun…

Mybatis 映射器与XML配置职责分离

之前我们介绍了使用XML配置方式完成对数据的增删改查操作,使用此方式在实际调用时需要使用【命名空间.标签编号】的方式执行,此方式在编写SQL语句时很方便,而在执行SQL语句环节就显得不太优雅;另外我们也介绍了使用映射器完成对数…

数据治理-数据资产估值

数据生命周期大多数阶段涉及成本。数据只有使用时才有价值,使用时数据还产生与风险相关的成本。因此,当使用数据的经济效益超过了上述成本时,就会显现其价值。 其他的度量价值的方式包括: 替换成本。数据替换或恢复的成本。包括组…

齿轮减速机设备类网站pbootcms模板(PC端+手机端自适应)

齿轮减速机设备类网站pbootcms模板-手机端自适应,优化SEO效果 模板介绍: 这是一款基于PbootCMS内核开发的模板,专为机械设备和加工机械类企业设计。该模板具有简洁简单的页面设计,易于管理,同时还附带测试数据。通过使…

操作系统:系统引导以及虚拟机

1.操作系统引导的过程 ①CPU从一个特定主存地址开始取指令,执行ROM中的引导程序(先进行硬件自检,再开机)②将磁盘的第一块:主引导记录读入内存,执行磁盘引导程序,扫描分区表③从活动分区(又称主…

在win10上格式化Linux启动盘

U盘制作Linux启动盘后无法在win10上格式化恢复原来的大小,可采取下面的方法: 在win10上进行操作:打开cmd输入:diskpart enter健会弹出一个新的对话框。 在新的对话框中输入:list disk,会列出计算机的磁盘列表。 List item选择u盘的序号:sele…

Levels - UE5中的建模相关

一些日常的笔记; 可以使用Shapes面板建立基础模型: 可以在PolyModel中继续细分模型: UE5中的建模有PolyGroups概念,可以在Attributes面板中直接编辑: 使用GrpPnt方式可以直接用笔刷设定新的PolyGroups,这样…

2-python:标识符命名

一、常量与变量 ①常量:程序中值不发生改变的元素。 PI3.1415926 ②变量:程序中值发生改变或者可以发生改变的元素。 A9 a4 aA print(a) 二、标识符命名 Python语言允许采用大写字母、小写字母、下划线(_)等字符及其组合给变量…

JUC第七讲:关键字final详解

JUC第七讲:关键字final详解 final 关键字看上去简单,但是真正深入理解的人可以说少之又少。本文是JUC第七讲:关键字final详解,将常规的用法简化,提出一些用法和深入的思考。 文章目录 JUC第七讲:关键字fina…

Nginx之gzip模块解读

目录 gzip基本介绍 gzip工作原理 Nginx中的gzip 不建议开启Nginx中的gzip场景 gzip基本介绍 gzip是GNUzip的缩写,最早用于UNIX系统的文件压缩。HTTP协议上的gzip编码是一种用来改进web应用程序性能的技术,web服务器和客户端(浏览器&…

diskGenius专业版使用:windows系统下加载ext4 linux系统分区并备份还原资源(文件的拷贝进、出)

前言 EXT4是第四代扩展文件系统(英语:Fourth extended filesystem,缩写为 ext4)是Linux系统下的日志文件系统,是ext3文件系统的后继版本。 所以我们在windows系统下是不能识别的,也不能对其写入、拷贝出文…

竞赛 基于深度学习的植物识别算法 - cnn opencv python

文章目录 0 前言1 课题背景2 具体实现3 数据收集和处理3 MobileNetV2网络4 损失函数softmax 交叉熵4.1 softmax函数4.2 交叉熵损失函数 5 优化器SGD6 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 **基于深度学习的植物识别算法 ** …

如何使用 Pyinstaller 编译打包 Python 项目生成 exe 可执行文件(2023 年最新详细教程)

pyinstaller 概述 PyInstaller 是一个将 Python 程序转换为独立可执行文件的工具。它能够在 Windows、Linux、Mac OS X、AIX 和 Solaris 等系统上运行。相较于其他类似的工具 PyInstaller 主要优点 1. PyInstaller 与任何 Python 版本兼容,从 2.3 版本开始支持。 …

包含漏洞的str_replace函数绕过

str_replace函数绕过(双写就可以绕过) DWVA中等级别的时候会有防御过滤,过滤之后之前的本地远程包含就会发生执行错误 本地包含绕过 因为把../会替换成空,所以原来有../的地方要写成 ..././ 这样中间的红色部分去掉之后还剩…

大词表语言模型在续写任务上的一个问题及对策

©PaperWeekly 原创 作者 | 苏剑林 单位 | 科学空间 研究方向 | NLP、神经网络 对于 LLM 来说,通过增大 Tokenizer 的词表来提高压缩率,从而缩短序列长度、降低解码成本,是大家都喜闻乐见的事情。毕竟增大词表只需要增大 Embedding 层和…

总结C/C++中程序内存区域划分

总结C/C中程序内存区域划分: 1. 栈区(stack): 在执⾏函数时,函数内局部变量的存储单元都可以在栈上创建。函数执⾏结束时 这些存储单元⾃动被释放。栈内存分配运算内置于处理器的指令集中,效率很⾼&#x…

安卓机型-MTK芯片掉串码 掉基带 如何用工具进行修复 改写参数

在早期MTK芯片机型中较多使用AP BP方式来修复mtk芯片机型的串码。目前MTK机型对于丢基带 掉串码问题大都使用MODEM META工具来进行修复串码或者改写参数。今天以一款mtk芯片机型来做个演示, 高通芯片类的可以参考; 高通改串相关 工具仅支持在联发科芯片组上运行的…

小样本目标检测:ECEA: Extensible Co-Existing Attention for Few-Shot Object Detection

论文作者:Zhimeng Xin,Tianxu Wu,Shiming Chen,Yixiong Zou,Ling Shao,Xinge You 作者单位:Huazhong University of Science and Technology; UCAS-Terminus AI Lab 论文链接:http://arxiv.org/abs/2309.08196v1 内容简介: 1&…