Python和C++及R相关系数数学统计学可视化和神经模型及评估指标

news2024/9/21 11:57:23

🎯要点

  1. 较少统计样本显著性评估和变量关系梳理
  2. 功能磁共振成像一致性分析
  3. 检测非单调关联性结构
  4. 随机变量动力学相关性
  5. 热图和矩阵图基因疫苗非线性变量相关性
    在这里插入图片描述

Python相关矩阵

相关矩阵

n n n 个随机变量 X 1 , … , X n X_1, \ldots, X_n X1,,Xn 的相关矩阵是 n × n n \times n n×n 矩阵 C C C,其 ( i , j ) (i, j) (i,j) 条目为
c i j : = corr ⁡ ( X i , X j ) = cov ⁡ ( X i , X j ) σ X i σ X j ,  if  σ X i σ X j > 0 c_{i j}:=\operatorname{corr}\left(X_i, X_j\right)=\frac{\operatorname{cov}\left(X_i, X_j\right)}{\sigma_{X_i} \sigma_{X_j}}, \quad \text { if } \sigma_{X_i} \sigma_{X_j}>0 cij:=corr(Xi,Xj)=σXiσXjcov(Xi,Xj), if σXiσXj>0
因此对角线条目都是相同的。如果使用的相关性度量是乘积矩系数,则相关矩阵与标准化随机变量 X i / σ ( X i ) X_i / \sigma\left(X_i\right) Xi/σ(Xi) 的协方差矩阵相同,其中 $i=1, \dots, n $。这既适用于总体相关性矩阵(在这种情况下 σ \sigma σ 是总体标准差),也适用于样本相关性矩阵(在这种情况下 σ \sigma σ 表示样本标准差)。因此,每个矩阵都必然是正半定矩阵。此外,如果没有变量可以将其所有值精确地生成为其他变量值的线性函数,则相关矩阵是严格正定的。

相关矩阵是对称的,因为 X i X_i Xi X j X_j Xj 之间的相关性与 X j X_j Xj X i X_i Xi 之间的相关性相同。例如,相关矩阵出现在多重确定系数的一个公式中,多重确定系数是多重回归中拟合优度的一种度量。

在统计建模中,表示变量之间关系的相关矩阵被分为不同的相关结构,这些结构通过估计它们所需的参数数量等因素来区分。例如,在可交换相关矩阵中,所有变量对都被建模为具有相同的相关性,因此矩阵的所有非对角元素彼此相等。另一方面,当变量表示时间序列时,通常使用自回归矩阵,因为当测量时间更接近时,相关性可能会更大。

相关矩阵市场应用

让我们考虑相关矩阵在识别线性相关的股票中的应用。下面是使用 yfinance Python 库检索几只大型科技股的历史定价数据的一些示例代码。

import yfinance as yf
import pandas as pd

tickers = ['msft', 'aapl', 'tsla', 'nvda', 'goog']
df = yf.download(ticker=tickers, period='6mo')['Adj Close']

# Result
                  AAPL         GOOG        MSFT        NVDA        TSLA
Date                                                                   
2021-01-22  138.627029  1901.050049  224.911453  137.046280  846.640015
2021-01-25  142.464767  1899.400024  228.474991  136.454132  880.799988
2021-01-26  142.704010  1917.239990  231.262131  134.275360  883.090027
2021-01-27  141.607513  1830.790039  231.829514  129.103348  864.159973
2021-01-28  136.653336  1863.109985  237.831787  130.435074  835.429993
...                ...          ...         ...         ...         ...
2021-07-15  148.479996  2625.330078  281.029999  189.662506  650.599976
2021-07-16  146.389999  2636.909912  280.750000  181.610001  644.219971
2021-07-19  142.449997  2585.080078  277.010010  187.797501  646.219971
2021-07-20  146.149994  2622.030029  279.320007  186.119995  660.500000
2021-07-21  145.399994  2652.010010  281.399994  194.100006  655.289978

yfinance download() 方法默认提供开盘价-最高价-最低价-收盘价 (OHLC) 数据,包括开盘价、最高价、最低价、收盘价、成交量、调整收盘价。这里我们仅提取了过去 6 个月内每只股票每日调整收盘价数据。

鉴于这些股票都来自同一行业,并且是市场上交易量最大的股票,因此它们的价格很有可能会一起变动。也就是说,当 M S F T MSFT MSFT 的价格上涨时, G O O G GOOG GOOG 的价格很可能也会上涨。不过,这只是猜测,让我们创建一个相关矩阵来验证我们的假设。

>>> data.corr()

# Result
          AAPL      GOOG      MSFT      NVDA      TSLA
AAPL  1.000000  0.429290  0.708614  0.634802  0.407953
GOOG  0.429290  1.000000  0.894801  0.882468 -0.535120
MSFT  0.708614  0.894801  1.000000  0.911506 -0.218011
NVDA  0.634802  0.882468  0.911506  1.000000 -0.243408
TSLA  0.407953 -0.535120 -0.218011 -0.243408  1.000000

这些结果详细列出了 6 个月期间每只股票调整后收盘价之间的相关系数,可供交叉引用。请注意,1.0 的值从左上角向右下角对角移动。这些值反映了完美的相关性,因为它们引用的是同一只股票。换句话说,$AAPL 和 $AAPL 之间的相关系数为 1.0,因为它们始终完全相同!

矩阵中的相关系数介于 -1 到 1 之间,其中 -1 表示完全负相关,0 表示无相关,1 表示完全正相关。考虑这些值可以让我们识别价格一起变动的不同股票,无论是正向变动还是负向变动。关于如何解释这些结果,存在不同的学派,但一般来说,高于 .7 和低于 -.7 的值被视为可能存在共线性的危险信号。在这种情况下,应进行进一步调查,以确保得到的线性模型具有最小的误差。

上面的表格非常有见地,但在解释大型数据集时,它并不是最友好的格式。相关矩阵在其他应用中很有用,例如对特征工程等应用程序的变量进行快速初步评估。在这些情况下,使用一种更直观的格式,称为热图。

matplotlib 和 seaborn 都提供了生成这些可视化效果的宝贵工具。让我们使用seaborn 生成一个相关矩阵热图来直观地表示我们的定价相关性。

import seaborn as sns
import matplotlib.pyplot as plt

cmap = sns.diverging_palette(230, 20, as_cmap=True)

sns.heatmap(
        data=data.corr(),  
        linewidths=0.3,  
        square=True,   
        cmap=cmap,  
        vmax=1,  
        vmin=-1, 
        center=0, 
        cbar_kws={"shrink": .75}  
    )

plt.yticks(rotation=0)  
plot.show()

在此热图中,最接近深棕色的值表示更强的正相关性。那些更接近深蓝色的值表示更强的正负相关性。由于相关矩阵中数据组织的性质,存在大量冗余数据。例如,从左上角到右下角对角线上方的每个单元格都是下半部分的重复。我们可以通过在之前的代码中添加掩码来减少这些:

import numpy as np

mask = np.triu(np.ones_like(data.corr(), dtype=bool))
np.fill_diagonal(mask, False)  # keeps the diagonal

[[False  True  True  True  True]
 [False False  True  True  True]
 [False False False  True  True]
 [False False False False  True]
 [False False False False False]]

sns.heatmap(..., mask=mask, ...)

通过从我们的可视化中删除冗余数据,我们创建了一种更高效的技术股相关系数关系表示。从这种映射中获得的见解可以帮助确定在应用程序中应使用哪些特征,例如使用线性回归预测股价或为更复杂的建模设计特征。

从交易者/投资者角度理解相关矩阵

  • 分散化:交易者可以使用相关矩阵来识别弱相关或负相关的股票,从而帮助他们分散投资组合。通过投资不朝同一方向变动的股票,交易者可以潜在地降低其投资组合的整体风险。
  • 风险管理:相关性分析可以通过突出显示倾向于共同波动的股票来帮助交易者识别和管理风险。通过了解这些关系,交易者可以调整头寸并对冲潜在的损失。
  • 市场情绪分析:相关矩阵还可以提供对市场情绪的洞察。例如,如果某个行业或市场中的大多数股票高度相关,则可能表明它们都受到共同因素的影响,例如广泛的市场趋势、经济状况或地缘政治事件。这些信息可以帮助交易者对其投资做出明智的决策。

👉更新:亚图跨际

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2152256.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Text2SQL】PET-SQL:在Spider基准测试中取得了SOTA

解读:PET-SQL: A Prompt-enhanced Two-stage Text-to-SQL Framework with Cross-consistency 这篇论文介绍了一个名为 PET-SQL 的文本到 SQL(Text-to-SQL)框架,旨在通过增强提示(prompt)和利用不同大型语言…

【计算机网络篇】电路交换,报文交换,分组交换

本文主要介绍计算机网络中的电路交换,报文交换,分组交换,文中的内容是我认为的重点内容,并非所有。参考的教材是谢希仁老师编著的《计算机网络》第8版。跟学视频课为河南科技大学郑瑞娟老师所讲计网。 目录 🎯一.划分…

科研绘图系列:R语言误差连线图(errobar linechart)

文章目录 介绍加载R包导入数据数据预处理画图系统信息介绍 误差连线图是一种在数据可视化中常用的图表,它通过在数据点处添加线段(误差线)来表示数据的变异性或不确定性。这些误差线可以基于不同的统计度量,如标准差(Standard Deviation)、标准误差(Standard Error)或…

Redis 执行 Lua,能保证原子性吗?

前言 小张目前在使用分布式锁 Redisson 实现一个需求。那我在想我能否自己手撸一个能用于分布式环境的锁呢?于是果然尝试。 历经一天后,小张手撸的锁终于写出来了,再次给各位看看,看给位有没有什么优化的建议: // 加…

任务管理与守护进程【Linux】

文章目录 进程组前台进程&后台进程守护进程daemon 进程组 组长是多个进程的第一个,组长进程的标识是,其进程组ID等于其进程ID 前台进程&后台进程 前台进程:能获取键盘输入,即拥有键盘文件 后台进程:不能获取…

淘宝商品评论电商API接口全方位解析

随着电子商务的蓬勃发展,API接口在电商领域扮演着越来越重要的角色。淘宝作为国内最大的电商平台之一,其商品评论电商API接口为开发者提供了获取商品评论信息、进行数据分析等重要功能。本文将对淘宝商品评论电商API接口进行全方位解析,帮助开…

商品出库单打印怎么设置打印格式 佳易王商品批发出库单打印票据管理系统操作教程

一、前言 商品出库单打印怎么设置打印格式 佳易王商品批发出库单打印票据管理系统操作教程 佳易王商品出库打印纸张建议使用 241*140 ,可根据需要更改或定制 二、软件程序图文说明 1、软件已经内置数据库,解压即可。 2、出库单可以打印两联或三联单或…

Android Kotlin 中的 `groupBy` 方法详解

在 Kotlin 中,groupBy 是一个非常有用的集合操作函数。我们可以使用它按照某个标准,将集合中的元素分组,形成一个 Map,其中 key 是我们分组的标准,value 是符合这个标准的元素列表。本文将通过几个实际例子&#xff0c…

微服务架构中的负载均衡与服务注册中心(Nacos)

1. 负载均衡:解决实际业务问题 1.1 业务场景思考 想象一个电子商务平台的微服务架构。我们有一个订单服务和多个用户服务实例。当订单服务需要调用用户服务时,它如何选择具体调用哪一台用户服务器?这就是负载均衡要解决的核心问题。 1.2 常…

【CAPL实战】system variables系统变量的基础与应用

基础 在CANoe系统中,变量可以用来对内部参数进行建模。系统变量既不描述节点的外部输入/输出信号,也不用于真实节点间的信号通信。系统变量用于开发和测试,提供改变和分析内部变量和参数的机会。通过还可以表示未在数据库中定义的IO信号。&a…

MUR6060PT-ASEMI高压快恢复二极管MUR6060PT

编辑:ll MUR6060PT-ASEMI高压快恢复二极管MUR6060PT 型号:MUR6060PT 品牌:ASEMI 封装:TO-247 安装方式:插件 批号:最新 恢复时间:35ns 最大平均正向电流(IF)&…

构建高效心理辅导平台:Spring Boot实践

1绪 论 1.1研究背景 随着计算机和网络技术的不断发展,计算机网络已经逐渐深入人们的生活,网络已经能够覆盖我们生活的每一个角落,给用户的网上交流和学习提供了巨大的方便。 当今社会处在一个高速发展的信息时代,计算机网络的发展…

昇思量子计算系列教程-Grover搜索算法

基于MindSpore Quantum的Grover搜索算法 概述 如果你听过量子计算,那么你一定听说过Grover搜索算法。1996年,Lov Grover [1] 提出了Grover搜索算法,它是一种利用量子状态的叠加性进行并行计算并实现加速的算法。Grover搜索算法被公认为是继…

快手店铺多开甜羊浏览器

甜羊浏览器是一款专为电商从业者设计的专业浏览器,其最大的特色在于支持多开功能和具备智能的自动回复系统,尤其适合快手店铺等电商平台的多店铺管理及自动化客服需求。 **多开功能**:甜羊浏览器的多开功能允许用户在同一界面上登录和操作多…

电脑ip地址怎么换地区:操作步骤与利弊分析

在当今全球化的信息时代,人们经常需要访问不同地区的网络资源。然而,由于地理位置的限制,某些内容或服务可能只对特定地区的用户开放。这时,更换电脑IP地址的地区就成为了一个实用的解决方案。本文将详细介绍两种更换电脑IP地址地…

DataGrip在Windows和MacOS平台上的快捷键

0. 背景信息 No.说明1测试DataGrip版本号 : 2024.2.2 1. Windows下快捷键 2. MacOS下快捷键

麒麟银河桌面版,成功安装cuda12.6,mysql

一、 要卸载并禁用 nouveau 驱动程序,可以按照以下步骤进行: 1. 确认 nouveau 驱动的当前状态: 首先,你可以使用以下命令查看 nouveau 驱动是否正在运行: lsmod | grep nouveau如果有输出,说明 nouveau …

Unity3D入门(一) : 第一个Unity3D项目,实现矩形自动旋转,并导出到Android运行

1. Unity3D介绍 Unity3D是虚拟现实行业中,使用率较高的一款软件。 它有着强大的功能,是让玩家轻松创建三维视频游戏、建筑可视化、实时三维动画等互动内容的多平台、综合型 虚拟现实开发工具。是一个全面整合的专业引擎。 2. Unity安装 官网 : Unity…

【有啥问啥】OpenAI o1的思考之前训练扩展定律、后训练扩展定律与推理扩展定律:原理与应用详解

OpenAI o1的思考之前训练扩展定律、后训练扩展定律与推理扩展定律:原理与应用详解 随着深度学习技术的不断发展,模型的规模和复杂度也迅速提升。研究人员发现了模型训练和推理过程中性能变化的规律,这些规律为我们提供了优化模型设计与训练的…

C++ STL全面解析:六大核心组件之一----序列式容器(vector和List)(STL进阶学习)

目录 序列式容器 Vector vector概述 vector的迭代器 vector的数据结构 vector的构造和内存管理 vector的元素操作 List List概述 List的设计结构 List的迭代器 List的数据结构 List的内存构造 List的元素操作 C标准模板库(STL)是一组高效的…