机器学习基础知识之相关性分析

news2024/9/22 19:28:25

文章目录

  • 相关性分析定义
    • 1、图表相关性分析
    • 2、协方差分析
    • 3、相关系数分析
    • 4、回归分析

相关性分析定义

相关性分析一般是指通过对两种或两种以上的变量数据进行数学分析来确定两种或两种以上的变量数据之间的相关密切程度。由此定义我们可以得知相关性分析的目的在于衡量变量数据之间的相关密切程度,分析对象为两种或两种以上的变量数据,分析方法主要为数学统计方法。
相关性分析一般用于各个领域的大数据分析过程,包括发展不同数据之间的正相关性或负相关性、度量不同数据之间的强弱关系如完全相关或不完全相关、分析数据之间的关系从而建立模型以完成预测等。常见的数据相关性分析方法有图表相关性分析、协方差分析、相关系数分析以及回归分析。

1、图表相关性分析

由于在对数据进行观察时,数据量一般较大且数据的变化幅度难以衡量,因此倘若单纯从数据的角度去观察单个数据的变化趋势以及多种数据之间的联系是很难实现的,而图表相关性分析则可以轻松的完成上述目的。图表相关性分析法是一种通过绘制图表的方式达到了解数据的发展趋势以及联系的方法,这种方法最大的特点在于操作简单,同时它也是目前应用最广的方法之一,在我们常见的股票走势图、天气变化图等都是利用了这一方法。

2、协方差分析

在对协方差分析进行介绍前,首先需要了解方差的定义,通常方差是用来度量某一个变量或一组数据的离散程度,它表示某一个变量或一组数据的离散程度,其计算公式如下:
在这里插入图片描述

其中n表示样本的数量,x ̅表示样本的均值。
协方差分析则是在方差的基础上建立而来的,此方法专门用来衡量两个变量的总体误差,其计算公式如下:
在这里插入图片描述

其中x ̅、y ̅表示两个不同的样本的均值,n表示样本的数量,两个样本的数量需相同。通常来说,当两个变量有着相同的变化趋势时,则计算获得的协方差为正数,此时可以称这两个变量正相关;当两个变量的变化趋势相反时,计算获得的协方差为负数,则这两个变量之间负相关;而当两个变量之间相互独立,不存在相关性时,计算的协方差值应为0。
上述协方差计算公式只能对两个变量进行相关性分析,当需要对两个以上的变量进行相关性分析时,则需要使用协方差矩阵进行计算,矩阵公式如下:
在这里插入图片描述

其中x、y和z分别表示三个不同的变量。
协方差只能通过计算来确定不同的变量之间是否存在相关性,即计算的协方差为正值则正相关,负值则负相关,但是不同的变量之间的相关程度则无法进行表示。

3、相关系数分析

在对协方差分析进行介绍时可以了解到此分析方法无法对不同变量之间的相关程度进行表示,而相关系数分析则可以完成这一点。相关系数分析是通过计算来表示不同变量之间的相关密切程度,其计算公式如下所示:
在这里插入图片描述

其中cov(x,y)为变量x与变量y之间的协方差,σ_x表示变量x的标准差,σ_y表示变量y的标准差,标准差的计算公式如下:
在这里插入图片描述

相关系数的计算结果ρ_xy在-1到1之间,当取值为时1时,表示这两个变量之间完全正相关,当取值为-1时,表示这两个变量之间完全负相关,当取值为0时,则表示这两个变量之间没有相关性,另外计算结果越趋近于0,则变量之间的相关密切程度越弱。
上述计算方式为相关系数分析的基本方法,而目前常用的相关系数计算方式主要有三种,它们分别为皮尔森线性相关系数(Pearson Linear Correlation Coefficient,简称PLCC)、斯皮尔曼秩相关系数(Spearman Rank-order Correlation Coefficient,简称SRCC)以及肯德尔秩相关系数(Kendall Rank-order Correlation Coefficient,简称KRCC)。
皮尔森线性相关系数主要用来描述两个变量的线性相关性,其计算公式如下所示,其计算结果与相关性之间的关系与前面的相关系数一样,该系数的计算结果区间在-1到1之间且结果的绝对值越大,变量之间的相关性越大。
在这里插入图片描述

斯皮尔曼秩相关系数主要用来衡量两个变量之间的依赖性,它利用单调方程来对两个统计变量的相关性进行评价,当计算结果为1或-1时,表示两个变量完全单调相关,计算变量之间的斯皮尔曼秩相关系数相当于计算计算变量数据秩次之间的皮尔森线性相关系数,斯皮尔曼秩相关系数的计算公式如下:
在这里插入图片描述

肯德尔秩相关系数与前面两种相关系数最大的区别在于它是用于对分类变量进行相关性分析的相关系数,在其计算过程中还需要统计两个变量之间一致元素对的个数。其计算公式如下:
在这里插入图片描述

其中C表示具有一致性的元素对数,D表示具有不一致性的元素对数。
变量x与变量y可以分别视作为两个元素集合,它们中的第i个元素与第j个元素分别为x_i、y_i以及x_j、y_j,当同时存在x_i>x_j和y_i>y_j或x_i<x_j和y_i<y_j时,则这一对元素具有一致性,当同时存在x_i>x_j和y_i<y_j或x_i<x_j和y_i>y_j时,这一对元素具有不一致性,而当出现相同的情况时,则这对元素既不具有一致性也不具有不一致性。

4、回归分析

回归分析是一种表示两种或两种以上变量关系的统计学方法,它同时使用自变量和因变量来表示两个变量之间的相互关系。当表示两种变量之间关系时,通常使用一元线性回归方程来表示,当表示多种变量之间关系时,则使用多元线性回归方差来表示。一元线性回归的表示方式如下:
在这里插入图片描述

其中x为自变量,y为因变量,b_0表示方程的截距,b_1表示方程的斜率,方程的截距与斜率需要通过将自变量与因变量的具体数值代入公式后计算获得。同理,多元线性回归的表示方式如下所示,其中自变量的数量为两个以上,与之对应的每个自变量均有一个斜率需要计算获得。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/456348.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

算法leetcode|48. 旋转图像(rust重拳出击)

文章目录 48. 旋转图像&#xff1a;样例 1&#xff1a;样例 2&#xff1a;提示&#xff1a; 分析&#xff1a;题解&#xff1a;rust&#xff1a;go&#xff1a;c&#xff1a;c&#xff1a;python&#xff1a;java&#xff1a; 48. 旋转图像&#xff1a; 给定一个 n n 的二维矩…

我国风电叶片行业分析:行业技术创新白热化竞争来临 后续回收再利用是行业可持续发展的关键

1、风电叶片行业定义及产业链 风电叶片是一个复合材料制成的薄壳结构&#xff0c;一般由外壳、腹板和主梁三部分组成&#xff0c;复合材料在整个风电叶片中的重量一般占到90%以上。风电叶片是风力发电机将风能转化为机械能的重要部件之一&#xff0c;其设计、制造及运行状态直…

易点易动设备管理系统帮助钢铁厂实现智能设备巡检

随着工业自动化和智能化的不断推进&#xff0c;越来越多的企业开始采用智能设备来提高生产效率和质量。然而&#xff0c;随之而来的是设备管理的复杂性和挑战性的增加。为了解决这一问题&#xff0c;易点易动设备管理系统应运而生&#xff0c;该系统可以帮助钢铁厂实现智能设备…

从C出发 28 --- 指针与数组

int a[ ] {1, 2, 3, 4, 0}; //定义了一个数组&#xff0c;这个数组有5个元素&#xff0c;每个元素是一个 int 类型变量 这里的地址是相同的&#xff0c;是相同的意味着数组的地址和 0 号元素的地址是一样的 结论: 数值上相同但是意义上不同&#xff0c;一个是数组整体…

有仰拍相机和俯拍相机时,俯拍相机中心和吸嘴中心的标定

俯拍相机中心和吸嘴中心的标定 文章目录 俯拍相机中心和吸嘴中心的标定 前言适用模型如下&#xff1a;一、使用一个标定片进行标定1.关键注意&#xff1a;2.标定步骤&#xff1a; 二、使用一个L型的工件1.关键注意&#xff1a;2.标定步骤&#xff1a; 总结 前言 在自动化设备领…

centos7查看磁盘io

1.查看所使用到的命令为iostat&#xff0c;centos7没有自带iostat&#xff0c;需要安装一下 2.安装iostat命令 yum -y install sysstat 3.使用iostat命令 iostat %user&#xff1a;表示用户空间进程使用 CPU 时间的百分比 %nice&#xff1a;表示用户空间进程以降低优先级的…

索引失效了?看看这几个常见的原因

索引是 MySQL 数据库中优化查询性能的重要工具&#xff0c;通过对查询条件和表数据的索引&#xff0c;MySQL可以快速定位数据&#xff0c;提高查询效率。但是&#xff0c;在实际的数据库开发和维护中&#xff0c;我们经常会遇到一些情况&#xff0c;导致索引失效&#xff0c;从…

Vue安装

Vue安装 一、安装二、使用步骤1.在项目中使用vue2.使用命令创建vue项目 一、安装 安装vue之前需要安装nodeJS 1.需要安装Node.js。可以从官方网站进行下载并安装。 2.这篇博客有详细的步骤 Node.js安装详解 3.或者在官网安装最新版本的不用配置Node.js下载官网 安装完成Nod…

Python每日一练(20230424)

目录 1. 滑动窗口最大值 &#x1f31f;&#x1f31f;&#x1f31f; 2. 用栈实现队列 &#x1f31f; 3. 直线上最多的点数 &#x1f31f;&#x1f31f;&#x1f31f; &#x1f31f; 每日一练刷题专栏 &#x1f31f; Golang每日一练 专栏 Python每日一练 专栏 C/C每日一…

准确率,精确率,召回率,F1,AUC

以西瓜数据集为例&#xff0c;我们来详细解释一下什么是TP、TN、FP以及FN。 一、基础概念 TP&#xff1a;被模型预测为正类的正样本 TN&#xff1a;被模型预测为负类的负样本 FP&#xff1a;被模型预测为正类的负样本 FN&#xff1a;被模型预测为负类的正样本 二、通俗理解&am…

如何在 Linux 中查找文件所有者?

在 Linux 系统中&#xff0c;每个文件和目录都有一个所有者&#xff08;owner&#xff09;和一个所属组&#xff08;group&#xff09;。所有者通常是创建该文件或目录的用户&#xff0c;而所属组通常是文件或目录所属的组。在某些情况下&#xff0c;您可能需要查找特定文件或目…

前端学习--Ajax(5) Http

一、Http简介 1.1 通信 信息的传递和交换 通信三要素&#xff1a;主体&#xff08;双方&#xff09;、内容、方式 1.2 通信协议 通信双方通信遵守的规则 http--超文本传输协议&#xff1a;客户端与服务器之间进行网页内容传输时必须遵守的传输格式 1.3 HTTP 交互模型&a…

C++矩阵运算QT应用之Eigen库

前言 本文主要描述在c中应用Eigen进行矩阵&#xff08;向量&#xff09;的表示运算&#xff0c;以及Eigen库的下载和配置。 一. Eigen库介绍、下载及配置 Eigen是C中可以用来调用并进行矩阵计算的一个库&#xff0c;里面封装了一些类&#xff0c;需要的头文件和功能如下&…

Vue:Ajax跨域和axios简单使用

1、 第三方库方式&#xff0c; 基于 Promise 的 HTTP 库&#xff1a;axios &#xff08;对 XMLHttpRequest进行的封装&#xff09; 即&#xff1a; axios.get().then() 2、跨域访问 定义&#xff1a;在 a 页面中想获取 b 页面中的资源&#xff0c;如果 a 页面和 b 页面…

DevOps 与研发效能专家张乐:研发效能的升维思考与降维执行

在 4 月 20 日举行的《中国企业软件研发管理白皮书》发布会上&#xff0c;DevOps 与研发效能资深技术专家张乐老师做了一场名为《研发效能的升维思考和降维执行》的主题演讲&#xff0c;阐述了如何系统化思考研发效能的关键要素、互动结构及实施路径&#xff0c;并将其与落地执…

程序员应该具备哪些良好的编程习惯?

本文首发自「慕课网」&#xff0c;想了解更多IT干货内容&#xff0c;程序员圈内热闻&#xff0c;欢迎关注"慕课网"&#xff01; 培养一个好的编程习惯&#xff0c;能让你整个职业生涯收益。 例如&#xff0c;做好注释&#xff0c;方便自己也方便别人读懂代码&#x…

hot100:数组——56、64

56. 合并区间 首先考虑只有两个区间的情况&#xff1a; 但是这6种情况可以合并成3种情况&#xff0c;就是上面的3种。首先先判断第一个区间的起始位置是否小于等于第二个区间的起始位置。如果不成立&#xff0c;则交换两个区间。 再考虑n个区间的情况&#xff0c;先将他们根…

QML中【预计符号】和【Unknown Component M300】的红色警告解决方法

问题描述&#xff1a; QML的项目中带中文&#xff0c;每次打开项目都在问题栏显示【预计符号】的红色警告&#xff0c;还有一种是【Unknown Component M300】的警告&#xff0c;代码能正常编译和运行。像我这样对代码追求优雅的强迫症患者看着很不爽&#xff0c;查了很多网上的…

深度强化学习——蒙特卡洛算法(6)

注&#xff1a;本章的内容作为补充插曲&#xff0c;大家可以选看&#xff0c;不过还是建议把最后一个使用蒙特卡洛近似求期望稍微看一下 蒙特卡洛是一大堆随机算法&#xff0c;通过随机样本来估算真实值 使用随机样本来近似Π 1、在[a,b]做随机均匀抽样&#xff0c;抽出n个样…

软件工程开发文档写作教程(02)—开发文档的分类

版权声明 本文原创作者&#xff1a;谷哥的小弟作者博客地址&#xff1a;http://blog.csdn.net/lfdfhl本文参考资料&#xff1a;电子工业出版社《软件文档写作教程》 马平&#xff0c;黄冬梅编著 开发文档分类概述 软件项目实施过程中依据功能和作用的不同可以把文档分为以下几…