数学建模Matlab之检验与相关性分析

news2024/11/24 20:36:47

只要做C题基本上都会用到相关性分析、一般性检验等!


回归模型性能检验

下面讲一下回归模型的性能评估指标,用来衡量模型预测的准确性。下面是每个指标的简单解释以及它们的应用情境:

1. MAPE (平均绝对百分比误差)

  • 描述: 衡量模型预测的相对误差。
  • 应用情境: 当你想知道模型预测误差相对于实际值的大小时。

2. RMSE (均方根误差)

  • 描述: 衡量实际值和预测值之间的偏差
  • 应用情境: 关注所有类型的误差。

3. SSE (残差平方和)

  • 描述: 衡量实际值和预测值之间差异的平方和。

4. MSE (均方误差)

  • 描述: 衡量实际值和预测值之间差异的平均平方和。
  • 应用情境: MSE对大误差更敏感,因为它计算的是误差的平方。如果你的模型有很大的误差,MSE会变得非常大。所以,如果你的任务不能容忍大的误差,使用MSE是有意义的。

5. MAE (平均绝对误差)

  • 描述: 衡量实际值和预测值之间差异的平均绝对值。
  • 应用情境: MAE对所有误差都是同等敏感的。它不会因为个别的大误差而受到过度影响,因为它不考虑误差的平方。如果你更关心所有类型的误差,而不仅仅是大误差,你可以使用MAE。

6. R^2 (决定系数)

  • 描述: 衡量模型解释数据变异的程度
  • 应用情境: 当你想知道模型相对于基准模型(例如,仅使用均值进行预测)的性能时。

结合使用

  1. 同时使用多个指标:你可以同时使用多个指标来获取模型性能的全面视图。例如,使用R^2可以了解模型解释了多少变异,而使用RMSE或MAE可以了解模型的平均误差大小。

  2. 与领域知识结合:根据问题的具体上下文和领域知识来选择最合适的指标。例如,在某些情况下,过度估计可能比低估更可取,或者大误差可能比小误差更不可接受。

  3. 考虑误差类型:不同的指标对不同类型的误差有不同的敏感度(例如,MSE对大误差更敏感,而MAE对所有误差都同等敏感)。

总之,选择哪个指标还取决于具体的应用和业务目标。在实践中,建议使用多个指标,并结合问题的具体背景进行解释和分析。甚至可以自定义损失函数。

%% 一般检验
% 各类检验,除决定系数是1最好,都是0最好
YReal = [1 2 3 4 5];
YPred = [1 2 3 4 5.1];
% 平均绝对百分比误差(MAPE)
mape = mean(abs((YReal - YPred)./YReal));
disp(['MAPE: ' num2str(mape)]);
% 均方根误差(RMSE)
rmse = sqrt(mean((YPred-YReal).^2));
disp(['RMSE: ' num2str(rmse)]);
% 残差平方和(SSE)
sse = sum((YReal - YPred).^2);
disp(['SSE: ' num2str(sse)]);
% 均方误差(MSE)
mse = mean((YReal - YPred).^2);
disp(['MSE: ' num2str(mse)]);
% 平均绝对误差(MAE)
mae = mean(abs(YReal - YPred));
disp(['MAE: ' num2str(mae)]);
% 决定系数(R2-R-Square)
r2 = 1 - (sum((YPred - YReal).^2) / sum((YReal - mean(YReal)).^2));
disp(['R2: ' num2str(r2)]);


相关性分析

相关性分析简介

相关性分析是统计学和数据分析中常用的一种技术,主要用于研究两个或多个变量之间是否存在某种关系(即它们是否相关)。这种关系可以是线性的,也可以是非线性的。通过相关性分析,我们可以量化两个变量之间的关系的强度和方向。

Pearson相关系数

  • 使用条件:

    1. 连续变量: Pearson相关系数只适用于连续变量。
    2. 线性关系: 变量间的关系应该是线性的。判断变量间
    3. 正态分布: 数据应该近似或严格符合正态分布。所以需要进行正态性检验,在数据预处理篇作者讲过。
  • 应用场景:

    • 用于衡量两个连续变量之间的线性相关性。
    • 在科学研究、金融分析和社会科学等领域中广泛应用。


Kendall相关系数

  • 使用条件:

    1. 序列数据: 适用于测量序列数据之间的关系。
    2. 非线性关系: 可用于非线性关系
  • 应用场景:

    • 用于衡量两个序列变量之间的相关性。
    • 在社会科学、经济学和生物学等领域中应用。

Spearman相关系数

  • 使用条件:

    1. 序列数据: 适用于测量序列数据之间的关系。
    2. 非线性关系: 可用于非线性关系。
    3. 不需正态分布: 不需要数据遵循正态分布。
  • 应用场景:

    • 用于衡量两个序列变量之间的相关性。
    • 在许多不同领域中广泛应用,例如心理学和教育研究。

指标选择

再明确一下,相关性分析指标的选择不是随随便便的,一定要分析需要的是线性关系还是非线性关系!

如果你的数据是连续的,并且服从正态分布,那么Pearson相关系数是一个不错的选择。

如果你的数据是序列数据或不满足正态分布,那么Kendall或Spearman相关系数可能是更好的选择。

1. Pearson相关系数 (r)

  • 相关性类型: 线性相关性
  • 描述: Pearson相关系数主要用于测量两个连续变量之间的线性关系的强度和方向。如果两个变量之间的关系是非线性的,Pearson相关系数可能不会检测到这种关系。

2. Kendall相关系数 (τ)

  • 相关性类型: 非线性相关性
  • 描述: Kendall τ相关系数不仅可以检测线性关系,还可以检测更复杂的非线性关系。它主要用于测量两个序列变量之间的相关性。

3. Spearman相关系数 (ρ)

  • 相关性类型: 非线性相关性
  • 描述: Spearman ρ也是一种非参数相关系数,它可以测量两个变量之间的单调关系(不一定是线性关系)。

总结:

  • 如果研究目的是了解两个变量之间的线性关系,通常使用Pearson相关系数。
  • 如果数据是序列或等级数据,或者关系可能是非线性的,那么Spearman或Kendall相关系数可能更合适。

代码示例

%% 相关性分析
clc, clear, close all;

% 列为指标,行为数据
data = rand(10);

% Pearson相关系数
r1 = corr(data, 'type', 'Pearson');
disp(r1);
% Kendall相关系数
r2 = corr(data, 'type', 'Kendall');
disp(r2);
% Spearman相关系数
r3 = corr(data, 'type', 'Spearman');
disp(r3);

这就求出来了,接下来就是使用r1/r2/r3画相关性分析图了!图可以有很多种选择,但是作者都觉得很丑,所以自己配置了一个小清新的颜色,大家喜欢的话可以拿走哦!

% 设置我自定义的颜色映射
n = 64;
% 从淡蓝色 (0.6, 0.6, 1) 到淡黄色 (1, 1, 0.6)
t1 = linspace(0.6, 1, floor(n/2))';
u1 = linspace(0.6, 1, floor(n/2))';
v1 = linspace(1, 0.6, floor(n/2))';
% 从淡黄色 (1, 1, 0.6) 到淡红色 (1, 0.6, 0.6)
t2 = linspace(1, 1, ceil(n/2))';
u2 = linspace(1, 0.6, ceil(n/2))';
v2 = linspace(0.6, 0.6, ceil(n/2))';

t = [t1; t2];
u = [u1; u2];
v = [v1; v2];

my_colormap = [t,u,v];

figure;
% 创建子图
ax3 = subplot(1, 1, 1);
% 绘制 Spearman 相关系数的热力图
imagesc(ax3, r3);
% 添加颜色条
colorbar(ax3);
% 在每个单元格中添加文本
for i = 1:size(r3, 1)
    for j = 1:size(r3, 2)
        text(ax3, j, i, sprintf('%.2f', r3(i, j)), ...
            'HorizontalAlignment', 'center', ...
            'Color', 'k', 'FontSize', 10, 'Parent', ax3);
    end
end
% 设置标题
title(ax3, 'Spearman Correlation Heatmap');
% 应用自定义的颜色映射
colormap(ax3, my_colormap);

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1057032.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

在visual studio里配置Qt插件并运行Qt工程

Qt插件,也叫qt-vsaddin,它以*.vsix后缀名结尾。从visual studio 2010版本开始,VS支持Qt框架的开发,Qt以插件方式集成到VS里。这里在visual studio 2019里配置Qt 5.14.2插件,并配置Qt环境。 1 下载VS2019 下载VS2019,官…

Grander因果检验(格兰杰)原理+操作+解释

笔记来源: 1.【传送门】 2.【传送门】 前沿原理介绍 Grander因果检验是一种分析时间序列数据因果关系的方法。 基本思想在于,在控制Y的滞后项 (过去值) 的情况下,如果X的滞后项仍然有助于解释Y的当期值的变动,则认为 X对 Y产生…

nodejs+vue流浪猫狗救助领养elementui

第三章 系统分析 10 3.1需求分析 10 3.2可行性分析 10 3.2.1技术可行性:技术背景 10 3.2.2经济可行性 11 3.2.3操作可行性: 11 3.3性能分析 11 3.4系统操作流程 12 3.4.1管理员登录流程 12 3.4.2信息添加流程 12 3.4.3信息删除流程 13 第四章 系统设计与…

nodejs+vue交通违章查询及缴费elementui

第三章 系统分析 10 3.1需求分析 10 3.2可行性分析 10 3.2.1技术可行性:技术背景 10 3.2.2经济可行性 11 3.2.3操作可行性: 11 3.3性能分析 11 3.4系统操作流程 12 3.4.1管理员登录流程 12 3.4.2信息添加流程 12 3.4.3信息删除流程 13 第四章 系统设计与…

一文拿捏分布式、分布式缓存及其问题解决

1.分布式 1.集中式 传统的计算模型通常是集中式的,所有的计算任务和数据处理都由单一的计算机或服务器完成。然而,随着数据量和计算需求的增加,集中式系统可能会面临性能瓶颈和可靠性问题。 故而引出了分布式↓↓↓↓↓↓↓↓↓↓↓↓↓↓…

一文拿捏基于redis的分布式锁、lua、分布式性能提升

1.分布式锁 jdk的锁: 1、显示锁:Lock 2、隐式锁:synchronized 使用jdk锁保证线程的安全性要求:要求多个线程必须运行在同一个jvm中 但现在的系统基本都是分布式部署的,一个应用会被部署到多台服务器上,s…

40 二叉树的直径

二叉树的直径 总结:两个节点之间最长路径 路径的结点数 - 1题解1 递归——DFS 给你一棵二叉树的根节点,返回该树的 直径。 二叉树的直径是指树中任意两个节点之间最长路径的长度。这条路径可能经过也可能不经过根节点 root 。 两节点之间路径的长度由…

Python无废话-基础知识字典Dictionary详讲

“字典Dictionary” 是一种无序、可变且可嵌套的数据类型,用于存储键值对。字典使用花括号{}来定义,并用逗号分隔键值对。本文对字典常使用方法,创建字典、添加字典、删除字典、如何获取字典做了知识归纳。 字典有以下几个特征: …

92、Redis ------- 使用 Lettuce 操作 Redis 的方法和步骤----(文字讲解无代码)

lettuce :英语的意思:生菜 是一个用来操作redis的框架,springboot内置默认支持的也是 lettuce ,也可以自己改成 jedis Jedis 也是一个用来操作redis的框架 ★ Lettuce的核心API RedisURI:用于封装Redis服务器的URI信息…

家用无线路由器如何用网线桥接解决有些房间无线信号覆盖不好的问题(低成本)

环境 光猫ZXHN F6600U 水星MW325R 无线百兆路由器 100M宽带,2.4G无线网络 苹果手机 安卓平板电脑 三室一厅94平 问题描述 家用无线路由器如何用网线桥接解决有些房间无线信号不好问题低成本解决,无线覆盖和漫游 主路由器用的运营商的光猫自带无…

cf 解题报告 01

E. Power of Points Problem - 1857E - Codeforces 题意: 给你 n n n 个点,其整数坐标为 x 1 , … x n x_1,\dots x_n x1​,…xn​,它们位于一条数线上。 对于某个整数 s s s,我们构建线段[ s , x 1 s,x_1 s,x1​], [ s , x…

【Java】super 关键字用法

目录 this与super区别 1.访问成员变量-示例代码 继承中构造方法的访问特点 2.访问构造方法-示例代码: 继承中成员方法访问特点 3.访问成员方法-示例代码: super 关键字的用法和 this 关键字相似 this : 代表本类对象的引用super : 代表父类存储空间…

VBA技术资料MF64:遍历单元格搜索字符并高亮显示

【分享成果,随喜正能量】不要在乎他人的评论,不必理论与他人有关的是非,你只要做好自己就够了。苔花如米小,也学牡丹开。无论什么时候,都要有忠于自己的勇气,去做喜欢的事,去认识喜欢的人&#…

JUC中的设计模式

文章目录 1. 终止模式之两阶段终止模式 1. 终止模式之两阶段终止模式 需求:用一个线程每两秒检测***状态,当不想检测时,用另一个线程将其停止 在一个线程 T1 中如何“优雅”终止线程 T2?这里的【优雅】指的是给 T2 一个料理后事…

JVM相关概念

JVM,全程Java Virtual Machine,是java虚拟机的意思! 是一个类似计算机的存在,是在计算机上模拟真实计算机运行的平台,它代替Java代码和各种计算机设备之间的交互! Java程序把代码翻译成字节码交给虚拟机&a…

借助Log360实现综合可见性的增强网络安全

当今的企业对技术的依赖程度前所未有,因此强大的威胁检测和响应策略变得至关重要。在现代世界中,网络犯罪分子不断寻找新的、富有创意的方式,以侵入组织的网络并窃取敏感数据。综合性的可见性是一个关键要素,有时被忽视&#xff0…

23-properties文件和xml文件以及dom4j的基本使用操作

特殊文件 我们利用这些特殊文件来存放我们 java 中的数据信息,当数据量比较大的时候,我们可以利用这个文件对数据进行快速的赋值 对于多个用户数据的存储的时候我们要用这个XML来进行存储 关于这些特殊文件,我们主要学什么 了解他们的特点&…

Linux系统编程基础:进程控制

文章目录 一.子进程的创建操作系统内核视角下的父子进程存在形式验证子进程对父进程数据的写时拷贝 二.进程等待进程非阻塞等待示例: 三.进程替换内核视角下的进程替换过程:综合利用进程控制系统接口实现简单的shell进程 进程控制主要分为三个方面,分别是:子进程的创建,进程等待…

windows修改键位F11变insert(改键盘映射)

这里是通过改变windows的注册表来实现的 1.按住winr打开运行,在运行中输入“regedit”,再点击“确定”按钮。如下图 2.找到注册表的目录 HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Keyboard Layout 3.在Keyboard Layout右击新建 -> 二进…

18scala笔记

Scala2.12 视频地址 1 入门 1.1 发展历史 … 1.2 Scala 和 Java Scala Java 编写代码使用scalac编译成.class字节码文件scala .class文件 执行代码 1.3 特点 1.4 安装 视频地址 注意配置好环境变量 简单代码 1.5 编译文件 编译scala文件会产生两个.class文件 使用java…