数学建模中常用的数据处理方法

news2024/11/15 16:37:15

常用的数据处理方法

本文参考 B站西电数模协会的讲解视频 ,只作笔记提纲,想要详细学习具体内容请观看 up 的学习视频。国赛的 C 题一般数据量比较大。

这里介绍以下两种方法:
数据预处理方法
数据分析方法

数据预处理方法

1. 数据清洗

为了提高数据质量和适用所做数据分析的软件

 (1) 缺失值
  • 删除法:例如调查人口信息,发现“身高”这一项缺失 40%,直接删除该项指标
  • 替换法:适用于数据基数较大,对个体精度要求不高(例如人口的数量、年龄、经济产业情况等统计数据)
    • 人口的身高、年龄等数据可以用均值补缺
    • 人口的性别、文化程度、事件调查的满意度可以用出现次数最多的值(众数)补缺
  • 插值法:适用于对个体精度有要求
    • 常用插值法:分段线性插值、牛顿插值、拉格朗日多项式插值、Hermite插值、三次样条插值和克里金插值
    • 牛顿插值
      • 根据固定公式,构造近似函数,补上缺失值,适用性强
      • 会出现龙格现象,即区间边缘处有不稳定振荡,不适合对导数有要求的题目
      • 适用赛题:只追求函数值精确而不关心变化的数据。例如:热力学温度、地形测量、定位等
    • 三次样条插值
      • 用分段光滑的曲线去插值,函数曲线连续可导
      • 适用赛题:函数值精确度要求高,有突变的数据。例如:零件加工,水库水流量,机器人轨迹等
 (2) 异常值
  • 查找异常数据:
    • 正态分布 3 σ 3\sigma 3σ 原则
      • 适用题目:总体符合正态分布,例如人口身高、测量误差、生产加工质量、考试成绩等
      • 不适用题目:总体符合其他分布,例如固定时间内到公交站、地铁站人数符合泊松分布等
    • 箱型图法
      • 流程:箱型图法
      • 普遍适用
  • 删去异常值,当作缺失值处理

2. 数据变换

数据变换就是转化成适当的形式,以满足软件或分析理论的需要

(1) 简单函数变换
  • 将不具有正态分布的数据变成有正态分布的数据,常用的方法有开方、取对数、Box-Cox变换等
  • 利用对数或差分运算将非平稳序列转化成平稳序列
(2) 数据的规范化

        规范化就是剔除掉变量量纲上的影响,比如直接比较身高和体重的差异,单位的不同和取值范围的不同让这件事不能直接比较

  • 最小 – 最大规范化
    • 对数据进行线性变换,将其范围变成 [0,1]
    • 规范公式:(原始值-最小值)/(最大值-最小值)
    • 不适用情形:原始数据存在小部分很大或很小的数据时,会造成大部分数据规范化后接近于 0/1,区分度不大
  • 零 – 均值规范化
    • 处理后的数据均值等于 0,标准差为 1
    • 规范公式:(原始值-平均值)/标准差
    • 注意:得到的是给定数据距离其均值多少个标准差,结果
      没有实际意义,仅用于比较
  • 小数定标规范化
    • 移动属性值的小数位数,将属性值映射到 [-1,1]
    • 规范公式:原始值/10^k
    • 注意: k k k 取决于数据属性中数值的最大绝对值

数据分析方法

        通过采用合理的数据处理方法,将实际问题化繁为简,将定性分析变为定量分析,获得科学可靠的结论

1. 回归分析

        在统计学中,回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法

  • 根据自变量个数,有一元回归和多元回归
  • 根据因变量与自变量的关系,有线性回归和非线性回归

2. 插值与拟合

3. 数据降维

(1) 主成分分析
  • 将多个有一定相关性的指标进行线性组合,以最少的维度解释原数据中尽可能多的信息为目标进行以降维
(2) 因子分析
  • 将原始变量分解为两部分:一部分是公共因子的线性组合,浓缩了原始变量中的绝大部分信息。另一部分是与公共因子无关的特殊因予,反映了公共因子线性组合与原始变量间的差距。
(3) 二者区别:

示例:现有 10 位同学的语文、数学、英语、物理、化学、政治、历史、地理、生物的成绩数据。
主成分分析:文科和理科
因子分析:计算能力、阅读能力、逻辑能力、记忆能力

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1915182.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【后端开发实习】用MongoDB实现仓库管理的出库入库实战

用MongoDB实现仓库管理的出库入库 MongoDB什么是MongoDBMongoDB安装以及开始运行配置启动以及mongoshmongodb的基础使用命令启动和使用MongoDB服务数据库操作集合操作文档操作 项目部署在数据库中创建一张商品信息表提供信息表的增删改查操作接口 MongoDB 什么是MongoDB Mong…

德语中含“Augen”的惯用语表达-柯桥小语种学习德语考级

在我们的德语学习过程中,除了词汇的记忆,另一项重要的记忆任务就是惯用语的背诵啦。要知道,德语中有大量的Redewendung,他们以其言简意赅的表达,在日常用语中备受青睐。上一期我们已经学习了部分含有“Hand”的惯用语&…

每日一题~abc356(对于一串连续数字 找规律)

添加链接描述 题意:对于给定的n,m 。计算0~n 每一个数和m & 之后,得到的数 的二进制中 1的个数的和。 一位一位的算。最多是60位。 我们只需要计算 在 1-n这些数上,有多少个数 第i位 为1. 因为是连续的自然数,每一位上1 的…

ARM学习(29)NXP 双coreMCU IMX1160学习----NorFlash 启动引脚选择

ARM学习(28)NXP 双coreMCU IMX1160学习----NorFlash 启动引脚选择 1、多种启动方式介绍 IMX1166 支持多组flexSPI 引脚启动,FlexSPI1以及FlexSPI2,通过boot cfg可以切换FlexSPI得实例。 每个实例又支持多组引脚,总共…

Let‘s Encrypt性价比最高的申请SSL证书

SSL/TLS证书作为确保网站数据传输安全性的重要手段,受到了广大网站运营者的青睐。然而,高昂的证书费用往往成为许多小型网站和个人博客的负担。 申请Lets Encrypt免费泛域名SSL证书步骤 1. 登录来此加密网站,输入域名,可以勾选泛…

食物链之带权并查集解法

直接看题&#xff1a;https://www.acwing.com/problem/content/description/242/ 下面就是代码的实现了&#xff0c;因为自己与自己肯定是同类我们初始化为0. 下面是AC代码&#xff1a; #include<bits/stdc.h> using namespace std; int n,k; int fk,x,y; int fa[10001…

染色法判定二分图

什么是二分图&#xff1f; 二分图&#xff0c;也称作二部图&#xff0c;是图论中的一种特殊模型。在一个无向图G(V,E) 中&#xff0c;如果顶点集合 V 可以被分割成两个互不相交的子集 A 和 B&#xff0c;并且图中的每条边 (i,j) 关联的两个顶点 i 和 j 分别属于这两个不同的顶…

第三课网关作用

实验拓扑图&#xff1a; 基础配置&#xff1a; PC1的基础配置 PC2的基础配置&#xff1a; PC4的基础配置 AR1添加PC4网段: 并且添加pc1,pc2的网段。 并且添加pc1,pc2的网段。 原理&#xff1a;PC4先把数据交给100.100.100.1&#xff0c;交给了路由器&#xff0c;路由器再把数…

分贝通差旅管理费控BI 助力企业差旅报销降本

在企业的日常运营中&#xff0c;每张机票、每个酒店预订、每次用车、每笔对公付款&#xff0c;这些看似零碎的支出累积起来&#xff0c;每月往往能轻松达到数百万元。面对如此庞大的支出&#xff0c;如何及时发现并控制不合理支出&#xff0c;成为企业成本控制的关键。为此&…

引用计数器(kref)

1、什么是引用计数器 如果我们写了一个字符驱动&#xff0c;当硬件设备插上时&#xff0c;系统会生成一个设备节点。用户在应用空间操作这个设备节点就可以操作设备。如果此时将硬件断开&#xff0c;驱动是不是就要立刻释放呢&#xff1f;如果立刻释放&#xff0c;应用程序是不…

计算机网络体系结构解析

OSI参考模型 与 TCP/IP模型 如图所示 TCP/IP模型有几层 应用层&#xff1a;只需要专注于为用户提供应用功能 HTTP、SMTP、Telnet等&#xff0c;工作在操作系统中的用户态&#xff0c;传输层及以下工作在内核态传输层&#xff1a;为应用层提供网络支持&#xff08;TCP、UDP传…

《昇思25天学习打卡营第01天|qingyun201003》

打卡 日期 心得 我的主语言并不是Python,以及现在从事的工作也并不是开发&#xff1b;所以对于这个系列的课程&#xff0c;学习起来是较为困难的&#xff0c;所以基于这种情况&#xff0c;该如何进行学习&#xff1f;我的做法是全部交给AI&#xff0c;使用AI一步步解析代码&a…

xcode配置swift使用自定义主题颜色或者使用RGB或者HEX颜色

要想在xcode中使用自定义颜色或者配置主题色&#xff0c;需要在Assets中配置&#xff0c;打开Assets文件&#xff0c;然后点击添加Color Set&#xff1a; 输入颜色的名称&#xff0c;然后选中这个颜色&#xff0c;会出现两个颜色&#xff1a; Any Appearance表示亮色模式下使用…

JRT打印药敏报告

最近没写jrt系列博客&#xff0c;不是中途而废了。而是在写微生物系统。今天终于把微生物大体完成了&#xff0c;伴随着业务的实现&#xff0c;框架趋于完善和稳定。构建一套完美而强大的打印体系一直是我的理想&#xff0c;从最开始C#的winform打印控件到刚接触bs时候用js打印…

react学习——24redux实现求和案例(精简版)

1、目录结构 2、count/index.js import React, {Component} from "react"; //引入store,用于获取数据 import store from ../../redux/store export default class Count extends Component {state {count:store.getState()}componentDidMount() {//监测redux中的…

手撸俄罗斯方块(一)——简单介绍

手撸俄罗斯方块 简单介绍 《俄罗斯方块》&#xff08;俄语&#xff1a;Тетрис&#xff0c;英语&#xff1a;Tetris&#xff09;&#xff0c;是1980年末期至1990年代初期风靡全世界的电脑游戏&#xff0c;是落下型益智游戏的始祖&#xff0c;电子游戏领域的代表作之一&a…

关于气象探测设备的介绍

气象探测设备概述 气象探测设备是用于收集、记录和分析大气环境信息的专用工具。它们能够实时监测气温、湿度、气压、风速、风向、降雨量等多种气象要素&#xff0c;为天气预报、气候研究、农业生产和环境保护等领域提供重要数据支持。气象探测设备种类繁多&#xff0c;包括地…

【UML用户指南】-33-对体系结构建模-系统和模型

目录 1、系统和子系统 2、模型和视图 3、跟踪 4、常用建模技术 4.1、对系统的体系结构建模 4.2、对系统的系统建模 模型是对现实世界的简化——即对系统的抽象&#xff0c;建立模型的目的是为了更好地理解系统。 1、系统和子系统 一个系统可能被分解成一组子系统&#…

MySQL超详细学习教程,2023年硬核学习路线

文章目录 前言1. 数据库的相关概念1.1 数据1.2 数据库1.3 数据库管理系统1.4 数据库系统1.5 SQL 2. MySQL数据库2.1 MySQL安装2.2 MySQL配置2.2.1 添加环境变量2.2.2 新建配置文件2.2.3 初始化MySQL2.2.4 注册MySQL服务2.2.5 启动MySQL服务 2.3 MySQL登录和退出2.4 MySQL卸载2.…

推荐3款电脑必备专业软件,错过拍大腿

SolveigMM Video Splitter SolveigMM Video Splitter是一款功能强大的视频编辑工具&#xff0c;主要用于视频的无损剪切和合并。该软件支持多种常见的视频格式&#xff0c;如AVI、WMV、ASF、MP3、WMA等。此外&#xff0c;它还支持AVCHD、MPEG-2、WebM、FLV等格式&#xff0c;并…