【数学建模】数据预处理

news2024/11/24 15:59:16

在数学建模赛题中,官方给所有选手的数据可能受到主观或客观条件的影响有一定的问题,如果不进行数据的处理而直接使用的话可能对最终的结果造成一定的影响,因此为了保证数据的真实性和建模结果的可靠性,需要在建模之前对数据进行相关的预处理工作。

数据预处理一般包括:数据清洗,数据集成,数据变换和数据规约

数据清洗(数据中存在错误或异常数据,我们将这些数据找出并进行相关处理,使其变成常规的,近似正常的数据)

数据集成(将不同格式,不同获取规范,不同获取逻辑的数据集合在一块进行集中化处理)

数据变换(将数据按照一定的规范使它变成一个统一的数据集)

数据规约/数据降维(数据存在很多冗余或者数据的维度过高,计算起来十分复杂繁琐,因而使用关键的指标代替原先高维的数据)

数据清洗

缺失值处理

缺失值处理方法主要有三种:删除记录、数据插补、不处理

删除记录:指当该组数据某一个案的数据缺省时,删除组个案的数据,这种方法的优点是处理方便,但在数据较少时要慎重使用。

数据插补:使用不同的插补方法将缺省数据补齐。

最近邻插补:在记录中找到与缺失样本最接近的样本的该属性插补,可以通过计算对象间的欧氏距离衡量。

回归方法插补:根据已有数据和与其相关的其他变量的数据建立拟合模型来预测缺失值。

插值法:常用的插值法有很多,主要有拉格朗日插值法、牛顿插值法。

 异常值处理

处理方法有两种:正态分布原则和画箱型图

1、正态分布3σ原则
数值分布在(μ-3σ,μ+3σ)中的概率为99.73%,其中μ为平均值,σ为标准差。
求解步骤:
1.计算均值μ和标准差σ;2.判断每个数据值是否在(μ-3σ,μ+3σ)内,不在则为异常值。
适用题目: 总体符合正态分布,例如人口数据、测量误差、生产加工质量、考试成绩等。
不适用题目: 总体符合其他分布,例如公交站人数排队论符合泊松分布

 

 

2、画箱型图
箱型图中,把数据从小到大排序。
下四分位数 Q1 是排第25%的数值,上四分位数 Q3 是排第75%的数值。
四分位距 IQR = Q3 - Q1 ,也就是排名第75%的减去第25%的数值
正态分布类似,设置个合理区间,在区间外的就是异常值。
一般设[ Q1 1.5* IQR , Q3 +1.5* IQR ]内为正常值。

 数据变换

数据类型的一致化处理方法

一般问题的数据指标可能有“极大型”,“极小型”,“中间型”,“区间型”指标。

极大型:期望取值越大越好

极小型:期望取值越小越好

中间型:期望取值既不要太大,也不要太小,取适当区间为最好

区间型:期望取值最好是落在某个确定的区间内为最好

极小型:对某个极小型数据指标x,则令x'=1/x(x>0),或x'=M-x,即可将x极大化。

中间型:对某个中间型数据指标x,则令:

 即可将中间型数据指标x极大化。

区间型:对某个区间型数据指标x,则令:

 其中[a,b]为x的最佳稳定区间,c=max{a-m,M-b},M和m分别为x可能取值的最大值和最小值,即可将x极大化。

数据指标的无量纲化处理

在实际数据指标之间,往往存在着不可公度性(没有共同的基础、尺度和标准),直接应用是困难的,会出现“大数吃小数”(数据指标之间的量纲不同导致)的错误,从而导致结果的不合理。

常用方法:标准差法(数据比较均匀)、极值差法(数据分布不是很均匀,保留数据的原有特性)、功效系数法(极值差法基础改进)等。

 

 

 

 定性指标(文字指标)的量化处理方法

在社会实践中,很多问题都涉及到定性因素(指标)的定量化处理问题。诸如:教学质量、科研水平、工作政绩、人员素质、各种满意度、信誉、态度、意识、观念、能力等因素有关的政治、社会、人文等领域的问题。如何对这些相关问题给出定量分析呢?

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/766236.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

VS工程项目中属性中无Qt设置问题解决方案

VS工程项目中属性中无Qt设置问题解决方案 若VS工程中,创建的是Qt工程,或者从Qt Creator工程转换为VS 工程时,VS项目属性中确无Qt Project Setttings等设置时,可通过如下方案解决 1. 右键项目,在下拉框中选择Qt项 2.…

微信号长时间不用会被腾讯回收

我是卢松松,点点上面的头像,欢迎关注我哦! 估计很多人不知道的一个冷知识:你的微信号并不归你本人所有,你只有账号的使用权,微信账号的所有权归腾讯公司所有。如果长期不使用,或者是违规&#…

MySQL—创建和管理表(六)

1.数据库相关操作 -- 1 创建数据库 -- 1.1 创建一个保存员工信息的数据库 CREATE DATABASE employees; -- 1.2 其他相关指令 -- 1.2.1 查看当前所有数据库 SHOW DATABASES; -- 1.2.2 “使用”一个数据库,使其作为当前数据库 USE employees;-- 2 命名规则 -- 见ppt …

虹科分享 | MACsec-先进的车载网络安全解决方案

Media Access Control Security(简称 MACsec)是以太网上最先进的安全解决方案。它为以太网上传输的几乎所有帧提供完整性保护、重放保护和可选的机密性保护。与其他解决方案相比,包括了单播、组播和广播消息以及在第2层上运行的所有协议。 M…

3D虚拟展厅和VR全景展厅该如何选择

导言: 在当今数字化时代,传统展厅已逐渐演变为3D虚拟展厅和VR全景展厅。这些技术的广泛应用为企业带来了全新的营销和展示方式。 一.3D虚拟展厅的特点和优势 3D虚拟展厅是一种基于3D技术的虚拟展示空间,通过计算机图像和模拟技术…

【C语言进阶(九)】常见内存错误以及柔性数组

💓博主CSDN主页:杭电码农-NEO💓   ⏩专栏分类:C语言学习分享⏪   🚚代码仓库:NEO的学习日记🚚   🌹关注我🫵带你学习更多C语言知识   🔝🔝 常见内存错误 1. 前言2. 对NULL指针…

伦敦银价格一览表

一目均衡表(Ichimoku Kinko Hyo)是日本在二次大战前发明的行情分析方法,是全世界技术分析的鼻祖,其功能是提供市场的方向及入市位,被广泛应用于股市、债市和贵金属市场之中。日文KINKO的意思为时空平衡点,H…

Blueprint —— 入门笔记2

BP_Character Animation BlueprintBlend Space 1D 角色按键动画 命令slomo 0.1减慢时间,用于测试; 玩家输入:位移、旋转、缩放; 碰撞检测:执行动作等; 游戏开始 地图,开始游戏页面 打开地图 输入…

用于视觉跟踪的在线特征选择研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

如何在Appium中使用AI定位

当我们在写自动化测试脚本的时候,传统情况下一定要知道元素的属性,如id、name、class等。那么通过AI的方式定位元素可能就不需要知道元素的属性,评价人对元素的判断来定位,比如,看到一个搜索框,直接使用ai:…

Tomcat安装及配置教程(IDEA整合Tomcat)

目录 友情提醒第一章、Tomcat下载与安装1.1)Tomcat介绍1.2)官网下载 第二章、Tomcat配置环境变量2.1)windows环境变量配置2.2)验证Tomcat配置是否成功2.3)报错解决 第三章、IDEA整合Tomcat3.1)打开IDEA开发…

11.Ceph 对象存储系统 RGW 接口

文章目录 Ceph 对象存储系统 RGW 接口概念逻辑单位创建RGW接口开启httphttps创建RadosGW账户S3接口访问测试 Ceph 对象存储系统 RGW 接口 概念 对象存储(object storage)是非结构数据的存储方法,对象存储中每一条数据都作为单独的对象存储&…

资深测试总结,自动化测试-JSON+YAML+CSV+Excel数据驱动(详细)

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 数据驱动 在自动…

三分钟为你揭晓什么软件可以音频转文字

在一个繁忙的国际会议上,艾丽莎是一位积极参与的会议记录员。她负责记录并整理与会者的发言内容,以便后续审阅和分析。然而,由于会议中使用英语进行交流,艾丽莎常常面对着大量的英文音频文件,需要将这些音频转换为文字…

C# 连接mysql数据库报错:Character set ‘utf8mb3‘ is not supported by .Net Framework.

最近项目突然连接mysql数据库出现一个bug,排查了半小时,最后更新MySql.Data版本解决了,错误信息如下: System.NotSupportedException: Character set utf8mb3 is not supported by .Net Framework.在 MySql.Data.MySqlClient.Cha…

C#List转IList方法

最近工作中使用到了C#的List和IList。 这里参考百度上的资料&#xff0c;总结一下。 IList使用命名空间&#xff1a; using System.Collections; List<T>类:表示可通过索引访问的对象的强类型列表&#xff0c;提供用于对列表进行搜索、排序和操作的方法。 IList<T&…

思维导图软件哪个好?试用百款导图软件只留下这15个

​思维导图软件哪个好&#xff1f; 这是许多第一次使用思维导图软件的朋友无法回避的问题&#xff0c;看着眼前有数百款思维导图软件&#xff0c;数量多到让人患上选择困难症&#xff0c;不知道要选哪个导图软件好&#xff0c;这就好比在繁星点点的夜空中寻找属于自己的那颗星&…

vue3实现上传功能

效果&#xff1a; 点击即可上传 代码&#xff1a; <a-form-item label"附件" name"logUrl" placeholder""><a-uploadv-model:file-list"filesLists":customRequest"uploadFile"class"upload-list-inline&quo…

基于PyQt5的UI界面开发——对基本控件的介绍

基本控件介绍 在PyQt中&#xff0c;控件是用户界面上的可见元素。控件可以包括按钮、标签、文本框、进度条等。每个控件都有自己的属性和方法&#xff0c;可以通过编程方式进行调整和操作。 以下是一些常用的PyQt控件&#xff1a; QLabel&#xff08;标签&#xff09;&#…

WebDAV之π-Disk派盘 + Keepass

KeePass是一款优秀的开源密码管理器,可以帮助用户安全、高效地管理自己的密码,而派盘则是一款本地个人云存储解决方案,可以帮助用户轻松地存储、管理和共享各种类型的文件。将这两个工具结合在一起,可以让用户更加安全和便捷地管理自己的密码。 π-Disk派盘 – 知识管理专…