2024美赛备战1--数据处理(数据预处理,异常值处理,预测模型,插值拟合 *****必看****)

news2024/11/17 23:45:49

1.数据预处理

所谓数据预处理,就是指在正式做题之前对数据进行的一些处理。在有些情 况下,出题方提供的数据或者网上查找的数据并不能直接使用,比如缺少数据甚 至是异常数据,如果直接忽略缺失值,或者没发现异常数据,都会严重地影响结 果的正确性。此外,带单位的数据也需要通过无量纲处理以减少单位对计算的影响。因此正确的数据预处理是前期值得关注的任务。

2.缺失数据

(1)均值填充法

如果缺失值是数值型的,就根据该属性在其他所有对象取值的平均值来填充该缺失的属性值,比如年龄、距离等属性

如果缺失值是非数值型的,就根据统计学中的众数原理,用该属性在其他所 有对象的取值次数最多的值(即出现频率最高的值)来补齐该缺失的属性值。比如

性别、类别等属性。

(2)就近补齐法

对于一个包含缺失值的对象,就近补齐法在完整数据中找到一个与它最相似 的对象, 然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标

准来对相似进行判定。该方法的难度在于如何定义相似标准,主观因素较多。

(3)聚类填充法

聚类是按照某个特定标准(如距离、密度等)把一个数据集分割成不同的类或 簇,同一类的数据尽可能聚集到一起,不同类数据尽量分离,使得同一个簇内的 数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能 地大。把数据分好类后可以在每个类别中处理缺失值,最经典的聚类算法是K-  近邻算法 (KNN) , 建议同学们在使用时根据数据属性合理选择距离和K(类别)

个数

(4)回归方程法

用不含缺失值的数据集建立回归方程,把缺失值的点代入回归方程即可预测 缺失值,在具体使用时应该注意要留出一部分数据验证你的回归方程的准确性

(建议测试数据比例20%)。

3.异常值处理

异常值是指样本中的个别值,其数值明显异于其他观测值,异常值也叫离群 点。在比赛中,出题方可能会故意提供异常数据,考察参赛选手的数据分析和处理能力。

(1)检测方法

  基于实际问题

在一些实际问题中, 一方面可以用物理模型剔除一些异常值,比如用圆周运 动的临界条件筛选速度异常值;另一方面,可以根据生活常识剔除异常值,比如车速有上限。

 

  基于统计学原理

若数据服从正态分布,根据正态分布的定义可知,在默认情况下我们可以认 定,距离超过平均值3δ的样本是不存在的。因此,当样本距离平均值大于3δ,

认为该样本为异常值。

  箱线图法

分位数:把数据分布划成4个相等的部分,每个部分表示数据分布的四分之 一,称为四分位数,100-分位数通常称为百分位数,即划为100个大小相等的部

分。中位数、四分位数和百分位数是使用最广泛的分位数。

四分位极差:第1个和第3个四分位数之间的距离称为四分位数极差,定义

为 :

IQR=Q₃-Q₁

五数概括由中位数(图片图片)、四分位数图片图片,最大值和最小值组成。

异常值识别的通常规则:挑选落在第3个四分位数之上或第1个四分位数之 下至少1.5×IQR的值。箱线图的断点一般在四分位数上,盒的长度是四分位数 极差IQR,   中位数用盒内的线标记,盒外的两条线(胡须)延申到最小和最大观 测值。仅当最大和最小观测值超过四分位数不到1.5×IQR 时,胡须扩展,否则 胡须再出现在四分位数的1.5×IQR之内的最极端观测值处终止,剩下的情况个

别列出。

该方法的优点在于既能对数据进行统计学描述,了解数据的整体特征,又能

可视化展示结果,简洁清晰。

(2)处理方法

a). 为了避免异常值影响结果的正确性,直接删除。

b). 在总体样本量较少的情况下,不能简单地删除异常值,因为样本量也很

影响结果,因此可以将异常值视为缺失值,使用缺失值处理方法来处理异常值。

4.无量纲化处理

无量纲化,也称为数据的规范化,是指不同指标之间由于存在量纲不同致其

不具可比性,故首先需将指标进行无量纲化,消除量纲影响后再进行接下来的分

析。

常见的无量纲化处理方法主要有标准化(各指标均值为0,标准差为1)、 均值化(各指标数据构成协方差矩阵)和归一化(将一列数据“拍扁”到某个固

定区间(常为[0,1]),和最大/小值有关),如归一化公式:

5.数据量问题

数据样本量不够或者查不到数据,可以在一定约束条件下用随机数生成,模 型适用即可。但切记要对模型做灵敏性分析和误差分析,来证明随机生成的数据

对模型的影响非常小。

数据不够确实令人做题时无从下手,但物极必反,数据太多也不是什么好事, 如果某个赛题提供了很多数据,需要对多维数据做降维处理,减少数据冗余,常

见的方法有主成分分析法 (PCA) 、 线性判别分析等。

6.预测模型

预测模型要根据题目所给数据样本量的大小,选择合适的方法:

(1)灰色预测模型(样本量<15)

数据样本点个数少, 一般建议为6-15个,或者数据呈现指数或曲线的形式。

(2)微分方程预测(样本量<100)

无法直接找到原始数据之间的关系,但可以建立微分方程,利用推导出的公

式预测数据。

(3)回归预测(100<样本量<1000)

回归预测就是把预测的相关性原则作为基础,把影响预测目标的各因素找出 来,然后找出这些因素和预测目标之间的函数关系的近似表达,并且用数学的方 法找出来。依据相关关系中自变量的个数不同分类,可分为一元回归分析预测法

和多元回归分析预测法。

7.插值与拟合

拟合与插值在数学建模竞赛中非常常见,但有以下几点需要留意:

(1)拟合与插值区别: 插值是离散函数逼近的重要方法,利用它可通过函 数在有限个点处的取值状况,估算出函数在其他点处的近似值;拟合是指将平面

上的一系列点与光滑曲线连接起来。

(2)灵活掌握不同插值方法的适用条件:拉格朗日插值( 一 维)、分段线

性插值(多条件)、三次样条插值(空间中的点)。

(3)灵活选择拟合函数: 比如一道经典的数模国赛车流量预测问题,对于 车流量,每个点代表每一小时的平均值,而且车流量可以看作是以天为周期的周

期函数,再联系不规则的函数曲线,可以考虑用傅里叶级数拟合。

8.推荐工具

(1)Excel:       越简单,越强大。你可能忽略了这个最常见的软件,但在数据处理方面,它毫不逊色专业软件,在数据可视化方面也方便操作。

(2)SPSS:   用于统计分析,围绕统计学知识的一些基本应用,包括描述统 计,方差分析,因子分析,主成分分析,基本的回归,分布的检验等等,我们前边提到的箱线图就可以用 SPSS一 键生成!

(3)Python:        熟练掌握Numpy,Pandas,Matplotlib      库 ,python    的强大无需多言,综合且高效!

(4)Tableau:        主要用于数据可视化展示,操作简单,可以直接用鼠标来选 择行、列标签来生成各种不同的图形图表,而且Tableau   的设计、色彩及操作界

面简单清新,做出来的图更美观。

(5)数据查找网站:

联合国数据中心:https://www.un.org/zh/databases/

联合国粮食及农业组织: FAOSTAT

谷歌学术: 思谋学术_谷歌学术搜索和文献资源

 

美国运输统计局: Bureau of Transportation Statistics

美国劳工统计局: https://stats.bls.gov/

美国农业部: USDA

美国人口统计局: http://www.census.gov/

美           国            普           查           局

http://2010.census.gov/2010census/language/chinese-simplified.php

中国国家统计局: http://www.stats.gov.cn/tjsj/

世界卫生组织: www.who.int/data/gh   o

 

美国商务部经济分析局: www.bea.gov/data

 Free GIS Data:freegisdata.rtwilson.com

 欢迎点击下方名片加入通过下方名片加入美赛备战 交流群

或者关注GZH :建模忠哥 ,建模期间提供免费的chatgpt3.5      

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1303112.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

idea java 创建 hellword 项目

1.概要 建立一个最简单的工程&#xff0c;开始编码。 2.试验过程 2.1 创建的过程很简单&#xff0c;除了第一个窗口选择“java 模块”&#xff0c;其他的都是下一步。 2.2 还有就是刚创建的工程什么都没有需要&#xff0c;自己创建一个启动的类和启动函数。 2.3 运行和运行…

随机生成验证码的jar包

这是已经开发好的验证码&#xff0c;咱们直接调用接口&#xff0c;拿过来直接用就可以了 链接&#xff1a;https://pan.baidu.com/s/1QMPhW5UzxmhIa7THFab5hw 提取码&#xff1a;6666 下面演示一下&#xff1a; 首先创建一个Code来先生成随机验证码&#xff0c;然后传…

一个音乐能够做成二维码吗?音乐的活码制作技巧

一个音乐能够做成二维码后展示吗&#xff1f;现在以二维码为载体来储存内容的方式越来越常见&#xff0c;比如图片、文件、视频、音频都可以做成二维码展示&#xff0c;人们也更习惯去扫码获取内容。音频作为日常工作生活中常用的一种内容&#xff0c;可以用音频二维码生成器来…

如何在Word中简洁地插入代码

如何在Word中简洁地插入代码 背景&#xff1a; ​ 最近在一写一些论文或者报告的时候&#xff0c;需要将源代码放在论文的最后&#xff0c;有一个很头疼的问题&#xff0c;如果直接把代码从编辑器复制到word中&#xff0c;就变成了下面这个样子&#xff1a; 这有点丑陋啊&…

2023-12学习笔记

1.NonNull要手动写无参构造器 这是一个我今天研究了很久的问题&#xff0c;开始不知道原因是在这里&#xff0c;还在那想是不是Data覆盖了无参构造&#xff0c;结果当然不是。先说下解决历程 1.问题起因 通过RequestBody接收前端报文的时候报错&#xff0c;大致是说我构造方…

【算法提升—力扣每日一刷】五日总结【12/06--12/10】

2023/12/06 力扣每日一刷&#xff1a;206. 反转链表 给你单链表的头节点 head &#xff0c;请你反转链表&#xff0c;并返回反转后的链表。 示例 1&#xff1a; 输入&#xff1a;head [1,2,3,4,5] 输出&#xff1a;[5,4,3,2,1]示例 2&#xff1a; 输入&#xff1a;head [1,2…

马云说的AI电商真的要来了?AR技术虚拟试穿公司ZERO10引入AI人工智能模型,未来试衣间就应这样!

ZERO10 是一家提供虚拟试穿体验的公司&#xff0c;他们基于自家的 AR 技术&#xff0c;提供高度逼真且顶尖的虚拟试穿体验。与现有的技术不同&#xff0c;他们的生成式人工智能试穿技术只需要 1-5 张用户照片&#xff0c;就可以实现虚拟试穿。这种方法为规模化应用提供了巨大机…

jquery手写广告轮播图,无限循环功能

说明 在很多情况下&#xff0c;我们都需要开发广告轮播图&#xff0c;当我们进行页面的功能开发时&#xff0c;采用轮播图来实现也行&#xff0c;但是很多情况下&#xff0c;我们只需要简单的控制轮播循环轮播展示即可&#xff0c;所以用jq开开发广告轮播波&#xff0c;自定义…

NR重写console.log 增加时间信息

如题&#xff0c;默认console.log输出的日志是13位的时间戳&#xff0c;然后不方便查看与对比代码运行点的耗时&#xff0c;我们可以简单地重写 console.log方法&#xff0c;增加自定义时间戳格式&#xff0c;如下是增加时间&#xff08;时&#xff0c;分&#xff0c;秒&#x…

dirmap 工具学习

dirmap 1.1 工具的下载路径1.2 工具的安装流程1.3 工具的详细使用参数说明测试实验 1.1 工具的下载路径 dirmap 是一个高级 web 目录扫描工具&#xff0c;基于 python3 开发、运行&#xff0c;功能将会强于 DirBuster、Dirsearch、cansina、御剑。 github 下载地址 1.2 工具…

日本服务器:确保其稳定性的几个要点

​  在租用日本服务器时&#xff0c;用户们大多一定会关注它的稳定性&#xff0c;其实这些顾及都是正常的。毕竟&#xff0c;网站要想正常运行&#xff0c;保障服务器稳定是关键。本文将讨论有关如何保障日本服务器稳定性的一些有用技巧&#xff0c;希望对您有所帮助。 1.注重…

西工大网络空间安全学院计算机系统基础实验二(清楚实验框架及phase_1)

首先&#xff0c;将自己的实验包从Windows系统中使用scp命令传到Linux虚拟机中。而要想传到Linux虚拟机中&#xff0c;第一步就是要确定Linux虚拟机的IP地址&#xff0c;如 图1&#xff1a;确定Linux虚拟机的IP地址 所示。接着使用scp命令将实验包从Windows系统传送到Linux虚拟…

Linux系统的各项命令

文章目录 Linux系统的目录结构Linux路径的描述方式Linux命令入门**什么是命令、命令行**Linux命令基础格式 ls命令入门HOME目录和工作目录ls命令的参数和选项ls命令的 -a选项ls命令的 -l选项ls命令选项的组合使用ls选项和参数的组合使用ls命令的 -h选项 目录切换相关命令&#…

迅为RK3568开发板使用OpenCV处理图像(颜色转换)

1 颜色转换 本小节代码在配套资料“iTOP-3568 开发板\03_【iTOP-RK3568 开发板】指南教程 \04_OpenCV 开发配套资料\05”目录下&#xff0c;如下图所示&#xff1a; cv2.cvtColor()函数功能&#xff1a; 将一幅图像从一个色彩空间转换到另一个色彩空间。 函数原型&#xff…

使用pe安装windows操作系统

一、系统安装前准备工作&#xff0c;制作系统盘 &#xff08;1&#xff09;拷贝电脑上的资料 &#xff08;2&#xff09;准备一个至少8G的U盘 &#xff08;3&#xff09;下载windows镜像文件及pe软件 通过百度网盘可下载下列软件及镜像 windows镜像文件&#xff08;百度网盘…

Shell三剑客:正则表达式简介

前言 一、名称解释 正则表达式&#xff08;regular expression&#xff0c;RE&#xff09;是一种字符模式&#xff0c;用于在查找过程中匹配指定的字符。在大多数程序里&#xff0c;正则表达式都被置于两个正斜杠之间&#xff1b;例如/l[oO]ve/就是由正斜杠界定的正则表达式&am…

无需公网IP联机Minecraft,我的世界服务器本地搭建教程

目录 前言 1.Mcsmanager安装 2.创建Minecraft服务器 3.本地测试联机 4. 内网穿透 4.1 安装cpolar内网穿透 4.2 创建隧道映射内网端口 5.远程联机测试 6. 配置固定远程联机端口地址 6.1 保留一个固定TCP地址 6.2 配置固定TCP地址 7. 使用固定公网地址远程联机 8.总…

【docker三】Docker镜像的创建方法

目录 一、Docker镜像&#xff1a; 1、 镜像的概念 2、docker的创建镜像方式&#xff1a; 1.1、基于已有镜像进行创建&#xff1a; 1.2、基于模版创建&#xff1a; 1.3、基于dockerfile创建&#xff1a; 二、Dockerfile概述 1、Dockerfile概念&#xff1a; 2、dockerfile…

数据结构与算法—递归及其应用(八皇后,小球出迷宫)

递归 文章目录 递归1.递归应用场景2.递归的概念3.递归调用机制4.递归能解决什么问题5.递归需要遵守的重要规则6.递归-迷宫、八皇后问题6.1 迷宫问题6.2 八皇后问题 1.递归应用场景 迷宫问题(回溯)&#xff0c;递归(Recursion) 2.递归的概念 简单的说&#xff1a;递归就是方法自…

互联网数据传输原理 |OSI七层网络参考模型

网络模型 OSI 网络参考模型&#xff0c;仅作为参考&#xff0c;也就是说OSI网络实际中并不使用。我们只是把OSI网络模型作为参考&#xff0c;在网络出现问题的时候&#xff0c;可以从一个宏观的整体去分析和解决问题。而且搭建网络的时候也并不一定需要划分为7层 但是当今互联…