2024年妈杯MathorCup大数据竞赛A题超详细解题思路

news2024/11/24 21:07:33

2024年妈杯大数据竞赛初赛整体难度约为0.6个国赛。A题为台风中心路径相关问题,为评价+预测问题;B题为库存和销量的预测+优化问题。B题难度稍大于A题,可以根据自己队伍情况进行选择。26日早六点之前发布AB两题相关解题代码+论文。

下面为大家带来详细的A题解题思路【注:该思路为真实求解之前的暂定思路,实际论文代码可能因数据问题、模型问题与思路有一定出入】

作为数据类型题目,本题可以分为四个大部分,分别为数据处理、台风分类评价模型、台风路径预测模型、台风登陆后的风速与降水量预测模型。

数据处理

对于题目给出的数据一共提供了1945年至今1813场台风的相关数据。我们需要对题目给出的数据进行必要的处理。主要包括,缺失值处理、时间处理、数据编码、异常值处理、数据描述性分析。

1、缺失值处理;对于题目存在的大量缺失值,我们可以选择插值填充,也可以选择直接删除所在行。

图片

2、时间处理,对于题目给出的数据格式,直接进行变成计算机无法识别,我们需要根据数据特征六小时间隔转化为YYYYMMDDHH格式,方便进一步进行处理

图片

3、数据编码 对于题目给出的各种数据,存在直接使用汉字或者字母进行编码的结果,需要转化为数据才能进一步建立模型。

图片

4、异常值处理 对于题目中存在的极端数据,例如 高达110的风速 低至50的气压都应该结合实际情况进行分析。

图片

5、数据描述性分析;我们可以对题目给出的路径绘制对应的可视化,进一步进行描述分析

图片

问题 1:台风特征参数与气象因素的关系及分类评价模型

根据题目提供数据,台风特征信息主要为台风强度、台风等级、风速、气压、移动方向、移动速度。首先,可以对台风特征参数进行相关性分析,了解每个指标与台风强度、等级之间的关系。计算特征之间的相关系数(例如使用皮尔逊相关系数),找出与台风强度(风速、气压)高度相关的气象因素。并使用热力图进行可视化展示。根据分析结果进行特征选择。

建立相关的分类模型进行分类即可,可以使用无监督学习方法,例如K-means聚类,对台风进行初步的类别划分。可以根据台风的风速、气压、移动速度等指标对台风进行聚类,分为若干类(如弱台风、中等台风、强台风)。

也可以从历史数据中获取台风类别(例如夏台风、秋台风的标签),可以使用**随机森林(Random Forest)或支持向量机(SVM)**进行分类。使用历史台风数据训练模型,以气温、气压、季风等气象数据作为输入,台风等级或类型作为输出。

问题 2:台风路径预测模型

要求根据多种气象因素(气温、气压、洋流、风场等)预测台风路径,并利用Dynamic Time Warping(DTW)算法与实际路径进行对比。

主要求解思路:使用回归模型或者时空序列模型进行路径预测。例如,考虑使用多元线性回归或者**LSTM(长短期记忆网络)**等适合时间序列预测的深度学习模型。使用**Dynamic Time Warping (DTW)**来度量预测路径与实际路径之间的相似性,DTW可以处理不同长度的时间序列,衡量它们之间的相似性。

具体过程

基于物理机制的数值预测模型

可以使用基于气象动力学的数值天气预报模型,如WRF,通过模拟台风生成的物理过程来进行路径预测。这些模型考虑了大气的物理过程,包括风场、气压梯度、地球自转等,但其计算量较大,操作难度较大,不推荐

基于数据驱动的机器学习模型

台风路径预测属于典型的时空序列预测问题,深度学习方法中的**长短期记忆网络(LSTM)**和**门控循环单元(GRU)**非常适合这类应用。

LSTM/GRU**通过捕捉历史路径和气象因素的时间依赖性,能够预测台风未来的路径点。

模型输入包括过去的经纬度坐标、气压、风场等特征,输出为未来时间点的经纬度。

通过这种方式,LSTM或GRU可以用于逐步预测台风未来的路径点,从而形成完整的预测路径。这些模型需要大量历史台风数据进行训练,并通过交叉验证来确保模型的泛化能力。

多元函数型数据主成分分析(FPCA)

将台风路径的时间序列数据表示为连续函数,并通过主成分分解提取主要的变化模式,得到路径变化的主要特征。

可以将台风路径数据降维,得到几组主成分得分,这些主成分得分描述了台风路径的主要变化模式,如向北、向西的偏向趋势或路径曲率的变化。

Dynamic Time Warping(DTW)对比分析

将**预测路径**和**实际路径**使用DTW进行对比,计算它们之间的相似度。

问题 3:台风登陆后降水量和风速的关系

问题三要求建立台风在登陆后风速和降水量之间的关系,以及降水量与距台风中心距离之间的关系。我们需要结合物理机制和统计建模的方法,建立一个综合的预测模型,并应用于2024年9月16日至18日第13号台风贝碧嘉的实际情况进行预测与分析。

主要思想为建立 风速与距离、降雨量与距离的两个函数关系

使用历史台风数据拟合模型,计算出各回归系数,进行模型验证确保其泛化能力。

1风速与距离的关系模型

台风登陆后,风速通常呈现出逐渐衰减的趋势。我们可以使用指数衰减模型来描述风速随距离的变化:

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2223756.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

创建型模式-----建造者模式

目录 背景: 构建模式UML 代码示例 房子成品: 构建器抽象: 具体构建器: 建筑师: 测试部…

配置nginx服务通过ip访问多网站

1.关闭防火墙 [rootlocalhost wzj]# systemctl stop firewalld [rootlocalhost wzj]# sstenforce 0 bash: sstenforce: command not found... [rootlocalhost wzj]# setenforce 0 2,挂mnt [rootlocalhost wzj]# mount/dev/sr0/mnt bash: mount/dev/sr0/mnt: No suc…

C++20中头文件ranges的使用

<ranges>是C20中新增加的头文件&#xff0c;提供了一组与范围(ranges)相关的功能&#xff0c;此头文件是ranges库的一部分。包括&#xff1a; 1.concepts: (1).std::ranges::range:指定类型为range&#xff0c;即它提供开始迭代器和结束标记(it provides a begin iterato…

【WPF】中Dispatcher的DispatcherPriority参数使用

在 WPF 中&#xff0c;DispatcherPriority 参数用于指定通过 Dispatcher 调度的操作的执行优先级。加入 DispatcherPriority 参数的情况通常取决于你希望操作何时以及如何被执行。 1.Dispatcher的DispatcherPriority参数使用 以下是几种情况和示例说明&#xff1a; 1.1 需要…

量子纠错--shor‘s 码

定理1 (量子纠错的条件) C是一组量子编码&#xff0c;P是映射到C上的投影算子。假设是一个算子元素描述的量子操作&#xff0c;那么基于量子编码C&#xff0c;存在一个能对抗描述的噪声的纠错操作R的充要条件是 对某个复元素厄米矩阵成立。 将算子元素称为导致的错误。如果这样…

数字 图像处理算法的形式

一 基本功能形式 按图像处理的输出形式&#xff0c;图像处理的基本功能可分为三种形式。 1&#xff09;单幅图像 单幅图像 2&#xff09;多幅图像 单幅图像 3&#xff09;单&#xff08;或多&#xff09;幅图像 数字或符号等 二 几种具体算法形式 1.局部处理邻域对于任一…

第二单元历年真题整理

1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 参考答案 1. A 2. A 3. A 4. D 5. D 6. D 解析&#xff1a; 栈和队列是两个不一样的结构&#xff0c;不能放在一起表示 7. B 8. C 解析&#xff1a; S --> A0 | B1 --> (S1 | 1) 0 | (S0 | 0)1 --> S10 | 10 | S…

Java程序员如何获得高并发经验?

高并发编程 提到并发编程很多人就会头疼了&#xff1b;首先就是一些基础概念&#xff1a;并发&#xff0c;并行&#xff0c;同步&#xff0c;异步&#xff0c;临界区&#xff0c;阻塞&#xff0c;非阻塞还有各种锁全都砸你脸上&#xff0c;随之而来的就是要保证程序运行时关键…

蓝桥杯题目理解

1. 一维差分 1.1. 小蓝的操作 1.1.1. 题目解析&#xff1a; 这道题提到了对于“区间”进行操作&#xff0c;而差分数列就是对于区间进行操作的好方法。 观察差分数列&#xff1a; 给定数列&#xff1a;1 3 5 2 7 1 差分数列&#xff1a;1 2 2 -3 5 6 题目要求把原数组全部…

Leetcode239. 滑动窗口最大值

问题描述&#xff1a; 给你一个整数数组 nums&#xff0c;有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k 个数字。滑动窗口每次只向右移动一位。 返回 滑动窗口中的最大值 。 示例 1&#xff1a; 输入&#xff1a;nums [1,3,…

c#子控件拖动父控件方法及父控件限在窗体内拖动

一、效果 拖放位置不超过窗体四边,超出后自动靠边停靠支持多子控件拖动指定控件拖放(含父控件或窗体)点击左上角logo弹出消息窗口(默认位置右下角)1.1 效果展示 1.2 关于MQTTnet(最新版v4.3.7.1207)实现在线客服功能,见下篇博文 https://github.com/dotnet/MQTTnet 网上…

7、哈希表

7、哈希表 哈希表最主要的作用就是把一个比较庞大的空间或者值域 映射到比较小的值域 (0-n) 就是将-10^9 ~10^9 映射到 0 ~10^5 一、存储结构 映射的方法可以是 h(x) x mod 10^5 但是这样映射会出现一个问题 可能会有重复的数字出现 所以就引出了两个方法 开放寻址法 和…

时间数据可视化基础实验(南丁格尔玫瑰图)——Python热狗大胃王比赛数据集

【实验名称】 实验一&#xff1a;时间数据的可视化 【实验目的】 1.掌握时间数据在大数据中的应用 2.掌握时间数据可视化图表表示 3. 利用python程序实现堆叠柱形图的可视化 【实验原理】 时间是一个非常重要的维度与属性。时间序列数据存在于社会的各个领域&#xff0c;如&a…

金融工程--pine-script 入门

背景 脚本基本组成 策略实现 实现马丁格尔策略 初始化变量&#xff1a;定义初始资本、初始头寸大小、止损百分比、止盈百分比以及当前资本和当前头寸大小等变量。 更新头寸&#xff1a;创建一个函数来更新头寸大小、止损价格和止盈价格。在马丁格尔策略中&#xff0c;每次亏…

若依框架篇-若依集成 X-File-Storage 框架(实现图片上传阿里云 OSS 服务器)、EasyExcel 框架(实现 Excel 数据批量导入功能)

&#x1f525;博客主页&#xff1a; 【小扳_-CSDN博客】 ❤感谢大家点赞&#x1f44d;收藏⭐评论✍ 文章目录 1.0 实现使用 Excel 文件批量导入 1.1 导入功能的前端具体实现 1.2 导入功能的后端具体实现 1.3 使用 EasyExcel 框架实现 Excel 读、写功能 1.4 将 Easy Excel 集成到…

npm、yarn、pnpm的workspaces使用

示例项目中总会遇到npm的packages中出现的workspaces键值对&#xff0c;自己的项目中没接触过这个东西&#xff0c;到底是什么&#xff1f;怎么用的&#xff1f;简单研究记录一下&#xff1a; abbrev是一个npm包&#xff0c;提供缩写展开功能。‌ 当你定义一个缩写后&#xff0…

mac电脑设置chrome浏览器语言切换为日语英语等不生效问题

在chrome中设置了语言&#xff0c;并且已经置顶了&#xff0c;但是不生效&#xff0c;在windows上直接有设置当前语言为chrome显示语言&#xff0c;但是mac上没有。 解决办法 在系统里面有一个单独给chrome设置语言的&#xff1a; 单独给它设定成指定的语言&#xff0c;然后重…

CTFHUB技能树之文件上传——双写后缀

开启靶场&#xff0c;打开链接&#xff1a; 直接指明是双写绕过方法 上传06shaungxie.php&#xff0c;内容如下&#xff1a; 这一步其实最好换成.png或者.jpg或者.gif这三个符合文件格式的要求后缀 用burp抓包改包&#xff1a; 将php改成pphphp后再“Forward”&#xff1a; 上传…

机房巡检机器人有哪些功能和作用

随着数据量的爆炸式增长和业务的不断拓展&#xff0c;数据中心面临诸多挑战。一方面&#xff0c;设备数量庞大且复杂&#xff0c;数据中心内服务器、存储设备、网络设备等遍布&#xff0c;这些设备需时刻保持良好运行状态&#xff0c;因为任何一个环节出现问题都可能带来严重后…

高边坡稳定安全监测预警系统解决方案

一、项目背景 高边坡的滑坡和崩塌是一种常见的自然地质灾害&#xff0c;一但发生而没有提前预告将给人民的生命财产和社会危害产生严重影响。对高边坡可能产生的灾害提前预警、必将有利于决策者采取应对措施、减少和降低灾害造成的损失。现有的高边坡监测技术有人工巡查和利用测…