【计算机视觉 | Kaggle】保姆级教程:入门 Kaggle 的步骤详细介绍

news2024/9/23 3:29:22

文章目录

  • 一、Overview
  • 二、Evaluation
  • 三、Timeline
  • 四、Code Requirements
  • 五、Data
    • 5.1 数据的可视化
    • 5.2 文件
  • 六、Discussion
  • 七、Code

一、Overview

当进入到一场比赛的 Overview 页面后,先读完 Description,了解比赛讲了一件什么事情。

我们以一场比赛举例说明:

在这里插入图片描述

这场比赛中,比赛的描述为:

凝结尾迹是在飞机发动机排气中形成的冰晶云。它们可以通过将热量捕获在大气中来促进全球变暖。研究人员已经开发了模型来预测凝结尾迹何时形成以及它们会导致多少变暖。但是,他们需要用卫星图像验证这些模型。

您的工作将帮助研究人员提高其 contrail 模型的准确性。这将有助于航空公司避免产生凝结尾迹,并减少其对气候变化的影响。

避免凝结尾迹可能是当今航空公司可用的最具可扩展性、最具成本效益的可持续性解决方案之一。凝结尾迹是“冷凝轨迹”的缩写,是在飞机发动机排气中形成的线形冰晶云,由飞机飞越大气中的超潮湿区域而产生。持久性凝结尾迹对全球变暖的贡献与它们为飞行燃烧的燃料一样多。这种现象最早是在75年前由军用飞机发现的,目的是避免留下可见的痕迹。大约30年前,欧洲的气候科学家开始明白,凝结尾迹阻挡了通常在一夜之间从地球释放的热量。他们根据天气数据建立了强大的模型,以确定凝结尾迹何时形成以及变暖程度。他们的研究也得到了其他实验室的验证,现在人们普遍认为凝结尾迹约占人类造成的全球变暖的1%。使用卫星图像背后的动机是凭经验证实这些模型的预测。通过可靠的验证,飞行员可以对模型充满信心,航空业可以采用值得信赖的方法来衡量成功的避险情况。

您的工作将以量化的方式提高预测形成区域的置信度以及避免创建它们的技术。

Google 研究院将机器学习应用于缓解气候变化和适应我们已经看到的变化的机会。我们在聚变能等离子体建模、野火早期检测、最佳汽车路线和气候灾害预测方面开展了研究项目。

数据集来源:麻省理工学院航空与环境实验室由麻省理工学院教授史蒂文·巴雷特(Steven Barrett)领导 卫星图像来自NOAA GOES-16,详见:

https://www.goes-r.gov/

二、Evaluation

然后进入 Evaluation,这一部分介绍了比赛的评价算法,以及最终提交文件的格式。

在这里插入图片描述

我们翻译一下:

本次比赛按照全球Dice系数进行评估。 Dice 系数可用于比较预测分割与其相应的地面实况之间的像素级一致性。 公式由下式给出:

在这里插入图片描述
其中 X 是测试数据中所有观测值的预测轨迹像素的整个集合,Y 是测试数据中所有轨迹像素的地面实况集。

为了减少提交文件的大小,我们的指标对像素值使用游程编码。 您将提交包含起始位置和游程长度的值对,而不是提交用于分割的详尽索引列表,例如,“1 3”表示从像素 1 开始并运行总共 3 个像素(1,2 ,3).

请注意,在编码时,掩码应该是二进制的,这意味着图像中所有对象的掩码都连接到一个大掩码中。 值 0 应表示未屏蔽的像素,值 1 表示已屏蔽的像素。

竞赛格式需要一个以空格分隔的配对列表。 例如,“1 3 10 5”意味着像素 1、2、3、10、11、12、13、14 将包含在掩模中。 该度量检查这些对是否已排序、是否为正,并且解码的像素值是否不重复。 像素从上到下、从左到右编号:1 是像素 (1,1),2 是像素 (2,1),依此类推。

重要提示:空预测必须在提交文件中用“-”标记。 可以在此笔记本中找到正确编码和解码运行长度编码的代码。

三、Timeline

Timeline 随便看一下好了,知道什么时候停止组队和什么时候结束就行。注意这里是 UTC-0 的时间,比北京时间迟 8 小时。

在这里插入图片描述

四、Code Requirements

然后是 Code Requirements。这里主要看一下 Run-time 的限制,Run-time 代表你的代码最大运行时间。本次比赛允许 GPU 运算的提交,并且要求方案运行时间不超过 9 小时。

在这里插入图片描述

五、Data

5.1 数据的可视化

这里每一行都要仔细看,每份 csv 文件里的每个字段都会有解释的,很多细节甚至会影响到比赛的打法。

在本次比赛中,您将使用地球静止卫星图像来识别航空轨迹。

原始卫星图像是从 GOES-16 高级基线成像仪 (ABI) 获得的,该图像可在 Google 云存储上公开获取。 使用双线性重采样对原始全盘图像进行重新投影以生成局部场景图像。 由于在时间背景下更容易识别尾迹,因此提供了一系列以 10 分钟为间隔的图像。 每个示例 (record_id) 只包含一个标记帧。

从预印本中了解有关数据集的更多信息:OpenContrails:GOES-16 ABI 上的轨迹检测基准测试。 标签说明可在本补充材料中找到。 一些关键的标签指南:

  • 轨迹必须至少包含 10 个像素
  • 在生命中的某个时刻,凝结尾迹的长度必须至少是其宽度的 3 倍
  • 尾迹必须突然出现或从图像的侧面进入
  • 轨迹应该在至少两张图像中可见

基本事实是由(通常)4 个以上不同的标记器对每个图像进行注释来确定的。 当超过 50% 的标记者将其注释为轨迹时,像素被视为轨迹。 训练数据中包含单独注释 ( human_individual_masks.npy ) 以及聚合的地面实况注释 ( human_pixel_masks.npy )。 验证数据仅包括聚合的地面实况注释。

这是标记轨迹的示例。 可以在此笔记本中找到生成此类图像的代码。放出可视化的代码地址:

https://blog.csdn.net/wzk4869/article/details/132189093?spm=1001.2014.3001.5501

在这里插入图片描述

5.2 文件

train/ - 训练集; 每个文件夹代表一个record_id并包含以下数据:

band_{08-16}.npy:大小为 H x W x T 的数组,其中 T = n_times_before + n_times_after + 1,表示序列中图像的数量。 标记帧之前和之后分别有 n_times_before 和 n_times_after 图像。 在我们的数据集中,所有示例的 n_times_before=4 和 n_times_after=3。 每个波段代表不同波长的红外通道,并根据校准参数转换为亮度温度。 文件名中的数字对应于 GOES-16 ABI 带编号。 ABI 频段的详细信息可在此处找到。

human_individual_masks.npy:大小为 H x W x 1 x R 的数组。每个示例都由 R 个单独的人类标记器标记。 R 并非所有样本都相同。 带标签的掩模的值为 0 或 1,对应于 band_{08-16}.npy 中的第 (n_times_before+1) 个图像。 它们仅在训练集中可用。

human_pixel_masks.npy:大小为 H x W x 1 的数组,包含二进制地面事实。 如果一个像素被超过一半的标记者标记为轨迹像素,则在评估中将其视为轨迹像素。

validation/ - 与训练集相同,没有单独的标签注释; 如果需要,可以将其用作训练数据

test/ - 测试集; 您的目标是识别这些记录中发现的轨迹。 注意:由于这是一场代码竞赛,因此您无权访问您的笔记本重新运行所针对的实际测试集。 此处显示的记录是验证数据的前两条记录的副本(不带标签)。 隐藏测试集的大小与验证集大致相同 (± 5%)。 重要提示:提交内容应使用游程编码,并且空预测(例如,无尾迹)应在提交内容中用“-”标记。 (有关详细信息,请参阅本笔记本。)

{train|validation}_metadata.json - 每条记录的元数据信息; 包含再现卫星图像的时间戳和投影参数。

Sample_submission.csv - 正确格式的示例提交文件

在这里插入图片描述

六、Discussion

看完了官方的介绍后,一般我们可以先进入 Discussion 区,最上面的 pined topics 是官方的置顶的话题,比较重要,往往是官方在比赛过程中发现了一些问题后,做出的调整。下面部分是选手们的讨论区,一般可以按照 votes 排序,对于你理解以及进阶比赛有很大帮助。选手之间的高质量交流,是 kaggle 社区的特色,这也是其他国内比赛没有的氛围。

在这里插入图片描述

七、Code

看一些你感兴趣的 Discussions 后,回到 code 区,同样按 votes 排序。

找一些关键词例如:

  • EDA(数据探索)
  • Starter(适合刚参加比赛)
  • Baseline(基线模型)

里面有大神对数据做了基本分析,而且往往有很多图表,有助于你进一步理解数据,如数据分布是否有类别不平衡的问题,之类的。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/855271.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

无涯教程-Perl - getprotobynumber函数

描述 此函数在标量context中将协议NUMBER转换为其对应的名称,在列表context中将其名称和相关信息转换为:($name,$aliases,$protocol_number)。 语法 以下是此函数的简单语法- getprotobynumber NUMBER返回值 此函数针对错误返回undef,否则返回标量context中的协议编号,并在…

Metamask登录方式集成

Metamask登录 https://www.toptal.com/ethereum/one-click-login-flows-a-metamask-tutorial#how-the-login-flow-works 参考: https://zh.socialgekon.com/one-click-login-with-blockchain 后端需要在用户表中增加address和nonce字段。兼容其他登录方式&#xff0…

添加@Transactional事务

1. 在启动类上新增开启注解功能 EnableTransactionManagement EnableTransactionManagement //开启事务注解功能 SpringBootApplication public class Application {public static void main(String[] args) {SpringApplication.run(Application.class, args);} } 2. 方法上…

【Linux】gdb 的使用

目录 1. 使用 gdb 的前置工作 2. 如何使用 gdb 进行调试 1、如何看到我的代码 2、如何打断点 3、怎么运行程序 4、如何进行逐过程调试 5、如何进行逐语句调试 6、如何监视变量值 7、如何跳到指定位置 8、运行完一个函数 9、怎么跳到下一个断点 10、如何禁用/开启…

[OnWork.Tools]系列 04-快捷启动

简介 主要功能是将常用的软件拖动到软件中,实现快速点击启动,结合软件设置中的设置的快捷键,可以快速呼出对应的面板,使用快捷键快速启动应用 拖拽内容 拖拽快捷方式到面板,双击快速打开 拖拽文件方式到面板,双击快速打开 拖拽文件夹到面板双击快速打开 拖拽项目调整顺序 右…

python编程求出介于这两个数 之间的所有质数并打印输出。显示格式为“*数是质数

这里写自定义目录标题 练习 :提示用户输入两个正整数,编程求出介于这两个数之间的所有质数并打印输出。显示格式为“*数是质数。”代码打印效果 练习 :提示用户输入两个正整数,编程求出介于这两个数之间的所有质数并打印输出。显示…

在时间和频率域中准确地测量太阳黑子活动及使用信号处理工具箱(TM)生成广泛的波形,如正弦波、方波等研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

英信翻译为世界动力电池大会提供同传服务

2023年6月8日-11日,世界动力电池大会在四川宜宾举行。作为世界级动力电池行业盛会,以“绿色新动力世界新动能”为主题,2023世界动力电池大会积极服务全球碳中和愿景,致力于推动全球动力电池产业高质量可持续发展,得到了…

web安全漏洞

1.什么是Web漏洞 WEB漏洞通常是指网站程序上的漏洞,可能是由于代码编写者在编写代码时考虑不周全等原因而造成的漏洞。如果网站存在WEB漏洞并被黑客攻击者利用,攻击者可以轻易控制整个网站,并可进一步提前获取网站服务器权限,控制…

外资的“噩梦”,特斯拉不惧挑战,租赁印度办公楼,入驻当地市场

根据8月9日《印度时报》的报道,特斯拉近期在印度正式成立了名为“特斯拉印度汽车与能源公司”的子公司。 据可靠消息人士透露,特斯拉已在印度浦那维曼纳加尔地区的Panchshil商业园总部租下了面积为5850平方英尺的办公空间,该商业园被认为是印…

Cobalt Strike(cs)下载及使用

下载地址 https://pan.baidu.com/s/1OzsPz8vzEunZW35Oqdq2aw?pwdraf2 提取码:raf2 使用 1、启动服务 2、客户端连接服务,可以是linux\windows 3.新建监听器 4、生成反弹shell 5、在目标机器上执行生成的exe文件,靶机可以ping同攻击机&…

网页版Java(Spring/Spring Boot/Spring MVC)五子棋项目(四)对战模块

网页版Java(Spring/Spring Boot/Spring MVC)五子棋项目(四)对战模块 一、约定前后端交互接口1. 建立连接接口2. 针对落子的请求和响应 二、实现前端页面三、实现后端1. 当用户进入房间,更新用户状态 OnlineUserManager…

BDA初级分析——先导课

思考题:假设你是三只松鼠营销团队的一员 美团or抖音?你会如何选择? 一、什么是数据分析 数据分析是根据业务问题,对数据进行收集、清洗、处理和建模的过程,用于识别有助于业务的信息,获取关键业务结论并辅…

A2C原理和代码实现

参考王树森《深度强化学习》课程和书籍 1、A2C原理: Observe a transition: ( s t , a t , r t , s t 1 ) (s_t,{a_t},r_t,s_{t1}) (st​,at​,rt​,st1​) TD target: y t r t γ ⋅ v ( s t 1 ; w ) . y_{t} r_{t}\gamma\cdot v(s_{t1};\mathbf…

Rocketmq 5.0 任意时间定时消息(RIP-43) 原理详解 源码解析

1. 背景 1.1 概念和应用场景 延迟消息(定时消息)即消息到达消息队列服务端后不会马上投递,而是到达某个时间才投递给消费者。它在在当前的互联网环境中有非常大的需求。 例如电商/网约车等业务中都会出现的订单场景,客户下单后…

用C语言构建一个数字识别深度神经网络

接上一篇: 用C语言构建一个数字识别卷积神经网络 1. 深度神经网络 按照深度学习的理论,随着神经网络层数的增加,网络拟合复杂问题的能力也会增强,对事物特征的挖掘也会更加深入.这里尝试构建一个5层深度的神经网络&am…

靶形数独

题目描述 小城和小华都是热爱数学的好学生,最近,他们不约而同地迷上了数独游戏,好胜的他们想用数独来一比高低。但普通的数独对他们来说都过于简单了,于是他们向 Z 博士请教,Z 博士拿出了他最近发明的“靶形数独”&am…

使用AI工具Lama Cleaner一键去除水印、人物、背景等图片里的内容

使用AI工具Lama Cleaner一键去除水印、人物、背景等图片里的内容 前言前提条件相关介绍Lama Cleaner环境要求安装Lama Cleaner启动Lama CleanerCPU方式启动GPU方式启动 使用Lama Cleaner测试结果NO.1 检测框NO.2 水印NO.3 广州塔NO.4 人物背景 参考 前言 由于本人水平有限&…

springcloud3 bus+springconfig 实现配置文件的动态刷新(了解)

一 springcloud Bus的作用 1.1 springcloud的作用 spring cloud bus是用来将分布式系统的节点与轻量级消息系统链接起来的框架。 它整合了java的事件处理机制和消息中间件的功能。其中目前支持RabbitMQ和kafka 简介: bus实现多个服务的配置文件动态刷新。 1.2 …

【算法|数组】快慢指针

算法|数组——快慢指针 引入 给你一个数组 nums 和一个值 val,你需要 原地 移除所有数值等于 val 的元素,并返回移除后数组的新长度。 不要使用额外的数组空间,你必须仅使用 O(1) 额外空间并 原地 修改输入数组。 元素的顺序可以改变。你…