记一次：Datawhale AI夏令营-第五期-CV-Task01

news2026/3/29 5:06:17

前言：前面参加了第四期AIGC算是入门了，第五期我又来了，这期我参加了两个，计算机视觉CV所以按照惯例写一个笔记。

学习任务

一、计算机视觉CV的了解

1.1、什么是计算机视觉？

1.2、什么是YOLO？什么是物体检测模型？

1.3、YOLO模型需要什么训练格式？

二、赛事环境与实践环境准备

2.1、赛事介绍

2.2、各平台环境准备

2.3、创建实例并体验baseline

2.4、提交成绩

一、计算机视觉CV的了解

1.1、什么是计算机视觉？

计算机视觉（Computer Vision，简称CV）是‌计算机科学领域中的一个重要分支‌，主要研究如何让计算机能够“看”懂周围的世界。简单来说就是让计算机拥有眼睛。

通过数字图像处理、模式识别、机器学习、深度学习等技术，计算机视觉使计算机具备类似于人类视觉系统的感知和理解能力。它的研究内容包括图像识别、目标检测、图像分割、图像重建、图像增强、视频分析等多个方面。

计算机视觉的应用非常广泛，包括但不限于自动驾驶、工业检测、视频监控、航空航天等领域。例如，目标检测是计算机视觉领域的一个热门方向，其基本流程是在给定图像中找到关注目标，确定目标类别并输出相应的坐标位置（常使用矩形框）。图像分类、目标检测、分割是计算机视觉领域的三大任务。‌

计算机视觉不仅使计算机能够识别和理解图像和视频中的物体和人，还通过模拟人类视觉系统，帮助计算机理解和解释数字图像和视频的内容。整个过程涉及图像获取、筛选、分析、识别和提取信息。

我的总结就是：计算机比喻为人，那么计算机视觉就是我们人的眼睛系统。

1.2、什么是YOLO？什么是物体检测模型？

YOLO，全称为“You Only Look Once”（你只看一眼），是一种流行的实时目标检测系统，由Joseph Redmon等人在2015年提出。简单说就是一个系统。

YOLO模型的核心思想是将目标检测任务视为一个单一的回归问题，通过一个卷积神经网络（CNN）直接从图像像素到边界框坐标和类别概率的映射。YOLO模型经过了多次迭代，包括YOLOv2（YOLO9000）、YOLOv3和YOLOv4等版本，每个版本都在性能和速度上有所提升，同时也引入了一些新的技术，如更深的网络结构、更好的锚框机制、多尺度特征融合等。

1.3、YOLO模型需要什么训练格式？

YOLO使用的标注格式是每张图像一个文本文件，文件名与图像文件名相对应。文本文件中每一行对应一个边界框，格式为：<class> <x_center> <y_center> <width> <height>。

其中，<class>是类别索引，<x_center>和<y_center>是边界框中心点相对于图像宽度和高度的比例，<width>和<height>是边界框的宽度和高度相对于图像宽度和高度的比例。

二、赛事环境与实践环境准备

2.1、赛事介绍

赛事链接：https://www.marsbigdata.com/competition/details?id=3839107548872

此次是2024大运河杯，城市治理方面的比赛如图

2.2、各平台环境准备

1》准备MARS数据科学平台账号并实名认证，然后参赛

实名认证

参赛

2》准备厚德云平台账号并支付宝授权

租用4090！链接：https://portal.houdeyun.cn/console/apparatus/gpu/generic

2.3、创建实例并体验baseline

step0、打开环境终端

step1、下载baseline相关文件

apt install git-lfs
git lfs install
git clone https://www.modelscope.cn/datasets/Datawhale/AI_Camp5_baseline_CV.git

将命令粘贴上

step2、一键运行baseline！

step3、下载结果文件result.zip

step4、GPU使用完成后，关机（重要不然计费）

2.4、提交成绩

得到分数

总结：第一次了解计算机视觉，代码原理和其他内容理解的不是很深刻，但是没有关系，学习任何东西我们先跑起来了，然后在抽丝拔茧一点一点了了解其原理。后续有更深的体会在完善这个笔记

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2063641.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！