【大厂AI课学习笔记NO.50】2.3深度学习开发任务实例（3）任务背景与目标

【大厂AI课学习笔记NO.50】2.3深度学习开发任务实例（3）任务背景与目标

news2025/7/9 1:09:41

我们经常在做项目的时候，觉得分析背景和目标是浪费时间，觉得不过如此。

其实目标梳理特别重要，直接决定你数据的需求分析，模型的选择，决定你交付的质量。

人工智能项目也和其他项目一样，不要想当然，不要自己闷头去干。

当前的课程，给了一个玩具小车，在赛道上识别交通标志的深度学习案例，图像识别的图像分类。

背景：玩具车增加识别交通指示牌的能力。

目标：利用玩具车的前置摄像头，检测交通标志的位置。

任务过程包括：

明确数据采集需求
制作数据集
模型训练
模型评测

效果就是这样的。

我们可以看到，赛道是类似纸张铺设的，所以不平整。玩具交通标志，被用检测框标记出来。是很小的立起来的小牌子，塑料的，所以很容易有俯仰角、翻滚角等问题。

计算机视觉（CV）实际应用中。

我们要注意，除了关注的主体，还有很多其他要关注的信息，比如背景、光照；

我们在做图像识别，那么光就是最重要的因素。是不是有逆光、背光、面向光？如果样本图片，不包含这些情况，那么训练出来的模型，就将出现准确率和召回率都很低的情况。

还有客户给我们讲需求时，由于客户不理解这些，可能认为一切很简单，给的项目预算，就有问题，而实际，在这个项目中，我们要采集甚至超过1万个样本，都要进行特征标注，这是非常大的工作量，都要项目经费去支撑。

作为项目负责人，如果忽略了这一点，也将导致项目无法继续交付和落地。

延伸学习：

在深度学习中，图像分类是一个复杂且具有挑战性的任务。以下是一些难点和注意事项：

难点：

数据集的质量和多样性：图像分类的性能在很大程度上取决于训练数据的质量和多样性。如果数据集不够大、标注不准确或者缺乏多样性，那么模型的泛化能力可能会受到限制。
模型的复杂性：图像分类需要处理大量的输入数据，并学习从这些数据中提取有用的特征。因此，模型需要具有足够的复杂性来捕捉这些特征，但同时也要避免过拟合。
光照和视角变化：图像中的光照和视角变化可能会对模型的性能产生负面影响。模型需要能够处理这些变化，并正确地分类图像。
类别不平衡：在某些数据集中，某些类别的样本数量可能远多于其他类别，这可能导致模型在训练过程中偏向这些样本数量较多的类别。

注意事项：

数据预处理：在进行图像分类之前，需要对图像进行适当的预处理，如缩放、裁剪、归一化等，以确保输入数据的一致性和模型的稳定性。
模型选择：根据具体任务和数据集的特点选择合适的模型。目前有许多先进的深度学习模型可用于图像分类，如卷积神经网络（CNN）、残差网络（ResNet）等。
调参技巧：在训练过程中，需要合理地设置学习率、批大小等超参数，并使用优化算法来加速训练过程。同时，还需要关注模型的过拟合问题，并采取相应的措施来避免过拟合。

目前最先进的模型和算法：

在图像分类领域，目前最先进的模型之一是EfficientNet系列模型。EfficientNet通过一种称为复合缩放的方法，在保持计算效率和精度的同时，实现了更高的性能。此外，还有许多其他优秀的模型，如ViT（Vision Transformer）等。

在算法方面，除了传统的梯度下降算法外，还有许多优化算法可用于加速训练过程和提高模型性能，如Adam、RMSProp等。这些算法可以根据具体任务和数据集的特点进行选择。

工具：

目前有许多深度学习框架和工具可用于图像分类任务，如TensorFlow、PyTorch、Keras等。这些工具提供了丰富的API和预训练模型，可以方便地构建和训练深度学习模型。此外，还有一些可视化工具可以帮助我们更好地理解模型的训练过程和性能，如TensorBoard等。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1467603.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

DFT系列文章之《SCAN技术原理》

DFT系列文章之《SCAN技术原理》

阅读更多...

js实现鼠标拖拽改变div大小的同时另一个div宽度也变化

js实现鼠标拖拽改变div大小的同时另一个div宽度也变化

实现效果如下图所示源码如下 <!DOCTYPE html> <html><head><meta charset"utf-8"><title></title><style>.box {width: 100%;height: 300px; display: flex;}/*左侧div样式*/.left {width: calc(30% - 5px); /*左侧初始…

阅读更多...

SQL注入漏洞解析

SQL注入漏洞解析

什么是SQL注入原理： SQL注入即是指web应用程序对用户输入数据的合法性没有判断或过滤不严，攻击者可以在web应用程序中事先定义好的查询语句的结尾上添加额外的SQL语句，在管理员不知情的情况下实现非法操作，以此来实现欺骗数据库服…

阅读更多...

贪心/树形dp

贪心/树形dp

思路： 因为如果红色节点的子树中如果有红色节点的话，那么该子树对其不会造成影响，不用考虑，因此我们在考虑每个红色节点时，不考虑其红色子树。那么如图，对每个红色节点答案有贡献的就是其所有非红色子节点…

阅读更多...

入侵检测系统的设计与实现

入侵检测系统的设计与实现

入侵检测系统（Intrusion Detection System，简称IDS）是一种能够监视网络或计算机系统活动的安全工具，旨在识别并响应可能的恶意行为或安全事件。这些事件可能包括未经授权的访问、恶意软件、拒绝服务攻击等。入侵检测系统通过不同的…

阅读更多...

刘雯井柏然植物园漫步，情侣裙超养眼，甜蜜穿搭亮了。

刘雯井柏然植物园漫步，情侣裙超养眼，甜蜜穿搭亮了。

♥ 为方便您进行讨论和分享，同时也为能带给您不一样的参与感。请您在阅读本文之前，点击一下“关注”，非常感谢您的支持！ 文 |猴哥聊娱乐编辑|徐婷校对|侯欢庭刘雯井柏然漫步永州植物园，情侣裙惊艳亮相&#x…

阅读更多...

算法沉淀——记忆化搜索（leetcode真题剖析）

算法沉淀——记忆化搜索（leetcode真题剖析）

算法沉淀——记忆化搜索 01.斐波那契数02.不同路径03.最长递增子序列04.猜数字大小 II05.矩阵中的最长递增路径记忆化搜索算法（Memoization）是一种通过存储已经计算过的结果来避免重复计算的优化技术，通常应用于递归算法中。这种技术旨在提高…

阅读更多...

Jenkins中Publish Over SSH插件使用（1）

Jenkins中Publish Over SSH插件使用（1）

SSH插件前言Publish Over SSH插件是jenkins里面必不可少的插件之一，主要的功能有两个把jenkins服务器上的文件，传输到远程nginx， 远程执行shell命令和脚本。 1. SSH插件下载与配置 1.1 下载Publish over SSH插件系统管理—》管理插件 …

阅读更多...

stm32单片机的智能手环-心率-步数-距离-体温-蓝牙监控

stm32单片机的智能手环-心率-步数-距离-体温-蓝牙监控

一.硬件方案随着社会的发展，人们的物质生活水平日渐提高，人们也越来越关注自己的健康。智能手环作为一种测量仪器，可以计算行走的步数和消耗的能量，所以人们可以定量的制定运动方案来健身，并根据运行情况来分析人体的…

阅读更多...

javaweb day3 day4 day5

javaweb day3 day4 day5

js 引入方式写法基础语法写法变量写法数据类型运算符与java相同会判断类型是否相同循环控制语句和java相同函数（方法） 写法 Array数组写法 string字符串写法 js自定义对象写法 JSON 写法 BOM window 写法 location 写法 DOM 案例…

阅读更多...

蓝桥杯DP算法——区间DP（C++）

蓝桥杯DP算法——区间DP（C++）

根据题意要求的是将石子合并的最小权值，我们可以根据DP思想使用二维数组f[i,j]来存放所有从第i堆石子到第j堆石子合并成一堆石子的合并方式。然后由第二个图所示，我们可以将i到j区间分成两个区间，因为将i到j合并成一个区间的前一步一定是合…

阅读更多...

C++中的STL数据结构

C++中的STL数据结构

内容来自：代码随想录：哈希表理论基础 1.常见的三种哈希结构当我们想使用哈希法来解决问题的时候，我们一般会选择如下三种数据结构数组 set （集合） map(映射) 在C中，set 和 map 分别提供以下三种数据结构…

阅读更多...

利用LaTex批量将eps转pdf、png转eps、eps转png、eps转svg、pdf转eps

利用LaTex批量将eps转pdf、png转eps、eps转png、eps转svg、pdf转eps

1、eps转pdf 直接使用epstopdf命令（texlive、mitex自带）。在cmd中进入到eps矢量图片的目录，使用下面的命令： for %f in (*.eps) do epstopdf "%f" 下面是plt保存eps代码： import matplotlib.pyplot as…

阅读更多...

win11修改网络算法为BBR2_提升网络环境质量

win11修改网络算法为BBR2_提升网络环境质量

Win11 BBR2 是Google开发的一种高效的网络拥塞控制算法，玩 Linux 的朋友应该对它还有锐速不陌生。相比Windows默认使用的 CUBIC 算法，BBR2 在网络吞吐量、延迟、全局性能等方面都有一定优势。如果你日常网络经常丢包或者高延迟可以尝试切换为BBR2算法。…

阅读更多...

给自己留个备忘，blender是右手坐标系

给自己留个备忘，blender是右手坐标系

所谓右手坐标系，就是三个轴的方向和右手三根手指的方向一致（当然，有要求的，这个要求是大拇指指向x轴方向，食指指向y轴方向,中指指向z轴方向）。不过blender默认是z轴朝上的，如下图。右手坐标系…

阅读更多...

AI：134-基于深度学习的社交媒体图像内容分析

AI：134-基于深度学习的社交媒体图像内容分析

🚀点击这里跳转到本专栏，可查阅专栏顶置最新的指南宝典~ 🎉🎊🎉 你的技术旅程将在这里启航！从基础到实践，深入学习。无论你是初学者还是经验丰富的老手，对于本专栏案例和项目实践都有参考学习意义。 ✨✨✨ 每一个案例都附带有在本地跑过的关键代码，详细讲解供…

阅读更多...

Vue3自定义组件v-model双向绑定

Vue3自定义组件v-model双向绑定

无能吐槽一下，虽然用了很多遍v-model，但是还是不得要领，每次看官网都感觉说的不是很清晰，在写的时候还是要查看文档，可能就是不理解原理，这次特意好好写一篇文章，让自己好好理解一下。自定义一…

阅读更多...

什么是IP地址,IP地址详解

什么是IP地址,IP地址详解

在互联网的世界中，每一台连接的设备都需要一个独特的标识，这就是IP地址。IP地址，全称为“Internet Protocol Address”，即互联网协议地址，它是网络中进行数据传输的基础。下面，我们将对IP地址进行详细的解析…

阅读更多...

EI论文联合复现：含分布式发电的微网/综合能源系统储能容量多时间尺度线性配置方法程序代码！

EI论文联合复现：含分布式发电的微网/综合能源系统储能容量多时间尺度线性配置方法程序代码！

适用平台：Matlab/Gurobi 程序提出了基于线性规划方法的多时间尺度储能容量配置方法，以满足微电网的接入要求为前提，以最小储能配置容量为目标，对混合储能装置进行容量配置。程序较为基础，算例丰富、注释清晰、干货满满…

阅读更多...

VoVNet（CVPR workshop 2019）原理与代码解析

VoVNet（CVPR workshop 2019）原理与代码解析

paper：An Energy and GPU-Computation Efficient Backbone Network for Real-Time Object Detection third-party implementation：https://github.com/huggingface/pytorch-image-models/blob/main/timm/models/vovnet.py 存在的问题 DenseNet通过密…

阅读更多...

推荐文章

最新文章