用合成数据训练托盘检测模型【机器学习】

news2025/1/13 19:37:01

想象一下,你是一名机器人或机器学习 (ML) 工程师,负责开发一个模型来检测托盘,以便叉车可以操纵它们。 ‌你熟悉传统的深度学习流程,已经整理了手动标注的数据集,并且已经训练了成功的模型。

在这里插入图片描述

推荐:用 NSDT设计器 快速搭建可编程3D场景。

你已准备好迎接下一个挑战,即大堆密集堆放的托盘。 你可能想知道,应该从哪里开始? ‌2D 边界框检测或实例分割对于此任务最有用吗? ‌应该进行 3D 边界框检测吗?如果是的话,我将如何对其进行标注? ‌是否最好使用单目相机、立体相机或激光雷达进行检测? 考虑到自然仓库场景中出现的托盘数量巨大,手动标注并不是一件容易的事。 如果我弄错了,代价可能会很高。

这是我在遇到类似情况时所想的。 幸运的是,我有一种简单的方法可以以相对较低的投入开始:合成数据。

1、合成数据概述

合成数据生成 (SDG:Synthetic Data Generation) 是一种使用渲染图像而不是真实图像生成数据来训练神经网络的技术。 ‌使用综合渲染数据的优点是,你隐式地知道场景中对象的完整形状和位置,并且可以生成标注,例如 2D 边界框、关键点、3D 边界框、分割蒙版等。 ‌‌

合成数据是引导深度学习项目的好方法,因为它使你能够在进行大量手动数据标注工作之前或在数据有限、受限或根本不存在的情况下快速迭代想法。 对于这种情况,你可能会发现具有域随机化的合成数据非常适合你的应用程序开箱即用的第一次尝试,而且还可以节省时间。

或者,你可能会发现需要重新定义任务或使用不同的传感器模式。 使用合成数据,可以尝试这些决策,而无需进行昂贵的标注工作。

在许多情况下,你仍然可以从使用一些真实世界的数据中受益。 ‌好的部分是,通过尝试合成数据,你将更加熟悉问题,并且可以将标注工作投入到最重要的地方。 每个机器学习任务都有自己的挑战,因此很难准确确定合成数据如何适应,是否需要使用真实数据,或者合成数据和真实数据的混合。

2、使用合成数据训练托盘分割模型

在考虑如何使用合成数据来训练托盘检测模型时,我们的团队从小规模开始。 在我们考虑 3D 框检测或任何复杂的东西之前,我们首先想看看是否可以使用用合成数据训练的模型来检测任何东西。 为此,我们渲染了一个简单的场景数据集,其中仅包含一个或两个托盘,顶部有一个盒子。 ‌我们使用这些数据来训练语义分割模型。

我们选择训练语义分割模型,因为任务定义明确并且模型架构相对简单。 还可以直观地识别模型失败的位置(错误分割的像素)。

为了训练分割模型,团队首先渲染粗略的合成场景(图 1)。
在这里插入图片描述

图 1. 两个托盘的粗略合成渲染,顶部有一个盒子

团队怀疑仅这些渲染图像缺乏训练有意义的托盘检测模型的多样性。 ‌我们还决定尝试使用生成式AI增强合成渲染,以生成更真实的图像。‌‌在训练之前,我们将生成式人工智能应用于这些图像以添加变化,我们相信这将提高模型推广到现实世界的能力。

这是使用深度条件生成模型完成的,该模型大致保留了渲染场景中对象的姿势。 请注意,使用 SDG 时不需要使用生成式 AI。 你也可以尝试使用传统的域随机化,例如改变托盘的合成纹理、颜色、位置和方向。 ‌你可能会发现通过改变渲染纹理进行的传统域随机化对于应用程序来说已经足够了。

在这里插入图片描述

图 2. 使用生成式 AI 增强的合成渲染

在渲染大约 2,000 张合成图像后,我们使用 PyTorch 训练了基于 resnet18 的 Unet 分割模型。 很快,结果就在现实世界的图像上显示出了巨大的希望(图 3)。

在这里插入图片描述

图 3. 使用分割模型测试的真实托盘图像

该模型可以准确地分割托盘。 基于这一结果,我们对工作流程更有信心,但挑战还远未结束。 到目前为止,该团队的方法没有区分托盘的实例,也没有检测到未放置在地板上的托盘。 ‌对于如图 4 所示的图像,结果几乎无法使用。 这可能意味着我们需要调整我们的训练分布。

在这里插入图片描述

图 4. 语义分割模型无法检测堆叠的托盘

3、迭代增加数据多样性以提高准确性

为了提高分割模型的准确性,团队添加了更多以不同随机配置堆叠的各种托盘的图像。 我们向数据集添加了大约 2,000 张图像,使图像总数达到大约 4,000 张。 ‌我们使用 USD Scene Construction Utilities 开源项目创建了堆叠托盘场景。

USD Scene Construction Utilities 用于在反映现实世界中可能看到的分布的配置中相对于彼此定位托盘。 ‌我们使用了通用场景描述(OpenUSD)SimReady Assets,它提供了多种托盘模型可供选择。
在这里插入图片描述

图 5. 使用 USD Python API 和 USD 场景构建实用程序创建结构化场景,并使用 Omniverse Replicator 进一步随机化和渲染

通过使用堆叠托盘和更广泛的视角进行训练,我们能够提高模型在这些情况下的准确性。

如果添加这些数据对模型有帮助,那么为什么在不增加标注成本的情况下只生成 2,000 张图像呢? 我们没有从很多图像开始,因为我们是从相同的合成分布中采样的。 ‌添加更多图像并不一定会给我们的数据集增加太多多样性。 相反,我们可能只是添加许多相似的图像,而没有提高模型在现实世界中的准确性。

从小规模开始,团队能够快速训练模型,查看失败的地方,并调整 SDG 管道并添加更多数据。 例如,在注意到模型对托盘的特定颜色和形状有偏见后,我们添加了更多的合成数据来解决这些失败案例。

在这里插入图片描述

图 6. 各种颜色塑料托盘的渲染图

这些数据变化提高了模型处理遇到的故障场景(塑料和彩色托盘)的能力。

如果数据变化很好,为什么不全力以赴并立即添加大量变化呢? 在我们的团队开始测试真实数据之前,很难判断可能需要什么差异。 ‌我们可能错过了使模型良好运行所需的重要因素。 或者,我们可能高估了其他因素的重要性,不必要地耗尽了我们的努力。 通过迭代,我们更好地了解了任务需要哪些数据。

4、托盘侧面中心检测

一旦我们在分割方面取得了一些有希望的结果,下一步就是将任务从语义分割调整为更实用的任务。 ‌我们决定,下一个最简单的评估任务是检测托盘侧面的中心。

在这里插入图片描述

图 7. 托盘侧面中心检测任务的示例数据

托盘侧面中心点是叉车在操纵托盘时将自身居中的位置。 ‌虽然在实践中可能需要更多信息来操纵托盘(例如此时的距离和角度),但我们认为这一点是此过程中的一个简单的下一步,使团队能够评估我们的数据对于任何下游应用程序有多大用处 。

检测这些点可以通过热力图回归来完成,与分割一样,热力图回归是在图像域中完成的,易于实现,并且易于直观解释。 通过为此任务训练模型,我们可以快速评估我们的合成数据集在训练模型以检测重要的操作关键点方面的有用性。

训练后的结果很有希望,如图 8 所示。

在这里插入图片描述

图 8. 托盘侧面检测模型的真实检测结果

团队确认了使用合成数据检测托盘侧面的能力,即使是紧密堆叠的托盘也是如此。 我们继续迭代数据、模型和训练管道,以改进此任务的模型。

5、角点检测

当我们对侧面中心检测模型达到满意的程度时,我们探索将任务提升到一个新的水平:检测盒子的角点。 最初的方法是对每个角使用热力图,类似于托盘侧面中心的方法。

在这里插入图片描述

图 9. 使用热力图的托盘角点检测模型

然而,这种方法很快就带来了挑战。 由于检测对象的尺寸未知,如果托盘的角不是直接可见的,则模型很难精确推断托盘的角应该在哪里。 使用热力图,如果峰值不一致,则很难可靠地解析它们。

因此,我们没有使用热力图,而是选择在检测到面中心峰值后对角位置进行回归。 我们训练了一个模型来推断一个向量场,该向量场包含角点相对于给定托盘面中心的偏移量。 ‌这种方法很快就显示出了完成这项任务的希望,即使有很大的遮挡,我们也可以提供对角位置的有意义的估计。

在这里插入图片描述

图 10. 使用面中心热力图和基于矢量场的角点回归的托盘检测结果

现在团队拥有了一个有前途的工作流程,我们迭代并扩展了这个流程,以解决出现的不同失败案例。 总的来说,我们的最终模型接受了大约 25,000 张渲染图像的训练。 我们的模型以相对较低的分辨率(256 x 256 像素)进行训练,能够通过以更高分辨率运行推理来检测小托盘。 最终,我们能够以相对较高的准确度检测到具有挑战性的场景,如上面的场景。

这是我们可以使用的东西——所有这些都是用合成数据创建的。 这就是我们今天的托盘检测模型的立场。

在这里插入图片描述

图 11.最终托盘模型检测结果,为了便于可视化,仅显示检测的正面

在这里插入图片描述

图 12. 实时运行的托盘检测模型

6、用合成数据构建你自己的模型

通过使用合成数据进行迭代开发,我们的团队开发了一种适用于真实图像的托盘检测模型。 通过更多的迭代,可能会取得进一步的进展。 除此之外,我们的任务可能会受益于添加真实世界的数据。 然而,如果没有合成数据生成,我们就无法快速迭代,因为我们所做的每个更改都需要新的标注工作。

如果你有兴趣尝试此模型,或者正在开发可以使用托盘检测模型的应用程序,可以通过访问 GitHub 上的 SDG 托盘模型来找到模型和推理代码。 该存储库包括预训练的 ONNX 模型以及使用 TensorRT 优化模型并在图像上运行推理的说明。 该模型可以在 NVIDIA Jetson AGX Orin 上实时运行,因此你将能够在边缘设备上运行它。

你还可以查看最近的开源项目 USD Scene Construction Utilities,其中包含使用 USD Python API 构建 USD 场景的示例和实用程序。

我们希望我们的经验能够启发你探索如何使用合成数据来引导你的人工智能应用程序。 如果想开始生成合成数据,NVIDIA 提供了一套工具来简化该过程。 这些包括:

  • 通用场景描述(OpenUSD):USD被描述为metaverse的HTML,是一个完整描述3D世界的框架。 USD 不仅包含 3D 对象网格等基元,而且还具有描述材质、照明、相机、物理等的能力。
  • NVIDIA Omniverse Replicator:Replicator 是 NVIDIA Omniverse 平台的核心扩展,使开发人员能够生成大量且多样化的合成训练数据,以引导感知模型训练。 凭借易于使用的 API、域随机化和多传感器模拟等功能,Replicator 可以解决数据缺乏的挑战并加速模型训练过程。
  • SimReady 资产:模拟就绪资产是物理上精确的 3D 对象,包含精确的物理属性、行为和连接的数据流,以代表模拟数字世界中的现实世界。 NVIDIA 提供了一系列真实资产和材质,可开箱即用地用于构建 3D 场景。 这包括与仓库物流相关的各种资产,例如托盘、手推车和纸板箱。 要在将 SimReady 资产添加到活动阶段之前搜索、显示、检查和配置它们,你可以使用 SimReady Explorer 扩展。 每个 SimReady 资产都有自己的预定义语义标签,可以更轻松地生成用于分割或对象检测模型的标注数据。

如果你对托盘模型、NVIDIA Omniverse 合成数据生成或 NVIDIA Jetson 推理有疑问,请访问 GitHub 或访问 NVIDIA Omniverse 合成数据生成开发者论坛和 NVIDIA Jetson Orin Nano 开发者论坛。


原文链接:基于合成数据的托盘检测 — BimAnt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/810784.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

day58 单调栈

单调栈 使用场景:通常是一维数组,要寻找任一个元素的右边或者左边第一个比自己大或者小的元素的位置 本质:空间换时间 三个判断条件: 当前遍历的元素T[i]小于栈顶元素T[st.top()]的情况 当前遍历的元素T[i]等于栈顶元素T[st.to…

tinkerCAD案例:24.Tinkercad 中的自定义字体

tinkerCAD案例:24.Tinkercad 中的自定义字体 原文 Tinkercad Projects Tinkercad has a fun shape in the Shape Generators section that allows you to upload your own font in SVG format and use it in your designs. I’ve used it for a variety of desi…

JavaSE第二次考试复盘

sleep是线程类(Thread)的方法,导致此线程暂停执行指定时间,给执行机会给其他线程,但是监控状态依然保持,到时候会自动恢复。调用sleep不会释放对象锁wait是Object类的方法,对此对象调用wait方法…

AI 能在哪些方面提高普通的程序员的效率

一、提高编码效率 1、起名字:变量名、函数名、类名、表名、数据库名(相信每个程序员都因为起名字掉了不少头发) 2、写简单的工具函数代码、结构转换代码:比如求2个数组的元素交集;把类转换成B类,原来需要一个字段一个字段的手动赋…

用LangChain开源框架实现知识机器人

前言 Large Language Models (LLMs)在2020年OpenAI 的 GPT-3 的发布而进入世界舞台 。从那时起,他们稳步增长进入公众视野。 众所周知 OpenAI 的 API 无法联网,所以大家如果想通过它的API实现联网搜索并给出回答、总结 PDF 文档、基于某个 Youtube 视频…

前端学习——Vue (Day6)

路由进阶 路由的封装抽离 //main.jsimport Vue from vue import App from ./App.vue import router from ./router/index// 路由的使用步骤 5 2 // 5个基础步骤 // 1. 下载 v3.6.5 // 2. 引入 // 3. 安装注册 Vue.use(Vue插件) // 4. 创建路由对象 // 5. 注入到new Vue中&…

【Python】批量修改文件名

对指定文件夹中的文件名称修改: import os#文件路径 path D:\大明风华[第01-62集]#获取文件列表 file os.listdir(path)#print(file)#原文件名是 大明风华.Ming.Dynasty.2019.E01.2160p.60FPS.WEB-DL.H265.10bit.AAC-SeeTV.mp4 #预期修改后文件名 大明风华.E01.…

C语言基础入门详解二

前些天发现了一个蛮有意思的人工智能学习网站,8个字形容一下"通俗易懂&#xff0c;风趣幽默"&#xff0c;感觉非常有意思,忍不住分享一下给大家。 &#x1f449;点击跳转到教程 一、C语言多级指针入门 #include<stdio.h> #include<stdlib.h>/**多级指针…

【报错1】无法找到模块“element-plus/dist/locale/zh-cn.mjs”的声明文件。

报错&#xff1a;无法找到模块“element-plus/dist/locale/zh-cn.mjs”的声明文件。“e:/codeAll/webProject/Project/vue_ts/project727/node_modules/element-plus/dist/locale/zh-cn.mjs”隐式拥有 "any" 类型。 如果“element-plus”包实际公开了此模块&#x…

Run主启动类的详解

package com.kuang.HelloSpringBoot;import org.springframework.boot.SpringApplication; import org.springframework.boot.autoconfigure.SpringBootApplication;//本身就是spring的一个组件,也就是注册的bean SpringBootApplication public class HelloSpringBootApplicati…

使用LangChain构建问答聊天机器人案例实战(二)

使用LangChain构建问答聊天机器人案例实战 逐行解读和验证全生命周期Prompting 现在我们使用GPT-4作为语言模型的驱动力,这个模型将成为整个应用程序的引擎,驱动整个应用程序运行,同时,应用程序也是基于Cpython去实现的,如图14-8所示,Pyodide是CPython到WebAssembly/Emsc…

教程 - 在 Vue3+Ts 中引入 CesiumJS 的最佳实践@2023

1. 本篇适用范围与目的 1.1. 适用范围 严格使用 Vue3 TypeScript 的前端项目&#xff0c;包管理器默认使用 pnpm 构建工具使用 Vite4 使用原生 CesiumJS 依赖做应用开发 客户端渲染&#xff0c;因为我不太熟悉 Vue 的服务端渲染&#xff0c;有本篇的介绍后&#xff0c;熟悉…

06. 管理Docker容器数据

目录 1、前言 2、Docker实现数据管理的方式 2.1、数据卷&#xff08;Data Volumes&#xff09; 2.2、数据卷容器&#xff08;Data Volume Containers&#xff09; 3、简单示例 3.1、数据卷示例 3.2、数据卷容器示例 1、前言 在生产环境中使用 Docker&#xff0c;一方面…

在腾讯云服务器OpenCLoudOS系统中安装jdk

1. 创建jdk安装目录&#xff1a; /app/soft/jdk mkdir -p /app/soft/jdk 2. 将linux版本的jdk安装包上传至/app/soft/jdk 3. 解压jdk安装包 tar -zxvf jdk-8u341-linux-x64.tar.gz 4. 复制jdk安装路径 pwd查看jdk当前路径&#xff0c;得到jdk在系统中的安装路径 5. 配置系…

【力扣周赛】第 356 场周赛(数位DP)

文章目录 Q1&#xff1a;6917. 满足目标工作时长的员工数目&#xff08;简单枚举模拟题&#xff09;Q2&#xff1a;6900. 统计完全子数组的数目&#xff08;双指针滑动窗口&#xff09;Q3&#xff1a;6918. 包含三个字符串的最短字符串Q4&#xff1a;6957. 统计范围内的步进数字…

Vue没有node_modules怎么办

npm install 一下 然后再npm run serve 就可以运行了

AD20. 如何给元器件设计、添加3D模型

Altium Designer学习笔记 - 00.目录​​​​​​​ 零. 前言 本文以HF46F继电器为例展示设计、添加元器件3D模型的流程&#xff0c;其他元器件类似。 一. 操作步骤 从下图可以看到此时继电器还没有添加3D模型&#xff1a; 1. 获取元器件尺寸 这里通过查找元器件的数据手册可以…

el-select 无限下拉滚动加载数据

<template> <div> <el-form ref"saveParameter" :model"saveParameter" inline inline-message style"margin:10px" > <el-form-item label"供应商" prop"lngcustomerid"> <el-select v-model&q…

装饰器模式——扩展系统功能

1、简介 1.1、概述 对新房进行装修并没有改变房屋用于居住的本质&#xff0c;但它可以让房子变得更漂亮、更温馨、更实用、更能满足居家的需求。在软件设计中&#xff0c;也有一种类似新房装修的技术可以对已有对象&#xff08;新房&#xff09;的功能进行扩展&#xff08;装…

【Linux命令200例】mattrib用于更改文件或者目录的属性的工具

&#x1f3c6;作者简介&#xff0c;黑夜开发者&#xff0c;全栈领域新星创作者✌&#xff0c;2023年6月csdn上海赛道top4。 &#x1f3c6;本文已收录于专栏&#xff1a;Linux命令大全。 &#x1f3c6;本专栏我们会通过具体的系统的命令讲解加上鲜活的实操案例对各个命令进行深入…