RT-DETR学习笔记(3)

news2024/12/28 17:32:58

九、损失函数


整理所需参数

 decoder的输出结果:6层decoderlayer的类别以及bbox预测

将500个query拆分成300(300个query)+200(denoising query)

1. 最后一层的decoder的输出的300部分,单独存储到out中的"pred_logits"和“pred_boxes”;

2. 前五层的decoder输出的300部分,存储到out中的“aux_outputs”;

3. IoU-aware selection输出的300部分,也就是下图top-K的输出,也存储到out中的“aux_outputs”中;

4. 将6层decoder输出的200部分的denoising query存储到out中的“dn_aux_outputs”中;

5. 还有de_meta部分照搬存储到out中的“dn_meta”中;


 整体流程

整个损失函数计算分为三部分:
1. 拿decoder最后一层的输出计算损失;

2. 拿out中的aux_outputs(decoder前五层输出的300部分 + IoU-aware selection输出 )计算损失;

3. 计算denoising 部分损失值

最终将这三个部分损失值相加得到总损失值,用总损失进行反向传播优化参数


 decoder最后一层输出的损失

首先构建损失矩阵用来做匈牙利匹配,尺寸为:300*obj_num;即从300个预测框中找出obj_num个bbox和GT bbox一一对应;损失矩阵中的每一个值都表示预测值和真实值之间的损失值;

损失值=类别损失(focal loss)+定位损失(L1_loss,GIOU_Loss)

将损失矩阵通过匈牙利算法得到最佳匹配结果;

将300个bbox通过匈牙利匹配得到的bbox作为正样本,其他作为负样本去计算整个部分的损失值(损失值=类别损失 varifocal_loss+定位损失(L1_loss+GIOU_Loss)):


aux_outputs部分的损失

aux_ouputs是一个list,每一个部分都包含类别和bbox预测输出:

同上一样的损失计算方法:通过匈牙利匹配找出最优解,将匹配到的bbox最为正样本,其他作为负样本,然后再计算最终的损失值;


Denoising 部分损失

大致流程同上,通过匹配找出最优解计算损失值;

不同点在于:不是通过匈牙利匹配找出最优匹配解,再denoising部分的gt信息保存在了dn_meta当中,通过dn_meta找出相应匹配就好了;


对应代码


decoder最后一层输出的损失

提取出output中的decoder最后一层输出的损失需要的部分,进行匈牙利匹配;

这里需要将提取出来的部分展平,即bs*num_queries,为后续构建大的矩阵做准备

会先构建多张图片的矩阵,然后再分离成每张图像的矩阵:

这里进入匈牙利匹配代码部分

从target中获取目标类别信息,从预测的(num_queries,num_classes)中提取对应的类别信息tgt_ids得到(num_queries,tgt_ids);

使用focal_loss计算类别损失,将分别计算真实标签为正样本和负样本的损失值相加??


预测值和gt计算L1和GIOU损失


最后通过加权和计算最终的损失值

 得到的损失值是一个大的矩阵,然后通过下面代码分离出每张图片对应的小矩阵,最后使用linear_sum_assignment()函数得到匈牙利匹配的最优解的匹配索引

拿到预测bbox的最优匹配解(索引):


 匈牙利匹配代码部分结束,接下来计算类别损失和定位损失:

通过for循环取出loss元素,即类别损失 varifocal loss 和 坐标损失 L1_loss+GIOU_Loss


 类别损失Varifocal Loss:
Varifocal Loss-CSDN博客


整个粉色框的部分就在构建q--target_score;


首先计算出6个预测框和6个GT框的IoU; 


再生成target_classes(bs,num_queries)即(2,300);

对于前景样本生成对应类别索引;背景样本生成对应的背景类别索引; 

将其转换成one-hot独热编码形式-target:


将IoU填写到对应位置上:


将两部分相乘得到q:


生成q:

将网络模型输出的类别预测做sigmoid得到p:


最后计算varifocal loss:


定位损失


上面的类别损失和定位损失保存在l_dict中然后分别×上权重:


 aux_outputs部分的损失

这部分损失计算同上


Denoising部分损失

大部分计算同上,唯一区别在于:找GT框匹配的时候,不需要用匈牙利匹配算法,而是通过dn_meta直接获取匹配关系

使用get_cdn_matched_indices()函数返回对应索引,然后计算同上,得到损失加入loss中

六个目标,每个目标三个损失值


将所有损失相加得到最终损失值

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2267034.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

处理元素卡在视野边界,滚动到视野内

效果图如下: 本示例处理场景:点击底部的折叠面板,展开后移动端滚动条位置不变,导致展开内容在视图外。造成面板展开无内容的错觉。 处理核心API: IntersectionObserver 此API可绑定元素并监听元素是否在视野内。若在视野外​​​…

RAGFlow 基于深度文档理解构建的开源 RAG引擎 - 安装部署

RAGFlow 基于深度文档理解构建的开源 RAG引擎 - 安装部署 flyfish 1. 确保 vm.max_map_count ≥ 262144 这是指要调整Linux内核参数vm.max_map_count,以确保其值至少为262144。这个参数控制着进程可以映射的最大内存区域数量。对于某些应用程序(如Ela…

鸿蒙项目云捐助第二十九讲云捐助项目云数据库商品的批量增加功能实现

鸿蒙项目云捐助第二十九讲云捐助项目云数据库商品的批量增加功能实现 关于鸿蒙云捐助项目,前面的内容已使用云函数,云数据库分别实现云捐助项目首页中的项分类导航,底部导航,轮播图功能,这里继续实现云数据库加载捐赠…

Confluent Cloud Kafka 可观测性最佳实践

Confluent Cloud 介绍 Confluent Cloud 是一个完全托管的 Apache Kafka 服务,提供高可用性和可扩展性,旨在简化数据流处理和实时数据集成。用户可以轻松创建和管理 Kafka 集群,而无需担心基础设施的维护和管理。Confluent Cloud 支持多种数据…

SpringCloudAlibaba升级手册-nacos问题记录

目录 一、前言 二、升级过程 1.问题 2.原因 3.出处 4.理论解决 5.测试环境问题 6.Spring Cloud Alibaba版本对比 7. Spring Cloud Alibaba适配组件版本对比 8.降低Spring Cloud版本 9.SpringCloud与SpringBoot兼容对比表 10.naocs-client版本对比 三、最终解决 一…

15、【OS】【Nuttx】OS裁剪,运行指定程序,周期打印当前任务

背景 接之前wiki【Nsh中运行第一个程序】https://blog.csdn.net/nobigdeal00/article/details/144728771 OS还是比较庞大,且上面搭载了Nsh(Nuttx Shell),需要接入串口才能正常工作,一般调试的时候用,非调试…

C# 窗体应用程序嵌套web网页,基于谷歌浏览器内核(含源码)

有一个winform项目,需要借助一个web项目来显示,并且对web做一些操作,web页目是需要用谷歌内核,基于谷歌 Chromium项目的开源Web Browser控件来开发写了一个demo。 安装步骤 第一步:右键项目,点击 管理NuGet程序包 , 输…

通过远程控制软件实现企业高效协作

在这个信息技术迅猛发展的时代,远程办公已经成为一种趋势,而远程控制软件则是连接分散团队的重要工具。技术的革新不仅推动了远程控制软件的广泛应用,也为现代办公带来了高效的协作体验。本文将探讨远程控制软件的发展,并以RayLin…

赋能开发者 | 麒麟信安受邀参加2024开放原子开发者大会,以技术为引领,以人才创发展

12月20至21日,以“一切为了开发者”为主题的“2024开放原子开发者大会暨首届开源技术学术大会”在湖北武汉举办。本届大会由开放原子开源基金会、中国通信学会联合主办,旨在贯彻落实国家软件发展战略,加速培育壮大我国开源生态。工业和信息化…

每天40分玩转Django:Django国际化

Django国际化 一、今日学习内容概述 学习模块重要程度主要内容国际化基础⭐⭐⭐⭐⭐基本概念、配置设置字符串翻译⭐⭐⭐⭐⭐翻译标记、消息文件模板国际化⭐⭐⭐⭐模板标签、过滤器动态内容翻译⭐⭐⭐⭐模型字段、表单翻译 二、国际化基础配置 # settings.py# 启用国际化 …

Elasticsearch 国产化替代方案之一 Easysearch 的介绍与部署指南

一、前言 在国内数字化转型浪潮和 信创 大背景下,“替代进口”成为许多企业级应用所需要面对的重要课题,搜索领域也不例外。 Elasticsearch(简称 ES)作为一款业界领先的全文搜索和分析引擎,虽然功能强大,但…

Ubuntu 24.04.1 LTS 配置静态固定IP地址

查看网络配置信息 ip addr使用该命令查看网卡名字,一般是ens33或者ens32 修改配置文件 打开 /etc/netplan/下面的yaml配置文件 根据自己的需要配置 network:ethernets:ens33: # 配置的网卡的名称addresses: [192.168.23.140/24] # 配置的静态ip地址和掩码d…

Deep Deterministic Policy Gradient (DDPG)算法

代码 import torch import torch.nn as nn import torch.optim as optim import numpy as np import gym import random from collections import deque# 定义 Actor 网络 class Actor(nn.Module):def __init__(self, state_dim, action_dim, max_action):super(Actor, self).…

C++ OCR 文字识别

一.引言 文字识别,也称为光学字符识别(Optical Character Recognition, OCR),是一种将不同形式的文档(如扫描的纸质文档、PDF文件或数字相机拍摄的图片)中的文字转换成可编辑和可搜索的数据的技术。随着技…

【解决报错】AttributeError: ‘NoneType‘ object has no attribute ‘group‘

学习爬虫时,遇到如下报错: 报错原因: 正则表达式的 search 或 finditer 方法没有找到任何匹配项,可能是换行符处理不当等。 解决方法如下: 在正则表达式末尾加上re.S即可,re.S是一个编译标志&#xff0c…

JVM实战—3.JVM垃圾回收的算法和全流程

大纲 1.JVM内存中的对象何时会被垃圾回收 2.JVM中的垃圾回收算法及各算法的优劣 3.新生代和老年代的垃圾回收算法 4.避免本应进入S区的对象直接升入老年代 5.Stop the World问题分析 6.JVM垃圾回收的原理核心流程 7.问题汇总 1.JVM内存中的对象何时会被垃圾回收 (1)什么…

基于SpringBoot在线音乐系统平台功能实现十八

一、前言介绍: 1.1 项目摘要 随着互联网技术的迅猛发展和普及,人们对音乐的获取和欣赏方式发生了巨大改变。传统的音乐播放方式,如CD、磁带或本地下载的音乐文件,已经不能满足用户日益增长的需求。用户更希望通过网络直接获取各…

RouYi-Vue框架,环境搭建以及使用

使用若以框架需要配置node.js,如果不了解可以去看node.js安装,uni-app的配置使用_uniapp使用nodejs类库-CSDN博客 安装若依 首先是去若以官网下载自己所需要的框架类型 RuoYi-Vue: 🎉 基于SpringBoot,Spring Security&#xff…

XL系列433芯片、2.4G收发芯片 通讯对码说明

XL系列433芯片对码说明: 发射芯片 XL4456 通过数据脚接收高低电平然后经过调制将波形发出,而接收芯片 XL520 通过接收波形后进行解调,数据脚输出高低电平。至于具体的通信协议,需要用户自定义,一般而言,使…

蓝牙BLE开发——解决iOS设备获取MAC方式

解决iOS设备获取MAC方式 uniapp 解决 iOS 获取 MAC地址,在Android、iOS不同端中互通,根据MAC 地址处理相关的业务场景; 文章目录 解决iOS设备获取MAC方式监听寻找到新设备的事件BLE工具效果图APP监听设备返回数据解决方式ArrayBuffer转16进制…