YotoR（You Only Transform One Representation）

YotoR（You Only Transform One Representation）

news2025/4/26 0:33:30

本文介绍了一种名为YotoR（You Only Transform One Representation）的新型深度学习目标检测模型。该模型将Swin Transformers与YoloR架构相结合。在自然语言处理领域引起革命的Transformer技术，如今同样对计算机视觉产生了深远影响，展现出显著提升准确性和计算效率的潜力。

YotoR将健壮的Swin Transformer主干网与YoloR的 Neck 和 Head 结合在一起。实验证明了两种模型结合的有效性。

感兴趣的小伙伴可以去看看原文：https://arxiv.org/pdf/2405.19629

一、模型BackBone

上图展示了用于主干网的Swin Transformer简化架构，特别是被称为Swin T的小型（Tiny）版本。该架构主要分为四个阶段：

图像被划分为小块，然后这些小块被转换为标记。通过线性嵌入层，这些标记被转换成特定大小的标记
输入到第一阶段的第一组Swin Transformer块中
三个阶段由一个块合并模块组成，该模块通过组的方式合并块，将特征图的宽度和高度分辨率减半
传递给相应的Swin Transformer块数组

二、模型 Head

如上图所示，为了构建YoloR模型，作者选择了基于Scaled YoloV4的架构，特别是以YoloV4-P6-light为基础，并对其进行了逐步修改，以创建不同版本的YoloR：P6、W6、E6和D6。具体的修改如下：

Yolo-P6：将YoloV4-P6-light的Mish激活函数替换为SiLU
Yolo-W6：增加了Backbone块输出的通道数
Yolo-E6：将W6的通道数增加至原来的1.25倍，并将下采样卷积替换为CSP卷积
Yolo-D6：增加了Backbone网络的深度

三、模型效果

如上展示了四个YotoR模型在val2017数据集上的mAP（平均精度均值）结果。TP5和BP4模型的表现超越了所有基准模型，即使是作为参照的YoloR P6，其mAP表现也非常出色。唯一没有超越的模型是BB4。
然而，考虑到BB4完全基于Swin B构建，并且没有使用YoloR P6的Head，这一结果是可以理解的。尽管如此，BB4的性能仍然优于Swin B，这表明探索更大模型（如Swin L）的潜力，且Swin L的性能优于YoloR D6。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1960694.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

7.29 模拟赛总结平面图欧拉定理

7.29 模拟赛总结平面图欧拉定理

复盘 7:40 开题开题失败，由于前一天有 cf，模拟赛移到下午了 13:45 开题看 T1，题意很抽象，理清后发现：这直接 dj 不就行了？不会错吧不会错吧，看着 n 1000 n1000 n1000 的数据范围还是不确…

阅读更多...

java实现权重轮询算法

java实现权重轮询算法

package com.example.demo.demos.web.nginx;import java.util.ArrayList; import java.util.List;public class WeightedRoundRobin {private static List<Server> servers new ArrayList<>(); // 存储服务器的列表private static int currentIndex -1; // 当前服…

阅读更多...

APP测试基本流程以及APP测试要点梳理，成功入职就靠它了

APP测试基本流程以及APP测试要点梳理，成功入职就靠它了

🔥 交流讨论：欢迎加入我们一起学习！ 🔥 资源分享：耗时200小时精选的「软件测试」资料包 🔥 教程推荐：火遍全网的《软件测试》教程 📢欢迎点赞 👍 收藏 ⭐留言 &#x1…

阅读更多...

【MATLAB源码-第161期】基于matlab的OQPSK系统仿真，输出误码率曲线图，眼图以及各节点信号图像对比。

【MATLAB源码-第161期】基于matlab的OQPSK系统仿真，输出误码率曲线图，眼图以及各节点信号图像对比。

操作环境： MATLAB 2022a 1、算法描述正交四相移相键控（OQPSK，Orthogonal Quadrature Phase Shift Keying）是一种数字调制技术，它在传统的QPSK（Quadrature Phase Shift Keying，四相移相键控&…

阅读更多...

Linux--序列化与反序列化

Linux--序列化与反序列化

序列化序列化是指将数据结构或对象状态转换成可以存储或传输的格式的过程。在序列化过程中，对象的状态信息被转换为可以保持或传输的格式（如二进制、XML、JSON等）。序列化后的数据可以被写入到文件、数据库、内存缓冲区中，或者通…

阅读更多...

jupyter notebook报错: No module named ‘pandas‘

jupyter notebook报错: No module named ‘pandas‘

打开jupyter notebook，新建Python3，编写代码import pandas as pd jupyter notebook: No module named pandas 解决办法 :打开Anaconda prompt，输入pip install pandas,安装时可能因为网速原因失败，用同样的命令再试一次&#xf…

阅读更多...

数据透视表（二）

数据透视表（二）

文章目录导入外部数据源创建数据透视表Query 工具下的数据透视表创建如何统计业绩成交情况创建组利用函数构建辅助列创建组手动创建多样分组创建组区间统计创建组按年月日统计数据透视表的多种统计方法计算字段导入外部数据源创建数据透视表点击数据选项卡下数据-获取外部数…

阅读更多...

04.FreeRTOS任务创建

04.FreeRTOS任务创建

04. FreeRTOS任务创建与任务删除 1. FreeRTOS创建和删除任务相关API函数函数描述xTaskCreate()动态方式创建任务xTaskCreateStatic()静态方式创建任务xTaskCreateRestricted()动态方式创建使用 MPU 限制的任务xTaskCreateRestrictedStatic()静态方式创建使用 MPU 限制的任务…

阅读更多...

js_拳皇（下）

js_拳皇（下）

文章目录架构设计视频演示碰撞检测碰撞检测函数构想血条和计时器全屏后续工作架构设计一图胜千言 #mermaid-svg-erOUDyAO5t0XgYyU {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-erOUDyAO5t0XgYyU .error-icon{…

阅读更多...

塞尔维亚皇家科学与艺术学院向迪科维奇将军颁发奖章

塞尔维亚皇家科学与艺术学院向迪科维奇将军颁发奖章

2015 年 6 月 28 日，在托波拉文化中心礼堂，由塞尔维亚皇家科学家与艺术学院（SKANU）组织举行了一场颁奖仪式，向过去一年里为科学院做出无私贡献的杰出个人和集体表示感谢。经塞尔维亚皇家科学与艺术学院一致决定&#…

阅读更多...

RWKV 社区近期有哪些学术研究进展？

RWKV 社区近期有哪些学术研究进展？

2024 年 5 月 7 日，我们呼吁大家使用 RWKV-6 替代 Mamba 进行科研。截至 7 月 29 日，来自全球各地的科研团队已经陆续发表了 7 篇基于 RWKV 架构、在各个领域进行深入研究的论文。新的 RWKV 学术研究主要聚焦于具身智能、图像处理、模型架构三个方面。…

阅读更多...

[Windows] 简单易用的图片去水印工具，Inpaint 9.1 单文件版

[Windows] 简单易用的图片去水印工具，Inpaint 9.1 单文件版

很多软件都有这个功能，但这个算法非常自然，软件小巧。而且极为简单，涂鸦笔一抹，点绿色的《处理图像》 ，一秒完成。我从它6.0的版本一直用过来。现在这个是9.1 发现论坛里的都是几年前的，全部都失效了。 …

阅读更多...

【策略工厂模式】记录策略工厂模式简单实现

【策略工厂模式】记录策略工厂模式简单实现

策略工厂模式 1. 需求背景2. 代码实现2.1 定义基类接口2.2 排序策略接口定义2.3 定义抽象类，实现策略接口2.4 具体的排序策略实现类2.5 实现策略工厂类2.6 控制类 3. 启动测试4. 总结 1. 需求背景现在需要你创建一个策略工厂类，来根据策略实现各种排序…

阅读更多...

达梦数据库的系统视图v$buffer_lru_first

达梦数据库的系统视图v$buffer_lru_first

达梦数据库的系统视图v$buffer_lru_first 达梦数据库系统视图V$BUFFER_LRU_FIRST的主要作用是显示所有缓冲区LRU链首页信息。这个视图帮助数据库管理员监控和管理缓冲池中LRU（Least Recently Used，最近最少使用）链的性能，通过查看…

阅读更多...

专业级享受：2024年视频剪辑工具深度评测与推荐

专业级享受：2024年视频剪辑工具深度评测与推荐

说到视屏剪辑很多人都会想要到剪映吧，那剪映怎么剪辑视屏呢？剪映之外还有没有其他好用到视屏剪辑软件呢？这次就分享一些我自己用过到工具吧。 1.福昕视频编辑链接直达>>https://www.pdf365.cn/foxit-clip/ 这个视频剪辑软件大大的…

阅读更多...

【Stable Diffusion】（基础篇六）—— embedding

【Stable Diffusion】（基础篇六）—— embedding

embedding 本系列博客笔记主要参考B站nenly同学的视频教程，传送门：B站第一套系统的AI绘画课！零基础学会Stable Diffusion，这绝对是你看过的最容易上手的AI绘画教程 | SD WebUI 保姆级攻略_哔哩哔哩_bilibili 除了大模型和VAE之外…

阅读更多...

普明服务小程序正式招募合伙人，共绘家政保洁行业新蓝图

普明服务小程序正式招募合伙人，共绘家政保洁行业新蓝图

随着家政保洁行业的快速发展和消费者对高品质服务需求的日益增长，普明服务小程序凭借其专业、高效、便捷的服务体验，迅速在市场上崭露头角。为了进一步拓展业务，提升品牌影响力，普明服务小程序现正式面向社会招募合伙人&#xff0…

阅读更多...

你还在为PDF转Word烦恼？试试这四款免费工具吧！

你还在为PDF转Word烦恼？试试这四款免费工具吧！

悄咪咪问一句，大家在平时上班时最头疼的事情有哪些？我想会有很多朋友也有pdf如何在线转换word文档的免费方式，毕竟这些办公文档是非常常见的问题了，所以今天就专门准备这么一篇文章来分享我个人喜欢的四款好用工具： 第…

阅读更多...

基于ChatGPT的“看图说话”

基于ChatGPT的“看图说话”

重磅推荐专栏：《大模型AIGC》《课程大纲》《知识星球》本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域，包括但不限于ChatGPT和Stable Diffusion等。我们将深入研究大型模型的开发和应用，以及与之相关的人工智能生成内容（AIGC）技术。通过深入的技术解析和实践经…

阅读更多...

dockerd --debugr排查服务无法启动的异常

dockerd --debugr排查服务无法启动的异常

1、查看docker服务运行状态 [rootlocalhost ~]# systemctl status docker 2、使用dockerd --debug排查错误 [rootlocalhost ~]# dockerd --debug 3、使用dockerd --debug获取的错误 4、根错误在网上查找解决方法上图错误为二进制安装docker服务，/usr/local/bin/…

阅读更多...

推荐文章

最新文章