【论文速看】DL最新进展20241009-图像生成、多模态、医学扩散模型、行人重识别

news2025/1/21 18:06:00

目录

    • 【图像生成】
    • 【多模态】
    • 【医学扩散模型】
    • 【行人重识别】

【图像生成】

[2024] CAR: Controllable Autoregressive Modeling for Visual Generation

论文链接:https://arxiv.org/pdf/2410.04671

代码链接:https://github.com/MiracleDance/CAR

可控生成能够对生成输出进行细粒度控制,已成为视觉生成模型中的一个重要焦点。目前,在视觉生成领域有两种主要的技术方法:扩散模型和自回归模型。扩散模型,如ControlNet和T2I-Adapter所示,提供了先进的控制机制,而自回归模型尽管展示了令人印象深刻的生成质量和可扩展性,但在可控性和灵活性方面仍然未被充分探索。这项研究引入了可控自回归建模(CAR),这是一个新颖的即插即用框架,将条件控制集成到多尺度潜在变量建模中,使得在预训练的视觉自回归模型内实现高效的控制生成成为可能。CAR逐步精炼并捕捉控制表示,这些表示被注入到预训练模型的每个自回归步骤中,以指导生成过程。所提方法在各种类型的条件上展示了出色的可控性,并且与之前的方法相比,生成的图像质量更高。此外,CAR在显著减少训练资源的情况下实现了稳健的泛化。这是第一个为预训练的自回归视觉生成模型提出的控制框架

在这里插入图片描述


【多模态】

[NeurlPS 2024] OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding

论文链接:https://arxiv.org/pdf/2406.19389

代码链接:https://github.com/lxtGH/OMG-Seg

当前的通用分割方法在像素级图像和视频理解方面展现了强大的能力。然而,它们缺乏推理能力,不能通过文本指令进行控制。相比之下,大型视觉-语言多模态模型展示了强大的基于视觉的对话和推理能力,但缺乏像素级理解,并且在灵活的用户交互中难以接受视觉提示。本文提出了OMG-LLaVA,这是一个新颖而优雅的框架,结合了强大的像素级视觉理解与推理能力。它可以接受各种视觉和文本提示,以实现灵活的用户交互。具体来说,使用一种通用分割方法作为视觉编码器,将图像信息、感知先验和视觉提示整合到提供给LLM的视觉token中。LLM负责理解用户的文本指令,并根据视觉信息提供文本响应和像素级分割结果。作者提出了感知先验嵌入,以更好地将感知先验与图像特征集成在一起。OMG-LLaVA在一个单一模型中实现了图像级、对象级和像素级的推理和理解,在多个基准测试上的性能达到或超过了专门方法的表现。作者的研究目标是对一个编码器、一个解码器和一个LLM进行端到端训练,而不是使用LLM连接每个专家模块。

在这里插入图片描述


【医学扩散模型】

[MICCAI 2024] DiffuseReg: Denoising Diffusion Model for Obtaining Deformation Fields in Unsupervised Deformable Image Registration

论文链接:https://arxiv.org/pdf/2410.05234

代码链接:https://github.com/YutaZhuo/DiffuseReg

可变形图像配准旨在精确对齐来自不同模态或时间点的医学图像。传统的深度学习方法虽然有效,但通常缺乏解释性、实时观察性和在配准推断期间的调整能力。去噪扩散模型通过将配准重新定义为迭代图像去噪提供了另一种选择。然而,现有的扩散配准方法并未充分利用这些能力,忽视了关键的采样阶段,该阶段使得在推断过程中能够连续观察。因此,作者引入了DiffuseReg,这是一种创新的基于扩散的方法,通过对变形场进行去噪而不是对图像进行去噪,以改善透明度。还提出了一种基于Swin Transformer的新型去噪网络,它在整个去噪过程中更好地将移动和固定图像与扩散时间步长结合起来。此外,通过新颖的相似性一致性正则化增强了对去噪配准过程的控制。在ACDC数据集上的实验表明,DiffuseReg在Dice分数上比现有的扩散配准方法高出1.32。DiffuseReg中的采样过程实现了实时输出观察和调整,这是以前的深度模型无法比拟的。

在这里插入图片描述

在这里插入图片描述


【行人重识别】

[2024] DenoiseReID: Denoising Model for Representation Learning of Person Re-Identification

论文链接:https://arxiv.org/pdf/2406.08773

本文提出了一种新颖的去噪模型用于表示学习,并以人员再识别(ReID)作为基准任务,命名为DenoiseReID,通过联合特征提取和去噪来提高特征的区分性。在深度学习时代,由级联嵌入层(例如卷积或变换器)组成的主干网络逐渐流行,这些嵌入层逐步提取有用的特征。首先将主干中的每个嵌入层视为一个去噪层,处理级联嵌入层就像我们在逐步递归地去噪特征一样。这统一了特征提取和特征去噪的框架,前者从低层到高层逐步嵌入特征,后者逐步递归地去噪特征。然后,设计了一种新颖的特征提取与特征去噪融合算法(FEFDFA),并在理论上证明了融合前后的等效性。FEFDFA将去噪层的参数合并到现有的嵌入层中,从而使特征去噪计算免费。这是一种无标签的算法,可以逐步改进特征,如果标签可用,还可以补充标签信息。此外,它有两个优点:1)它是一种无需计算和标签的插件,可逐步改善ReID特征;2)如果标签可用,它可以补充标签信息。在各种任务(大规模图像分类、细粒度图像分类、图像检索)和主干(变换器和卷积)上的实验结果表明了所提方法的可扩展性和稳定性。在4个ReID数据集和多种主干上的实验结果也显示了其稳定性和显著改进。还将对所提出的方法扩展到大规模(ImageNet)和细粒度(如CUB200)分类任务,证明了类似的改进效果。

在这里插入图片描述


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2200927.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

windows C++-避免死锁(上)

下面通过“哲学家就餐问题”说明了如何使用 concurrency::join 类来避免在应用程序中发生死锁。 在软件应用中,如果两个或多个进程分别留有资源,且相互等待另一进程释放其他资源,就会发生死锁。 “哲学家就餐问题”是在多个并发进程之间共享…

掌握甘特图,没有Excel也能轻松制作的技巧

甘特图是项目管理中常用工具,由亨利甘特发明。不擅长Excel者可用ZohoProjects等软件创建甘特图,其直观展示项目时间和任务,支持实时协作、工时管理等功能,广泛应用于各领域项目管理。 一、甘特图的由来 甘特图最初是由工程师和管…

反射在Go语言中的具体应用场景

在Go语言中,反射(Reflection)是一种强大的特性,它允许程序在运行时检查、修改和操作变量的类型信息。 尽管反射在性能上通常不如直接操作,但它在某些特定场景下非常有用。 反射在Go语言中的具体应用场景:…

YOLO11模型推理 | 目标检测与跟踪 | 实例分割 | 关键点估计 | OBB旋转目标检测

前言 本文分享YOLO11的模型推理,检测任务包括物体分类、目标检测与跟踪、实例分割 、关键点估计、旋转目标检测等。 首先安装YOLO11 官方默认安装方式 通过运行 pip install ultralytics 来快速安装 Ultralytics 包 安装要求: Python 版本要求&…

leetcode125:验证回文串

如果在将所有大写字符转换为小写字符、并移除所有非字母数字字符之后,短语正着读和反着读都一样。则可以认为该短语是一个 回文串 。 字母和数字都属于字母数字字符。 给你一个字符串 s,如果它是 回文串 ,返回 true ;否则&#…

赋能新时代,智象未来(HiDream.ai)推动智能服务深度融入生活

在人工智能领域的最新发展中,智象未来科技有限公司(简称“智象未来(HiDream.ai)”以其卓越的技术创新和深厚的行业积累脱颖而出,一跃成为多模态生成式人工智能技术的领军者。该公司致力于开发和优化视觉多模态基础模型…

天海一体,遨游双卫星智能终端扬帆5G智慧海洋

海洋面积占地球表面的70%以上,世界贸易的90%左右由国际海运行业承运。但是,信号覆盖不均、通信延迟高、定位精度不足等问题,严重制约了海洋作业的效率与安全。智慧海洋,通信先行,AORO M5-5G双卫星智能终端应时代需求而…

MySQL从0到1基础语法笔记(下)

博客主页:誓则盟约系列专栏:Java Web关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ 多表问题分析: 部门数据可以直接删除,然后还有部分员工…

为了加速上市,独角兽SHEIN的神秘创始人终于要露脸了?

神秘独角兽SHEIN在假期中迎来一个特殊新闻,《华尔街日报》、英国《金融时报》等媒体都报道称,SHEIN创始人许仰天最近先后前往美国和伦敦会见投资者,为其伦敦上市做准备。 (图源:英国《金融时报》官网) 这条…

使用fastjson解析json格式数据

在java里面无法直接解析JSON格式的字符串或文本&#xff0c;这时候我们就需要一个解析json格式的库&#xff0c;我们这里用fastjson,接下来的代码操作如下&#xff1a; 1、导入依赖 <dependency><groupId>com.alibaba</groupId><artifactId>fastjson&…

【阿克曼odom里程计解算】:从下位机到上位机,从原理到代码实现

前言 本文将从阿克曼的里程计计算原理出发&#xff0c;讲解下位机STM32如何对电机编码器数据进行整合计算&#xff0c;再通过串口进行上下位机进行数据转发&#xff0c;最终在Linux板端对下位机发送来的数据进行积分计算并最终通过ROS的odometry数据进行全局广播。本文使用到的…

JavaScript 数组简单学习

目录 1. 数组 1.1 介绍 1.2 基本使用 1.2.1 声明语法 1.2.2 取值语法 1.2.3 术语 1.3 案例 1. 数组 1.1 介绍 1.2 基本使用 1.2.1 声明语法 1.2.2 取值语法 1.2.3 术语 1.3 案例

自动化测试selenium篇(四)

1.定位一组元素 1.0 小问题 当运行测试代码程序需要跳转到页面&#xff0c;由于没有授权&#xff0c;导致页面不能成功跳转&#xff0c;且出现下面的情况&#xff1a; 步骤一&#xff1a;进入到idea&#xff0c;点击设置&#xff0c;如下所示&#xff1a; 进行上图操作之后&am…

图为大模型一体机的优秀落地案例:图为语伴

随着客户对即时、准确信息和解决方案的期望不断提升&#xff0c;企业面临着处理大量客户咨询、减少人力成本、提高服务效率等多重挑战。 而图为大模型一体机的诞生&#xff0c;就是为了应对传统的人工客服在处理客户咨询时&#xff0c;其产生的数据如聊天记录、通话记录等&…

中科院认可SCI期刊精选合集:5本国人友好刊,涵盖各领域!

本期&#xff0c;科检易学术将为大家精心推荐一系列既享有盛誉又相对容易发表的期刊。这些期刊不仅在各自的学术领域内具有较高的认可度和影响力&#xff0c;同时也以对国内研究者的友好态度而闻名。 无论是初出茅庐的研究新手还是经验丰富的学者&#xff0c;都能在这份涵盖多…

当今SNARKs全景

1. 引言 前序博客有&#xff1a; ZKP历史总览SNARK原理示例SNARK性能及安全——Prover篇SNARK性能及安全——Verifier篇Transparent 且 Post-quantum zkSNARKsSNARK DesignRollup项目的SNARK景观 SNARKs因&#xff1a; proof size证明时长验证时长密码学信任假设是否需要tr…

Chatgpt 原理解构

一、背景知识 1. 自然语言处理的发展历程 自然语言处理在不同时期呈现出不同的特点和发展态势。萌芽期&#xff0c;艾伦・图灵在 1936 年提出 “图灵机” 概念&#xff0c;为计算机诞生奠定基础&#xff0c;1950 年他提出著名的 “图灵测试”&#xff0c;预见了计算机处理自然…

linux 配置nfs

服务器端 sudo apt update sudo apt-get install nfs-kernel-server配置NFS服务器 mkdir /home/aa/workspace/nfsdir chmod 777 /home/aa/workspace/nfsdir sudo vim /etc/exports添加这个语句 /home/aa/workspace/nfsdir *(rw,sync,no_root_squash,insecure)sudo systemctl …

【音频生成】mac安装ffmpeg

前言 ffmpeg是一个开放源代码的自由软件&#xff0c;可以执行音频和视频多种格式的录影、转换、串流功能。算的上是进行音频处理的基本软件了&#xff0c;也是python包pydub的依赖。如果没有安装ffmpeg&#xff0c;就会报这个错。 FileNotFoundError: [Errno 2] No such file…

灯塔:JavaWeb笔记

什么是HTML、CSS? HTML (HypeText Markup Lanage):超文本标记语言。 超文本&#xff1a;超过了文本的限制&#xff0c;比普通的文本更强大。除了文字信息&#xff0c;还可以定义图片、音频、视频等内容。 标记语言&#xff1a;由表签构成的语言 HTML 标签都是提前预定义好的…