2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题

news2025/1/13 13:28:48

我们今天总结下2024年5月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展,包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题。

Diffusion Models

1、Dual3D: Efficient and Consistent Text-to-3D Generation with Dual-mode Multi-view Latent Diffusion

Dual3D是一个新的文本到3D生成框架,可以在1分钟内从文本生成高质量的3D图像。

为了克服推理过程中的高渲染成本,Dual3D提出了双模式切换推理策略,在3D模式下仅使用1/10的去噪步骤,在不牺牲质量的情况下仅在10秒内成功生成3D图像。

然后通过高效的纹理细化过程,可以在短时间内进一步增强3D资产的纹理。大量的实验表明,论文的方法提供了最先进的性能,同时显着减少了生成时间。

https://dual3d.github.io/

2、CAT3D: Create Anything in 3D with Multi-View Diffusion Models

3D重建的进步使高质量的3D捕获成为可能,但需要用户收集数百到数千张图像来创建3D场景。

而CAT3D,可以通过多视图扩散模型模拟真实世界的捕获过程来创建3D中的任何东西。给定任意数量的输入图像和一组目标视点,模型可以生成高度一致的场景。

这些生成的视图可以用作强大的3D重建技术的输入,以产生可以从任何视点实时呈现的3D表示。CAT3D可以在短短一分钟内创建整个3D场景,并且优于现有的单图像和少样本3D场景创建方法。

https://cat3d.github.io/

3、Hunyuan-DiT: A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding

Hunyuan-DiT是一个文本到图像的扩散transformer ,具有对英语和汉语的细粒度理解。精心设计了transformer 结构、文本编码器和位置编码。

论文还从头开始构建一个完整的数据管道来更新和评估迭代模型优化的数据。对于细粒度的语言理解,训练了一个多模态大语言模型来改进图像的说明文字。

最后,Hunyuan-DiT可以与用户进行多回合多模态对话,根据上下文生成和提炼图像。与其他开源模型相比,浑源- dit通过拥有50多名专业评估人员的全面人工评估协议,在中文到图像生成方面达到了新的水平。

https://arxiv.org/abs/2405.08748

4、Naturalistic Music Decoding from EEG Data via Latent Diffusion Models

论文用于从脑电图(EEG)记录中重建自然主义音乐的任务,这个听着有些离奇

论文的研究首次尝试使用非侵入性脑电图数据实现高质量的一般音乐重建,直接在原始数据上采用端到端训练方法,无需手动预处理和通道选择。

不同于音色有限的简单音乐,如midi生成的曲调或单声部作品,这里的重点是复杂的音乐,具有多种乐器,人声和效果,丰富的谐波和音色。在公共NMED-T数据集上训练模型,并提出基于神经嵌入的指标进行定量评估。

这个的工作有助于神经解码和脑机接口的持续研究,为使用脑电图数据进行复杂听觉信息重建的可行性提供了见解。

https://arxiv.org/abs/2405.09062

视觉语言模型(VLMs)

1、What matters when building vision-language models?

对视觉语言模型(vlm)日益增长的研究是由大型语言模型和VIT的改进所驱动的。尽管在这个主题上有大量的文献,但论文观察到,关于vlm设计的关键决策通常是不合理的。

这些不受支持的决策阻碍了该领域的进展,因为很难确定哪些选择可以提高模型的性能。为了解决这个问题,论文围绕预训练模型、架构选择、数据和训练方法进行了广泛的实验。

研究成果包括Idefics2的开发,这是一个具有80亿个参数的高效基础VLM。Idefics2在不同的多模式基准测试中,在其尺寸类别中实现了最先进的性能,并且通常与尺寸为其四倍的模型相当。

https://arxiv.org/abs/2405.02246

2、Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

Xmodel-VLM是一个前沿的多模态视觉语言模型。它是为在消费级GPU服务器上高效部署而设计的。

通过严格的训练,从头开始开发了一个1b级的语言模型,使用LLaVA范式进行模态对齐,得到了一个轻量级但功能强大的多模态视觉语言模型。

在许多经典的多模态基准测试中进行的广泛测试表明,尽管Xmodel-VLM的尺寸更小,执行速度更快,但其性能可与大型模型相媲美。

https://arxiv.org/abs/2405.09215

图像生成与编辑

1、Compositional Text-to-Image Generation with Dense Blob Representations

现有的文本到图像模型难以遵循复杂的文本提示,因此需要额外的接地输入以获得更好的可控性。论文建议将场景分解为视觉原语:表示为密集的blob表示-包含场景的细粒度细节,同时是模块化的,人类可解释的,并且易于构建。

基于blob表示,开发了一个基于blob的文本到图像扩散模型,称为BlobGEN,用于合成生成,并且引入了一个新的掩码交叉注意力模块来解决blob表示和视觉特征之间的融合问题。

为了利用大型语言模型(llm)的组合性,引入了一种新的上下文学习方法来从文本提示生成blob表示。

大量实验表明,BlobGEN在MS-COCO上实现了优越的零样本生成质量和更好的布局制导可控性。当通过llm增强时,我们的方法在合成图像生成基准上显示出优越的数值和空间正确性。

https://blobgen-2d.github.io/

目标检测

1、Grounding DINO 1.5: Advance the “Edge” of Open-Set Object Detection

论文介绍了IDEA Research开发的一套先进的开集目标检测模型——ground DINO 1.5,该模型旨在推进开集目标检测的“边缘”。

该套件包括两种模型:Grounding DINO 1.5 Pro,一种高性能模型,在广泛的场景中具有更强的泛化能力;Grounding DINO 1.5 Edge,一种高效模型,针对许多需要边缘部署的应用所需的更快速度进行了优化。

Grounding DINO 1.5 Pro模型通过扩展模型架构,集成增强的视觉骨干,并将训练数据集扩展到超过2000万张带有注释的图像,从而实现更丰富的语义理解,从而改进了其前身。

Grounding DINO 1.5 Edge模型虽然是为降低特征尺度的效率而设计的,但通过在相同的综合数据集上进行训练,保持了强大的检测能力。

实验结果证明了DINO 1.5的有效性,DINO 1.5 Pro模型在COCO检测基准上达到了54.3 AP,在LVIS-minival零样本基准上达到了55.7 AP,创造了目标检测的新记录。

ground DINO 1.5 Edge模型在使用TensorRT进行优化后,在lis -minival基准测试中达到了75.2 FPS的速度,同时达到了36.2 AP的零样本性能,使其更适合边缘计算场景。

https://avoid.overfit.cn/post/f3bbe390f1024ab68fa6f16e44d1305a

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1691411.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

mysql中text,longtext,mediumtext区别

文章目录 一.概览二、字节限制不同三、I/O 不同四、行迁移不同 一.概览 在 MySQL 中,text、mediumtext 和 longtext 都是用来存储大量文本数据的数据类型。 TEXT:TEXT 数据类型可以用来存储最大长度为 65,535(2^16-1)个字符的文本数据。如果存储的数据…

SwiftUI中的手势(MagnificationGesture、 RotationGesture)

通过前两篇文章的探索,手势的基本使用规则已经较深的了解,本篇文章主要看看放缩手势MagnificationGesture和旋转手势RotationGesture。 MagnificationGesture 放缩手势 放缩手势在App中用的也比较广泛,下面先看一个示例效果: 上…

Mybatis Cache(二)MybatisCache+Redis

前面提到了,使用mybatis cache,一般是结合redis使用。 一、demo 1、数据表 create table demo.t_address (id int auto_incrementprimary key,address_name varchar(200) null,address_code varchar(20) null,address_type int n…

鸿蒙系统与OpenHarmony:中国科技行业的新动力与就业前景

背景 经历近年来的迅猛发展,鸿蒙原生应用数量已突破4000款,生态设备数量超过8亿台,开发者群体壮大至220万人。更为显著的是,鸿蒙系统在中国市场的份额已经超过了15%,稳居第三大操作系统,其生态之树已然枝繁…

牛客NC236 最大差值【simple 动态规划 Java/Go/PHP】

题目 题目链接: https://www.nowcoder.com/practice/a01abbdc52ba4d5f8777fb5dae91b204 思路 不难看出该题可以使用动态规划的方式解题。 在循环数组的过程中,记录截止到当前位置-1的最小值, 然后用当前的值去计算最大的差值。Java代码 im…

【软件设计师】下午题总结-数据流图、数据库、统一建模语言

下午题总结 1 试题一1.1 结构化语言 2 试题二弱实体增加权限增加实体间联系和联系的类型 3 试题三3.1 UML关系例子 3.2 例子(2016上半年)3.3 设计类分类3.3.1 接口类3.3.2 控制类3.3.3 实体类 3.4 简答题3.4.1 简要说明选择候选类的原则3.4.2 某个类必须…

【NOIP2014普及组复赛】题4:子矩阵

题3:子矩阵 【题目描述】 给出如下定义: 1.子矩阵:从一个矩阵当中选取某些行和某些列交叉位置所组成的新矩阵(保持行与列的相对顺序)被称为原矩阵的一个子矩阵。 例如,下面左图中选取第 2 、 4 2、4 2、…

结构安全预警?事前发现?人工观测VS自动化监测,谁更胜一筹?

人工检测是依靠目测检查或借助于便携式仪器测量得到的信息,但是随着整个行业的发展,传统的人工检测方法已经不能满足检测需求,从人工检测到自动化监测已是必然趋势。 a. 从检测方式看 人工检测需要耗费大量的精力,从摆放检测工具到…

web前端的路径和Servlet注解开发

目录 在web前端的两种路径 绝对路径的两种写法 相对路径 相对路径进阶 使用注解开发Servlet 使用注解开发Servlet的注意事项 使用idea创建servlet模板 在web前端的两种路径 绝对路径的两种写法 1.带网络三要素 http://ip地址:端口号/资源路径 2.不带网络三要素 /资源路…

Java开发大厂面试第17讲:MySQL 的优化方案有哪些?数据库设计、查询优化、索引优化、硬件和配置优化等

性能优化(Optimize)指的是在保证系统正确性的前提下,能够更快速响应请求的一种手段。而且有些性能问题,比如慢查询等,如果积累到一定的程度或者是遇到急速上升的并发请求之后,会导致严重的后果,…

Springboot开发 -- Postman 调试类型详解

引言 在 Spring Boot 应用开发过程中,接口测试是必不可少的一环。Postman 作为一款强大的 API 开发和测试工具,可以帮助开发者轻松构建、测试和管理 HTTP 请求。本文将为大家介绍如何在 Spring Boot 开发中使用 Postman 进行接口测试。 一、准备工作 安…

Three.js点与材质(Points)

球几何体 // 创建球几何体 const sphereGeometry new THREE.SphereGeometry(3, 20, 20) const material new THREE.MeshBasicMaterial({color: 0xff0000,wireframe: true // 以线框的形式显示顶点 }) const mesh new THREE.Mesh(sphereGeometry, material) scene.add(mesh)点…

淘宝订单系统ERP中如何接入平台订单信息?(订单API)

淘宝开放平台中有交易API,里面有各种关于交易的API接口。但是申报应用权限的审核流程严格又漫长。不少公司费时费力的申请后,结果还是没有审批下来。 调用淘宝自定义接口custom,可以实现淘宝开放平台API的调用。技术人员会根据您需要的接口做…

力扣第141题和142题-环形链表,是否有环,环的入口节点

因这2道题均不改变链表结构,所以可以不创建新的临时头结点 /*** Definition for singly-linked list.* struct ListNode {* int val;* struct ListNode *next;* };*/ bool hasCycle(struct ListNode *head) {if(headNULL||head->nextNULL)//若只有一个数…

恶劣天候鲁棒三维目标检测论文整理

恶劣天候鲁棒三维目标检测论文整理 Sunshine to Rainstorm: Cross-Weather Knowledge Distillation for Robust 3D Object DetectionRobo3D: Towards Robust and Reliable 3D Perception against CorruptionsLossDistillNet: 3D Object Detection in Point Cloud Under Harsh W…

2024目前网上最火短剧机器人做法,自动搜索发剧 自动更新资源 自动分享资源

目前整个项目圈子很多的短剧机器人,我写的,自动搜索发剧,自动更新资源,自动分享资源,前段时间大部分做短剧的都是做的短剧分成,我的一个学员做的30W播放量才200块收益,备受启发,我就…

迷你手持小风扇到底哪个牌子最好?揭秘迷你手持手持小风扇排行榜

在炎炎夏日,迷你手持小风扇成为了我们不可或缺的清凉伴侣。然而,面对市场上琳琅满目的品牌,迷你手持小风扇到底哪个牌子最好?今天,我将揭秘迷你手持小风扇排行榜,带大家一探各大品牌的魅力,让你…

交叉编译程序,提示 incomplete type “struct sigaction“ is not allowed

问题描述 incomplete type "struct sigaction" is not allowed解决办法 在代码的最顶端添加如下代码即可 #define _XOPEN_SOURCE此定义不是简单的宏定义,是使程序符合系统环境的不可缺少的部分 _XOPEN_SOURCE为了实现XPG:The X/Open Porta…

Vitis HLS 学习笔记--抽象并行编程模型-控制驱动与数据驱动

目录 1. 简介 2. Takeaways 3. Data-driven Task-level Parallelism 3.1 simple_data_driven 示例 3.2 分析 hls::task 类 3.3 分析通道(Channel) 3.4 注意死锁 4. Control-driven Task-level Parallelism 4.1 理解控制驱动的 TLP 4.2 simple_control_driven 示例 4…

59 多次 mmap 虚拟地址的关系

前言 这是来自于网友的一篇帖子 然后 我们这里来探究一下这个问题 主要是 多次连续的 mmap 获取到的 虚拟地址区域 是否连续 以及 衍生出的一些其他的问题 从 mmap 的实现 我们可以知道, mmap 的空间是 自顶向下 分配的, 因此 两块空间应该是连续的, 第一块在上面, 第二块…