2024年4月计算机视觉论文推荐

news2025/1/18 7:18:01

本文将整理4月发表的计算机视觉的重要论文,重点介绍了计算机视觉领域的最新研究和进展,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等各个子领域

扩散模型

1、Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization

在音乐和电影行业中,从文本提示生成音频是一个重要的研究方向。最近许多基于扩散模型的文本到音频方法专注于在大量的提示音频对的数据集上进行训练。

这些模型并没有显式关注输出音频中与输入提示相关的概念或事件及其时间顺序。而这篇论文的假设聚焦于音频生成中如何在数据有限的情况下提升音频生成性能。

使用现有的文本到音频模型Tango,合成创建一个偏好数据集,其中每个提示都有一个好的音频输出和一些不合适音频输出。理论上,不合适输出中有一些来自提示的概念缺失或顺序错误。

所以使用diffusion-DPO(直接偏好优化)损失对公开的Tango文本到音频模型进行微调,在这个的偏好数据集上训练后,模型能够在自动和手动评估指标上比Tango和AudioLDM2改善音频输出。

https://arxiv.org/abs/2404.09956

2、Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model

ControlNets广泛用于在图像生成中添加空间控制,如深度图、Canny边缘和人体姿势。但是在利用预训练的图像控制网进行受控视频生成时则有一些挑战。

首先,预训练的ControlNet由于特征空间不匹配,不能直接插入新的基础模型中,为新基础模型训练ControlNet的成本非常高。

其次,不同帧的ControlNet特征可能无法有效处理时间上的连贯性。

为应对这些挑战,论文引入了Ctrl-Adapter,通过适配预训练的ControlNets(并改进视频的时间对齐),为任何图像/视频扩散模型添加多样的控制。

Ctrl-Adapter提供多样的功能,包括图像控制、视频控制、稀疏帧视频控制、多条件控制、与不同基础模型的兼容性、适应未见控制条件和视频编辑。

在Ctrl-Adapter中,训练适配层将预训练的ControlNet特征融合到不同的图像/视频扩散模型中,同时保持ControlNets和扩散模型的参数不变。Ctrl-Adapter由时间和空间模块组成,因此能有效处理视频的时间连贯性。

论文还提出了潜在跳过和逆时间步采样技术,用于稳定的适应和稀疏控制。此外Ctrl-Adapter通过简单地取ControlNet输出的(加权)平均值,实现了多条件控制。

Ctrl-Adapter可以搭配多样的图像/视频扩散后端(SDXL, Hotshot-XL, I2VGen-XL, 和 SVD),在图像控制方面与ControlNet匹敌,在视频控制方面超越所有基准(在DAVIS 2017数据集上达到了最高的准确率),且计算成本显著降低(少于10个GPU小时)。

https://arxiv.org/abs/2404.09967

视觉语言模型(VLMs)

3、Scaling (Down) CLIP: A Comprehensive Analysis of Data, Architecture, and Training Strategies

论文研究了在计算资源有限的条件下,对比语言图像预训练(CLIP)模型的性能表现。从数据、架构和训练策略三个维度探讨了CLIP模型。

关于数据,展示了高质量训练数据的重要性,并证明了小规模的高质量数据集可以胜过大规模的低质量数据集。

还研究了模型性能随不同数据集大小的变化情况,发现较小的ViT模型更适合小数据集,而较大的模型在固定计算资源下对大数据集的表现更佳。

此外,论文还研究了何时选择基于CNN的架构或基于ViT的架构进行CLIP训练。比较了四种CLIP训练策略——SLIP、FLIP、CLIP和CLIP+数据增强——并显示训练策略的选择取决于可用的计算资源。

分析揭示,CLIP+数据增强可以仅使用一半的训练数据达到与CLIP相当的性能。这项工作提供了如何有效训练和部署CLIP模型的实用见解,使其在各种应用中更易于获取和负担得起。

https://arxiv.org/abs/2404.08197

4、On the Robustness of Language Guidance for Low-Level Vision Tasks: Findings from Depth Estimation

最近在单目深度估计领域的进展时通过引入自然语言作为额外的指导而取得。尽管取得了令人印象深刻的结果,但语言先验在泛化能力和鲁棒性方面的影响尚未被探索。

所以论文通过量化这种先验的影响并介绍了一种评估其在不同环境中有效性的方法来填补这一空白。作者生成了描述物体中心的三维空间关系的“低级”句子,将它们作为额外的语言先验,并评估它们对深度估计的下游影响。

论文主要发现是,当前的语言引导的深度估计器只有在使用场景级描述时才能表现最佳,而使用低级描述时的表现却出人意料地更差。虽然利用了额外的数据,但这些方法对有针对性的对抗攻击不具备鲁棒性,并且随着分布偏移的增加表现出下降。

最后为了给后续的研究提供基础,论文确定了失败的点并提供了洞见以更好地理解这些缺点。

https://arxiv.org/abs/2404.08540

图像生成与编辑

5、Probing the 3D Awareness of Visual Foundation Models

大规模预训练的进展已经产生了具有强大能力的视觉基础模型。最近的模型不仅可以推广到任意图像的训练任务,而且它们的中间表示对于其他视觉任务(如检测和分割)也很有用。

考虑到这些模型可以在2D中对物体进行分类、描绘和定位,论文尝试它们是否也代表3D结构,分析了视觉基础模型的三维意识。

论文假设3D感知意味着表征(1)对场景的3D结构进行编码,(2)跨视图一致地表示真值。使用任务特定探针和零样本推理程序对冻结特征进行了一系列实验,揭示了当前模型的几个局限性。

https://arxiv.org/abs/2404.08636

6、HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing

论文引入了一个高质量的基于指令的图像编辑数据集HQ-Edit,其编辑量约为20万次。与之前依赖属性指导或人工反馈构建数据集的方法不同,设计了一个利用先进的基础模型(GPT-4V和DALL-E 3)的可扩展数据收集管道。

为了确保其高质量,首先在线收集各种示例,然后进行扩展,用于创建具有输入和输出图像的高质量双连画,并附有详细的文本提示,然后通过后处理确保精确对齐。

论文还提出了两个评估指标,对齐和一致性,定量评估使用GPT-4V图像编辑对的质量。HQ-Edit的高分辨率图像,丰富的细节,并伴随着全面的编辑提示,大大增强了现有的图像编辑模型的能力。

经过HQ-Edit微调的InstructPix2Pix可以获得最先进的图像编辑性能,甚至超过那些经过人工注释数据微调的模型。

https://arxiv.org/abs/2404.09990

7、EdgeFusion: On-Device Text-to-Image Generation

稳定扩散(SD)算法在文本到图像生成过程中的大量计算量对其实际应用构成了很大的障碍。为了应对这一挑战,最近的研究集中在减少采样步骤的方法上,比如潜在一致性模型(Latent Consistency Model, LCM),以及架构优化,包括剪枝和知识蒸馏。

与现有的方法不同,论文从紧凑的SD变体BK-SDM开始。观察到直接将LCM应用于BK-SDM与常用的抓取数据集产生不满意的结果。

然后开发了两种策略:(1)利用来其他生成模型的高质量图像-文本对;(2)设计为LCM量身定制的高级蒸馏过程。通过对量化、分析和设备上部署的深入探索,只需两步即可快速生成逼真的文本对齐图像,在资源有限的边缘设备上延迟不到一秒。

https://arxiv.org/abs/2404.11925

8、Dynamic Typography: Bringing Words to Life

文本动画作为一种表达媒介,通过给文字注入运动来唤起情感,强调意义,构建引人入胜的叙事。

制作具有语义意识的动画提出了重大挑战,要求图形设计和动画方面的专业知识。论文则提出了一个自动文本动画方案,称为“Dynamic Typography”,它结合了两个具有挑战性的任务。它通过变形字母来传达语义,并根据用户提示为字母注入充满活力的动作。

利用矢量图形表示和基于端到端优化的框架。采用神经位移场将字母转换为基本形状,并应用逐帧运动,鼓励与预期文本概念的一致性。在整个动画过程中,采用形状保持技术和感知损失正则化来保持易读性和结构完整性。

论文展示了这种方法在各种文本到视频模型中的通用性,并强调了端到端方法优于基线。通过定量和定性的评估,证明了论文的框架在生成连贯的文本动画方面的有效性,这些动画忠实地解释了用户提示,同时保持了可读性。

https://arxiv.org/abs/2404.11614

视频理解与生成

9、Video2Game: Real-time, Interactive, Realistic and Browser-Compatible Environment from a Single Video

创建高质量的交互式虚拟环境,例如游戏和模拟器,通常涉及复杂且昂贵的手动建模过程。

论文提出了一种新颖的方法Video2Game,可以自动将现实世界场景的视频转换为现实的交互式游戏环境。系统的核心是三个核心组件:(i)神经辐射场(NeRF)模块,有效捕获场景的几何形状和视觉外观;(ii)从NeRF中提取知识以加快渲染的网格模块;以及(iii)物理模块,对象之间的相互作用和物理动力学进行建模。

通过精心设计的管道,可以构建一个可交互和可操作的真实世界的数字复制品。在室内和大型室外场景中对系统进行基准测试。不仅可以实时制作高度逼真的渲染图,还可以在上面构建互动游戏。

https://arxiv.org/abs/2404.09833

10、AniClipart: Clipart Animation with Text-to-Video Priors

剪贴画是一种预先制作好的图形艺术形式,它提供了一种方便有效的方式来说明视觉内容。将静态剪贴画图像转换为运动序列的传统工作流程既费力又耗时,并且涉及许多复杂的步骤。

最近在文本到视频生成方面取得的进展在解决这一问题方面具有很大的潜力。但是直接应用文本到视频生成模型往往难以保持剪贴画图像的视觉识别或生成卡通风格的运动,导致动画效果不理想。

论文介绍了AniClipart,一个将静态剪贴画图像转换为高质量运动序列的系统,该系统由文本到视频先验引导。为了生成卡通风格的平滑运动,我们首先在剪贴画图像的关键点上定义Bezier 曲线,作为运动正则化的一种形式。

然后通过优化视频分数蒸馏采样(VSDS)损失,将关键点的运动轨迹与提供的文本提示对齐,该损失在预训练的文本到视频扩散模型中编码了足够的自然运动知识。采用可微的As-Rigid-As-Possible形状变形算法,可以在保持变形刚度的情况下实现端到端优化。

实验结果表明,所提出的AniClipart在文本-视频对齐、视觉身份保持和运动一致性方面始终优于现有的图像-视频生成模型。论文还展示了AniClipart的多功能性,通过调整它来生成更广泛的动画格式,例如分层动画,它允许拓扑更改。

https://arxiv.org/abs/2404.12347

https://avoid.overfit.cn/post/6ea12c7caca64be2a03317a8bce92bed

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1628127.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于遗传算法的TSP算法(matlab实现)

一、理论基础 TSP(traveling salesman problem,旅行商问题)是典型的NP完全问题,即其最坏情况下的时间复杂度随着问题规模的增大按指数方式增长,到目前为止还未找到一个多项式时间的有效算法。TSP问题可描述为:已知n个城市相互之间的距离&…

25计算机考研院校数据分析 | 南京大学

南京大学(Nanjing University),简称“南大”,是中华人民共和国教育部直属、中央直管副部级建制的全国重点大学,国家首批“双一流”、“211工程”、“985工程”重点建设高校,入选首批“珠峰计划”、“111计划…

无人机+巡飞弹:“柳叶刀”巡飞弹技术详解

“柳叶刀”巡飞弹技术是一种结合了无人机和巡飞弹的先进武器系统,由俄罗斯ZalaAero公司研制,首次公开亮相是在2019年的俄罗斯军队装备展上。该系统以其高度的灵活性和精确打击能力,在现代战场上扮演着重要角色。 系统组成:柳叶刀巡…

MFC实现ini配置文件的读取

MFC实现 ini 配置文件的读取1 实现的功能:点击导入配置文件按钮可以在旁边编辑框中显示配置文件的路径,以及在下面的编辑框中显示配置文件的内容。 1. 显示配置文件内容的编辑框设置 对于显示配置文件内容的 Edit Contorl 编辑框的属性设置如下&#x…

自制音频格式二维码的方法,适合多种音频格式使用

现在可以通过二维码的方法来传递音频文件是很常用的一种方式,可以将单个或者多个音频放入一个二维码,通过手机扫码来调取云端储存的音频文件来播放内容,这样可以让多人同时扫码获取内容,提升传播速度。 音频二维码制作的方法也比…

纵览2024年:排名靠前的项目管理软件一览!

时间飞逝,2024年已经过去近半,让我们来盘点2024年排名靠前的项目管理软件,项目管理软件排行榜,本次上榜的项目管理软件有Zoho Projects、Microsoft Project、Nifty、Smartsheet、ClickUp。 一、项目管理软件排行榜 1.Zoho Projec…

航空企业数字化解决方案(207页PPT)

一、资料描述 航空企业数字化解决方案是一项针对航空公司在数字化转型过程中所面临挑战的全面应对策略,旨在通过先进的信息技术提升航空企业的运营效率、客户服务水平以及市场竞争力。这份207页的PPT详细介绍了航空企业数字化的各个方面,包括关键技术的…

解决主机有网络但虚拟机没网络连接问题----记录

问题描述:主机Windows有网络但虚拟机Linux没有网络 1.使用ifconfig 命令查看Linux网络IP 发现只有lo本地回环网卡ip并没有真实网卡IP 2.查看本地所有网卡 终端输入 ip link show 结果:虚拟机上还有一个ens33 真实的网卡驱动, 解决办法&…

Aurora-64B/10B、XDMA与DDR结合设计高速数据流通路设计/Aurora光纤设计/XDMA读取DDR设计/基于FPGA的高速数据传输设计

因最近想通过FPGA把数据从光纤传到PC,借此机会和大家一起学习Aurora、XDMA结合DDR 制作不易,记得三连哦,给我动力,持续更新!!! 完整工程文件下载:XDMA读写DDR工程 提取码&…

数据结构——二叉树练习(深搜广搜)

数据结构——二叉树练习 路径之和深度优先算法和广度优先算法二叉搜索树判断一棵二叉树是否为搜索二叉树和完全二叉树 我们今天来看二叉树的习题: 路径之和 https://leetcode.cn/problems/path-sum-ii/ 这是一个典型的回溯,深度优先算法的题&#xff0c…

Docker镜像和容器操作

目录 一.Docker镜像创建与操作 1. 搜索镜像 2. 获取镜像 3. 镜像加速下载 4. 查看镜像信息 5. 查看下载的镜像文件信息 ​编辑6. 查看下载到本地的所有镜像 7. 根据镜像的唯一标识ID号,获取镜像详细信息 8. 为本地的镜像添加新的标签 9. 删除镜像 10. 存入…

【1731】jsp 房租跟踪监控管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 JSP 房租跟踪监控管理系统是一套完善的java web信息管理系统,对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为 TOMCAT7.0,Myeclipse8.5开发,数据库为Mysq…

【uniapp/ucharts】采用 uniapp 框架的 h5 应用使用 ucharts(没有 uni_modules)

这种情况无法直接从 dcloud 平台上一键下载导入,所以应该在官网推荐的 git 仓库去单独下载: https://gitee.com/uCharts/uCharts/tree/master/uni-app/uCharts-%E7%BB%84%E4%BB%B6/qiun-data-charts(%E9%9D%9Euni_modules) 下载的文件是如图所示的路径&…

AI大模型探索之路-训练篇2:大语言模型预训练基础认知

文章目录 前言一、预训练流程分析二、预训练两大挑战三、预训练网络通信四、预训练数据并行五、预训练模型并行六、预训练3D并行七、预训练代码示例总结 前言 在人工智能的宏伟蓝图中,大语言模型(LLM)的预训练是构筑智慧之塔的基石。预训练过…

如何将web content项目导入idea并部署到tomcat

将Web Content项目导入IntelliJ IDEA并部署到Tomcat主要涉及以下几个步骤: 1. 导入Web Content项目 打开IntelliJ IDEA。选择“File” -> “New” -> “Project from Existing Sources…”。浏览到你的Web Content项目的文件夹,并选择它。Intell…

数据结构(C):时间复杂度和空间复杂度

目录 🚀 0.前言 🚀 1.为何会有时间复杂度和空间复杂度的概念 🚀 2.时间复杂度 2.1初步时间复杂度 2.2大O表示法 2.2.1.O(N*N) 2.2.2.O(N) 2.2.3.O(1) 2.3最坏情况…

【Qt】error LNK2001: 无法解析的外部符号

参考:Qt/VS LNK2019/LNK2001:无法解析的外部符号_qt lnk2001无法解析的外部符号-CSDN博客 微软官方报错文档-链接器工具错误 LNK2019 __declspec error LNK2001: 无法解析的外部符号 "__declspec(dllimport) 原因 以这种为前缀的基本上跟库相关…

微信小程序:11.本地生活小程序制作

开发工具: 微信开发者工具apifox进行创先Mock 项目初始化 新建小程序项目输入ID选择不使用云开发,js传统模版在project.private.config中setting配置项中配置checkinalidKey:false 梳理项目结构 因为该项目有三个tabbar所以我们要创建三…

点击消除

点击消除 描述: 对一个字符串,每次“点击”,可以把字符串中相邻两个 相同字母消除。 例如,字符串"abbc"点击后可以生成"ac"。 但相同而不相邻、不相同的相邻字母都是不可以被消除的。 如果想把字符串变得…

比亚迪24届春招Offer面经

本文介绍2024届春招中,比亚迪的高级底盘工程师岗位1场面试的基本情况、提问问题等。 2024年04月投递了比亚迪的系统开发类、 技术研发类、 技术研究类岗位,面试结束后分配至高级底盘工程师岗位;面试前未确定部门,面试结束后分配至…