DiffuEraser: 一种基于扩散模型的视频修复技术

news2025/1/29 6:47:21

视频修复算法结合了基于流的像素传播与基于Transformer的生成方法,利用光流信息和相邻帧的信息来恢复纹理和对象,同时通过视觉Transformer完成被遮挡区域的修复。然而,这些方法在处理大范围遮挡时常常会遇到模糊和时序不一致的问题,这凸显了增强生成能力模型的重要性。近期,由于扩散模型在图像和视频生成方面展现出了卓越的性能,已成为一种重要的技术。在本文中,我们介绍了DiffuEraser,这是一种基于稳定扩散的视频修复模型,旨在以更丰富的细节和更连贯的结构填充被遮挡区域。我们融入了先验信息以提供初始化和弱条件约束,这有助于减轻噪声伪影并抑制幻觉现象。此外,为了提高长序列推理过程中的时序一致性,我们扩展了先验模型和DiffuEraser的时序感受野,并利用视频扩散模型的时序平滑特性进一步增强了一致性。实验结果表明,我们提出的方法在内容完整性和时序一致性方面均优于当前最先进的技术,同时保持了可接受的效率。

图1. 所提模型DiffuEraser与Propainter的性能比较。

(a)纹理质量:与基于Transformer的Propainter相比,DiffuEraser生成的纹理更加详细和精细。(b)时序一致性:与Propainter相比,DiffuEraser在修复内容中展现出了更优的时序一致性。

引言

视频修复旨在用既合理又时序一致的内容来填补被遮挡的区域。以往的视频修复算法主要依赖于两种机制:

1)基于流的像素传播方法,该方法利用光流,通过借鉴相邻帧的信息来恢复纹理细节和对象;以及
2)基于Transformer的视频修复方法,该方法在完善对象的结构方面表现出色[26]。

当前的主流算法通常将这两种方法相结合,包含三个模块或阶段:
1)流完成,
2)特征传播,以及
3)内容生成。

该解决方案将被遮挡的像素分为两类:
1)已知像素,这些像素在某些被遮挡的帧中出现过,并可以通过流完成和特征传播模块传播到其他帧,确保修复后的内容与未遮挡区域的一致性;以及
2)未知像素,这些像素在任何被遮挡的帧中都未出现过,由内容生成模块生成,从而增强结果的结构完整性。

最先进的算法Propainter[46]就是这一方法的例证,它包含三个关键模块:循环流完成、双域传播和掩码引导稀疏Transformer。它有效地将所有帧中的已知像素进行传播,并初步展现出生成未知像素的能力。然而,当遮挡区域较大时,Transformer模型的生成能力显得不足,导致显著的人工痕迹,如图1所示。

因此,需要具有更强生成能力的更强大模型。最近在图像和视频生成领域崭露头角的稳定扩散模型成为了一个有前景的候选者。

在本研究中,我们首先将视频修复任务分解为三个子问题,然后为每个子问题提出相应的解决方案。具体来说,三个关键挑战是:已知像素的传播、未知像素的生成以及修复后内容的时序一致性。我们的主要贡献总结如下:

  1. 视频修复扩散:我们为基于扩散模型的图像修复模型BrushNet引入了一个运动模块。扩散模型强大的生成能力克服了基于Transformer模型所关联的模糊和马赛克人工痕迹,从而完善了对象结构并生成了更详细的内容。
  2. 注入先验:我们将先验信息融入扩散模型,使得初始化更容易,以减轻噪声人工痕迹,并作为弱条件来抑制不期望对象的生成。
  3. 增强时序一致性:我们通过扩展先验模型和扩散模型的时序感受野,提高了长序列推理的时序一致性。此外,我们还利用视频扩散模型的时序平滑特性,进一步增强了片段之间交界的时序连续性。

DiffuEraser的优势主要体现在以下几个方面:

  1. 详细的纹理和精细的结构
    • DiffuEraser能够生成比基于Transformer的同类算法(如Propainter)更加详细和精细的纹理。这意味着在视频修复过程中,它能够更真实地还原被遮挡或损坏区域的细节。
  2. 优越的时序一致性
    • 在处理长序列视频时,DiffuEraser能够展示出比传统方法更优越的时序一致性。这对于保持视频整体的流畅性和连贯性至关重要,特别是在需要修复大范围遮挡区域时。
  3. 结合先验信息
    • DiffuEraser融入了先验信息,这有助于提供初始化和弱条件约束。这种方法有助于减轻修复过程中可能出现的噪声伪影,并抑制幻觉现象,从而提高修复结果的准确性和真实性。
  4. 扩展的时序感受野
    • 为了进一步提高时序一致性,DiffuEraser扩展了其时序感受野。这意味着它能够更好地捕捉和利用视频帧之间的时间关系,从而生成更加连贯和一致的修复结果。
  5. 利用视频扩散模型的时序平滑特性
    • DiffuEraser还利用了视频扩散模型的时序平滑特性,这进一步增强了其修复结果的一致性。这一特性有助于在视频修复过程中保持整体的平滑性和连贯性。
  6. 高效的性能
    • 尽管DiffuEraser在内容完整性和时序一致性方面表现出色,但它仍然保持了可接受的效率。这意味着它能够在合理的时间内完成高质量的视频修复任务。

综上所述,DiffuEraser以其详细的纹理、优越的时序一致性、结合先验信息的能力、扩展的时序感受野、利用视频扩散模型的时序平滑特性以及高效的性能等优势,在视频修复领域具有显著的优势。

DiffuEraser的原理主要基于稳定扩散的视频修复模型。以下是对其原理的详细解释:

一、基于稳定扩散的模型架构

DiffuEraser利用了扩散模型在图像和视频生成方面的优势。扩散模型是一种生成模型,它通过学习数据分布来生成新的样本。在视频修复任务中,DiffuEraser通过稳定扩散的过程,逐步从噪声中生成出与视频内容一致的修复结果。

二、融合先验信息与弱条件约束

在修复过程中,DiffuEraser融入了先验信息来提供初始化和弱条件约束。这些先验信息可能来自于视频的其他部分、相邻帧或外部数据库等。通过利用这些信息,DiffuEraser能够更好地理解视频的整体结构和内容,从而生成更加准确和连贯的修复结果。

三、处理时序一致性问题

为了保持视频的时序一致性,DiffuEraser采用了多种策略。首先,它扩展了时序感受野,以便更好地捕捉和利用视频帧之间的时间关系。其次,DiffuEraser利用了视频扩散模型的时序平滑特性,通过平滑处理来减少帧与帧之间的不一致性。这些策略共同确保了修复后的视频在时序上保持连贯和一致。

四、详细纹理与精细结构的生成

DiffuEraser在生成修复结果时,注重细节和结构的完整性。它利用扩散模型的生成能力,逐步填充被遮挡或损坏的区域,并生成出与周围内容相匹配的详细纹理和精细结构。这使得修复后的视频在视觉上更加真实和自然。

综上所述,DiffuEraser的原理是基于稳定扩散的视频修复模型,通过融合先验信息与弱条件约束、处理时序一致性问题以及生成详细纹理与精细结构等策略,实现了高质量的视频修复效果。

相关工作

扩散模型。扩散模型[14, 32, 34]的出现极大地提升了图像和视频生成的质量和创造性。在图像合成领域,扩散模型推动了包括文本到图像生成[5, 29]、可控图像生成[24, 43]、图像编辑[1, 12, 22]、个性化图像生成[6, 28]以及图像修复[27, 16]在内的多种任务的显著进步。在这些进展的基础上,结合了额外运动模块的视频扩散模型也获得了广泛关注。该领域的关键应用包括文本到视频生成[11, 8, 10, 13, 15, 31]、可控视频生成[3, 4, 36, 39]、视频编辑[19, 23, 38, 21]以及各种无需训练的视频合成方法[44, 25]。

视频修复。视频修复旨在用合理的内容填补视频中的遮挡区域,同时保持时序一致性。基于3D卷积和移位操作的早期方法性能有限。利用光流和Transformer架构的方法的出现显著提高了视频修复的质量。基于流的像素传播方法[7, 41, 42]擅长利用相邻帧的信息来恢复纹理和细节。相比之下,基于Transformer的方法[40, 20, 18, 46]则擅长完善对象的结构。其中,Propainter[46]作为一种代表性方法脱颖而出,它包含了循环流完成、双域传播和掩码引导稀疏Transformer。Propainter有效地将所有帧中的已知像素进行传播,并初步展现出生成未知像素的能力。然而,在处理大遮挡区域时,其生成能力有限,导致明显的人工痕迹。

随着扩散模型的日益流行,基于扩散的视频修复方法也开始出现[17, 37, 30, 9, 45, 47]。这些方法利用扩散模型强大的生成能力来增强修复区域的细节和结构完整性,从而解决了基于Transformer方法中存在的一些限制。BIVDiff[30]是一个无需训练的框架,通过桥接图像和视频扩散模型来实现。AVID[45](此处未提供详细描述,但假设为另一种视频修复方法)……

图2。基于稳定扩散的所提视频修复模型DiffuEraser的概述。主要去噪UNet执行去噪过程以生成最终输出。BrushNet分支从遮挡图像中提取特征,这些特征在经过一个零卷积块后逐层添加到主要去噪UNet中。在自注意力和交叉注意力之后融入了时序注意力以提高时序一致性。

结论与讨论

在本文中,我们介绍了DiffuEraser,一个基于稳定扩散的视频修复模型。我们通过将视频修复任务分解为三个子问题来解决它:已知像素的传播(出现在某些遮挡帧中的像素)、未知像素的生成(从未在任何遮挡帧中出现的像素)以及保持完成内容的时序一致性。针对每个子问题,我们提出了量身定制的解决方案。

对于未知像素的生成,稳定扩散模型强大的生成能力帮助DiffuEraser有效地克服了基于Transformer模型中普遍存在的模糊和马赛克问题。此外,我们通过结合先验信息来减轻稳定扩散模型固有的幻觉问题,确保修复结果更加准确和真实。

在已知像素的传播方面,去噪UNet中的运动模块与先验信息提供的增强传播特性相结合,确保了已知像素在帧之间的充分且一致传播。这避免了完成内容与未遮挡区域之间的冲突,从而提高了结果的正确性和稳定性。

为了解决长序列推理中片段之间的时序不一致问题,我们扩展了先验模型和DiffuEraser的时序感受野,显著增强了所有帧中完成内容的一致性。此外,我们还利用视频扩散模型(VDM)的时序平滑特性,进一步增强片段交界处的时序连贯性。

结合先验信息的概念以及用于长序列推理中提高时序一致性的方法也适用于其他多种视频编辑任务,如对象替换和局部风格化。这些应用将在未来的工作中进一步探索。实验结果表明,DiffuEraser在内容完整性和时序一致性方面均优于最先进的方法,确立了其在视频修复任务中的优越地位。

视频修复

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2284077.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

STM32完全学习——RT-thread在STM32F407上移植

一、写在前面 关于源码的下载,以及在KEIL工程里面添加操作系统的源代码,这里就不再赘述了。需要注意的是RT-thread默认里面是会使用串口的,因此需要额外的进行串口的初始化,有些人可能会问,为什么不直接使用CubMAX直接…

QT TLS initialization failed

qt使用QNetworkAccessManager下载文件(给出的链接可以在浏览器里面下载文件),下载失败, 提示“TLS initialization failed”通常是由于Qt在使用HTTPS进行文件下载时,未能正确初始化TLS(安全传输层协议&…

全面了解 Web3 AIGC 和 AI Agent 的创新先锋 MelodAI

不管是在传统领域还是 Crypto,AI 都是公认的最有前景的赛道。随着数字内容需求的爆炸式增长和技术的快速迭代,Web3 AIGC(AI生成内容)和 AI Agent(人工智能代理)正成为两大关键赛道。 AIGC 通过 AI 技术生成…

Golang之Context详解

引言 之前对context的了解比较浅薄,只知道它是用来传递上下文信息的对象; 对于Context本身的存储、类型认识比较少。 最近又正好在业务代码中发现一种用法:在每个协程中都会复制一份新的局部context对象,想探究下这种写法在性能…

VSCode+Continue实现AI辅助编程

Continue是一款功能强大的AI辅助编程插件,可连接多种大模型,支持代码设计优化、错误修正、自动补全、注释编写等功能,助力开发人员提高工作效率与代码质量。以下是其安装和使用方法: 一、安装VSCode 参见: vscode安…

Python 在Word中添加、或删除超链接

在Word文档中,超链接是一种将文本或图像连接到其他文档、网页或同一文档中不同部分的功能。通过添加超链接,用户可以轻松地导航到相关信息,从而增强文档的互动性和可读性。本文将介绍如何使用Python在Word中添加超链接、或删除Word文档中的超…

Oracle迁移DM数据库

Oracle迁移DM数据库 本文记录使用达梦官方数据迁移工具DTS,将Oracle数据库的数据迁移至达梦数据库。 1 数据准备 2 DTS工具操作步骤 2.1 创建工程 打开DTS迁移工具,点击新建工程,填写好工程信息,如图: 2.2 新建迁…

Spring Boot整合JavaMail实现邮件发送

一. 发送邮件原理 发件人【设置授权码】 - SMTP协议【Simple Mail TransferProtocol - 是一种提供可靠且有效的电子邮件传输的协议】 - 收件人 二. 获取授权码 开通POP3/SMTP,获取授权码 授权码是QQ邮箱推出的,用于登录第三方客户端的专用密码。适用…

编辑器Vim基本模式和指令 --【Linux基础开发工具】

文章目录 一、编辑器Vim 键盘布局二、Linux编辑器-vim使用三、vim的基本概念正常/普通/命令模式(Normal mode)插入模式(Insert mode)末行模式(last line mode) 四、vim的基本操作五、vim正常模式命令集插入模式从插入模式切换为命令模式移动光标删除文字复制替换撤销上一次操作…

K8S极简教程(4小时快速学会)

1. K8S 概览 1.1 K8S 是什么 K8S官网文档:https://kubernetes.io/zh/docs/home/ 1.2 K8S核心特性 服务发现与负载均衡:无需修改你的应用程序即可使用陌生的服务发现机制。存储编排:自动挂载所选存储系统,包括本地存储。Secret和…

淘宝商品数据解析的应用场景有哪些?

淘宝商品数据解析在多个领域有着广泛的应用场景,以下为你详细介绍: 电商运营与营销 选品分析:通过解析淘宝商品数据,卖家可以了解不同商品的销售情况、价格区间、市场需求热度等信息。例如分析某类商品在不同季节的销量变化&#…

基于OpenCV实现的答题卡自动判卷系统

一、图像预处理 🌄 二、查找答题卡轮廓 📏 三、透视变换 🔄 四、判卷与评分 🎯 五、主函数 六、完整代码+测试图像集 总结 🌟 在这篇博客中,我将分享如何使用Python结合OpenCV库开发一个答题卡自动判卷系统。这个系统能够自动从扫描的答题卡中提取信…

计网week1+2

计网 一.概念 1.什么是Internet 节点:主机及其运行的应用程序、路由器、交换机 边:通信链路,接入网链路主机连接到互联网的链路,光纤、网输电缆 协议:对等层的实体之间通信要遵守的标准,规定了语法、语义…

如何使用tushare pro获取股票数据——附爬虫代码以及tushare积分获取方式

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、pandas是什么?二、使用步骤 1.引入库2.读入数据 总结 一、Tushare 介绍 Tushare 是一个提供中国股市数据的API接口服务,它允许用户…

vim的多文件操作

[rootxxx ~]# vim aa.txt bb.txt cc.txt #多文件操作 next #下一个文件 prev #上一个文件 first #第一个文件 last #最后一个文件 快捷键: ctrlshift^ #当前和上个之间切换 说明:快捷键ctrlshift^&#xff0c…

Mac m1,m2,m3芯片使用nvm安装node14报错

使用nvm安装了node 12/16/18都没有问题,到14就报错了。第一次看到这个报错有点懵,查询资料发现是Mac芯片的问题。 Issue上提供了两个方案: 1、为了在arm64的Mac上安装node 14,需要使用Rosseta,可以通过以下命令安装 …

【云安全】云原生-Docker(五)容器逃逸之漏洞利用

漏洞利用逃逸 通过漏洞利用实现逃逸,主要分为以下两种方式: 1、操作系统层面的内核漏洞 这是利用宿主机操作系统内核中的安全漏洞,直接突破容器的隔离机制,获得宿主机的权限。 攻击原理:容器本质上是通过 Linux 的…

JAVA设计模式:依赖倒转原则(DIP)在Spring框架中的实践体现

文章目录 一、DIP原则深度解析1.1 核心定义1.2 现实比喻 二、Spring中的DIP实现机制2.1 传统实现 vs Spring实现对比 三、Spring中DIP的完整示例3.1 领域模型定义3.2 具体实现3.3 高层业务类3.4 配置类 四、Spring实现DIP的关键技术4.1 依赖注入方式对比4.2 自动装配注解 五、D…

基于微信小程序的健身管理系统设计与实现(LW+源码+讲解)

专注于大学生项目实战开发,讲解,毕业答疑辅导,欢迎高校老师/同行前辈交流合作✌。 技术范围:SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容:…

【机器学习】深入探索SVM:支持向量机的原理与应用

目录 🍔 SVM引入 1.1什么是SVM? 1.2支持向量机分类 1.3 线性可分、线性和非线性的区分 🍔 小结 学习目标 知道SVM的概念 🍔 SVM引入 1.1什么是SVM? 看一个故事,故事是这样子的: 在很久以前的情人节&#xf…