Low-Level 大一统:如何使用Diffusion Models完成视频超分、去雨、去雾、降噪等所有Low-Level 任务?

news2025/1/18 8:38:48

Diffusion Models专栏文章汇总:入门与实战

前言:视频在传输过程中常常因为各种因素(如恶劣天气、噪声、压缩和传感器分辨率限制)而出现质量下降,这会严重影响计算机视觉任务(如目标检测和视频监控)的性能。现有的视频修复方法虽然取得了一些进展,但通常只能针对特定的退化类型,需要为每种任务训练单独的模型。这种方法在现实应用中成本高昂且不切实际,因为实际场景中往往存在多种退化因素。这篇博客介绍一种使用Diffusion Models完成视频超分、去雨、去雾、降噪等所有Low-Level 任务的方法。

目录

现有视频修复方法的局限性

特定任务导向,缺乏通用性

难以保持时间一致性

现有基于扩散模型的视频修复方法的不足

方法详解

论文


现有视频修复方法的局限性

为了解决上述问题,研究人员开发了多种视频修复方法,这些方法旨在恢复视频质量,使其更接近原始状态。然而,现有方法存在以下局限性:

特定任务导向,缺乏通用性
  • 现有方法通常针对特定类型的视频退化进行设计,例如:

    • 去雾算法专门处理雾霾导致的图像模糊。
    • 去噪算法针对不同类型的噪声进行消除。
    • 去雨算法专门去除视频中的雨滴和雨线。
    • 超分辨率算法用于提高视频的分辨率和清晰度。
  • 这种特定任务导向的设计存在以下问题:

    • 成本高昂: 需要为每种退化类型训练单独的模型,增加了计算资源和时间成本。
    • 不切实际: 在现实世界中,视频往往同时受到多种退化的影响,例如,雨天通常伴随着雾霾和噪声。单独使用某种修复方法无法有效恢复视频质量。
难以保持时间一致性
  • 时间一致性是指视频中连续帧之间的一致性。

    • 例如,在修复视频时,物体的形状、颜色和运动轨迹应该在连续帧中保持一致。
    • 缺乏时间一致性会导致视频出现闪烁、抖动等不自然的现象,严重影响观看体验。
  • 现有图像修复方法在应用于视频时,往往难以保持时间一致性:

    • 逐帧处理: 许多图像修复方法逐帧处理视频,忽略了帧与帧之间的关联性,导致时间不一致。
    • 缺乏跨帧信息整合: 一些方法虽然尝试整合跨帧信息,但往往存在以下问题:
      • 计算成本高: 处理多个帧需要更大的内存和计算资源。
      • 难以处理大范围运动: 当视频中存在快速移动的对象时,跨帧信息整合变得更加困难,容易出现伪影和不一致。

现有基于扩散模型的视频修复方法的不足

一些研究尝试将扩散模型应用于视频修复,但存在以下问题:

  • 缺乏时间一致性: 逐帧应用扩散模型进行修复,无法有效整合跨帧信息,导致时间不一致。
  • 缺乏对内容保留的关注: 一些方法在追求视觉效果的同时,忽略了原始视频内容的保留,导致修复后的视频出现失真。

方法详解

  • 提出了一种基于扩散模型的多功能视频修复方法(TDM):

    • 利用预训练的 Stable Diffusion 模型: 该模型具有强大的生成能力和对文本提示的理解能力,为视频修复提供了强大的基础。
    • 微调 ControlNet: 通过对 ControlNet 进行微调,使其能够适应特定的任务提示(如“去除噪声”),实现对不同视频退化的修复。
    • 任务提示引导(TPG): 在训练和推理过程中,使用描述任务名称的文本提示来指导扩散过程,使其专注于特定的任务。
  • 提出了一种新的推理策略:

    • 滑动窗口跨帧注意力(SW-CFA): 该机制将参考帧扩展到当前帧周围的滑动窗口内,对窗口内的键和值进行平均,以更好地处理大范围运动,并实现更有效的一帧到视频的零样本适应。
    • 结合 DDIM 反演: 使用 DDIM 反演生成输入视频帧的潜在表示的确定性噪声,为扩散过程提供稳定的结构引导,从而更好地保留输入视频的内容。
  • 构建了一个可扩展的管道: 该方法可以在单个 GPU 上进行训练,并且可以在单图像修复数据集上训练后直接用于视频推理,使其能够轻松扩展到其他视频修复任务。

论文

https://arxiv.org/pdf/2501.02269v1

TDM: Temporally-Consistent Diffusion Model for All-in-One Real-World Video Restoration

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2278388.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

矩阵碰一碰发视频源码技术开发全解析,支持OEM

在当今数字化内容传播迅速发展的时代,矩阵碰一碰发视频功能以其便捷、高效的特点,为用户分享视频提供了全新的体验。本文将深入探讨矩阵碰一碰发视频源码的技术开发过程,从原理到实现,为开发者提供全面的技术指引。 一、技术原理 …

测试工程师的linux 命令学习(持续更新中)

1.ls """1.ls""" ls -l 除文件名称外,亦将文件型态、权限、拥有者、文件大小等资讯详细列出 ls -l等同于 ll第一列共10位,第1位表示文档类型,d表示目录,-表示普通文件,l表示链接文件。…

HJ34 图片整理(Java版)

一、试题地址 图片整理_牛客题霸_牛客网 二、试题描述 描述 对于给定的由大小写字母和数字组成的字符串,请按照 ASCIIASCII 码值将其从小到大排序。 如果您需要了解更多关于 ASCIIASCII 码的知识,请参考下表。 输入描述: 在一行上输入一…

web开发工具之:三、JWT的理论知识,java的支持,封装的工具类可以直接使用

文章目录 前言一、JWT的理论知识1. 什么是 JWT(JSON Web Token)?2. **JWT 的组成**3. **JWT 的特点**4. **JWT 的使用场景**5. **JWT 的生命周期**6. **JWT 的优点**7. **JWT 的注意事项**5. **JWT 示例**总结 二、java的springboot支持1. po…

电路笔记(信号):Python 滤波器设计分析工具pyfda

目录 滤波器设置(3步实现滤波器设计)数据分析与使用pyfda功能界面数字滤波器数学表示线性相位线性相位的定义线性相位的特性 冲击响应quartus数据加载 CG 滤波器设置(3步实现滤波器设计) pip install pyfda #安装python依赖,详见https://pyfda.readthedocs.io/en/la…

【15】Word:互联网发展状况❗

目录 题目​ NO2 NO3 NO4 NO5 NO6 NO7.8.9 NO7 NO8 NO9 NO10 题目 NO2 布局→页面设置→纸张:A4→页边距:上下左右→版式:页眉/页脚页码范围:多页:对称页边距→内侧/外侧→装订线 NO3 首先为文档应用内置…

Web前端开发技术之HTMLCSS知识点总结

学习路线 一、新闻网界面1. 代码示例2. 效果展示3. 知识点总结3.1 HTML标签和字符实体3.2 超链接、颜色描述与标题元素3.3 关于图片和视频标签:3.4 CSS引入方式3.5 CSS选择器优先级 二、flex布局1. 代码示例2. 效果展示3. 知识点总结3.1 span标签和flex容器的区别3.…

BUUCTF Web

[极客大挑战 2019]LoveSQL union注入 是sql注入类型 输入1 发现不是数字型注入,那就是字符型注入。判断字段数,输入order by 4 #发现错误,就存在三个字段数 判断回显点:1 union select 1,2,3 # 判断回显点为2,3 判断数据库名 …

Kinova仿生机械臂Gen3搭载BOTA 力矩传感器SeneOne:彰显机器人触觉 AI 与六维力传感的融合力量

随着工业4.0时代的到来,自动化和智能化成为制造业的趋势。机器人作为实现这一趋势的重要工具,其性能和智能水平直接影响到生产效率和产品质量。然而,传统的机器人系统在应对复杂任务时往往缺乏足够的灵活性和适应性。为了解决这一问题&#x…

【数据库】MySQL数据库SQL语句汇总

目录 1.SQL 通用语法 2.SQL 分类 2.1.DDL 2.2.DML 2.3.DQL 2.4.DCL 3.DDL 3.1.数据库操作 3.1.1.查询 3.1.2.创建 3.1.3.删除 3.1.4.使用 3.2.表操作 3.2.1.查询 3.2.2.创建 3.2.3.数据类型 3.2.3.1.数值类型 3.2.3.2.字符串类型 3.2.3.3.日期时间类型 3.2…

《汽车与驾驶维修》是什么级别的期刊?是正规期刊吗?能评职称吗?

​问题解答: 问:《汽车与驾驶维修》是不是核心期刊? 答:不是,是知网收录的第二批认定学术期刊。 问:《汽车与驾驶维修》级别? 答:省级。主管单位:中国机械工业联合会…

鸿蒙UI(ArkUI-方舟UI框架)-开发布局

文章目录 开发布局1、布局概述1)布局结构2)布局元素组成3)如何选择布局4)布局位置5)对子元素的约束 2、构建布局1)线性布局 (Row/Column)概述布局子元素在排列方向上的间距布局子元素在交叉轴上的对齐方式(…

数据结构——概述

1、什么是数据结构? 数据结构是计算机存储和管理数据的方式。数据必须依据某种逻辑联系组织在一起存储在计算机内,数据结构研究的就是这种数据的逻辑结构和数据的存储结构 2、逻辑结构——数据本身之间的关系 逻辑结构在计算机中的实现 (1…

业务架构、数据架构、应用架构和技术架构

TOGAF(The Open Group Architecture Framework)是一个广泛应用的企业架构框架,旨在帮助组织高效地进行架构设计和管理。 TOGAF 的核心就是由我们熟知的四大架构领域组成:业务架构、数据架构、应用架构和技术架构。 企业数字化架构设计中的最常见要素是4A 架构。 4…

python爬虫入门(实践)

python爬虫入门(实践) 一、对目标网站进行分析 二、博客爬取 获取博客所有h2标题的路由 确定目标,查看源码 代码实现 """ 获取博客所有h2标题的路由 """url "http://www.crazyant.net"import re…

简历_使用优化的Redis自增ID策略生成分布式环境下全局唯一ID,用于用户上传数据的命名以及多种ID的生成

系列博客目录 文章目录 系列博客目录WhyRedis自增ID策略 Why 我们需要设置全局唯一ID。原因:当用户抢购时,就会生成订单并保存到tb_voucher_order这张表中,而订单表如果使用数据库自增ID就存在一些问题。 问题:id的规律性太明显、…

win32汇编环境,窗口程序中对多行编辑框的操作

;运行效果 ;win32汇编环境,窗口程序中对多行编辑框的操作 ;比如生成多行编辑框,显示文本、获取文本、设置滚动条、捕获超出文本长度消息等。 ;直接抄进RadAsm可编译运行。重点部分加备注。 ;下面为asm文件 ;>>>>>>>>>>>>>&g…

【Flink系列】5. DataStream API

5. DataStream API DataStream API是Flink的核心层API。一个Flink程序,其实就是对DataStream的各种转换。具体来说,代码基本上都由以下几部分构成: 5.1 执行环境(Execution Environment) Flink程序可以在各种上下文…

探索未来:Leap Motion JavaScript框架——开启VR与手势控制的无限可能

探索未来:Leap Motion JavaScript框架——开启VR与手势控制的无限可能 leapjs JavaScript client for the Leap Motion Controller 项目地址: https://gitcode.com/gh_mirrors/le/leapjs 项目介绍 欢迎来到Leap Motion JavaScript框架的世界!Lea…

PCM5142集成32位384kHz PCM音频立体声114dB差分输出DAC编解码芯片

目录 PCM5142 简介PCM5142功能框图PCM5142特性 参考原理图 PCM5142 简介 PCM514x 属于单片 CMOS 集成电路系列,由立体声数模转换器 (DAC) 和采用薄型小外形尺寸 (TSSOP) 封装的附加支持电路组成。PCM514x 使用 TI 最新一代高级分段 DAC 架构产品,可实现…