生成超清分辨率视频,南洋理工开源Upscale-A-Video

news2024/11/18 11:30:09

大模型在生成高质量图像方面表现出色,但在生成视频任务中,经常会面临视频不连贯、图像模糊、掉帧等问题。

这主要是因为生成式抽样过程中的随机性,会在视频序列中引入无法预测的帧跳动。同时现有方法仅考虑了局部视频片段的时空一致性,无法保证整个长视频的整体连贯性。

为了解决这些难题,新加坡南洋理工大学的研究人员开发了一种Upscale-A-Video框架,无需任何训练便能快速集成到大模型中,提供视频超分辨率、去噪、还原等强大功能。

论文地址:https://arxiv.org/abs/2312.06640

开源地址:https://github.com/sczhou/Upscale-A-Video

项目地址:https://shangchenzhou.com/projects/upscale-a-video/

Upscale-A-Video主要借鉴了图像模型中的扩散方法,设计了一种无需大规模训练即可快速迁移的框架。

该框架融合了局部和全局两种策略来维持时间的一致性。局部层,模型通过 3D 卷积和时序注意力层增强特征提取网络U-Net在短视频片段内的一致性。

全局层,则通过光流指导的循环潜码传播功能,提供跨视频片段强化更长时间尺度下的连贯性。

除了时间一致性,Upscale-A-Video还可以通过文本提示指导细节纹理的生成,不同的提示词可产生不同风格、质量。

图片

时序U-Net

U-Net作为特征提取网络,对视频质量起决定性作用。传统只考虑空间信息的U-Net在处理视频时往往会引入高频误差,表现为抖动和闪烁。

Upscale-A-Video通过向U-Net中插入3D卷积块和时序自注意力层,增强其对时间维度的建模能力。这使U-Net可以学习视频数据中帧与帧之间的依赖,从而在局部序列内实现一致的超分辨重建。

图片

另一方面,研究人员选择固定U-Net中的空间层参数,只对新增时序层进行调优。这种策略的优点是可以避免从头大规模预训练,充分利用图像模型中提取的丰富特征。同时也缩短了网络收敛的时间,起到事半功倍的效果。

循环潜码

时序U-Net的作用范围仅局限于短视频片段,难以约束更长序列的全局一致性。而视频抖动和质量波动往往都是长时间范围内的现象。

为解决这一问题,Upscale-A-Video设计了一个基于光流的循环潜码传播模块。

该模块可以在不增加训练参数的情况下,通过前向和后向传播推断所有帧的潜码信息,有效扩大模型感知的时间范围。

图片

具体来说,该模块利用预先估计的光流场,进行逐帧传播与融合。它根据光流的前向-后向一致性误差判断传播的有效性,只选择误差小于阈值的区域进行特征传播。

而超出阈值的区域则保留当前帧信息。这种混合融合策略,既利用了光流建模的长期信息,又避免了传播错误的累积。

文本提示增强指导

Upscale-A-Video还支持文本条件和噪声水平的控制,用户可以依据实际情况,引导模型生成不同风格和质量的结果。

图片

文本提示可以指导模型合成更逼真的细节,如动物皮毛、油画笔触等。噪声水平的调整也提供了在还原与生成间权衡的灵活性:加入更少噪声有利于保真,而更高水平的噪声则促使模型补充更丰富的细节。

这种可控制的生成能力进一步增强了Upscale-A-Video处理复杂真实场景的鲁棒性

实验数据

研究人员从定量和定性两个方面全面验证了Upscale-A-Video的性能。在四个合成低质量视频基准上,皆取得了最高的峰值信号噪声比和最低的流式感知损失。

流式验证集和AI生成视频上, Upscale-A-Video的非参考画质评分也高居各方法之首。这也证明了Upscale-A-Video在保真还原和感知质量上的优势。

图片

从生成效果对比来看,Upscale-A-Video重建的视频展现了更高实际分辨率下的细节层次;运动轨迹更加连贯自然,没有明显的抖动和裂缝。这得益于强大的扩散先验和时空一致性优化。

相比之下,卷积神经网络和扩散等方法会出现模糊不清,失真等效果,无法达到同等水准。

本文素材来源Upscale-A-Video论文,如有侵权请联系删除

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1338467.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

物联网协议Coap之Californium CoapServer解析

目录 前言 一、CoapServer对象 1、类对象定义 2、ServerInterface接口 3、CoapServer对象 二、CoapServer服务运行分析 1、CoapServer对象实例化 1.1 调用构造方法 1.2 生成全局配置 1.3 创建Resource对象 1.4-1.8、配置消息传递器、添加CoapResource 1.9-1.12 创建线…

C# ASP.NET 实验室 检验中心 医疗LIS源码

LIS系统能够自动处理大量的医学数据,包括样本采集、样本处理、检测分析、报告生成等。它能够快速、准确地进行化验检测,提高医院的运营效率。LIS系统还提供了丰富的数据分析功能,能够对医院化验室的业务流程进行全面、细致的监控。 LIS系统优…

Hooked协议掀起WEB3新浪潮

随着区块链技术和加密货币的兴起,币圈已经成为全球范围内的一个热门领域。在这个充满机遇与挑战的行业中,Hook机制正逐渐成为一种重要的技术手段,为投资者、开发者以及相关机构提供了更多的选择和可能性。本文将详细介绍币圈中的Hook机制&…

Qt/C++音视频开发61-多屏渲染/一个解码渲染到多个窗口/画面实时同步

一、前言 多屏渲染就是一个解码线程对应多个渲染界面,通过addrender这种方式添加多个绘制窗体,我们经常可以在展会或者卖电视机的地方可以看到很多电视播放的同一个画面,原理应该类似,一个地方负责打开解码播放,将画面…

【每日一坑】高Q电感的“SRF”是什么?

先上截图 SRF Self-Resonant Frequency 自我共振频率 电感器中端子电极与绕组导体等之间存在微小的分布容量,因此在特定频率下会发生共振。 此时的频率称为自我共振频率,超过自我共振频率时,电感器将无法发挥其功能。 在为高频电路或高频…

图解集线器、中继器、交换机、网桥、路由器、光猫到底有啥区别?

集线器、中继器、交换机、网桥、光猫这些都是网络设备,但它们在功能、工作层次、数据传输方式、带宽占用方式等方面存在差异 集线器 集线器的英文称为“Hub”。“Hub”是“中心”的意思(就像是GitHub),集线器的主要功能是对接收…

张江智荟毁约offer

毕业8年后,找工作被国企歧视学历!已经收到了offer,在入职前一周被通知要撤回offer,拒绝录用,理由居然是他们只要本科211以上的人 这是我今天(2023-12-26)亲身经历的事,听说过面试前…

重磅!最新版北大核心期刊目录出炉,1987种期刊入选!26本期刊已经官宣!

近日,北京大学图书馆网站发布消息,称2023版《中文核心期刊要目总览》已开放采购,这也意味着,备受学界关注的第10版北大核心期刊目录已经出炉。此前,官网已经发布消息称评审工作结束,结果已经通过邮件告知相…

如何将图片(matlab、python)无损放入word论文

许多论文对插图有要求,直接插入png、jpg一般是不行的,这是一篇顶刊文章(pdf)的插图,放大2400%后依旧清晰,搜罗了网上的方法,总结了一下如何将图片无损放入论文中。 这里主要讨论的是数据生成的图…

数据库(Database)基础知识

什么是数据库 数据库是按照数据结构来组织、存储和管理数据的仓库,用户可以通过数据库管理系统对存储的数据进行增删改查操作。 数据库实际上是一个文件集合,本质就是一个文件系统,以文件的方式,将数据保存在电脑上。 什么是数据…

mvtec3d

以bagel为例,其中有calibration、 bagel # 百吉圈(硬面包)calibrationcamera_parameters.jsontestcombinedgt # 缺陷部位的分割剪影pngrgb # 原图pngxyz # tiffcontamination # 污染物同上crack同上good同上 hole同上 traingoodrgbxyzvalidationgood同traincla…

实现在云服务器ECS实例上绑定和解绑EIP

目录 前言 准备云服务器ECS实例 购买弹性公网IP 绑定公网IP到云服务器 测试通过弹性公网IP访问服务器 绑定EIP到第二台服务器 测试通过弹性公网IP访问服务器 前言 打算在杭州K区和杭州G区部署两台ECS云服务器,然后在其上部署不同的网站页面,购买E…

Java毕业设计—springboot健身房管理系统

一、项目背景介绍: 随着人们生活水平的提高和健康意识的增强,健身行业逐渐兴起并迅速发展。而现代化的健身房管理系统已经成为健身房发展的必备工具之一。传统的健身房管理方式已经无法满足现代化健身房的需求,需要一种更加高效、智能、安全…

C语言——字符函数和字符串函数(三)【strtok,strerror,perror】

📝前言: 上一篇文章C语言——字符函数和字符串函数(二)对字符函数和字符串函数strstr,strcmp和strncmp进行了一定的讲解 这篇文章主要讲解以下函数的用法: 1,strtok 2,strerror 3,pe…

线程学习(3)-volatile关键字,wait/notify的使用

​ 💕"命由我作,福自己求"💕 作者:Mylvzi 文章主要内容:线程学习(2)​​​​ 一.volatile关键字 volatile关键字是多线程编程中一个非常重要的概念,它主要有两个功能:保证内存可见性…

如何配置TLSv1.2版本的ssl

1、tomcat配置TLSv1.2版本的ssl 如下图所示&#xff0c;打开tomcat\conf\server.xml文件&#xff0c;进行如下配置&#xff1a; 注意&#xff1a;需要将申请的tomcat版本的ssl认证文件&#xff0c;如server.jks存放到tomcat\conf\ssl_file\目录下。 <Connector port"1…

MyBatis动态SQL(常用标签)

目录 标签--if 标签--trim 标签--where 标签--set 标签--foreach 和标签--sql和include 根据需求&#xff0c;动态拼接SQL&#xff0c;下面的标签示范使用xml的方式演示。 <if>标签--if 注解&#xff1a; 1.要把全部的SQL放在script标签下 2.使用if标签 可以观…

15-网络安全框架及模型-BLP机密性模型

目录 BLP机密性模型 1 背景概述 2 模型原理 3 主要特性 4 优势和局限性 5 困难和挑战 6 应用场景 7 应用案例 BLP机密性模型 1 背景概述 BLP模型&#xff0c;全称为Bell-LaPadula模型&#xff0c;是在1973年由D.Bell和J.LaPadula在《Mathematical foundations and mod…

PLC-IoT 网关开发札记(1):存档和分发 Android App

开篇记 PLC-IoT 网关是作者开发的产品&#xff0c;根据客户需求&#xff0c;立项开发手机 App&#xff0c;为用户提供一种方便、直观、友好的设备操控方式。网关运行的是嵌入式 Linux 操作系统&#xff0c;计划通过某一种通信协议&#xff08;例如 HTTP&#xff0c;MQTT或者 T…

微信小程序预览pdf,修改pdf文件名

记录微信小程序预览pdf文件&#xff0c;修改pdf名字安卓和ios都可用。 1.安卓和苹果的效果 2.需要用到的api 1.wx.downloadFile wx.downloadFile 下载文件资源到本地。客户端直接发起一个 HTTPS GET 请求&#xff0c;返回文件的本地临时路径 (本地路径)&#xff0c;单次下载…