【论文阅读】AADiff: Audio-Aligned Video Synthesis with Text-to-Image Diffusion

news2024/11/27 16:27:20

AADiff:基于文本到图像扩散的音频对齐视频合成。

code:没开源

paper:[2305.04001] AADiff: Audio-Aligned Video Synthesis with Text-to-Image Diffusion (arxiv.org)

一种新的T2V框架,额外使用音频信号来控制时间动态,使现成的T2I扩散能够生成音频对准的视频。我们提出了基于音频的区域编辑和信号平滑,平衡了时间灵活性和连贯性。

1 介绍

文本到视频模型仍处于起步阶段。例如,完全依赖文本提示来指导整个生成过程,因此建模详细的时间动态方面困难。此外,输出缺乏音频,更接近动画gif而不是视频。即使在有音频先验的情况下,也不容易将视频输出与这个附加条件同步。

作者希望地将音频模态合并到传统T2I中,实现更可控的时间扩展。具体来说,给定一个T2I扩散模型,如stable diffusion 1,使用文本和音频来指导视频合成,前者侧重于可视化场景语义,而后者更负责时间动态的细粒度控制。

总结贡献:

  • 第一个使用文本和音频的组合来指导视频合成的扩散模型。
  • 提出了一个简单而有效的框架,用于文本到图像模型的音频同步视频生成,无需额外的训练或配对数据。
  • 制作与音频输入同步的视频,提供内容创建应用程序。

应用:媒体创作者可以使用公共声源制作短视频,同时使用不同的文本提示操作场景构图和外观。与Null inversion等图像反演技术相结合时,可以将音频对应的图像动画化。框架与其模型组件是正交的,因此可以不断地从生成模型的进步中受益。方法建立在稳定扩散的基础上,在512 × 512的尺度下进行高质量的视频合成。

2 方法

图1方法概述。给定音频信号和文本提示,首先分别由音频编码器和文本编码器嵌入。选择具有最高相似度的文本标记并用Prompt-to-prompt编辑图像,其中平滑的音频幅度控制注意力强度。 

2.1 先验知识

对比式语言-音频预训练(CLAP):通过使用两个编码器和CLIP中的对比学习,来整合文本和音频。

Latent Diffusion Model (LDM):计算效率高的扩散模型,使用Variational Auto-Encoder,首先将像素值映射到潜在码,然后在潜在空间中进行顺序去噪操作。

2.2 Audio-aligned扩散

目标是生成一个与提示相对应的视频,在此提示上,添加基于声音的精细动态效果。

采用了三种预训练基础模型:文本编码器、音频编码器和扩散主干。对于文本编码器和扩散生成器,使用Stable diffusion和CLIP。

CLAP用于生成音频嵌入,根据两两相似度,突出显示top-k文本标记。有了感兴趣的文本标记,得到如Prompt-to-prompt所示的空间注意力图。一般选择k = 1。

2.3 带有注意力图控制的局部编辑

Prompt-to-prompt是一种通过注意图控制进行文本驱动图像编辑的方法。使用图像翻译执行视频合成时,用音频查询的top-k文本token进行局部语义编辑。为了模拟音频信号的时间动态,沿时间轴取输入音频的幅值,并将其用作控制每个时间帧图像编辑强度的乘子。具体来说,音频幅度乘以目标文本标记与图像之间的注意图,当音频信号较强时,突出显示的区域会发生急剧变化。这限制了输出视频与音频信号的同步。

2.4 用滑动窗口平滑音频

使用音频幅度作为引导信号提供了时间上的灵活性。但,利用每个时间框架的原始值会导致输出不稳定。为了克服这个问题,在音频幅度上应用一个大小为5的滑动窗口。这平滑了音频信号的变化,并有助于制作更自然和连贯的动态视频。不同窗口大小的影响如图2所示。

图2。可变滑动窗口。较小的窗口大小可以有效地捕捉动态变化,例如打雷。较大的窗口大小则擅长于表示渐变,例如野火蔓延。这个超参数允许内容创建者灵活地控制视频的时间动态。

 

3 实验

 

 图3。不同声源的定性结果。

 图4。剪辑相似度和音频大小。这两个值是一致的,表明我们的模型忠实地反映了视频语义中的音频动态。

图5。零反演的定性结果。我们的方法可以将真实图像和音频源结合起来,创造出更加身临其境的视听内容。

 图6。窗口大小分析。无窗口(s = 1)导致过度波动,而无限窗口(s = 150)过度限制了时间动态。我们在中档找到最佳点。

没有窗口,时间动态太不稳定,导致时间不一致的输出。应用无限窗口时,视频被过度的动量拖动,产生类似于静止图像的样本。我们在中间找到一个最佳点,在不过度损害动态灵活性的情况下保证一定程度的时间一致性。

图7。视频合成从多个音频信号。AADiff可以利用混合在音频输入中的不同语义,并生成自然结合这些概念的视频。 

图8。通过不同的音频幅度,可以进一步控制变形的程度。 

 

图9。与传统的文本到视频模型不同,AADiff结合了音频输入的时间动态,当给出同一类的不同声音时产生不同的视频。 

框架是如何整合音频信号的:尽管被赋予相同的声音类别(如雷雨),但由于音频内容的不同,输出的视频也具有不同的视觉动态。这将我们的方法与纯文本驱动的视频合成方法区别开来,后者通常缺乏以细粒度方式控制时间动态的手段。

4 结论

提出了一个新的框架,将文本和音频作为输入并生成音频同步视频。由于不需要额外的训练或任何形式的配对数据,它可以以简单的方式充分利用最先进的多模态基础模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1342395.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Nginx服务器中设置禁止访问文件或目录的方法

location ^~ /assets/ { deny all; } 已启用目录浏览 在nginx要禁止某个或一类资源,只需要增加一个location,然后在其中使用deny all即可。 禁止访问扩展名为bat的文件,配置如下: location ~* /.bat { deny all…

部署一款开源的网站监控工具—Uptime Kuma

项目介绍 项目地址:louislam/uptime-kuma: A fancy self-hosted monitoring tool (github.com) Uptime Kuma是一个开源的网络服务监控工具。它允许用户监视他们的网络服务,以确保其正常运行,并提供有关服务可用性和性能的实时信息。Uptime K…

纯CSS实现马里奥效果,回忆一下童年吧

📢 鸿蒙专栏:想学鸿蒙的,冲 📢 C语言专栏:想学C语言的,冲 📢 VUE专栏:想学VUE的,冲这里 📢 CSS专栏:想学CSS的,冲这里 &#x1f4…

【JavaWeb】day01-HTMLCSS

day01-HTML&CSS HTML 图片标签&#xff1a;<img> src&#xff1a;指定图像URL&#xff08;绝对路径/相对路径&#xff09;width&#xff1a;图像宽度&#xff08;像素/相对于父元素的百分比&#xff09;height&#xff1a;图像高度&#xff08;像素/相对于父元素的百…

智慧城市新型基础设施建设综合方案:文件全文52页,附下载

关键词&#xff1a;智慧城市建设方案&#xff0c;智慧城市发展的前景和趋势&#xff0c;智慧城市项目方案&#xff0c;智慧城市管理平台&#xff0c;数字化城市&#xff0c;城市数字化转型 一、智慧城市新基建建设背景 1、城市化进程加速&#xff1a;随着城市化进程的加速&am…

【SpringBoot篇】详解Bean的管理(获取bean,bean的作用域,第三方bean)

文章目录 &#x1f354;Bean的获取&#x1f384;注入IOC容器对象⭐代码实现&#x1f6f8;根据bean的名称获取&#x1f6f8;根据bean的类型获取&#x1f6f8;根据bean的名称和类型获取 &#x1f384;Bean的作用域⭐代码实现&#x1f388;注意 &#x1f384;第三方Bean⭐代码实现…

基于Java+SpringBoot+vue实现图书借阅管理系统

基于JavaSpringBootvue实现图书借阅和销售商城一体化系统 &#x1f345; 作者主页 程序设计 &#x1f345; 欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; &#x1f345; 文末获取源码联系方式 &#x1f4dd; 文章目录 基于JavaSpringBootvue实现图书借阅和销售商城一体化…

C++面试宝典第11题:两数之和

题目 给定一个整数数组和一个目标值,请在该数组中找出和为目标值的那两个整数,并返回他们的数组下标,要求时间复杂度为O(n)。可以假设每种输入只会对应一个答案,注意:不能重复利用这个数组中同样的元素。 解析 这道题主要考察应聘者对算法时间复杂度和空间复杂度的理解,时…

麒麟信安成为福建省信息技术应用创新协会首批成员单位

为深入贯彻落实福建省委省政府关于信创工作部署&#xff0c;在福建省密码管理局、福建省工业和信息化厅、福建省数字福建建设领导小组办公室指导下&#xff0c;12月27日&#xff0c;福建省电子信息集团牵头举办福建省信息技术应用创新发展大会&#xff0c;中国工程院陈左宁院士…

2023-12-29 服务器开发-centos部署ftp

摘要: 2023-12-29 服务器开发-centos-部署ftp 部署ftp vsftpd&#xff08;very secure FTP daemon&#xff09;是Linux下的一款小巧轻快、安全易用的FTP服务器软件。本教程介绍如何在Linux实例上安装并配置vsftpd。 前提条件 已创建ECS实例并为实例分配了公网IP地址。 背景…

LVM逻辑卷与扩容

目录 一.LVM&#xff1a; 1.什么是LVM&#xff1a; 2.LVM的基本核心组件&#xff1a; 3.LVM的基本命令&#xff1a; 二.逻辑卷的创建&#xff1a; 第一步&#xff0c;我们先要为虚拟机添加硬盘 然后我们要添加依赖包 然后我们要进行磁盘分区 再添加好分区后&#xff0…

电脑开机自动断电,简单4招,快速解决!

“不知道我的电脑最近是怎么回事&#xff0c;每次一开机就会出现自动断电的情况&#xff0c;有什么方法可以解决吗&#xff1f;” 在使用电脑时&#xff0c;由于电源供应不稳定或过热&#xff0c;以及各种硬件问题&#xff0c;可能会导致电脑开机自动断电。遇到这种情况&#x…

xyz地心坐标转经纬度高程

1.我在读取GNSS的o文件时候&#xff0c;发现有的站点没有经纬度和高程。就像下图一样&#xff0c;只给了近似坐标。&#xff08;下面是例子&#xff0c;bjfs一般是个人都能找到经纬度和高程&#xff09; 2.没办法&#xff0c;只能自己转换。&#xff08;注意单位是km&#xff0…

linux 内核模块

linux 内核模块 1. 内核相关命令与文件内核模块存放位置查看已加载内核模块加载与卸载内核模块修改内核参数永久调整内核参数 2. 常用模块进程调度模块进程间通信模块内存管理模块文件系统模块网络接口模块 Linux 内核采用的是模块化技术&#xff0c;这样的设计使得系统内核可以…

stata回归结果输出中,R方和F值到底是用来干嘛的?

先直接回答问题&#xff0c;R方表示可决系数&#xff0c;反映模型的拟合优度&#xff0c;也就是模型的解释能力如何&#xff0c;也可以理解为模型中的各个解释变量联合起来能够在多大程度上解释被解释变量&#xff1b;F值用于模型整体的统计显著性&#xff0c;对应的P值越小&am…

二、类与对象(三)

17 初始化列表 17.1 初始化列表的引入 之前我们给成员进行初始化时&#xff0c;采用的是下面的这种方式&#xff1a; class Date { public:Date(int year, int month, int day)//构造函数{_year year;_month month;_day day;} private:int _year;int _month;int _day; };…

如何理解Go语言的数组

什么是数组 首先下一个定义&#xff0c;数组是对线性的内存区域的抽象。高维数组和一维数组有着同样的内存布局。&#xff08;大学生考试的时候别借鉴哈&#xff0c;这是自己下的定义&#xff0c;相当于是一篇议论文的论点。&#xff09; 线性的内存区域说白了就是连续的内存…

Spire.Office 8.12.2 for .NET

Spire.Office 8.12.2 发布。在此版本中&#xff0c;Spire.Doc支持Word到PCL和PostScript转换中的文本整形以及确定文档是否加密&#xff1b;Spire.Presentation支持将母版页转换为图像&#xff1b;Spire.PDFViewer支持在WinForm项目中使用Ctrl滚轮实现界面缩放效果。此外&#…

Python自动化测试:选择最佳的自动化测试框架

在开始学习python自动化测试之前&#xff0c;先了解目前市场上的自动化测试框架有哪些&#xff1f; 随着技术的不断迭代更新&#xff0c;优胜劣汰也同样发展下来。从一开始工具型自动化&#xff0c;到现在的框架型&#xff1b;从一开始的能用&#xff0c;到现在的不仅能用&…

Unity C# Mp3 Mp4 音频 视频 合成

需求 将声音文件合并到视频中 限制 暂时只支持Windows使用 准备 下载ffmpeg.exe 解压后得到exe https://ffmpeg.org/download.html#releases 注意事项&#xff1a; 目录要在一起 代码 public void StartExe(){if (File.Exists(ffmpegExe)){ string mp4;string mp3;//…