【AIGC-文本/图片生成视频系列-10】SparseCtrl:在文本生成视频的扩散模型中添加稀疏控制

news2025/1/23 4:50:49

目录

一. 项目概述

二. 方法详解

三. 应用结果

四.个人思考


由于扩散模型生成空间的不确定性,仅仅通过文本生成视频时,会导致模糊的视频帧生成。

今天解析的SparseCtrl,是一种有效解决上述问题的方案,通过带有附加编码器的时间稀疏条件图来控制文本到视频的生成。

一. 项目概述与贡献

已有解决方案:

目前学术界利用密集结构信号(例如每帧深度/边缘序列)来增强可控性,但其收集相应地增加了推理负担。

提出的SparseCtrl:

  1. 实现对时间稀疏信号的灵活结构控制,仅需要一个或几个输入。

  2. 它包含一个额外的条件编码器来处理这些稀疏信号,同时保持预训练的 T2V 模型不变。

  3. 所提出的方法与各种模式兼容,包括草图、深度和 RGB 图像,为视频生成提供更实用的控制,并促进故事板、深度渲染、关键帧动画和插值等应用。

  4. 大量实验证明了 SparseCtrl 在原始和个性化 T2V 生成器上的泛化能力。

图片

二. 方法详解

图片

(a)SparseCtrl管线概述。(b)vanilla ControlNet(左), SparseCtrl的稀疏条件编码器(右)之间的比较

在SparseCtrl管线中,主要由两部分网络结构组成:

  1. 预训练的T2V主干网络,处于冻结状态;

  2. 附加的稀疏编码器。

这里需要着重解析的是Sparse Encoder, 和原生的ControlNet只考虑单帧的情况不同,Sparse Encoder 考虑了输入的稀疏性和时序性,加入了T2V时间层(这里的时间层就是带有位置编码的时序attention)。由此,稀疏条件编码器可以使条件信号从帧传播到帧,保证了生产视频的一致性。

原生的ControlNet和Sparse encoder中的差别在于:

  1. 原生ControlNet不仅拷贝了Unet 的编码器,还拷贝了输入的噪声样本。输入的条件和输入的噪声样本进行sum 操作后再进入ControlNet网络。这样的设计保证了模型训练的稳定以及加速收敛。

  2. 在Sparse Ctrl中,如果沿用原生ControlNet的设置,那么对于无条件帧而言,Sparse encoder的输入变为仅噪声样本。但这可能会鼓励Sparse encoder忽略条件输入并在训练过程中依赖噪声样本zt,这与我们可控性增强的目标相矛盾。因此SparseCtrl提出的稀疏编码器消除了噪声样本输入,只接受条件和掩码图的组合输入。

三. 应用结果

SparseCtrl可以应用于图像动画,关键帧插值,视频插值,视频预测,深度图引导生成,素描生成视频,故事板生成等领域。

图片

图片

图片

图片

四.个人思考

总体而言,SparseCtrl还是给人带来很多启发的。只用稀疏的控制信号就可以实现以往连续控制信号才可以做到的事,生成效果不错的同时也比较符合现实应用。毕竟为了生成一个视频,我们不可能都预先准备好逐帧的控制信号图,这个太不现实。依靠一两帧控制图就可以生成视频比较符合现实操作环境。


关注公众号【AI杰克王】

1. 回复“资源”,获取AIGC 博客教程,顶级大学PPT知识干货;

2. 回复“星球”,获取AIGC 免费知识星球入口,有前沿资深算法工程师分享讨论。

欢迎加入AI杰克王的免费知识星球,海量干货等着你,一起探讨学习AIGC!

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1389182.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

为啥4位单片机那么LOW,还没被淘汰?

我以为8位的51单片机已经够低端了,没想到竟然还有4位单片机!它到底有什么优势?用在什么领域? 在刚开始学习单片机的时候,我一直以为用越高端的芯片就越牛逼。 而现实,公司做产品和我们单片机学习者&#xf…

12V充4.2V单节锂电池充电管理芯片

12V充4.2V单节锂电池充电管理芯片:高效、简单、实用的充电解决方案 随着智能设备的普及,电池充电管理已经成为一个热门话题。本文将介绍一款12V到4.2V*UIC9527单节锂电池充电管理芯片,它具有简单、高效、实用等特点,广泛应用于各…

spring boot学习第八篇:kafka

目录 1、安装kafka 1.1确认jdk是否安装OK 1.2下载kafka 1.3安装kafka 1.4验证kafka 2、连接kafka 3、在java中操作kafka 1、安装kafka 1.1确认jdk是否安装Ok java -version 1.2下载kafka wget http://archive.apache.org/dist/zookeeper/zookeeper-3.4.14/zookeeper-…

RTSP协议播放不兼容TPLINK摄像头的处理办法

报错的内容是Number of element invalid in origin string. 位置如图 数据内容是 "- 14665860 31787219 1 IN IP4 172.16.108.70" 两个数字中间多了一个空格,导致判断数据不等于6 所以数据输入的时候把中间的空格去掉一个即可。 if (array.Length …

【K8S 】K8S配置资源管理

一、Secret: 1、概念 用来保存密码。token,敏感的K8S资源 这类数据可以直接存放在镜像中,但是放在Secret中可以更方便的控制,减少暴露的风险 Secret:保存加密的信息 2、Secret类型: docker-registry&am…

如何有效构建进攻性的网络安全防护策略

文章目录 前言一、进攻性安全策略的价值(一)进攻性安全和防御性安全的区别(二)进攻性安全带来一种新的测试和防御的方法(三)进攻性安全策略也比防御性安全策略更具前瞻性 二、进攻性安全策略的类型&#xf…

Transformer 位置编码

✅作者简介:人工智能专业本科在读,喜欢计算机与编程,写博客记录自己的学习历程。 🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心&…

LeetCode刷题---随机链表的复制

解题思路: 使用哈希表来解决该问题 因为题中要求是深拷贝 首先对原链表遍历,将原链表每个节点和新链表每个节点形成对应关系,存入到哈希表中,key为原链表的节点,value为新链表的节点。 之后重置辅助链表指向原链表头节…

Jmemter

一、背景 有时候需要自己观察某些接口在一定并发下处理能力如果,那么Jmeter是一个很好的工具。 我所需要测试的接口是http接口,通过postman就可以发起请求,但postman单笔请求太慢,需要持续给接口一定压力,那么需要用J…

Docker登录MySQL,密码正确却提示密码错误

当我输入了正确的MySQL密码的时候确提示我密码错误: ERROR 1045 (28000): Access denied for user rootlocalhost (using password: YES) docker run --name mysql_master \ -e MYSQL_ROOT_PASSWORD123123 \ -v /root/mysql_master/data:/var/lib/mysql \ -v /root…

【电商API】DIY网络爬虫收集电商数据

DIY网络爬虫收集电商数据 网络爬虫是最常见和使用最广泛的数据收集方法。DIY网络爬虫确实需要一些编程知识,但整个过程比一开始看起来要简单得多。 当然,爬虫的有效性取决于许多因素,例如目标的难度、网站方的反爬虫措施等。如果将网络抓取用…

Spring IOC 源码分析

​ 什么是 IoC IoC (Inversion of control )控制反转。它是一种思想不是一个技术实现。描述的是:Java开发领域对象的创建以及管理的问题。 例如:现有类A依赖于类B。传统的开发方式 :往往是在类A中手动通过new关键字…

华为埋头造车,躺赚的却是黄牛?

文 | AUTO芯球 作者 | 雷歌 华为和赛力斯正在重庆哼哧a哼哧建厂造车,黄牛却在网上倒卖订单躺着赚钱。 前两天雷歌刚去试驾了问界M9,现场一车难求。 今天回来一看,好家伙,咸鱼上,黄牛们大量倒卖M9的大定订单&#x…

2024年机器人和人工智能将通过4种方式改变行业

文 | BFT机器人 前言: 2023年是人工智能界充满创造性和突破性的一年,包括生成式人工智能在内的人工智能 (AI) 技术的出现引起了全球的关注并占据了头条新闻。然而,生成式人工智能在企业中的应用仍处于早期阶段,如何最好地利用这项…

Markdown 时序图绘制详解

✍️作者简介:小北编程(专注于HarmonyOS、Android、Java、Web、TCP/IP等技术方向) 🐳博客主页: 开源中国、稀土掘金、51cto博客、博客园、知乎、简书、慕课网、CSDN 🔔如果文章对您有一定的帮助请&#x1f…

消费增值模式:从五折购物到利润共享的商业逻辑

在当今的商业环境中,消费者和商家之间的关系已经不再是简单的买卖。如何让消费者在购物的同时,也能享受到更多的价值,成为了各大平台争相探索的焦点。近日,一种名为“消费增值模式”的创新逻辑正在引起广泛的关注。这一模式以产品…

iOS UI掉帧和卡顿优化解决方案记录

UI卡顿原理 在 VSync 信号到来后,系统图形服务会通过 CADisplayLink 等机制通知 App,App 主线程开始在 CPU 中计算显示内容,比如视图的创建、布局计算、图片解码、文本绘制等。随后 CPU 会将计算好的内容提交到 GPU 去,由 GPU 进行…

postman 简单测试(一)

1.postman官网 Postman API Platform 2.研究了一下postman 一些简单的功能,自己做个记录,同时希望能节约点测试时间。 2.1新建一个 collections 长期测的话,最好注册一个账号,开放更多功能。 2.2新建一个请求 后端要先搭建起来…

怎么将文件上传到linux系统

1.在虚拟机VMware上设置–选项-共享文件夹-启用 2.添加,依次选择【下一步】,浏览时,选择本机要上传的文件夹 3.勾上【启用此共享】,完成即可 4.在linux输入命令找到共享文件,共享的目录默认是/mnt/hgfs&#xff0…

QT上位机开发(MFC vs QT)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 在qt之前,上位机开发的主要方法就是mfc。后来出现了c#语言之后,上位机的开发就有一部分人转成了c#。这些开发都是在windows…