视觉叙事的艺术:StoryDiffusion打造一致性图像/视频故事创作

news2025/3/9 22:46:01

论文:https://arxiv.org/pdf/2405.01434

主页:StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation

一、摘要总结

        本文提出了一种名为StoryDiffusion的新方法,用于生成一系列内容一致的图像和视频,特别是那些包含主体和复杂细节的图像。StoryDiffusion通过两种新颖的组件来实现这一目标:Consistent Self-Attention(一致性自注意力)和Semantic Motion Predictor(语义运动预测器)。

  • Consistent Self-Attention:这是一种新的自注意力计算方式,能够在不需要训练的情况下,通过零样本(zero-shot)的方式显著提升生成图像间的一致性。它通过在自注意力的计算过程中引入参考图像的采样token,增强了图像间的身份和服饰一致性,这对于讲述故事/故事绘本至关重要
  • Semantic Motion Predictor:这是一个新颖的语义空间时间运动预测模块,它被训练用来估计两张给定图像在语义空间中的运动条件。该模块能够将生成的图像序列转换为具有平滑过渡和一致主体的视频,特别是在长视频生成的背景下,相比于仅基于浅特征空间的模块,它提供了更稳定的结果。

二、算法框架

本文提出的StoryDiffusion框架主要分为两个阶段来生成一致性图像和视频:

a.)第一阶段:生成一致性图像

  1. 文本分割:将一个故事文本分割成多个提示(prompts),每个提示对应一个单独的图像。
  2. 批量生成:使用分割出的提示批量生成图像。
  3. Consistent Self-Attention (CAB):将一致性自注意力模块插入到预训练的文本到图像的扩散模型中。这个模块在生成过程中建立图像间的关系,以保持角色的一致性。
  4. 无需训练的插入:Consistent Self-Attention利用原始的自注意力权重,无需额外训练,即可插入并使用。

b.)第二阶段:生成一致性过渡视频

  1. 图像序列到视频:将生成的一致性图像序列通过插入帧转换为视频,这里视作已知起始和结束帧的视频生成任务。
  2. Semantic Motion Predictor:使用语义运动预测器来预测两个给定图像之间的过渡条件。该模块首先将起始帧和结束帧编码到语义空间中,以捕获空间信息。
  3. 预测中间帧:在语义空间中,使用基于Transformer的结构预测器来预测中间帧的嵌入。
  4. 视频扩散模型:将预测的嵌入作为控制信号,使用视频生成模型进行解码,生成最终的过渡视频。

c.)核心流程细节

  • Consistent Self-Attention:通过随机采样来自批次中其他图像的特征token,并在自注意力计算中将它们与当前图像的特征合并,以此来增强图像间的一致性。
  • Semantic Motion Predictor:利用预训练的CLIP图像编码器将图像映射到语义空间,然后通过Transformer块来预测中间帧的嵌入,最后使用视频扩散模型生成视频。

整个StoryDiffusion框架的设计旨在通过这两个阶段,实现文本故事到一致性图像和视频的高效生成,同时保持对文本提示的高控制性。

三、实验结果

a.)总体指标

  • 在与最近的ID保持方法(IP-Adapter和PhotoMaker)进行比较时,StoryDiffusion在文本-图像相似性和角色相似性两个定量指标上均取得了更好的性能。
  • 在过渡视频生成方面,与SEINE和SparseCtrl两种最先进的方法相比,StoryDiffusion在所有四个定量指标(LPIPS-first, LPIPS-frames, CLIPSIM-first, CLIPSIM-frames)上均优于其他方法,表明其在生成一致且无缝过渡视频方面的强性能。

b.)Ablation Study

  • 用户指定ID生成:StoryDiffusion能够结合PhotoMaker生成与给定控制ID一致的一致性图像,展示了方法的可扩展性和即插即用能力。
  • 一致性自注意力的采样率:通过消融研究确定了一致性自注意力的最佳采样率为0.5,既能保持主体一致性,又对扩散过程的影响最小。

四、局限性

  • 对于一些细节(如领带)可能存在一致性问题,可能需要更详细的提示来保持图像间的一致性。
  • 尽管可以使用滑动窗口方法生成更长的视频,但StoryDiffusion并未专门设计用于长视频生成,因此在生成非常长的视频时可能不完美,这是由于缺乏全局信息交换。未来的工作将进一步探索长视频生成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1681242.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

异地组网群晖不能访问怎么办?

在日常使用群晖网络储存设备时,我们常常会遇到无法访问的情况,特别是在异地组网时。这个问题很常见,但也很让人困扰。本文将针对异地组网群晖无法访问的问题进行详细解答和分析。 异地组网的问题 在异地组网中,群晖设备无法访问的…

UE5 升级插件时报:位域的默认成员初始值设定项至少需要 “/std:c++20“错误的解决办法

UE5.3之后的代码默认以C20标准来进行编译,所以找到会产生报错的插件的build.cs里查看有没有关于设置版本的代码,如果有改成Cpp20就行了 以及可以在build.cs内打印调试信息 System.Console.WriteLine($"CppStandard set: {CppStandard}");编译后…

偶然发现了Python的一个BUG。。。

一般情况下,dict(id1, **{id: 1})这句代码应该报TypeError。但如果在捕获了其他异常的情况下,再来执行这句代码,却是会报KeyError,如下图: Python3.10和Python3.9也能复现该情况,正当我摩拳踩掌&#xff0c…

AI作画算法详解:原理、应用与未来发展

随着人工智能技术的不断发展,AI作画逐渐成为了一个热门话题。AI作画,即利用人工智能算法生成绘画作品,不仅仅是技术的展示,更是艺术与科技结合的创新体现。本文将深入探讨AI作画的核心算法原理,并通过实例帮助读者更好…

Selenium 自动化 —— 高级交互(click、sendKeys、submit、clear、select)

更多关于Selenium的知识请访问CSND论坛“兰亭序咖啡”的专栏:专栏《Selenium 从入门到精通》 ​​ 1. 前言 这是我的《Selenium从入门到精通》专栏的第11篇文章,前面花了很多时间在元素的定位上。不管是爬虫和自动化,找到元素后&#xff0c…

原生IP介绍

原生IP,顾名思义,即初始真实IP地址,是指从互联网服务提供商获得的IP地址,IP地址在互联网与用户之间直接建立联系,不需要经过代理服务器代理转发。 原生IP具备以下特点。 1.直接性 原生IP可以直接连接互联网&#xff…

实例分割——Embrapa酿酒葡萄数据集

引言 亲爱的读者们,您是否在寻找某个特定的数据集,用于研究或项目实践?欢迎您在评论区留言,或者通过公众号私信告诉我,您想要的数据集的类型主题。小编会竭尽全力为您寻找,并在找到后第一时间与您分享。 …

Windows下配置TortoiseGit 访问Ubuntu虚拟机下Samba共享目录

前言: 本文记录学习使用 Git 版本管理工具的学习笔记,通过阅读参考链接中的博文和实际操作,快速的上手使用 Git 工具。 本文参考了引用链接博文里的内容。 引用: 【TortoiseGit】TortoiseGit安装和配置详细说明-CSDN博客 Git版本管理可视…

Keil问题解决:结构体数组初始化,初始化后的值不是目标值

省流:使用的编译器为compiler version 6,切换为compiler version 5 如果缺少编译器,请参考:Keil手动安装编译器V5版本 结构体定义: typedef struct _TASK_COMPONENTS {uint8_t Run; // 程序运行标…

Visual Studio 创建DLL 、LIB及调用

Visual Studio 创建DLL 、LIB及调用_visual studio 生成dll-CSDN博客 对上述文章进行补充 按照本文操作即可完成。 step1:新建控制台应用 Step2:新建类 在DLL.h内写入: #pragma once class __declspec(dllexport) DLL {public:int myAdd(i…

华为OD机试【分奖金】(java)(100分)

1、题目描述 公司老板做了一笔大生意,想要给每位员工分配一些奖金,想通过游戏的方式来决定每个人分多少钱。按照员工的工号顺序,每个人随机抽取一个数字。按照工号的顺序往后排列,遇到第一个数字比自己数字大的,那么&…

[数据集][目标检测]蕃茄核桃桔子龙眼青枣5种水果检测数据集VOC+YOLO格式270张5类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):270 标注数量(xml文件个数):270 标注数量(txt文件个数):270 标注类别…

「AIGC算法」近邻算法原理详解

本文主要介绍近邻算法原理及实践demo。 一、原理 K近邻算法(K-Nearest Neighbors,简称KNN)是一种基于距离的分类算法,其核心思想是距离越近的样本点,其类别越有可能相似。以下是KNN算法的原理详解: 1. 算…

详细分析Python中的win32com(附Demo)

目录 前言1. 基本知识2. Excel3. Word 前言 对于自动化RPA比较火热,相应的库也比较多,此文分析win32com这个库,用于操作office 1. 基本知识 Win32com 是一个 Python 模块,是 pywin32 扩展的一部分,允许 Python 代码…

【讲解下PDM,PDM是什么?】

🎥博主:程序员不想YY啊 💫CSDN优质创作者,CSDN实力新星,CSDN博客专家 🤗点赞🎈收藏⭐再看💫养成习惯 ✨希望本文对您有所裨益,如有不足之处,欢迎在评论区提出…

ELF 1技术贴|如何在Ubuntu上配置Samba服务器

Samba是一个开源的软件套件,提供了一种实现SMB/CIFS协议的方式,可以无缝链接Linux与Windows系统,让开发者在局域网络框架下实现共享文件、打印资源等,确保了数据交流的高效与稳定。 相较于在Ubuntu环境下运用传统的Vim编辑器&…

AI图书推荐:ChatGPT 和Power BI驱动未来金融投资变革

《ChatGPT 和Power BI驱动未来金融变革》(The Future of Finance with ChatGPT and Power BI)由James Bryant和Aloke Mukherjee撰写,探讨了ChatGPT和Power BI在金融领域的应用。 主要特点: - 使用ChatGPT自动化Power BI&#xff…

【算法】网络图中的dfs

快乐的流畅:个人主页 个人专栏:《算法神殿》《数据结构世界》《进击的C》 远方有一堆篝火,在为久候之人燃烧! 文章目录 引言一、单词搜索二、黄金矿工三、不同路径 |||四、图像渲染五、岛屿数量六、岛屿的最大面积七、被围绕的区域…

Oracle 自治数据库 Select AI 初体验

这几天有点时间,准备尝试下Oracle Select AI,虽然此功能2023年就已经发布了。 Oracle自治数据库已经集成好了Select AI,本文也是讲的这个。 配置 Select AI 需要以下步骤: 创建ADB申请Cohere/OpenAI免费账号设置ADB测试Select…

【微信小程序开发(从零到一)【婚礼邀请函】制作】——邀请函界面的制作(2)

👨‍💻个人主页:开发者-曼亿点 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 曼亿点 原创 👨‍💻 收录于专栏&#xff1a…