DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion

DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion

news2025/4/27 9:39:53

UW&UCB&Google&NVIDIA ICCV23
https://github.com/johannakarras/DreamPose?tab=readme-ov-file

问题引入

输入参考图片 $x_0$ 和pose序列 $\{p_1,\cdots,p_N\}$ ，输出对应视频 $\{x_1',\cdots,x_N'\}$ ；
模型在推理的时候是帧与帧之间是独立生成的；
将原本的文生图模型改造成pose&image guided video generation model；

methods

appearence控制：Split CLIP-VAE Encoder，之前的方法将图片条件和noised latents结合到一起作为输入，但是这种方法是为了spatial的align，所以本文采取了另一种办法，也就是结合使用CLIP和VAE，最初和VAE embedding相关的权重设置为0，最后得到的embedding $c_I = A(c_{CLIP},c_{VAE})$ ，其中 $A$ 代表adapter；
pose控制：采用五个连续pose帧 $c_p=\{p_{i - 2},p_{i - 1},p_i,p_{i + 1},p_{i + 2}\}$ ，这些和noised latents concat到一起作为输入，输入修改了以接收额外的10个通道，初始化参数为0；
训练：根据上面的描述初始化模型参数之后，分为两个阶段进行训练，第一个阶段在完整数据集上面进行训练，第二个阶段在特定主题数据上进行微调；
Pose and Image Classifier-Free Guidance： $\epsilon_\theta(z_t,c_i,c_p) = \epsilon_\theta(z_t,\empty,\empty) + s_I(\epsilon_\theta(z_t,c_I,\empty)-\epsilon_\theta(z_t,\empty,\empty)) + s_p(\epsilon_\theta(z_t,c_I,c_p)-\epsilon_\theta(z_t,c_I,\empty))$ ， $s_I$ 保证和输入图片的appearence相符， $s_p$ 保证和pose的align；

实验

UBC Fashion dataset

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1706799.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

停车场变综合楼，结构分析助力低碳设计

停车场变综合楼，结构分析助力低碳设计

PLAXIS 和 RAM 助力确定更有效的结构设计并大幅降低施工成本总部和周边区域桑坦德银行位于英国的新总部将现有的四个英国办事处合并到米尔顿凯恩斯的一个中心枢纽，位于伦敦以北 50 英里。 Unity Place 将作为桑坦德银行约 5,000 名员工的办公场所。该项目总投资 …

阅读更多...

AIGC笔记--基于PEFT库使用LoRA

AIGC笔记--基于PEFT库使用LoRA

1--相关讲解 LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS LoRA 在 Stable Diffusion 中的三种应用：原理讲解与代码示例 PEFT-LoRA 2--基本原理固定原始层，通过添加和训练两个低秩矩阵，达到微调模型的效果； 3--简单代…

阅读更多...

web自动化-下拉框操作/键鼠操作/文件上传

web自动化-下拉框操作/键鼠操作/文件上传

在我们做UI自动化测试的时候，会有一些元素需要特殊操作，比如下拉框操作/键鼠操作/文件上传。下拉框操作在我们很多页面里有下拉框的选择，这种元素怎么定位呢？下拉框分为两种类型：我们分别针对这两种元素进行定位和…

阅读更多...

答应我！养猫就一定要入手的七款好物！养猫真的会开心

答应我！养猫就一定要入手的七款好物！养猫真的会开心

养猫是一件让人愉悦的事情，猫咪的陪伴能让我们感到温暖和满足。然而，想要让猫咪健康快乐地成长，除了关心它们的饮食和健康，还需要为它们准备一些必要的生活用品。今天，我将为大家推荐几个养猫必备的好物，让…

阅读更多...

黑马头条day6总结

黑马头条day6总结

1、wemedian错误一开始没加EnableFeignClients(basePackages "com.heima.apis")导致获取ischeduleClient错误，找不到bean。我看教程的代码中没有，【ComponentScan({"com.heima.apis","com.heima.wemedia"})】&#x…

阅读更多...

11款必备IP地址管理软件，你都用过吗？

11款必备IP地址管理软件，你都用过吗？

1、LightMesh IPAM 产品描述：LightMesh IPAM 是一款功能强大的工具，可简化和自动化互联网协议网络的管理。它提供可扩展性、子网规划器、即时云发现、IP 和网络管理以及 IP 规划和可视化，以帮助您优化效率、可见性和安全性。特征&#xff1…

阅读更多...

强化学习——学习笔记

强化学习——学习笔记

一、什么是强化学习？ 强化学习 (Reinforcement Learning, RL) 是一种通过与环境交互来学习决策策略的机器学习方法。它的核心思想是让智能体 (Agent) 在执行动作 (Action)、观察环境 (Environment) 反馈的状态 (State) 和奖励 (Reward) 的过程中，学习到…

阅读更多...

C++音视频开发面试题集锦

C++音视频开发面试题集锦

老规矩，先上面试题目： 1、iOS 中系统 API 提供了哪些视频编码的方式？2、VideoToolbox 视频帧解码失败以后应该如何重试？3、如何使用 PSNR 对视频转码质量进行评估？4、什么是 VAO，什么是 VBO，它…

阅读更多...

【图书推荐】《机器学习实战（视频教学版）》

【图书推荐】《机器学习实战（视频教学版）》

本书用处快速入门Python机器学习基础算法。最后3个综合实战项目（包括新闻内容分类实战、泰坦尼克号获救预测实战、中药数据分析项目实战）可以作为研究可以的素材。内容简介本书基于Python语言详细讲解机器学习算法及其应用，用于读者快…

阅读更多...

Java 五种内部类演示及底层原理详解

Java 五种内部类演示及底层原理详解

内部类什么是内部类在A类的内部定义B类，B类就被称为内部类发动机类单独存在没有意义发动机为独立个体可以在外部其他类里创建内部类的对象去调用方法类的五大成员属性方法构造方法代码块内部类内部类的访问特点内部类可以直接访问外部类的成员&a…

阅读更多...

Java处理CSV文件示例

Java处理CSV文件示例

Java处理CSV文件示例 1. 导入依赖 <dependency><groupId>org.apache.commons</groupId><artifactId>commons-csv</artifactId><version>1.10.0</version></dependency>文件示例下面是示例文件文件数据 vscode和idea都有解析…

阅读更多...

第二证券股市资讯：连续3天20%涨停！A股这一赛道，牛股批量出现！

第二证券股市资讯：连续3天20%涨停！A股这一赛道，牛股批量出现！

今日，A股小幅轰动调整，上证指数下试3100点支撑。两市成交7453亿元，创近4个月来新低，超4000只个股下跌。盘面上，电力、芯片、煤炭、石油等板块涨幅居前，铜缆高速衔接、房地产、工程机械、网络游戏等板块跌幅…

阅读更多...

word-主控文档、文档拆分及标书编写技巧建议

word-主控文档、文档拆分及标书编写技巧建议

一、主控文档视图-大纲视图-显示文档-插入子文档子文档一旦更新，主文档也会更新。更新主文档，子文档也会更新需要注意，不可修改子文档名字二、上交文件显示文档-折叠子文档-只显示一级-取消链接-关闭大纲视图-保存三、文档拆分根…

阅读更多...

Transformer 从attention到grouped query attention (GQA)

Transformer 从attention到grouped query attention (GQA)

Attention原理和理解 attention原理参考： Attention Is All You Need The Illustrated Transformer – Jay Alammar – Visualizing machine learning one concept at a time. Transformer图解 - 李理的博客 Attention首先对输入x张量乘以WQ, WK, WV得到query,…

阅读更多...

本地开发正常线上CI/CD构建项目过程报错文件未能正确引用

本地开发正常线上CI/CD构建项目过程报错文件未能正确引用

问题快照原因分析： 一般遇到这样的错误就是文件路径或者文件名称未能正确匹配或者文件不存在会报这样的错误以为很好解决但这次都排查了就是没发现原因不管怎么说还是要感谢 GPT的能力(分析问题的能力) 先上图当我看到第四步的时候我立马去仓库里查…

阅读更多...

没开玩笑！高速信号不能参考电源网络这条规则，其实很难做到

没开玩笑！高速信号不能参考电源网络这条规则，其实很难做到

高速先生成员--黄刚看到这篇文章的题目，我相信大家心里都呈现出了这么一个场景：高速信号线在L20层，我只要把L19和L21层都铺上完整的地平面，这不就满足了高速信号线不能参考电源平面这条规则了吗？这难道很难做到吗&…

阅读更多...

Windows 使用技巧

Windows 使用技巧

Windows 使用技巧 ①局域网内共享文件 ②CTRL Y 和 CTRL Z ①局域网内共享文件第一步： 选择要共享的文件（分享方操作） 第二步： 右键打开属性，选择共享（分享方操作） 第三步： …

阅读更多...

Spring使用的设计模式

Spring使用的设计模式

Spring 框架是一个广泛使用的 Java 框架，它内部使用了多种设计模式来简化开发过程、提高代码的可维护性和扩展性。以下是一些在 Spring 框架中常见的设计模式，以及用代码示例来解释它们： 一、工厂模式（Factory Pattern&#xff…

阅读更多...

C#开发上位机应用:基础与实践

C#开发上位机应用:基础与实践

C#是一种流行的面向对象编程语言，常用于Windows应用程序的开发。上位机应用是一种用于监控和控制设备或系统的应用程序，通常与下位机（如传感器、执行器等）进行通信。在本文中，我们将介绍C#开发上位机应用的基础知识和实…

阅读更多...

Vue3 之动态组件和KeepAlive组件

Vue3 之动态组件和KeepAlive组件

一、动态组件 1、简介在某些业务场景下，页面的某模块具有多个组件但在同一时间只显示一个，需要在多个组件之间进行频繁的切换，如：tab切换等场景。除了可以使用v-if、v-show根据不同条件显示不同组件之外，还可以通…

阅读更多...

推荐文章

最新文章