【论文阅读】StoryMaker | 更全面的人物一致性开源工作

【论文阅读】StoryMaker | 更全面的人物一致性开源工作

news2025/2/23 3:39:33

文章目录

1 Motivation
2 背景相关工作 Related work
3 Method 方法
4 效果

1 Motivation

背景是

Tuning-free personalized image generation methods无微调的个性化图像生成方式在维持脸部一致性上取得了显著性的成功。这里我不是很了解

然而，在多个场景中缺乏整体一致性，整体一致性是什么呢？虽然脸一致了，但是比如衣服和身体，头发样式上的一致性很难保证，这些进而阻碍了创建连贯的叙事的能力。

StoryMaker结合了多重条件，包括面部识别和裁剪的人物图像（包括服装、发型和身体），将两个特征通过一种叫做（位置感知感知重采样器 (PPR) 的方法将面部身份信息与裁剪的字符图像相结合，以获得不同的人物特征。

为了防止多个人物和背景的混杂，分别通过带有分割遮挡的MSE损失来限制了不同人物和背景的交叉注意力。

除此之外，训练了基于特定姿势的生成模型。

Lora也被用来提高质量。

2 背景相关工作 Related work

主流维持脸部一致性的工作有2个派系

派系1：微调系列

Break-A-Scene: Extracting Multiple Concepts from a Single Image（2023）

An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion（2022）

Multi-Concept Customization of Text-to-Image Diffusion（2022）

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation（2022）

派系1生成能力不自然，因为图像有限并且在微调上面花费成本较大

派系2：不微调系列

Customizing realistic human photos via stacked id embedding（2024）

Subject-Diffusion:Open Domain Personalized Text-to-Image Generation without Test-time Fine-tuning（2024）

High-fidelity image personalization via multi-modal condition integration（2024）

Instantfamily: Masked attention for zero-shot multi-id image generation.（2024）

Instantid: Zero-shot identity-preserving generation in seconds（2024）

通过视觉编码器将视觉信息集成到生成器中，没有用微调。

然而是上面的工作只能维持脸部特征，他们不能维持更全面的一致性

StoryMaker允许通过文本提示改变背景、人物姿势和样式。怎么做到的呢？就通过脸部特征上和裁剪的人物图像去提取信息，使用位置感知感知器重采样器(PPR)来导出人物特征

3 Method 方法

在这里插入图片描述

具体来说，首先使用人脸编码器提取人物的面部信息，即面部特征，

以及通过人物图像编码器提取它们的衣服、发型和身体的细节。

然后，我们使用所提出的位置感知感知器重采样器（PPR模块）来细化此信息。PPR模块的结构组成如右侧所示。

为了控制主干生成网络，将细化的信息注入到IP-Adapter提出的解耦交叉注意模块中[Ye et al.， 2023b]。

为了防止多个字符和背景交错，我们分别约束交叉注意对不同人物和背景的影响区域。

ID 损失还用于维护人物的身份。此外，为了将姿态信息与参考图像解耦，利用ControlNet检测到的姿态训练网络[Zhang et al.， 2023]。

为了提高保真度和质量，我们还使用 LoRA [Hu et al., 2021] 训练 U-Net。

一旦经过训练，就可以丢弃整个ControlNet，并通过文本提示控制字符的姿势，或者在推理过程中用新的姿势指导图像生成。

提出的方法的完整流程如图所示

4 效果

请添加图片描述

请添加图片描述

训练在8卡 A100

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2165929.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

iptables和nftables

iptables和nftables

什么是 nftables ? 它与 iptables 的区别是什么？ 几乎每个 Linux 管理员都使用过 iptables，它是一个 Linux 系统的防火墙。但是你可能还不太熟悉 nftables，这是一个新的防火墙，可为我们提供一些必需的升级，还有可能会…

阅读更多...

OJ在线评测系统前端开发整合开源组件 Monaco Editor 并且开发创建题目页面

OJ在线评测系统前端开发整合开源组件 Monaco Editor 并且开发创建题目页面

前端开发整合Monaco Editor 微软官方的 npm install monaco-editor 下载兼容版本 npm install monaco-editorlatest 代码编辑器先把编辑器本身安装好monaco-editor 安装插件 npm install monaco-editor-webpack-plugin 这个插件的作用是把我们的代码编译器和webpack打包在…

阅读更多...

Jenkins使用git和maven编写流水线

Jenkins使用git和maven编写流水线

1、写git流水线初识流水线。从git上拉取代码到虚拟机。【第一步：创建一个新的流水线】【第二步：定义名字】点击下方ok！ 【第三步：添加代码描述】【第四步：编写流水线代码，如果忘记了，参…

阅读更多...

前端框架对比与选择

前端框架对比与选择

🤖 作者简介：水煮白菜王 ，一位资深前端劝退师 👻 👀 文章专栏： 前端专栏 ，记录一下平时在博客写作中，总结出的一些开发技巧✍。感谢支持💕💕💕 目…

阅读更多...

功能测试详解

功能测试详解

🍅 点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快一、测试项目启动与研读需求文档 （一） 组建测试团队 1、测试团队中的角色 2、测试团队的基本责任尽早地发现软件程序、系统或产品中所…

阅读更多...

HarmonyOS鸿蒙开发实战（5.0）自定义路由栈管理

HarmonyOS鸿蒙开发实战（5.0）自定义路由栈管理

鸿蒙HarmonyOS NEXT开发实战往期文章必看（持续更新......） HarmonyOS NEXT应用开发性能实践总结 HarmonyOS NEXT应用开发案例实践总结合集最新版！“非常详细的” 鸿蒙HarmonyOS Next应用开发学习路线！（从零基础入门…

阅读更多...

中伟视界：AI算法如何精准识别井下与传送带上堆料，提升矿山安全生产效率，减少事故风险

中伟视界：AI算法如何精准识别井下与传送带上堆料，提升矿山安全生产效率，减少事故风险

传送带堆料分为两种情况，一种是传送带的井下堆料检测AI算法，一种是传送带上面的堆料检测AI算法，传送带井下堆料检测AI算法是在带式输送机的漏煤下方井下安装摄像仪，通过视频分析检测井下堆煤情况，当洒煤堆积到一定程度…

阅读更多...

31214324

31214324

📢博客主页：https://blog.csdn.net/2301_779549673 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正！ 📢本文由 JohnKi 原创，首发于 CSDN🙉 📢未来很长&#…

阅读更多...

T-Mobile AI客户服务：客户体验的新时代

T-Mobile AI客户服务：客户体验的新时代

目录 IntentCX的诞生利用AI的力量多方面的合作Nvidia的贡献客户服务的范式转变超越客户服务电信中AI的未来 T-Mobile宣布与著名的人工智能研究实验室OpenAI建立战略合作伙伴关系，这一开创性的举动旨在通过利用AI的力量来彻底改变公司的客户服务运营。 IntentCX的…

阅读更多...

《解锁高效流程设计：深度剖析责任链模式与实战应用》

《解锁高效流程设计：深度剖析责任链模式与实战应用》

《解锁高效流程设计：深度剖析责任链模式与实战应用》责任链模式是一种行为设计模式，它允许多个对象来处理请求，而不预先指定具体的处理者。多个处理对象被连接成一条链，沿着这条链传递请求，直到某个处理对象决定处理…

阅读更多...

【前端 25】

【前端 25】

Ant Design框架使用教程：构建高效美观的React应用引言 Ant Design 是一套企业级的 UI 设计语言和 React 组件库，主要用于开发和服务于企业级后台产品。它基于 React，并遵循 Ant Design 设计规范，提供了大量高质量、易用的 React…

阅读更多...

Spring Boot集成Milvus快速入门demo

Spring Boot集成Milvus快速入门demo

1.什么是Milvus？ Milvus 是一种高性能、高扩展性的向量数据库，可在从笔记本电脑到大型分布式系统等各种环境中高效运行。它既可以开源软件的形式提供，也可以云服务的形式提供。 Milvus 是 LF AI & Data Foundation 下的一个开源项目&…

阅读更多...

$计算机的错误计算（一百零四）$

计算机的错误计算（一百零四）

摘要计算机的错误计算（二十七）引入了错数概念。本节给出更为严格的证明。本节主要讨论表达式计算结果中错误有效数字的数量，简称之为错数。因为0不含有有效数字，因此，除非特别说明，否则，本节…

阅读更多...

【Go】-Websocket的使用

【Go】-Websocket的使用

目录为什么需要websocket 使用场景在线教育视频弹幕 Web端即时通信方式什么是web端即时通讯技术？ 轮询长轮询长连接 SSE websocket 通信方式总结 Websocket介绍协议升级连接确认数据帧 socket和websocket 常见状态码 gorilla/websocket实…

阅读更多...

10-pg内核之锁管理器（五）行锁

10-pg内核之锁管理器（五）行锁

概念数据库采用MVCC方式进行并发控制，读写并不会互相阻塞，但是写之间仍然存在冲突。如果还是采用常规锁那样加锁，则会耗费大量共享内存，进而影响性能。所以行锁通过元组级常规锁和xmax结合的方式实现。一般先通过xmax进行可见性…

阅读更多...

Unity 新导航寻路演示(2)

Unity 新导航寻路演示(2)

对于静态场景来说，只需要3步 1.为场景Ground添加网格表面组件并烘焙 2.为player添加导航代理 using System.Collections; using System.Collections.Generic; using UnityEngine; using UnityEngine.AI;public class PlayerMove : MonoBehaviour {private NavMes…

阅读更多...

2D动画转3D角色！无需建模- comfyUI工作流一键生成3d效果图！

2D动画转3D角色！无需建模- comfyUI工作流一键生成3d效果图！

如何将2d角色转化成3d角色？ 不需要建模，通过一个2d转3d的工作流可以直接将你的2d图片转化成3d效果图。而且操作特别简单，只需要3个步骤，这篇内容我们来说下这个工作路的使用工作流特点任意2D图片转换成3D风格基于sd1.5模型…

阅读更多...

ftdi_sio驱动学习笔记 3 - 端口操作

ftdi_sio驱动学习笔记 3 - 端口操作

目录 1. ftdi_port_probe 1.1 私有数据结构ftdi_private 1.2 特殊probe处理 1.3 确定FTDI设备类型 1.4 确定最大数据包大小 1.5 设置读取延迟时间 1.6 初始化GPIO 1.6.1 使能GPIO 1.6.2 添加到系统 1.6.2.1 设置GPIO控制器的基本信息 1.6.2.2 设置GPIO控制器的元信息…

阅读更多...

Apache Iceberg 与 Spark整合-使用教程（Iceberg 官方文档解析）

Apache Iceberg 与 Spark整合-使用教程（Iceberg 官方文档解析）

官方文档链接（Spark整合Iceberg） 1.Getting Started Spark 目前是进行 Iceberg 操作最丰富的计算引擎。官方建议从 Spark 开始，以理解 Iceberg 的概念和功能。 The latest version of Iceberg is 1.6.1.（2024年9月24日11:45:55&…

阅读更多...

如何在云端使用 Browserless 进行网页抓取？

如何在云端使用 Browserless 进行网页抓取？

云浏览器是什么？ 云浏览器是一种基于云的组合，它将网页浏览器应用程序与一个虚拟化的容器相结合，实现了远程浏览器隔离的概念。开发人员可以使用流行的工具（如 Playwright 和 Puppeteer）来自动化网页浏览器&#…

阅读更多...

推荐文章

最新文章