【可控图像生成系列论文（六）】ECCV24-Glyph-ByT5 微软亚研院、清华、北大合作工作（上）

news2026/3/16 12:55:38

系列文章目录

【可控图像生成系列论文（一）】简要介绍了 MimicBrush 的整体流程和方法；
【可控图像生成系列论文（二）】就 MimicBrush 的具体模型结构、训练数据和纹理迁移进行了更详细的介绍。
【可控图像生成系列论文（三）】介绍了一篇相对早期（2018年）的可控字体艺术化工作。
【可控图像生成系列论文（四）】介绍了 IP-Adapter 具体是如何训练的？
【可控图像生成系列论文（五）】介绍了ControlNet 和 IP-Adapter 之间的核心区别有哪些？
【可控图像生成系列论文（六）】介绍 Glyph-ByT5 的核心思想和数据集，后续将介绍更具体的技术细节。
Glyph-ByT5 的 repo 在: https://github.com/AIGText/Glyph-ByT5/tree/main

文章目录

系列文章目录
一、Glyph-ByT5 是什么？
二、Glyph-ByT5 Text Encoder
- 1. Glyph-Text Dataset
- 2. Paragraph-Glyph-Text Dataset

在这里插入图片描述

一、Glyph-ByT5 是什么？

基于 SDXL 和 ByT5 的、可以准确生成不同数量英文字的文生图模型。其中文字数量在四种量级 ≤20 chars、 ≤20-50 chars 、≤50-100 chars、 ≥100 chars都优于现有模型以及商业产品（DALL·E3）。

这项工作以三种不同但互补的贡献：

首先，训练一个字符感知、字形对齐的文本编码器 Glyph-ByT5，作为精确视觉文本渲染问题的关键解决方案。
其次，详细介绍了 Glyph-SDXL 的架构和训练，这是一个强大的设计图像生成器，通过高效的区域交叉注意力机制将Glyph-ByT5集成到SDXL中。
最后，展示了将 Glyph-SDXL 微调为场景文本图像生成器的潜力，为开发配备卓越视觉文本渲染功能的全面开放域图像生成器奠定了基础。

二、Glyph-ByT5 Text Encoder

现有 “文字渲染的不准确” 的问题，主要归因于 Text Encoder 的局限。例如，最初的 CLIP 文本编码器是为概念层面的广泛视觉语言语义对齐而定制的，而 T5/ByT5 文本编码器则侧重于深度语言理解。
然而，尽管最近的研究表明 T5/ByT5 文本编码器有利于视觉文本渲染任务，但两者都没有针对字形图像解释进行明确的微调。缺乏定制的文本编码器设计可能会导致各种应用中的文本渲染不准确。
1. 对 character-aware ByT5 encoder ¹ 进行了针对字形对齐（glyph-aligned）的微调。参考的是 LiT ²的对比学习方法。
2. 建立了可扩展的、批量化生成高质量配对文本和字形（paired text-glyph）数据流水线，得到 Glyph-Text Dataset ( $D$ )和 Paragraph-Glyph-Text Dataset ( $D^{paragraph}$ )数据集。
3. 提出了一个字形增强策略（glyph augmentation strategy）来解决 ³ 中提到的问题。
4. Glyph Text Encoder 采用的是 ByT5 系列（ByT5-Small (217M parameters), ByT5-Base (415M parameters), and ByT5-Large (864M parameters)），而 Glyph Vision Encoder 选择了 DINOv2 系列（ViT-B/14 (86M parameters), ViT-L/14 (300M parameters), and ViT-g/14 (1.1B parameters)）。
5. 最后在对比训练阶段，还提出了一个框级对比损失（box-level contrastive loss），将每个文本框及其相应的文本提示视为一个实例。

1. Glyph-Text Dataset

数据集是采用 Cole ⁴ 制作的。
数据集中的排版属性包括：字体类型、颜色、大小、位置等。
- 先编译了一个大型文本语料库，可以通过用从语料库中随机采样的文本替换单词来丰富字形图像集。
- 此外，随机修改每个文本框中的字体类型和颜色，以进一步扩大数据集。
- 字体类型有 305 种，均为可商用的开源字体（OFL licenced）
- 100种不同的颜色。
具体例子如下所示

对应的字形描述：{Text “The way you create a better future is by studying the past.” in [font-color-127], [font-type-234]. Text “Happy Graduation Amber” in [font-color-98] [font-type-231]}.

其中使用特殊的标记来表示字体颜色和类型。在将提示文本输入Glyph-ByT5文本编码器之前，我们通过用丰富码本中的一系列全局嵌入替换特殊标记（如标记“[font-color-127]”）来预处理提示文本。
Glyph-Text 数据集上进行了三个不同量级的实验，100K、500K、1M。

2. Paragraph-Glyph-Text Dataset

为了提高小字体的生成质量和定制文本编码器的段落级布局规划能力，作者还编译了一个密集的小段落级字形文本数据集，称为 $D^{paragraph}$
定义 ‘paragraph’ 为，不能被单行容纳的文字内容，具体为 10-100 个字母左右。
段落字形渲染任务带来了更大的挑战，因为它不仅要求非常高的单词级拼写准确性，还要求在指定的框区域内对单词级和行级布局进行细致的规划。
该数据集由 100000 对合成数据{ $I_{glyph}$ ， $T_{text}$ }组成。
实证结果表明，使用 $D^{paragraph}$ 对最初用 $D$ 训练的模型进行微调，可以显著提高渲染小尺寸和段落级视觉文本的性能。
段落级布局规划的能力不容小觑，作者实证证明，扩散模型可以有效地规划多行排列，并根据给定的文本框调整行距或单词间距，而不管其大小或纵横比如何。

在这里插入图片描述

在图3中显示了段落字形文本数据的示例图像，说明每个图像至少包含一个包含100多个字符的文本框。有些图像甚至达到400个字符，以合理的间距排列成多行。
作者同样构建了三个量级的段落字形文本数据集，包括100K、500K和1M字形文本对。

Character-aware models improve visual text rendering, https://aclanthology.org/2023.acl-long.900/ ↩︎
Xiaohua Zhai, Xiao Wang, Basil Mustafa, Andreas Steiner, Daniel Keysers, Alexander Kolesnikov, and Lucas Beyer. Lit: Zero-shot transfer with locked-image text tuning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 18123–18133, 2022. ↩︎
Character-aware models improve visual text rendering, https://aclanthology.org/2023.acl-long.900/ ↩︎
Peidong Jia, Chenxuan Li, Zeyu Liu, Yichao Shen, Xingru Chen, Yuhui Yuan, Yinglin Zheng, Dong Chen, Ji Li, Xiaodong Xie, et al. Cole: A hierarchical generation framework for graphic design. arXiv preprint arXiv:2311.16974, 2023. ↩︎

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1992318.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！