【可控图像生成系列论文(六)】ECCV24-Glyph-ByT5 微软亚研院、清华、北大合作工作(上)

news2024/9/28 7:22:00

系列文章目录

  • 【可控图像生成系列论文(一)】 简要介绍了 MimicBrush 的整体流程和方法;
  • 【可控图像生成系列论文(二)】 就 MimicBrush 的具体模型结构训练数据纹理迁移进行了更详细的介绍。
  • 【可控图像生成系列论文(三)】介绍了一篇相对早期(2018年)的可控字体艺术化工作。
  • 【可控图像生成系列论文(四)】介绍了 IP-Adapter 具体是如何训练的?
  • 【可控图像生成系列论文(五)】介绍了ControlNet 和 IP-Adapter 之间的核心区别有哪些?
  • 【可控图像生成系列论文(六)】介绍 Glyph-ByT5 的核心思想和数据集,后续将介绍更具体的技术细节。
  • Glyph-ByT5 的 repo 在: https://github.com/AIGText/Glyph-ByT5/tree/main

文章目录

  • 系列文章目录
  • 一、Glyph-ByT5 是什么?
  • 二、Glyph-ByT5 Text Encoder
    • 1. Glyph-Text Dataset
    • 2. Paragraph-Glyph-Text Dataset


在这里插入图片描述

一、Glyph-ByT5 是什么?

  • 基于 SDXL 和 ByT5 的、可以准确生成不同数量英文字的文生图模型。其中文字数量在四种量级 ≤20 chars、 ≤20-50 chars 、≤50-100 chars、 ≥100 chars都优于现有模型以及商业产品(DALL·E3)。

这项工作以三种不同但互补的贡献:

  1. 首先,训练一个字符感知、字形对齐的文本编码器 Glyph-ByT5,作为精确视觉文本渲染问题的关键解决方案。
  2. 其次,详细介绍了 Glyph-SDXL 的架构和训练,这是一个强大的设计图像生成器,通过高效的区域交叉注意力机制将Glyph-ByT5集成到SDXL中。
  3. 最后,展示了将 Glyph-SDXL 微调为场景文本图像生成器的潜力,为开发配备卓越视觉文本渲染功能的全面开放域图像生成器奠定了基础。

二、Glyph-ByT5 Text Encoder

  • 现有 “文字渲染的不准确” 的问题,主要归因于 Text Encoder 的局限。例如,最初的 CLIP 文本编码器是为概念层面的广泛视觉语言语义对齐而定制的,而 T5/ByT5 文本编码器则侧重于深度语言理解。

  • 然而,尽管最近的研究表明 T5/ByT5 文本编码器有利于视觉文本渲染任务,但两者都没有针对字形图像解释进行明确的微调。缺乏定制的文本编码器设计可能会导致各种应用中的文本渲染不准确。

    1. 对 character-aware ByT5 encoder 1 进行了针对 字形对齐(glyph-aligned)的微调。参考的是 LiT 2的对比学习方法。
    2. 建立了可扩展的、批量化生成高质量配对文本和字形(paired text-glyph)数据流水线,得到 Glyph-Text Dataset ( D D D )和 Paragraph-Glyph-Text Dataset ( D p a r a g r a p h D^{paragraph} Dparagraph)数据集。
    3. 提出了一个字形增强策略(glyph augmentation strategy)来解决 3 中提到的问题。
    4. Glyph Text Encoder 采用的是 ByT5 系列(ByT5-Small (217M parameters), ByT5-Base (415M parameters), and ByT5-Large (864M parameters)),而 Glyph Vision Encoder 选择了 DINOv2 系列(ViT-B/14 (86M parameters), ViT-L/14 (300M parameters), and ViT-g/14 (1.1B parameters))。
    5. 最后在对比训练阶段,还提出了一个框级对比损失(box-level contrastive loss),将每个文本框及其相应的文本提示视为一个实例。

1. Glyph-Text Dataset

  1. 数据集是采用 Cole 4 制作的。
  2. 数据集中的排版属性包括:字体类型、颜色、大小、位置等。
    • 先编译了一个大型文本语料库,可以通过用从语料库中随机采样的文本替换单词来丰富字形图像集。
    • 此外,随机修改每个文本框中的字体类型和颜色,以进一步扩大数据集。
    • 字体类型有 305 种,均为可商用的开源字体(OFL licenced)
    • 100种不同的颜色。
  3. 具体例子如下所示
    在这里插入图片描述

对应的字形描述:{Text “The way you create a better future is by studying the past.” in [font-color-127], [font-type-234]. Text “Happy Graduation Amber” in [font-color-98] [font-type-231]}.

  1. 其中使用特殊的标记来表示字体颜色和类型。在将提示文本输入Glyph-ByT5文本编码器之前,我们通过用丰富码本中的一系列全局嵌入替换特殊标记(如标记“[font-color-127]”)来预处理提示文本。
  2. Glyph-Text 数据集上进行了三个不同量级的实验,100K、500K、1M。

2. Paragraph-Glyph-Text Dataset

  • 为了提高小字体的生成质量和定制文本编码器的段落级布局规划能力,作者还编译了一个密集的小段落级字形文本数据集,称为 D p a r a g r a p h D^{paragraph} Dparagraph
  • 定义 ‘paragraph’ 为,不能被单行容纳的文字内容,具体为 10-100 个字母左右。
  • 段落字形渲染任务带来了更大的挑战,因为它不仅要求非常高的单词级拼写准确性,还要求在指定的框区域内对单词级和行级布局进行细致的规划。
  • 该数据集由 100000 对合成数据{ I g l y p h I_{glyph} Iglyph T t e x t T_{text} Ttext}组成。
  • 实证结果表明,使用 D p a r a g r a p h D^{paragraph} Dparagraph 对最初用 D D D 训练的模型进行微调,可以显著提高渲染小尺寸和段落级视觉文本的性能。
  • 段落级布局规划的能力不容小觑,作者实证证明,扩散模型可以有效地规划多行排列,并根据给定的文本框调整行距或单词间距,而不管其大小或纵横比如何。

在这里插入图片描述

  • 在图3中显示了段落字形文本数据的示例图像,说明每个图像至少包含一个包含100多个字符的文本框。有些图像甚至达到400个字符,以合理的间距排列成多行。
  • 作者同样构建了三个量级的段落字形文本数据集,包括100K、500K和1M字形文本对。

  1. Character-aware models improve visual text rendering, https://aclanthology.org/2023.acl-long.900/ ↩︎

  2. Xiaohua Zhai, Xiao Wang, Basil Mustafa, Andreas Steiner, Daniel Keysers, Alexander Kolesnikov, and Lucas Beyer. Lit: Zero-shot transfer with locked-image text tuning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 18123–18133, 2022. ↩︎

  3. Character-aware models improve visual text rendering, https://aclanthology.org/2023.acl-long.900/ ↩︎

  4. Peidong Jia, Chenxuan Li, Zeyu Liu, Yichao Shen, Xingru Chen, Yuhui Yuan, Yinglin Zheng, Dong Chen, Ji Li, Xiaodong Xie, et al. Cole: A hierarchical generation framework for graphic design. arXiv preprint arXiv:2311.16974, 2023. ↩︎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1992318.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

提示词工程学的前世今生:Generative Pre-trained Transformer 到AIGC,再到Prompt Engineering

人工智能(Artificial intelligence,AI)的演进已然变革了我们对于技术的理解以及应用方式。自最初的规则系统直至当下的深度学习,AI 在众多领域均彰显出了极为巨大的潜力。当中,生成式预训练模型(Generative…

浮毛烦恼不复存在!不容错过的养宠好物——宠物空气净化器

猫咪一年有两次换毛季,多集中在春夏和秋冬,尤其是在春季,换毛时长可以达到一个月之久。在此期间。猫咪会疯狂掉毛,需要铲屎官们在此期间做好相关措施,让猫咪顺利度过换毛季。其中,最重要的就是猫毛清理&…

PLC远程控制网关再也不用劳累出差

在当今快速发展的工业4.0时代,随着智能制造与物联网技术的深度融合,工厂自动化系统的远程监控与管理已成为提高生产效率、优化资源配置的关键。其中,可编程逻辑控制器(PLC)作为工业控制的核心部件,其远程控…

Retrofit 自定义注解 实现可选择性的打印接口日志

序言 有时候我们需要打印okhttp的日志,但是现在的日志拦截器,不能做到接口级别的日志输出控制。要么就是全部打印。这样很影响调试效率。所以我在这块做了一些探索。 使用效果 普通输出 只需要在要打印日志的接口上添加 PrintLog 注解就可以打印&…

奥运足球背后的中国小公司

有一家中国的小公司叫做顶碁运动,居然打败了耐克和阿迪达斯这样的巨头,成功地成为了现在巴黎奥运会的足球供应商。 顶碁运动研发的足球,最大的优点就是能够在一秒钟之内精准地识别500次。因为他们在足球的内胆里面装置了芯片和传感器&#xf…

【Linux】:进程控制1(创建、终止、等待)

目录 1.进程创建 2.进程终止(退出) 2.1 什么是进程终止 2.2 进程退出的场景(原因) 2.3 进程退出码 2.4 错误码errno 2.5 进程常见的退出方法 正常终止 从main函数返回 调用库函数exit 系统接口_exit 3.进程等待 3.1 …

[qt] 多线程应用02

源码: 点击此处 一 UI 1.1 效果 1.2 代码 首先定义一系列的控件和按钮,用来显示Tcp连接数据信息。 QLabel *m_serverNameLabel;QLineEdit *m_serverLineEdit;QLabel *m_portLabel;QLineEdit *m_portLineEdit;QDateTimeEdit *m_d…

【书生大模型实战营第三期】基础岛 第3关 浦语提示词工程实践

欢迎大家参与第三期书生大模型实战营!!! 1. 基础任务 背景问题:近期相关研究发现,LLM 在对比浮点数字时表现不佳,经验证,internlm2-chat-1.8b(internlm2-chat-7b)也存在这…

数据结构——排序(2):选择排序+交换排序

目录 一、选择排序 (1)直接选择排序 ①思路 ②过程图示 ③代码实现 ④代码解释 ⑤优化 1.代码实现 2.过程图示 3.代码解释 4.注意 ⑥直接选择排序的复杂度 (2)堆排序 ①注意 ②代码实现 二、交换排序 &#xff08…

一键生成!AI绘画、视频制作与写作神助攻

市面上有各种各样的AI助手,它们覆盖了文字处理、图像编辑、视频制作到语音识别等众多领域。这些工具设计得既实用又友好,几乎每个人都能找到适合自己的那一款。 1. 文字处理助手 文本生成:帮你快速创作文章、博客等内容。 内容优化&#xff…

操作ArkTS页面跳转及路由相关心得

本文为JS老狗原创。 当前端不得不关注的点:路由,今天聊一聊鸿蒙相关的一点心得。 总体上套路不意外,基本就是(尤其是Web)前端那些事:维护路由表、跳转带参数、历史堆栈操作,等等。 历史原因&…

越秀·星汇城|大城好生活

建筑,是美好生活的载体。而户型则是住宅的灵魂,一处好的居所,承载理想生活盛放。 细腻的美好藏在生活各个角落,星汇城以24小时贯穿的细节享受,重新定义幸福该有的舒适。诉说生活的达观,臻藏岁月静好。 8:…

windows系统获取网卡信息

在抓包或者使用socket,或者监听端口时,如果使用的是pcap4j类库,就会用到网卡信息,那么怎么查看本机的网卡信息呢,Linux的比较方便,直接通过ifconfig命令就能看到, windows的比较麻烦一点&#x…

【名单】山东省2024年度第一批DCMM贯标试点企业名单

​各市工业和信息化局: 为深入贯彻全省工业经济头号工程推进会议有关部署,全面落实《关于加快数字经济高质量发展的意见》《2024年“促进经济巩固向好、加快绿色低碳高质量发展”政策清单(第一批)》等文件要求,充分发…

从根儿上学习spring 十 之run方法启动第四段(4)

我们接着上一节已经准备开始分析AbstractAutowireCapableBeanFactory#doCreateBean方法,该方法是spring真正开始创建bean实例并初始化bean的入口方法,属于核心逻辑,所以我们新开一节开始分析。 图12 图12-530到536行 这几行的主要就是创建b…

先天亏钱圣体!谢瑜、陈梦、全红婵夺冠后,我看到了最残酷的社交真相——早读(逆天打工人爬取热门微信文章解读)

我怎么寻思这是普通事故 引言Python 代码第一篇 洞见 谢瑜、陈梦、全红婵夺冠后,我看到了最残酷的社交真相第二篇 亏麻了结尾 没想到是辆切糕车 引言 昨天文章的数据不错呀 200 的阅读 20的收藏 10:1已经是很高的比例了 再来干货吧 以后大家要是做视频 心中看到这…

Spring Cloud微服务项目聚合Swagger文档

在微服务架构中,每个服务通常都有自己独立的 API 文档。为了方便管理和查看所有服务的接口文档,我们需要将这些文档进行聚合。Spring Cloud 与 Swagger 的结合可以帮助我们实现这一目标。本文将介绍如何在 Spring Cloud 微服务项目中聚合 Swagger 文档&a…

72 成员方法、类方法、静态方法、抽象方法

在面向对象程序设计中,函数和方法这两个概念是有本质区别的。方法一般指与特定实例绑定的函数,通过对象调用方法时,对象本身将被作为第一个参数自动传递过去,普通函数并不具备这个特点。 class Demo:passt Demo()def test(self,…

html+css网页设计公司网站模版3个页面 无js 静态页面

htmlcss网页设计公司网站模版3个页面 无js 静态页面 网页作品代码简单,可使用任意HTML编辑软件(如:Dreamweaver、HBuilder、Vscode 、Sublime 、Webstorm、Text 、Notepad 等任意html编辑软件进行运行及修改编辑等操作)。 获取源…

推送给女朋友让她自己学习打光去(Stable Diffusion进阶篇:Imposing Consistent Light)

大家好我是极客菌!!! 对于学过stable diffusion的小伙伴来说,forge UI和Comfy UI会更加熟悉一些。在IC-Light发布后,Openpose editor的开发者将其制作成了一个Forge UI上的插件。 **https://github.com/huchenlei/sd-…