海报设计师的福音来了,微软联合清华北大提出Glyph-ByT5-v2,可支持多国语言图文海报生成,效果惊艳!

news2024/11/29 2:41:18

清华&北大&微软&利物浦大学联合提出Glyph-ByT5-v2这款工具支持多语言图文生成,包括英语、中文、日文、韩文、法文、德文、西班牙文、意大利文、葡萄牙文和俄文。

以下分别展示中、英、日、韩图文的视觉文本结果一起带大家感受一下。

相关链接

论文地址:https://arxiv.org/abs/2406.10208

项目地址:https://github.com/AIGText/Glyph-ByT5

模型下载:https://huggingface.co/GlyphByT5/Glyph-SDXL-v2

试用链接:https://huggingface.co/spaces/GlyphByT5/Glyph-SDXL-v2

论文阅读

摘要

最近,Glyph-ByT5 在平面设计图像中实现了高精度的视觉文本渲染性能,但它仍然只专注于英语,在视觉吸引力方面表现相对较差。在这项工作中,我们通过推出 Glyph-ByT5-v2 解决了这两个根本限制,它不仅支持 10 种不同语言的精确视觉文本渲染,而且实现了更好的美学质量。

为实现这一目标,我们做出了以下贡献:

  • 创建一个高质量的多语言字形文本和图形设计数据集,包含超过 100 万个字形文本对和 1000 万个图形设计图像文本对,涵盖其他 9 种语言;

  • 构建一个由 1,000 个提示组成的多语言视觉段落基准,每种语言 100 个提示,以评估多语言视觉拼写准确性;

  • 利用最新的步骤感知偏好学习方法来提高视觉美学质量。

通过结合这些技术,我们提供了功能强大的定制多语言文本编码器 Glyph-ByT5-v2 和功能强大的美观图形生成模型 Glyph-SDXL-v2,它们可以支持 10 种不同语言的准确拼写。考虑到最新的 DALLE-3 和 Ideogram 仍然难以完成多语言视觉文本渲染任务,我们认为我们的工作是一项重大进步。

提高多语言视觉文本渲染精度

上表描述了多语言可视化文本呈现结果。 通过我们的方法实现了不同数量的角色。性能通过评估字级精度来证明对于上面列出的七种语言和字符级精度对于下面列出的三种语言。所有结果都基于单一模型,而不是为每种语言量身定制的多个模型。

提高美学品质

用户研究结果

用户研究结果显示,图形设计图像在多语言视觉文本拼写准确性、布局质量和视觉美学方面的胜率均由人类评估者偏好进行评估

效果展示

下图展示了在训练后应用步进感知偏好优化 (SPO) 的效果。按顺序显示由以下方法生成的图像:第一行是 Glyph-SDXL,第二行是 Glyph-SDXL Albedo,最后一行是 Glyph-SDXL Albedo + SPO。

下图展示了利用DALL·E3和Ideogram 1.0实现多语言生成结果的可视化。

更多效果展示

结论

在本文中,我们提出了一种改进的定制多语言文本编码器,用于精确的多语言视觉文本渲染。我们构建了可扩展的高质量多语言字形文本和图形设计数据集,从而能够训练我们的模型 Glyph-ByT5-v2 和 Glyph-SDXL-v2。我们通过经验表明,用针对人类偏好优化的后训练版本替换原始 SDXL 可以显著增强视觉美感。通过详细的比较和用户研究证明了我们方法的有效性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1851189.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

6G时代,即将来临!

日前,由未来移动通信论坛、紫金山实验室主办的2024全球6G技术大会在南京召开。本次大会以“创新预见6G未来”为主题,在大会开幕式上发布了协力推进全球6G统一标准行动的倡议和紫金山科技城加速培育以6G技术引领未来产业行动计划。 在我国已开展第五代移动…

苹果手机safari浏览器的userAgent显示为电脑的userAgent问题解决

目录 1.问题背景 2.userAgent 3.解决 1.问题背景 开发了一个H5,是通过生成二维码,扫描这个二维码后就跳到这个H5,所以需要判断一下扫描的设备是否为手机,然后由于业务逻辑还需要判断一下手机是Android、iOS还是iPad。一般前端…

Shell 编程之条件语句

Shell 编程之条件语句 一、条件测试操作test命令文件测试整数值比较字符串比较逻辑测试 二、if条件语句单分支 if 语句双分支 if 语句多分支 if 语句 三、case 分支语句case语句的结构case 语句应用示例 四、注意事项 在Shell编程中,条件语句是非常重要的一部分&…

Docker 下载与安装以及配置

安装yum工具 yum install -y yum-ulits配置yum源 阿里云源 yum-config-manager --add-repo https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo安装Docker 17.03后为两个版本: 社区版(Community Edition,缩写为 CE&#x…

获取时间戳是使用System.currentTimeMillis()还是使用new Date().getTime()(阿里开发规范)?

1.阿里规范 在阿里的Java开发手册中强制要求使用System.currentTimeMillis() 2.为什么(源码详解) new Date().getTime()它实际上也是调用的System.currentTimeMillis(),源码分析。 这个fastTime是它的成员变量,在new Date()的时候就被赋值了。 扩展一…

191.回溯算法:组合总和|||(力扣)

代码解决 class Solution { public:vector<vector<int>> result; // 存储所有符合条件的组合vector<int> res; // 当前组合// 回溯函数void backtracing(int k, int n, int index, int sum) {// 如果当前组合的长度等于k&#xff0c;且总和等于nif (res.si…

Django 模版变量

1&#xff0c;模版变量作用 模板变量使用“{{ 变量名 }}” 来表示模板变量前后可以有空格&#xff0c;模板变量名称&#xff0c;可以由数字&#xff0c;字母&#xff0c;下划线组成&#xff0c;不能包含空格模板变量还支持列表&#xff0c;字典&#xff0c;对象 2&#xff0c;…

odoo17 小变更4

odoo17 小变更4 1、代码中去除了访问私人地址权限,但翻译中均还有,怪不 model:res.groups,name:base.group_private_addresses msgid "Access to Private Addresses" msgstr "" 代码也查看了,的确没有了此权限组 --><record model="res.g…

mysql分析常用锁、动态监控、及优化思考

这里写自定义目录标题 1.未提交事物&#xff0c;阻塞DDL&#xff0c;继而阻塞所有同表的后续操作,查看未提交事务的进程2.存着正在进行的线程数据。3.根据processlist表中的id杀掉未释放的线程4.查看正在使用的表5.mysql为什么state会有waiting for handler commit6.什么情况导…

图扑助力铝型材挤压:数字孪生引领智慧管理

通过图扑数字孪生技术&#xff0c;为铝型材挤压车间提供实时监控和优化管理方案。高精度三维建模和数据可视化提升了生产效率和管理透明度&#xff0c;推动智能制造和资源优化配置。

HackTheBox-Linux基础

Linux 结构 历史 许多事件导致了第一个 Linux 内核的创建&#xff0c;并最终创建了 Linux 操作系统 &#xff08;OS&#xff09;&#xff0c;从 1970 年 Ken Thompson 和 Dennis Ritchie&#xff08;当时都在 AT&T 工作&#xff09;发布 Unix 操作系统开始。伯克利软件发行…

[SAP ABAP] 运算符与操作符

1.算数运算符 算术运算符描述加法-减法*乘法/除法MOD取余 示例1 输出结果: 输出结果: 2.比较运算符 比较运算符描述示例 等于 A B A EQ B <> 不等于 A <> B A NE B >大于 A > B A GT B <小于 A < B A LT B >大于或等于 A > B A GE B <小…

SCI一区TOP|双曲正弦余弦优化算法(SCHO)原理及实现【免费获取Matlab代码】

目录 1.背景2.算法原理2.1算法思想2.2算法过程 3.结果展示4.参考文献5.代码获取 1.背景 2023年&#xff0c;J Bai受到双曲正弦余弦函数启发&#xff0c;提出了双曲正弦余弦优化算法&#xff08;Sinh Cosh optimizer, SCHO&#xff09;。 2.算法原理 2.1算法思想 SCHO灵感来源…

springAI(一)

目录 一、spring AI 目的 二、spring AI 来源 三、sprig AI 是什么&#xff1f; 四、spring AI中的 概念 4.1、模型&#xff08;Models&#xff09; 4.2、提示&#xff08;Prompts&#xff09; 4.3、提示模板&#xff08;Prompt Templates&#xff09; 4.4、令 牌&#…

教大家封装一个基础el-table 行内气泡编辑框,你一定用的到

今天的任务就是封装这个用element ui 组件来封装,如果让你封装你会怎么封装呢? 不说废话了,直接上代码 新建一个EditablePopoverColumn.vue组件文件 <template><el-table-column :prop="prop" :label="label"><template slot-scope=&…

USB拓展坞PCB

一、器件选型 1、DM&#xff1a;Data Minus&#xff0c;数据负信号; 2、DP&#xff1a;USB Data Positive&#xff0c;数据正信号; HUB芯片&#xff1a;sl2.1A 保险丝&#xff1a;1.5A快恢复保险丝 接电脑的USB&#xff1a;micro b或type-c 外接的USB&#xff1a;typeA (ED…

【Linux】基础IO_4

文章目录 六、基础I/O4. 动静态库 未完待续 六、基础I/O 4. 动静态库 既然我们能够成功创建静态库了&#xff0c;接下来我们将这个代码打包成动态库&#xff1a; shared: 表示生成共享库格式 fPIC&#xff1a;产生位置无关码(position independent code) 动态库库名规则&…

37 - 上级经理已离职的公司员工(高频 SQL 50 题基础版)

37 - 上级经理已离职的公司员工 selecte1.employee_id fromEmployees e1 left join Employees e2 on e1.manager_id e2.employee_id wheree2.manager_id is null and e1.manager_id is not null and e1.salary<30000;

function包装器和bind包装器

function包装器和bind包装器 包装器function包装器为什么需要functionfunction包装器function包装器的应用场景逆波兰表达式求值 bind包装器bind包装器的应用场景 包装器 包装器是用于给其他编程接口提供更一致或更合适的接口 由于函数调用可以使用函数名、函数指针、函数对象…

34.LengthFieldBasedFrameDecoder代码使用

public class TestLengthFieldDecorder {public static void main(String[] args) {//这里相当于服务端接收数据EmbeddedChannel embeddedChannel = new EmbeddedChannel(new LengthFieldBasedFrameDecoder(1024, 0,4, 0, 0),new LoggingHandler(LogLevel.DEBUG));//这里相当于…