【文档智能】LACE:帮你自动生成文档布局的方法浅尝

news2025/1/11 0:25:09

前言

往期很多文章都介绍了【文档智能】上布局识别(版式分析)的技术思路,版式分析是通过对文档版式进行布局识别,识别文档中的元素类型的过程。这次来看看一个有趣的思路,通过已有的元素类型,来生成可控的文档的布局

介绍之前,先概述下一些基础的概念。

  • 可控布局生成:在图形设计(例如文档和网页设计)中创建元素的合理视觉排列的过程,同时考虑到代表设计意图的约束条件。

  • FID评价指标:FID(Fréchet Inception Distance)是一种用于评估生成模型和真实数据分布之间差异的指标。FID是通过计算两个分布之间的Fréchet距离来衡量生成模型和真实数据分布之间的差异。Fréchet距离是一种度量两个分布之间距离的方法,它考虑到了两个分布的均值和协方差矩阵,可以更好地描述两个分布之间的差异。FID作为一种评估指标,被广泛用于生成模型的训练和评估中。它可以帮助我们更准确地评估生成模型的质量,并选择更好的生成模型。同时,FID也是一种客观的评估指标,可以避免人为主观因素对评估结果的影响。

  • 布局生成扩散模型架构

    标准 Transformer 模型通常不直接处理时间序列数据,但布局生成扩散模型需要考虑时间因素,因为扩散过程是时间依赖的。因此,模型通过时间嵌入将时间信息编码到模型中。

背景

现有的扩散模型在处理布局属性时,要么将它们视为离散变量,要么视为连续变量,并且在数据损坏过程中使用基于类别和高斯噪声的机制。这些不同的损坏机制在生成过程中产生不同的模式。具体来说,离散扩散从空白画布开始,逐步添加元素,而连续扩散则从随机布局开始,并随着时间的推移将其细化为有组织的布局,这在建模方面更加灵活。

连续扩散和离散扩散中潜在状态在布局生成中的比较

然而,尽管扩散模型在 FID 分数上取得了最先进的成绩,但它们在对齐和最大交并比(MaxIoU)分数上的表现通常不如早期的基于 Transformer 的模型,尤其是在无条件生成方面。这些指标可以用于在连续扩散模型中的约束优化,以提高布局的美学质量。但是,由于量化几何属性的不可微性,离散模型无法利用这一优化潜力。相比之下,连续扩散模型在任务统一方面面临挑战,因为高斯分布的样本空间和数据分布(画布范围和概率单纯形)是不同的。

为了解决这些问题,提出一个统一的模型-LACE,旨在连续空间中生成各种任务的几何和分类属性。LACE 模型采用连续扩散模型作为基础,并引入了可微的美学约束函数来增强模型性能。此外,还设计了全局对齐损失成对重叠损失,这些在训练和后处理阶段作为约束函数

一、方法

1.1 连续扩散模型

连续扩散模型是一种生成模型,它通过一个正向和逆向的马尔可夫过程来描述数据的生成过程。

训练目标(损失函数):

1.2 连续布局生成

连续布局生成是指在布局元素的生成过程中,使用连续的变量来表示元素的属性,如大小和位置,而不是将它们离散化到固定的几个选项中。这种方法允许模型在更精细的粒度上进行控制,从而提高生成布局的质量和灵活性。

  • 布局的定义与表示

    布局由多个元素组成,每个元素由类别标签 $ c_i $和边界框 $ b_i 定义。其中, 定义。其中, 定义。其中, c_i $ 表示元素类型,$ b_i $ 由中心坐标$ (x, y) $和大小比例(宽高比)定义。

  • 布局的连续变量表示

    与传统的离散扩散方法不同,本方法将边界框属性视为连续的大小和位置比例,范围从 0 到 1。这允许模型在更大的搜索空间内优化美学质量。

  • 条件生成

    为了处理条件生成任务,作者采用条件掩码作为数据增强手段,通过掩码固定部分元素的标签或大小属性,或者固定所有属性。

1.3 重建和美学约束

引入重建损失以鼓励模型在每个时间步骤上合理预测原始数据。总损失由简化损失 $ L_{simple} $ 和重建损失 $ L_{rec} $ 组成:

L = L s i m p l e + L r e c L=L_{simple}+L_{rec} L=Lsimple+Lrec

重建损失函数改进:为了解决全局对齐和重叠问题,在重建损失中加入了全局对齐约束重叠约束两种美学约束

  • 对齐约束

    对齐损失用于评估布局元素之间的对齐情况,定义了六种对齐类型:左对齐 (L)、水平中心对齐 (XC)、右对齐 ®、顶部对齐 (T)、垂直中心对齐 (YC)、底部对齐 (B)。

  • 重叠约束

    防止生成布局中的元素重叠,使用均值成对交并比损失函数。

  • 时间依赖的约束权重

    由于约束函数在参数空间内引入了许多局部最小值,直接在嘈杂的布局上应用对齐和重叠损失会阻碍准确的重建,为了缓解这个问题,引入了时间依赖的约束权重。

    展示了正向过程中的时间依赖约束权重和平均成对交并比(Mean Pairwise IoU)

    在逆向过程中,布局的粗糙结构已经显现

    只在较小的时间$ t $ 下实施约束,以便在噪声较低的预测 $( \tilde{x}_0 ) $中微调不对齐的坐标。根据经验选择了 $ \omega_t = (1 - \bar{\alpha}_t) $作为常数 β 计划的约束权重系列。约束权重系列的 β 计划被设定为,当 $ t $较小且损坏过程尚未引入太多重叠时,权重激活约束。

二、实验

2.1 定量结果

2.2 LACE 和 LayoutDM 在条件生成任务中的定性比较

局限性及展望

尽管 LACE 在布局生成方面展示了进步,但它有一些限制。首先,它将布局元素限制为矩形形状,限制了表示的灵活性。此外,它缺乏背景和内容意识。该模型还仅处理有限数量的元素,并依赖标签集。这些限制可能限制了其在复杂、多样化设计场景中的应用。未来的工作可以采用任意形状更好地反映现实世界图形设计场景,因为大多数现有工作依赖于矩形框来表示元素。

参考文献

  • paper:TOWARDS ALIGNED LAYOUT GENERATION VIA DIFFUSION MODEL WITH AESTHETIC CONSTRAINTS,https://arxiv.org/pdf/2402.04754
  • code:https://github.com/puar-playground/LACE

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1912311.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

解决安卓tv 蓝牙遥控器配对后输入法弹不出来的问题

t972在蓝牙配对后,自带的LatinIME 输入法会出现弹不出来的现象。 经过分析,主要为蓝牙的kl 文件适配存在问题。解决如下: 1.新建 kl文件Vendor_2b54_Product_1600.kl 放到 /vendor/usr/keylayout/下 内容: #for bl remote add by jason 20240709 key 113 VOLUME_MUTE …

【RAG KG】GraphRAG开源:查询聚焦摘要的图RAG方法

前言 传统的 RAG 方法在处理针对整个文本语料库的全局性问题时存在不足,例如查询:“数据中的前 5 个主题是什么?” 对于此类问题,是因为这类问题本质上是查询聚焦的摘要(Query-Focused Summarization, QFS&#xff09…

FL Studio 24.1.1.4234 (Windows) / 24.1.1.3884 (Mac OS X)

FL Studio 24.1.1.4234 (Windows) / 24.1.1.3884 (Mac OS X) 主页多媒体音频编辑FL Studio 24.1.1.4234 (Windows) / 24.1.1.3884... FL Studio 图标 FL Studio(前身为 FruityLoops)是一款功能强大的音乐制作环境或数字音频工作站(DAW&#x…

用于视频生成的扩散模型

学习自https://lilianweng.github.io/posts/2024-04-12-diffusion-video/ 文章目录 3D UNet和DiTVDMImagen VideoSora 调整图像模型生成视频Make-A-Video(对视频数据微调)Tune-A-VideoGen-1视频 LDMSVD稳定视频扩散 免训练Text2Video-ZeroControlVideo 参…

鸿蒙开发:Universal Keystore Kit(密钥管理服务)【密钥协商(ArkTS)】

密钥协商(ArkTS) 以协商密钥类型为X25519 256,并密钥仅在HUKS内使用为例,完成密钥协商。 开发步骤 生成密钥 设备A、设备B各自生成一个非对称密钥,具体请参考[密钥生成]或[密钥导入]。 密钥生成时,可指定参数HUKS_TAG_DERIVE…

STL--栈(stack)

stack 栈是一种只在一端(栈顶)进行数据插入(入栈)和删除(出栈)的数据结构,它满足后进先出(LIFO)的特性。 使用push(入栈)将数据放入stack,使用pop(出栈)将元素从容器中移除。 使用stack,必须包含头文件: #include<stack>在头文件中,class stack定义如下: namespace std…

前端面试题32(浅谈前端热部署)

前端热部署&#xff08;Hot Deployment&#xff09;是指在开发过程中&#xff0c;当开发者修改了前端代码后&#xff0c;这些修改能够立即反映到正在运行的前端应用上&#xff0c;而无需重新启动整个应用或服务器。这种能力极大地提高了开发效率&#xff0c;因为开发者可以即时…

算法学习笔记(8.2)-动态规划入门进阶

目录 问题判断: 问题求解步骤&#xff1a; 图例&#xff1a; 解析&#xff1a; 方法一&#xff1a;暴力搜索 实现代码如下所示&#xff1a; 解析&#xff1a; 方法二&#xff1a;记忆化搜索 代码示例&#xff1a; 解析&#xff1a; 方法三&#xff1a;动态规划 空间…

如何在JetBrains中写Codeforce?

目录 前言 正文 leetcode 个人喜好 参考资料 具体操作步骤 尾声 &#x1f52d; Hi,I’m Pleasure1234&#x1f331; I’m currently learning Vue.js,SpringBoot,Computer Security and so on.&#x1f46f; I’m studying in University of Nottingham Ningbo China&#x1f4…

硬件:CPU和GPU

一、CPU与GPU 二、提升CPU利用率&#xff1a;计组学过的 1、超线程一般是给不一样的任务的计算使用&#xff0c;而非在计算密集型工作中 2、Cpu一次可以计算一个线程&#xff0c;而gpu有多少个绿点一次就能计算多少个线程&#xff0c;Gpu比cpu快是因为gpu它的核多&#xff0c;…

如何在 PostgreSQL 中确保数据的异地备份安全性?

文章目录 一、备份策略1. 全量备份与增量备份相结合2. 定义合理的备份周期3. 选择合适的备份时间 二、加密备份数据1. 使用 PostgreSQL 的内置加密功能2. 使用第三方加密工具 三、安全的传输方式1. SSH 隧道2. SFTP3. VPN 连接 四、异地存储的安全性1. 云存储服务2. 内部存储设…

RK3568------Openharmony 4.0-Release WIFI/BT模组适配

RK3568------Openharmony 4.0-Release WIFI/BT模组(ap6236)适配 文章目录 RK3568------Openharmony 4.0-Release WIFI/BT模组(ap6236)适配前言一、驱动移植二、设备树配置三 、内核配置四、遇到的问题五、效果展示总结 前言 随着RK3568适配工作的推进&#xff0c;整体适配工作…

泛微E9开发 控制日期浏览按钮的可选日期范围

控制日期浏览按钮的可选日期范围 1、需求说明2、实现方法3、扩展知识点控制日期浏览按钮的可选日期范围格式参数说明演示 1、需求说明 控制日期浏览按钮的可选日期范围为2024/07/01~2024/07/31&#xff0c;如下图所示 2. 控制日期浏览按钮的可选日期范围在当前时间的前一周~当…

【基于R语言群体遗传学】-13-群体差异量化-Fst

在前几篇博客中&#xff0c;我们深度学习讨论了适应性进化的问题&#xff0c;从本篇博客开始&#xff0c;我们关注群体差异的问题&#xff0c;建议大家可以先看之前的博客&#xff1a;群体遗传学_tRNA做科研的博客-CSDN博客 一些新名词 Meta-population:An interconnected gro…

4:表单和通用视图

表单和通用视图 1、编写一个简单的表单&#xff08;1&#xff09;更新polls/detail.html文件 使其包含一个html < form > 元素&#xff08;2&#xff09;创建一个Django视图来处理提交的数据&#xff08;3&#xff09;当有人对 Question 进行投票后&#xff0c;vote()视图…

Proteus + Keil单片机仿真教程(五)多位LED数码管的静态显示

Proteus + Keil单片机仿真教程(五)多位LED数码管 上一章节讲解了单个数码管的静态和动态显示,这一章节将对多个数码管的静态显示进行学习,本章节主要难点: 1.锁存器的理解和使用; 2.多个数码管的接线封装方式; 3.Proteus 快速接头的使用。 第一个多位数码管示例 元件…

谷歌云 | Gemini 大模型赋能 BigQuery 情感分析:解码客户评论,洞悉市场风向

情感分析是企业洞察客户需求和改进产品服务的重要工具。近年来&#xff0c;随着自然语言处理 (NLP) 技术的飞速发展&#xff0c;情感分析变得更加精准高效。Google 推出的 Gemini 模型&#xff0c;作为大型语言模型 (LLM) 的代表&#xff0c;拥有强大的文本处理能力&#xff0c…

共生与变革:AI在开发者世界的角色深度剖析

在科技日新月异的今天&#xff0c;人工智能&#xff08;AI&#xff09;已不再是遥不可及的概念&#xff0c;而是逐步渗透到我们工作与生活的每一个角落。对于开发者这一群体而言&#xff0c;AI的崛起既带来了前所未有的机遇&#xff0c;也引发了关于其角色定位的深刻讨论——AI…

electron在VSCode和IDEA及webStrom等编辑器控制台打印日志乱码

window10环境下设置 1.打开Windows设置 2.打开时间和语言&#xff0c;选择语言菜单、如何点击管理语言设置 3.打开之后选择管理&#xff0c;选择更改系统区域设置&#xff0c;把Beta版&#xff1a;使用Unicode UTF-8提供全球语言支持 勾上&#xff0c;点击确定&#xff0c;…

氛围感视频素材高级感的去哪里找啊?带氛围感的素材网站库分享

亲爱的创作者们&#xff0c;大家好&#xff01;今天我们来聊聊视频创作中至关重要的一点——氛围感。一个好的视频&#xff0c;不仅要有视觉冲击力&#xff0c;还要能够触动观众的情感。那我们应该去哪里寻找这些充满氛围感且高级的视频素材呢&#xff1f;别急&#xff0c;我这…