上下文驱动的图上文案生成

news2025/1/8 12:02:09

✍🏻 本文作者:持信、弈臻、悟放、积流、孟诸

1. 摘要

为商品图片上特定位置配上装饰性文案来突出重点在广告业务中有着十分广泛的应用前景。然而,现有的图片文案描述生成系统均生成与图片位置关系无关的文案,无法很好地应用到广告业务中。在本文中我们提出了一种新的文案生成任务——图上文案生成,并基于商品图片数据提出了一个大规模图上文案数据集CapOnImage2M。为了更好的利用上下文以及商品本身的信息来生成更适合特定位置的文案,我们提出了一种基于上下文的多模态图上文案模型,并设计了几种针对位置关系的预训练任务来帮助模型更好的理解位置信息。目前,使用该工作针对业务数据训练的模型,已经应用在淘宝首页焦点位、首页猜你喜欢信息流等广告业务中,并取得了显著的业务收益。该项工作论文已发表在EMNLP 2022,欢迎阅读交流。

论 文:CapOnImage: Context-driven Dense Captioning on Image

下 载(点击↓阅读原文):https://arxiv.org/abs/2204.12974

2.背景

广告主通常会给商品图片配上特定的装饰性文案以突出重点,提升商品的吸引力和信息量,这些文案通常包括产品名、产品介绍、卖点、点击引导、利益点等类型。然而为图片设计合适的图上文案通常需要雇佣专业写手和设计师来完成,成本较高且相对低效。传统的图文创意是基于预设模板的方式,依赖设计师的模板去填充对应的文案,模板的多样性往往不足以匹配图片的多样性,导致模板的适配性不足,同时受限于模板的固定范式,要求我们具有明确指定各种文案类型和特定字数的文案生成能力,不够灵活且适配成本较高。

为此,我们希望提出一种自动化的图文创作方式,在本文中我们提出了图上文案生成,一种新的文案生成任务,利用多模态的文案生成技术,综合考虑图片本身信息(如商品主体、商品主体位置和背景色)、商品文本信息、文本框位置layout以及多个框之间的相对位置关系等信息自适应地生成合适的文案。其中文本框位置可以通过其他手段获取,比如OCR工具或者layout模型生成等。

8ce18b37d64a630e925633de622e7c4f.png
图1 图上文案生成任务示意图

3.数据集

我们提出了CapOnImage2M数据集来作为图上文案任务的benchmark。它包含50类共计210万业务图片,每张图片包含每个商品标题、属性和图片上不同位置的文案以及对应的坐标。

a00260bc9b60e1a603341c2cda886aff.png
图2 CapOnImage2M数据集示例

4.方法设计

4.1 概述

现有的图像文案生成通常是对整张图片生成一个整体的叙述性文案,缺乏对图片在空间上与对应文案的交互关系。在这个任务中,我们将在图片上的多个位置生成多个与之对应的文案。为此,我们提出了一种基于上下文的多模态图上文案的模型,充分利用各模态商品信息去生成合理且多样的图上文案。以上所有输入信息分别进行信息嵌入后输入一个混合模态的多层transformer中,模型通过自回归的方式生成预测的文案[1,2]。为了更好的帮助模型理解上下文位置关系,我们提出了几种不同层级的位置相关的预训练任务,并利用progressive training的策略帮助模型训练。

a2e761ee0a601e7d991ab4ae9ba350be.png
图3 方法总览图

4.2 模型输入

模型将图片、当前位置框、前后位置框、商品类目、商品标题、商品属性对等作为输入,去生成对应当前位置框的文案。所有位置框的原始坐标为像素坐标,为了方便编码,我们将其进行离散化,具体来说,整张图从横纵两个方向切分为固定数量(示意图中以7X7为例)的格子patch,将位置框的坐标所在的patch的横纵坐标作为框的embedding id。图像部分的输入经过。在模型训练的过程中,由于图片上含有文字(即待生成的),为了避免模型坍塌成识别图上文字的OCR任务,我们对原图上的文字部分进行了mask。

4.3 预训练方案

我们通过预训练微调的方式来训练模型,首先通过Caption Generation(CG)和Caption Matching(CM)两个任务对模型进行预训练,在微调阶段仅利用CG任务来生成文案。CG任务我们使用Prefix LM[1,2]的方式进行解码;CM任务与视觉语言预训练工作中常用的Image-Text Matching[3,4,5]任务类似,都是构造正负样本让模型来预测图片和caption之间是否匹配,在图上文案这个任务当中,为了帮助模型进一步的理解位置关系,我们设计了3种不同难度的负样本:

Level-I: Image caption matching.  第一种负样本是我们随机替换正确的caption为其它图片的caption,我们希望模型能通过图片和商品信息来很好的识别这一类负样本。

Level-II: Location caption matching.  第二种负样本是将正确的caption随机替换为同一张图片上其它位置的caption,我们希望模型能通过文字的位置信息更好的理解文字的关系。

Level-III: Neighbor-location caption matching.  第三种负样本是将正确的caption随机替换为同一张图片上相邻(包含前后)位置的caption,这一种负样本可以看做第二种的一种特殊形式。

因为三种负样本是从易到难,我们进一步提出利用progressive training的策略在训练过程中动态的调整样本难易,来进一步帮助模型理解位置关系。

5. 实验

5.1 定量分析

因为图上文案任务是一个新提出的任务,我们将传统的图像文本描述任务的相关模型适配到我们的任务上。从表一中可以看出我们的模型在准确性以及多样性的指标上均取得了最好的结果。

4cdfcb747414358f10ba62ebfe2a37bf.png
表1 与基准模型对比

5.2 消融实验

我们进一步进行实验对我们提出的三种预训练task以及progressive training策略的有效性进行验证,从表二可以看出,三种不同难度的预训练task均可以帮助模型更好的理解位置关系,进而提升模型效果;progressive training的策略进一步提升了模型的效果。

b72689ca3fc028f4d97363274af1d53e.png
表2 消融实验

5.3 可视化分析

在图四中我们可视化了一些生成的case,并与ground-truth进行了对比,可以看出模型生成的文案很好的理解了多模态信息以及上下文位置关系,生成了与位置相匹配的文案。

d52d36c039acda004f32149802f677eb.png
图4 部分生成case可视化

6. 总结与展望

本文提出了一种新的文案生成任务——图上文案生成,在广告、社交平台图片等多个场景都有着很好的应用前景,我们基于商品图片提出了一个大规模数据集 CapOnImage2M 以方便后续工作对任务进行进一步探索。我们相信自动化是图文创作的未来,希望本文工作能对后续广告文案自动化生成有所启发。

后续我们将持续改进图上文案生成的质量,并预期可以不借助于前置文本框预测模型和后置文字渲染模型,做到端到端的文字渲染。

7. 关于我们

我们是阿里妈妈创意&内容算法团队,致力于推动广告创意和内容投放产业的AI升级,努力推动创意制作、理解、模型预估和广告投放的全栈智能化。得益于阿里巴巴庞大而真实的营销场景,团队在图像技术、视频技术、文案生成、广告投放等领域持续发力和创新,现已构建出图片与短视频创意自动生成,创意个性化投放,智能文案写作,全自动与交互式抠图等特色产品,论文发表于CVPR、ICCV、AAAI、ACMMM、WWW、EMNLP、CIKM、ICASSP 等领域知名会议。用AI赋能现代营销,驱动产业升级。真诚欢迎CV、NLP和推荐系统相关领域的同学加入!

投递简历邮箱

alimama_chuangyi@service.alibaba.com

8. 引用

[1] Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer[J]. J. Mach. Learn. Res., 2020, 21(140): 1-67.

[2] Dong L, Yang N, Wang W, et al. Unified language model pre-training for natural language understanding and generation[J]. Advances in Neural Information Processing Systems, 2019, 32.

[3] Chen Y C, Li L, Yu L, et al. Uniter: Universal image-text representation learning[C]//European conference on computer vision. Springer, Cham, 2020: 104-120.

[4] Li G, Duan N, Fang Y, et al. Unicoder-vl: A universal encoder for vision and language by cross-modal pre-training[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(07): 11336-11344.

[5] Zhuge M, Gao D, Fan D P, et al. Kaleido-bert: Vision-language pre-training on fashion domain[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 12647-12657.

END

c464e81e825b0000e1de873af834c520.gif

也许你还想看

营销文案的“瑞士军刀”:阿里妈妈智能文案多模态、多场景探索

实现"模板自由"?阿里妈妈全自动无模板图文创意生成

告别拼接模板 —— 阿里妈妈动态描述广告创意

如何快速选对创意 —— 阿里妈妈广告创意优选

b84a4cbde7f09297a881f37a3554df1f.gif

喜欢要“分享”,好看要“点赞”哦ღ~

↓欢迎留言参与讨论↓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/192629.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

66. Python 类的总结

66. 类的总结 文章目录66. 类的总结1. 类2. 对象3. 类的语法4. 属性5. 方法6. 创建对象7. 调用属性8. 调用方法9. 方法的值的传递第1情况:没有值第2种情况:有值10. __init__方法1. __init__写法2. __init__作用3. 重点关注11. 自定义函数和方法的异同1. …

Unity渲染管线(Render Pipeline)笔记

Rendering是什么 渲染Rendering可以理解为将拿到的3D数据生成一副2D图像的过程。 这些3D数据包含:3D模型本身的点的信息,三角形面的描述信息,模型应用的材质以及摆放的虚拟相机的信息等。Rendering过程会使用全部的数据(物体的几何…

摄像头录像大师推荐?如何录制摄像头,图文教程

现如今,很多笔记本电脑上都会携带摄像头,用来录制摄像头画面,方便小伙伴的时候。可很多小伙伴却表示,自己不知道电脑摄像头画面该如何录制。有什么有什么好用的摄像头录制大师?如何录制摄像头画面?本篇文章…

【10w字】超详细【百分百拿offer】的面试教程,接口测试篇

1.请问你是如何做接口测试的? 大体来说,经历以下过程:接口需求调研、接口测试工具选择、接口测试用例编写、接口测试执行、接口测试回归、接口测试自动化持续集成。 具体来说,接口测试流程分成以下九步: 第一步&…

RabbitMq之发布确认(高级)

一.发送消息到交换机失败 正常情况下生产者只发布消息到交换机,无法确定是否成功把消息发送到交换机当中,由此发布确认的回调函数可以通知生产者消息是否发送到了交换机。 代码如下 1.先创建交换机、队列等信息 package jot.jothot.testMq;import or…

OS 学习笔记(6) 操作系统引导

OS 学习笔记(6) 操作系统引导 这篇笔记对应的王道OS 1.5 操作系统引导,同时参考了 《Operating System Concepts, Ninth Edition》和 俗称ostep的《 Operating Systems: Three Easy Pieces》还有 《Operating Systems: Principles and Practice》 文章目录OS 学习笔…

实战还原--从大黄蜂样本到域控管理员技术解析

0 前言实战案例还原《BumbleBee Roasts Its Way To Domain Admin》一文详细的描述了一次渗透案例,但其文章组织架构建立在ATT&CK框架上,而不是按照时间线逻辑来组织,因此对于渗透人员了解学习其前后过程有些困难,特此梳理一番…

发布微信小程序获取收集用户信息权限

前言在发布微信小程序的时候我们经常会遇到审核不通过的情况,其中一种特别让我头疼就是说小程序收集、使用和储存用户信息。不给予通过。但是他们的接口又不能提供这个功能,并且老是改动,真的特别的麻烦加无语。有时候审核偷一下懒&#xff0…

算法刷题-回文数、找出小于平均值的数、旋转图像(C_C++)

文章目录回文数找出小于平均值的数旋转图像回文数 给你一个整数 x ,如果 x 是一个回文整数,返回 true ;否则,返回 false 。 回文数是指正序(从左向右)和倒序(从右向左)读都是一样的…

光电耦合器和MOSFET之间的差异

光电耦合器和MOSFET之间的差异 介绍 光电耦合器/光耦合器和固态继电器(光电MOSFET或光耦MOSFET(OCMOS FET))在保持电隔离的同时传输信号,但存在一些重要差异。 结构差异 下图显示了光电耦合器和OCMOS FET的主要内部…

Vue实战第2章:简单的分配页面布局

缓冲 前言 本篇在讲什么 本篇作为Vue实战的第二章,跟代码逻辑无关,主要是简单的先设计一下个人网站的各个模块内容,明确一下我们想要将网站做出什么样子 本篇的特色 具有全流程的图文教学 重实践,轻理论,快速上…

趣味三角——第6章——两个几何定理

第6章 两个几何定理 It is the glory of geometry that from so few principles, fetched from without, it is able to accomplish so much. (几何学的荣耀在于,仅从几个原理出发,外求于无物,但却能够完成如此非凡的壮举。) ——Isaac N…

linux基本功系列-top命令实战

文章目录一. top命令介绍二. 语法格式及常用选项三. 参考案例3.1 显示进程信息3.2 显示完整的进程命令3.3 以批处理的形式展示3.4 设置信息更新频次3.5 显示指定进程号的信息3.6 top面板中常用参数3.7 其他用法四. top的相关说明4.1 交互命令介绍4.2 top面板每行信息的含义4.2.…

MySQL(八):事务的隔离级别、MVCC的原理

目录一、事务的隔离级别1.1 事务的隔离性1.2 事务并发执行引发的一致性问题1.2.1 脏写1.2.2 脏读1.2.3 不可重复读1.2.4 幻读1.3 SQL标准中的四种隔离级别1.4 MySQL中支持的4中隔离级别二、MVCC原理2.1 版本链2.2 ReadView2.3 READ COMMITED 每次读取数据前都生成一个ReadView2…

使用独立显卡安装黑苹果,但无法扩展显示器的解决方案

使用独立显卡安装黑苹果,但无法扩展显示器的解决方案 网上的教程 本文的外部链接🔗 引用文中的一句话:“这也许是无法驱动独显的黑苹果笔记本想要外接显示器的唯一方案。” ---- 购买拥有displaylink的外置显卡的usb转接器 文章作者给我了…

word@菜单自定义和公式输入

菜单栏快捷键设置 word 设置(选项) Word options (General) - Microsoft Support 点击文件->选项 自定义word菜单 自定义功能区 Customize the ribbon in Word - Microsoft Support Customizing the source list of commandsThe ribbon listAdd or remove commandsReor…

[golang Web开发] 2.golang web开发:操作数据库,增删改查,单元测试

简介 Go 语言中的 database/sql包定义了对数据库的一系列操作,database/sql/driver包定义了应被数据库驱动实现的接口,这些接口会被sql包使用.但是 Go语言没有提供任何官方的数据库驱动,所以需要导入第三方的数据库驱动,不过连接数据库之后对数据库操作的…

超经典JavaIDEA 10个插件 Java开发工程师

工欲善其事,必先利其器。 作为一名合格的程序员,合理配置我们所用的IDEA,是高效开发的必修课。而如今的插件工具也越来越好用,不仅基本具备了智能提示,还可以自动补全代码,甚至能够在查出bug的同时提供修改…

如何彻底删除硬盘数据?电脑高手也恢复不了

实用的小命令,就是彻底删除硬盘上的数据,硬盘恢复软件也恢复不了! 1.以管理员身份运行cmd窗口,打开cmd,如下图所示: 2.在命令提示窗口中,直接输入cipher /w:路径,输入这个命令加上路径即可将文件彻底删除! 可以从整个命令说明上看到是从整个卷上可用的未使用磁盘空间…

Git (2) :Git练习--分支的新建与合并

一.首先有个问题 ? 在进行git练习前,有个问题需要提下。。。。 csdn无法登录了。 查了一下资料,是因为CSDN服务器的各地相应速度不一样,辽宁的响应是超时的,所以通过在hosts文件中指定域名http://csdnimg.cn的服务器…