AtomoVideo:AIGC赋能下的电商视频动效生成

news2025/1/9 1:49:20

✍🏻 本文作者:凌潼、依竹、桅桔、逾溪

1. 概述

当今电商领域,内容营销的形式正日趋多样化,视频内容以其生动鲜明的视觉体验和迅捷高效的信息传播能力,为商家创造了新的机遇。消费者对视频内容的偏好驱动了视频创意供给的持续增长,视觉内容作为连接消费者和商品的桥梁,在广告系统中正变得日益重要。

然而,与传统的图文内容相比,视频内容的制作难度和成本都要高得多。制作一个高质量的视频需要专业的技能、设备以及时间,这使得成品的质量层次不齐,且难以批量化生产。随着人工智能和生成式内容创造(AIGC)技术的进步,使得通过智能化手段批量制作优质视频创意成为可能,并且能够为客户带来显著价值。

近日,OpenAI Sora 的发布让人们看到了视频智能创作的曙光,如今各大团队也纷纷开始了“国产版 Sora”的探索之路,在 Sora 出现之前,阿里妈妈智能创作与AI应用团队在视频 AIGC 领域已有近一年的研究和探索,与业务相结合,我们孵化出了🔗 尺寸魔方、商品视频动效生成等基于扩散模型的视频生成和编辑工具。本文将聚焦于商品视频动效生成,介绍我们在视频 AIGC 应用于视频创意上的探索与实践。

借助自研的AtomoVideo 视频生成技术(中文:阿瞳木视频,项目地址:https://atomo-video.github.io/),我们探索出了一种自动化地将电商平台上现有的图片素材转换为高质量的视频动效的方法,并在万相实验室、广告投放平台等场景进行了落地和上线,服务于广大阿里妈妈广告客户。

e025c8cb2ef8a1ad7a12a4b94a6d15bc.gif71197739b991f1a27ef20f226308759c.gif

774b65eb91e90789015f6d8f98664702.gif

2ce2fc490c44c2fd272514f482a833fd.gif

2. 核心技术

整个商品视频动效的生成过程面临诸多挑战,尤其是在电商场景下,商品主体的细节是不允许被改变的,也是商家非常在意的基本准则。因此,如何在保持商品外观准确性的同时进行更加合理的动效视频生成,是非常值得探索的问题。我们在现有T2V模型的基础上,提出使用 Noise Rectification(无需训练的噪声矫正器)来实现图像到视频的生成,为了进一步提升视频连贯性和保真度,进而提出 AtomoVideo(阿瞳木视频生成技术) 将基础模型进行升级,赋能电商视频动效生成。

2.1 Noise Rectification: 无需训练的噪声矫正器

文本到图像生成(T2I)在过去一年取得了飞速的发展,诸多设计行业从业者、科技爱好者利用 Stable Diffusion WebUI、ComfyUI 等开源工具已经可以生成摄影级图像和实现商业级落地应用。相比之下,受限于训练机器资源和数据集收集困难等挑战,视频生成远没有图像生成领域发展迅速,近半年,随着 Pika、Gen-2 等视频编辑工具的出现,社区中也涌现了许多文本到视频生成(T2V)的工作,为了将此类 T2V 的工作迁移至我们的商品动效生成中,我们提出了一种无需训练的噪声矫正器(Noise Rectification),可以自然地实现 T2V 到 I2V 的转变

具体来说,我们对给定图片添加一定步数的噪声,以此来模拟训练过程中的加噪过程,这样我们便获得了含有输入图像信息的噪声先验,在此基础上进行降噪即可保留一定输入图片的风格等信息。然而,这种“垫图”式 T2V 生成方式在电商领域对给定图片做动效生成时,会丢失大量原图像中的细节信息,严重破坏原有图片的美观度。为此,我们专门设计了一个与“垫图”生成可以完美配合的噪声矫正器(Noise Rectification),噪声矫正器流程图如下所示:

536dc15412d4a0e1a81cacc4303337b8.png
Noise Rectification示意图

考虑到模型训练无法达到完美损失,即模型预测噪声总会存在偏差,从而导致视频保真度的降低。为了缓解模型在 DDIM 去噪过程中的误差累积(指实际添加的噪声与每一步中模型预测的噪声的差异),对于每一步模型预测的噪声,我们利用初始采样的噪声,对其进行“噪声矫正”,即 通过计算预测噪声和真实噪声之间的差异,采样加权的计算方式对预测的噪声进行适当调整。通过这种设计,我们的方案可以消除第一帧的噪声误差,使得第一帧达到完美保真,同时其余帧也会和第一帧保持时序内容上的一致。本方案提出的“垫图+噪声矫正”策略,不需要引入额外的训练,直接作用于动效模型的推理阶段,即可提高图生视频的保真度。更多技术细节请参见我们的论文:

  • Title:Tuning-Free Noise Rectification for High Fidelity Image-to-Video Generation

  • 链接:https://arxiv.org/abs/2403.02827

  • 项目主页:https://noise-rectification.github.io/

使用该方案后的前后对比效果如下,能够明显看到动效视频与给定图像一致性的提升,结合可控生成技术,我们可以完美还原商品细节。但这种针对 T2V 模型的噪声校正策略在更多通用场景下会存在动效幅度较小的缺点,关于这一点的解决,我们将在下一章节进行介绍我们的改进。

输入图像
生成动效(直接垫图生成)

生成动效(使用Noise Rectification生成)

385ba318f862396325b0617e532518ce.png7de5cc73d5120f6a1c98fbf25676d907.gif0a9c81bbb3cf5021fc476af2abb1ebba.gif
a16450e84e6cf22866a4eb96dc66cd24.png9d9bd7ab3ae0a9e3b4ee9f942e7c3bc4.gifee3f0db61128992a9abb9db663be8aec.gif

2.2 AtomoVideo:高保真度的I2V模型升级

在商品信息注入和噪声矫正器的加持下,商品动效生成已经具备了不错的生成效果,我们也基于以上改进在万相实验室上线了动效生成模块的第一版,但由于所使用的基础模型为 T2V 模型,并非适用于本任务的 I2V 模型,且生成时长仅有2s,在淘内场景下使用受限。为此,我们专门研发了更适用于本任务的 I2V 基础模型,称为 AtomoVideo(中文:阿瞳木视频),该模型对视频的时序一致性和图像保真度提升显著,模型结构框架图如图所示:

163b9d6e8d1f351804191e18d263121d.png
AtomoVideo 模型结构图

我们对模型做了如下几个改进,包括优质数据集构建、多粒度图像注入、渐进性动作强度训练等。

1) 优质数据集构建:收集内部千万规模的“文本-视频”数据对,利用美观度、文本视觉相关性、主体检测(过滤人物视频)、动效强度检测等方式,清洗得到优质视频数据子集,用于视频生成模型训练。同时我们与设计师合作构建了一个更加优质的数据集,汇集了大量在美观度和动效质量上均表现出色的高清视频。

2) 多粒度图像注入:为增强 I2V 生成的图像保真度和时序一致性,我们使用了多粒度的图像注入方法,在扩散模型输入侧将图像的low-level和high-level语义进行输入,在我们实验中,这可以在完美还原给定图像保真度的同时,增加生成视频的时序一致性。

3) 训练方法:我们观察到大多数其他工作(如Pika、Gen2等)很难生成动作幅度大的视频,还有一些工作在生成动作幅度较大的视频时,稳定性较差。为了克服这一点,我们使用了渐进性动作强度增加的多阶段训练方式,由低动效视频数据集开始,逐步增加至高动效数据集进行训练,我们发现这可以帮助模型在生成较大动作幅度视频的同时,依然能够维持较好的时序稳定性。

经过如上的改进和大规模训练,我们将基础模型升级为可产生4s,720P的视频生成模型。更多相关细节可以阅读我们的技术报告:

  • Title:AtomoVideo: High Fidelity Image-to-Video Generation

  • 链接:http://arxiv.org/abs/2403.01800

  • 项目主页:https://atomo-video.github.io

部分生成示例如下,更多示例可前往项目主页浏览:

输入图片输入文本输出视频
5a07128c7af98d1ca2359331249708f0.pngMuppet walking down the street in a red shirt, cinematic.958047b945c9877f121d166cbfb59da2.gif
bb03f277f47279807098a808e954a3f5.pngFlying through an intense battle between pirate ships in a stormy ocean.15b599f5af70357872bc995adbc29ce6.gif
66749de97767fffd4ea5df29010dc7e4.pnga singer of a music bande3a2e39b1c490abe43d617c9d3924d83.gif

此外,我们将I2V基础模型的原始T2I模型部分进行了参数固定,而仅对新增的时序建模层和输入层进行训练,因此,我们可以将社区广泛使用的图像 ControlNet 与 AtomoVideo 进行结合,这也是我们相比于 SVD 等视频开源模型的优势。结合 T2I 领域预训练好的 ControlNet,可以实现局部控制生成,以尽量还原商品细节,当前我们上线版本已全部切换为该模型。

2.3 动效场景模板适配

由于输入商品图像的质量一定程度会影响动效生成的效果,有较多图片中并未包含任何动态元素,这种情况下,进行图像到视频的转换显得比较困难,容易产出“偏静态”的视频。因此,基于以上考量,我们与设计师共建了视频动效场景模板,并针对每个不同的场景描述定制化了特殊的动态描述。其中视频动效场景列表包含了诸如“山间云海”、“海底世界”等动态场景,同时在大促节日时,会专门设计一批用于节日宣传的动态模板进行投放(如下图是在38大促期间设计的两个动效模板)。

场景模板名称AIGC图片动效视频
粉色烟花9697715e7a245d5d57e6aee763a79f40.png47e69b00a19085fdd1e4c041547bf532.gif
粉色世界6fca27f3f2b600b31a35fa1b9abbdbc3.png85734c76e20d0232a655ea797b19e68f.gif

3. 业务应用

当前,电商视频动效生成已经在阿里妈妈-万相实验室(https://agi.taobao.com)和广告投放平台进行上线,支持广告主在线生成视频动效。以下是生成的一些样例:

输入图片
动效视频
10f32297c967a67be3168a2ca008748e.png0fb0ccebc4635ab820ce4cacf6bd9e80.gif
4dee16999def7608fbaf92f521dac975.png93104ed3afd724186a32b4d74de66440.gif
a372b8c212f149dc0d02d0299e3c838d.png1fd9f42b85a8e4e75a694f70848a79e0.gif
3394a208e7b9f0ced6855c55c4112049.png1aa6b3d47c6dbf037dc852f3161736bc.gif
3075bede16cc28d10fbc8f1840a7d168.png

7eeb36f2dc8d98e6fea60fc1fc7a08a5.gif

7c2c41d08424285761a64383b0f5bf5b.png977d6a00c38ccb41d165b3fe320b213b.gif

4. 总结与展望

近半年,AIGC 视频生成技术取得了令人瞩目的飞跃发展。随着 GEN-2、PIKA 1.0、Sora 等视频创作工具和模型的出现,影视制作和多媒体设计等行业正迎来一场创造力的革新风暴,这些技术正在推动视频内容制作向着更高的逼真度和更强的可控性迈进。本文介绍了我们团队在视频 AIGC 赋能视频广告创意的探索和实践,通过基于扩散模型的视频生成技术,结合可控生成技术,使得静态电商图片栩栩如生地“动”了起来,实现了在电商领域的视频 AIGC 应用落地。

然而,目前的技术实现还远未触及视频生成的真正潜力,在视频画面的稳定性、内容创造的可控性以及视频时长等关键要素上,仍有很大的进步空间值得我们探索。Sora 的出现也让我们看到了未来视频创作工具大规模应用的曙光,Diffusion Transformer、Scaling Up 等关键技术给了我们很多启发,在未来,希望不断提升基础模型生成效果的同时,用视频 AIGC 技术赋能更多业务场景。

关于我们

我们是阿里妈妈智能创作与AI应用团队,专注于图片、视频、文案等各种形式创意的智能制作与投放,产品覆盖阿里妈妈内外多条业务线,欢迎各业务方关注与业务合作。同时,真诚欢迎具备CV、NLP相关背景同学加入,一起拥抱 AIGC 时代!感兴趣同学欢迎投递简历加入我们。✉️ 简历投递邮箱:alimama_tech@service.alibaba.com

END

2838b1ab0933e6a76c5d3508efb3487d.gif

也许你还想看

🔥《计算机视觉 in 阿里妈妈》文章合集

视频尺寸魔方:分层遮掩3D扩散模型在视频尺寸延展的应用

ACM MM’23 | 4篇论文解析阿里妈妈广告创意算法最新进展

营销文案的“瑞士军刀”:阿里妈妈智能文案多模态、多场景探索

实现"模板自由"?阿里妈妈全自动无模板图文创意生成

告别拼接模板 —— 阿里妈妈动态描述广告创意

如何快速选对创意 —— 阿里妈妈广告创意优选

化繁为简,精工细作——阿里妈妈直播智能剪辑技术详解

CVPR 2023 | 基于内容融合的字体生成方法

CVPR 2023 | 基于无监督域自适应方法的海报布局生成

关注「阿里妈妈技术」,了解更多~

7490b3370515089a013918166e7a12e4.gif

喜欢要“分享”,好看要“点赞”哦ღ~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1520508.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C语言基础之结构体

文章目录 一、结构体1、结构体概述2、结构体类型的定义方式(1)先定义结构体类型,再定义结构体变量(2)结构体类型、变量同时定义(3)一次性结构体 3、结构体成员的初始化(1)结构体初始化(2)清空结…

linux用git拉取我云端以及git处理冲突

拉取后切换一个跟云端分支(dev)一样的 git branch --set-upstream-toorigin/dev dev 之后就同步了 A在dev分支写了iii,提交 B在dev分支写了hhh,提交,冲突 怎么修改,B把云端的拉下来,随便改改就行

找准方向选CRM客户管理系统!2023年排行榜推荐

本文将为大家带来2023有哪些好用CRM客户管理系统?CRM系统排行榜基于品牌知名度、功能、产品实力、系统稳定性、用户体量等多重因素考量。其中Zoho CRM、红圈CRM等产品市场表现优异入选此次榜单。 1.Zoho CRM 公司成立时间:1996年 Zoho(卓豪…

你为什么是你,而不是别人?认识人格的力量

你为什么是你,而不是别人?让你做自我介绍,你会怎么描述自己呢? 人格心理学是心理学的一门重要分支学科。探求、描述和揭示个体思想、情绪及行为的独特模式,综合个人与环境诸多影响因素,对现实社会中的个人作…

jenkins部署go应用 基于docker-compose

丢弃旧的的构建 github 拉取代码 指定go的编译版本 安装插件 拉取代码是排除指定的配置文件 比如 conf/config.yaml 文件 填写配置文件内容 比如测试环境一些主机信息 等 可以配置里面 构建的时候选择此文件替换开发提交的配置文件。。。。 编写docker-compose 文件 docker…

【PythonCode】力扣Leetcode6~10题Python版

【PythonCode】力扣Leetcode6~10题Python版 前言 力扣Leetcode是一个集学习、刷题、竞赛等功能于一体的编程学习平台,很多计算机相关专业的学生、编程自学者、IT从业者在上面学习和刷题。 在Leetcode上刷题,可以选择各种主流的编程语言,如C、…

渐开线花键不是齿轮?

在和一位小伙伴交流时,他认为齿轮和花键不一样,那花键是不是齿轮呢?老师傅们可以绕开了,我觉得对于一些平时接刚刚接触齿轮,或者很少接触的朋友来说,还是有必要聊一聊这个话题。 首先这个问题并不严谨&…

包冲突解决之-invalid constant type: 18

背景 现象一:引入了一个包A,服务突然起不来了,后台有报错信息,Caused by: org.springframework.beans.factory.NoSuchBeanDefinitionException: No qualifying bean of type xxx available: expected at least 1 bean which quali…

CSS扩展选择器

文章目录 1. 并集选择器2. 交集选择器3. 后代选择器4. 子代选择器5. 兄弟选择器5.1. 相邻兄弟选择器5.2. 通用兄弟选择器 6. 属性选择器7. 伪类选择器7.1. 动态伪类7.2. 结构伪类7.3. 否定伪类 8. 伪元素选择器9. Google 改进案例 1. 并集选择器 选中多个选择器对应的元素。一…

Day44-sersync企业实时复制实战

Day44-sersync企业实时复制实战 1. sersync实时复制工具介绍1.1 sersync工具简介1.2 sersync特点1.3 sersync图解原理1.4 sersyncrsync实时复制方案项目实践1.4.1 图解项目方案架构及实现原理1.4.2 确保远程数据传输服务部署完成1.4.3 检查当前系统nfs01是否支持inotify实时监控…

智慧城市:提升城市治理能力的关键

目录 一、智慧城市的概念及特点 二、智慧城市在提升城市治理能力中的应用实践 1、智慧交通:提高交通治理效率 2、智慧政务:提升政府服务水平 3、智慧环保:加强环境监测与治理 4、智慧安防:提高城市安全水平 三、智慧城市在…

基于springboot的七彩云南文化旅游网站的设计与实现(论文+源码)_kaic

摘 要 传统办法管理信息首先需要花费的时间比较多,其次数据出错率比较高,而且对错误的数据进行更改也比较困难,最后,检索数据费事费力。因此,在计算机上安装七彩云南文化旅游网站软件来发挥其高效地信息处理的作用&am…

sqllab第二十三关通关笔记

知识点: mysqli_query() 返回值为资源型或布尔型如果内容为查询语句则返回资源型数据;如果内容为插入、更新、删除等语句则返回布尔类型结果mysql_fetch_array() 从结果集中取出一行作为关联数组或数字数组输入内容为指定查询的结果集单引号闭合绕过联…

【测试开发学习历程】Docker入门

前言: Linux命令到上一篇博文就可以告一个段落了哦 ~ ~ 今天初步学习在测试中很重要的东西:Docker 目录 1 Docker概述 1.1 Docker产生的背景? 1.2 Docker的理念? 1.3 Docker的优势 1.3.1 传统的虚拟机 1.3.2 容器化虚拟技…

异次元发卡源码系统/荔枝发卡V3.0二次元风格发卡网全开源源码

– 支付系统,已经接入易支付及Z支付免签接口。 – 云更新,如果系统升级新版本,你无需进行繁琐操作,只需要在你的店铺后台就可以无缝完成升级。 – 商品销售,支持商品配图、会员价、游客价、邮件通知、卡密预选&#…

数据库 | MYSQL这个复杂系统如何上手?

当你不知道从何入手研究或解决一个复杂系统的问题时,通常意味着你没有找到合适的切入点或者缺乏对系统整体和细节之间联系的理解。在这种情况下,一个有用的策略是寻找系统的基本原理或构成要素。 小时候,你可能也玩过玩具四驱车。有的四驱车…

Github 2024-03-16 Rust开源项目日报 Top10

根据Github Trendings的统计,今日(2024-03-16统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Rust项目10TypeScript项目2Go项目1RustDesk: 用Rust编写的开源远程桌面软件 创建周期:1218 天开发语言:Rust, Dart协议类型:GNU Affero Gene…

OCP NVME SSD规范解读-12.Telemetry日志要求

以NVME SSD为例,通常大家想到的是观察SMAR-log定位异常,但是这个信息在多数情况下无法只能支撑完整的定位链路。 定位能力的缺失和低效是数据中心问题解决最大的障碍。 为了解决这个问题,Meta的做法是推进OCP组织加入延迟记录页面。同时NVME协…

经典机器学习模型(一)感知机模型

经典机器学习模型(一)感知机模型 感知机可以说是一个相当重要的机器学习基础模型,是神经网络和支持向量机的基础。 感知机是一个二分类的线性分类模型,之所以说是线性,是因为它的模型是线性形式的。 从《统计学习方法》中,我们…

如何搭建“Docker Registry私有仓库,在CentOS7”?

1、下载镜像Docker Registry docker pull registry:2.7.1 2、运行私有库Registry docker run -d -p 5000:5000 -v ${PWD}/registry:/var/lib/registry --restartalways --name registry registry:2.7.1 3、拉取镜像 docker pull busybox 4、打标签,修改IP&#x…