Meta AI动画生成功能的规模化部署与优化策略

news2024/9/20 23:23:03

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

Meta推出Meta AI的目标是为人们提供利用生成式AI(GenAI)提升生产力和激发创造力的新方式。然而,GenAI也伴随着规模化的挑战。当Meta在部署新的GenAI技术时,Meta也专注于尽可能快速且高效地向人们提供这些服务。

Meta AI的动画生成功能允许用户生成短动画,并且在这一方面Meta面临着独特的挑战。为了在大规模应用中实现此功能,Meta的图像动画生成模型必须能够服务于使用Meta产品和服务的数十亿用户,并且做到快速生成、极少出错且资源高效。

以下是Meta如何通过延迟优化、流量管理和其他新颖技术成功部署Meta AI动画生成功能的过程。

优化生成图像动画的延迟

在将动画生成功能推向Meta应用家族和Meta AI网站之前,使动画模型的运行速度变得更快是Meta的首要任务之一。Meta希望用户能够体验到仅需几秒钟就能看到动画生成的魔力。这不仅从用户角度重要,而且模型越快、效率越高,Meta就能使用更少的GPU,从而实现可持续的规模化发展。Meta在创建带有视频扩散的动画贴纸、加速图像生成的Imagine Flash、以及通过块缓存加速扩散模型方面的工作帮助Meta开发出实现大幅度延迟优化的新技术。

减半浮点精度

这些优化技术之一是将浮点精度减半。Meta将模型从float32转换为float16,这加快了推理时间,主要有两个原因。首先,模型的内存占用减少了一半。其次,16位浮点运算比32位运算速度更快。对于所有模型,Meta使用bfloat16,一种用于训练和推理的float16变体,以获取这些优势。

改进时序注意力扩展

第二项优化是改进了时序注意力扩展。时序注意力层在时间轴和文本条件之间进行注意力计算,需要将上下文张量复制以匹配时间维度或帧数。以前,这是在传递到交叉注意力层之前完成的。然而,这导致了性能提升不理想。Meta选择的优化实现通过利用重复张量是相同的这一事实,在通过交叉注意力线性投影层之后进行扩展,从而减少计算和内存消耗。

利用DPM-Solver减少采样步骤

第三项优化使用了DPM-Solver。扩散概率模型(DPMs)是一种功能强大且有影响力的模型,能够生成高质量的结果,但其速度较慢。其他可能的解决方案,如去噪扩散隐式模型或去噪扩散概率模型,虽然可以提供高质量的生成,但需要更多的采样步骤。Meta利用了DPM-Solver和线性对数信噪比时间,将采样步骤减少到15步。

结合引导和步骤蒸馏

Meta实施的第四项优化是结合引导和步骤蒸馏。通过初始化教师和学生权重相同的模型,Meta进行了步骤蒸馏,训练学生模型在单步内模仿教师模型的多个步骤。引导蒸馏方面,Meta通过无分类器引导的方式实现了条件图像生成。这要求每个求解步骤都进行有条件和无条件的前向传递。然而,在Meta的场景中,每步有三个前向传递:无条件、图像条件和完整的文本与图像条件。通过引导蒸馏,Meta将这三个前向传递合并为一个,使推理时间缩短了三倍。最后,通过训练学生模型同时模仿无分类器引导和多步骤操作,Meta的最终模型只需八步求解,每步只需要一次通过U-Net。

PyTorch优化

最后一项优化涉及部署和架构,包含两项转化。首先是利用TorchScript进行脚本化和冻结。通过将模型转换为TorchScript,Meta获得了许多自动优化,包括连续折叠、多个操作的融合以及减少计算图的复杂性。这三项优化帮助Meta提高了推理速度,而冻结技术通过将图中的动态计算值转化为常量,进一步减少了总操作数。

虽然这些优化对于Meta的初次发布至关重要,但Meta还在持续突破界限。例如,Meta将所有媒体推理从TorchScript迁移到基于PyTorch 2.0的解决方案,这为Meta带来了多项提升。通过在组件级别利用pytorch.compile进行优化,以及在新架构中启用上下文并行和序列并行等高级优化技术,Meta实现了从减少高级功能的开发时间到改进跟踪、支持多GPU推理的全面胜利。

在大规模部署图像动画

在完全优化模型后,Meta面临的新挑战是如何在全球范围内运行此模型,支持来自世界各地的流量,同时保持快速的生成时间,尽量减少故障,并确保GPU可以用于公司内的其他重要用例。

Meta首先查看了以前AI生成媒体的流量数据,包括其发布时和随时间推移的流量情况。Meta使用这些信息来估算可以预期的请求数量,并利用模型速度的基准测试来确定需要多少GPU来容纳这些请求。在扩大规模后,Meta开始进行负载测试,以查看是否可以处理各种流量水平,解决各种瓶颈,直到Meta能够处理发布时预计的流量为止。

在测试过程中,Meta注意到动画请求的端到端延迟比预期高,并且高于Meta在构建上述所有优化后看到的情况。调查显示,流量在全球范围内被路由,导致显著的网络和通信开销,增加了生成时间。为了解决这个问题,Meta利用了流量管理系统,该系统获取服务的流量或负载数据并使用这些数据计算路由表。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2080554.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SQL 注入之报错注入、延时注入、布尔盲注

在 SQL 注入攻击中,报错注入、延时注入和布尔盲注是常见的攻击手段。这些攻击方式利用了数据库系统在处理用户输入时的漏洞,从而获取敏感信息或者执行恶意操作。本文将详细介绍这三种 SQL 注入攻击方式的原理和实现方法。 一、报错注入 报错注入是利用…

【区块链 + 司法存证】易保全区块链电子数据存证保全系统 | FISCO BCOS应用案例

电子数据在司法领域存在诸多痛点,如数据存储成本高、安全性低;数据控制权分离带来的举证责任分配困难; 读取难度大、证据展示困难;数据独立、无法在司法机构间进行协同共享等。易保全首创“区块链 司法 应 用”的模式&#xff0…

如何提高OZON电商店铺的客户满意度

以下是提高 OZON 电商店铺客户满意度的方法: 一、产品质量与描述相符 严格选品把控:花费 1-2 小时深入研究供应商和产品质量。在选择产品时,要与可靠的供应商合作,确保产品的质量稳定。例如,对于电子产品&#xff0c…

第二证券:股指预计保持震荡格局 关注消费电子、汽车等板块

2024年1—7月,全国一般公共预算收入135663亿元,同比下降2.6%,扣除上一年同期中小微企业缓税入库抬高基数、上一年年中出台的减税政策翘尾减收等特殊因素影响后,可比添加1.2%左右。综合考虑超长时间特别国债年内相对滑润发行、8月份…

【素数】在奇数中找素数并按每行10个数打印输出

100-200间的素数,按每行10个数打印输出。要求在奇数中找素数。 素数是一个大于1的自然数,它只能被1和它本身整除,不能被其他自然数整除。换句话说,素数是只有两个正因数(1和它本身)的自然数。 奇数是指不能…

RAG 向量数据库:掌握 Elasticsearch 作为向量数据库的终极指南

在不断发展的数据管理环境中,Elasticsearch 已成为一个突出的参与者,通过其向量数据库引入了突破性的功能,为数据搜索和检索领域带来的变革性影响。 从本质上讲,Elasticsearch 的向量数据库是一种尖端解决方案,旨在利用向量嵌入的潜力实现高效且可扩展的搜索操作。 Ela…

Open3D mesh 均匀下采样

目录 一、概述 1.1原理 1.2实现步骤 1.3应用 二、代码实现 2.1关键函数 2.2完整代码 三、实现效果 3.1原始mesh 3.2下采样mesh Open3D点云算法汇总及实战案例汇总的目录地址: Open3D点云算法与点云深度学习案例汇总(长期更新)-CSD…

开源 AI 智能名片 O2O 商城小程序在社交私域中的圈层价值

摘要:本文探讨了在社交网络下,开源 AI 智能名片 O2O 商城小程序如何利用私域环境的圈层属性,聚集具有相似喜好和需求的人群,实现更精准的用户触达和市场下沉,为私域电商的发展提供新的思路和策略。 一、引言 随着互联…

2025届北森智鼎SHL牛客倍智易考智联题库、十大测评系统通关攻略

职小豚 一、2025届秋招常见的人才测评系统工具介绍 (一)北森 北森是一家在人才测评领域相当有影响力的公司。它的测评工具丰富多样,能够全面评估求职者的各项能力和素质。其特点是题目设计严谨,注重对综合能力的考察。 &#xf…

Linux安装使用Apache(Windows下载,离线安装)

https://httpd.apache.org/download.cgi#apache24 Download - The Apache Portable Runtime Project https://sourceforge.net/projects/pcre/ 上面是下载路径,下载这四个压缩包,自己看版本也行 https://sourceforge.net/projects/pcre/ 参考下载图…

足球数据分析-基于机器学习的足球比赛角球数预测模型构建

文章目录 前言一、数据收集二、数据预处理1、特征选择与构建2、数据清洗与预处理 三、模型选择1、模型选择2、模型训练 四、模型评估与优化1、模型评估2、模型优化: 五、模型解释与部署1、模型解释2、模型部署 六、代码解读及实现1. 数据准备2.数据预处理3、模型构建…

使用canal增量同步ES索引库数据

Canal增量数据同步利器 Canal介绍 canal主要用途是基于 MySQL 数据库增量日志解析,并能提供增量数据订阅和消费,应用场景十分丰富。 github地址:https://github.com/alibaba/canal 版本下载地址:https://github.com/alibaba/c…

jmeter的聚合报告生成测试报告的方法(生成.HTML模式)

1、找到所要【生成的测试报告地址】 2、新建一个空文件(记住地址) 3、在jmeter的bin目录下输入cmd,回车 4、输入 jmeter -n -t 【huacei.jmx】 -l 【11.jmx】 -e -o 【D:\egd-download\apache-jmeter-5.4.1\bin\report】 (1)其中…

NLP从零开始------14.文本中阶序列处理之语言模型(2)

3.2 长短期记忆 梯度消失问题的一个解决方案是使用循环神经网络的变体——长短期记忆( long short- term memory, LSTM)。 长短期记忆的原理是, 在每一步t, 都保存一个隐状态和一个单元状态( cell state) , 通过单元状态来存储长距离信息, 长…

Datawhale X 李宏毅苹果书 AI夏令营 入门 Task1-机器学习

目录 机器学习基础案例分析-视频的点击次数预测机器学习流程相关公式 机器学习基础 机器学习:机器具备有学习的能力/让机器具备找一个函数的能力。比如语音识别、图像识别、 机器学习有不同的类别。 1)回归:假设要找的函数的输出是一个数值…

密码学(二)---DES、SM、RSA

在使用本博客提供的学习笔记及相关内容时,请注意以下免责声明:信息准确性:本博客的内容是基于作者的个人理解和经验,尽力确保信息的准确性和时效性,但不保证所有信息都完全正确或最新。非专业建议:博客中的…

【网络安全】服务基础第一阶段——第四节:Windows系统管理基础---- NTFS安全权限与SMB文件共享服务器

目录 一、NTFS安全权限 1.1 文件系统 1.2 格式化磁盘中的文件系统 1.FAT32 2.NTFS 3.EXT 4.XFS 应用场景: 1.3 文件操作权限 1.4 权限管理系统 1.5 特殊权限 1.6 NTFS权限类型 二、权限管理实践 三、SMB文件共享服务器 3.1 文件共享服务器 3.2 常用的…

excel规划求解结合vba宏笔记

目录 概念与配置 规划求解定义 excel设置规划求解 宏的基本操作 excel批量进行规划求解案例 加载规划求解模块 宏的设置 宏录制vba 其他案例 概念与配置 规划求解定义 运用“规划求解”定义并求解问题 - Microsoft 支持 excel设置规划求解 EXCEL规划求解的简明教程…

OpenAI的GPT-4模型详细介绍:研发能力、应用场景、开发的合作、持续投入

Open AI GPT-4的详细介绍 OpenAI的GPT-4模型展现出了强大的研发能力: 这主要体现在以下几个方面: 1. 庞大的模型规模和参数数量 GPT-4拥有超过1万亿个参数,这是其前代模型GPT-3的显著扩展。如此庞大的模型规模使得GPT-4能够处理更为复杂…

如何从人机环境系统中捕捉语义

从人机环境系统中捕捉语义主要涉及将系统中的数据和信息转化为具有实际意义的内容,以便更好地理解和响应用户的需求。以下是几种常见的方法来捕捉语义: 1. 自然语言处理 (NLP) 方法:使用自然语言处理技术来分析和理解用户输入的文本或语音。N…