PyTorch 官方库「上新」,TorchMultimodal 助力多模态人工智能

news2025/1/21 12:16:30

多模态人工智能是一种新型 AI 范式,是指图像、文本、语音、视频等多种数据类型,与多种智能处理算法相结合,以期实现更高的性能。

在这里插入图片描述
近日,PyTorch 官方发布了一个 domain library–TorchMultimodal,用于 SoTA 多任务、多模态模型的大规模训练。

该库提供了:

  • 可组合的 building block(module、transforms、损失函数)用于加速模型开发

  • 从已发表的研究、训练及评估脚本中提取的 SoTA 模型架构 (FLAVA, MDETR, Omnivore)

  • 用于测试这些模型的 notebook

TorchMultimodal 库仍在积极开发中,详情请关注:
https://github.com/facebookresearch/multimodal#installation

TorchMultimodal 开发背景

随着技术的进步,能理解多种类型输入(文本、图像、视频和音频信号),并能利用这种理解来生成不同形式的输出(句子、图片、视频)的 AI 模型越来越引发关注。

FAIR 最近的研究工作(如 FLAVA、 Omnivore 和 data2vec)表明,用于理解的多模态模型与单模态模型相比更有优势,并且在某些情况下正在开创全新的 SOTA。

类似 Make-a-video 以及 Make-a-scene 这样的生成模型,正在重新定义现代人工智能系统的能力边界。

为了促进 PyTorch 生态中多模态 AI 的发展, TorchMultimodal 库应运而生,其解决思路为:

  • 提供可组合的 building block, 利用这些 building block,研究人员可以在自己的工作流中加速模型开发和试验。模块化设计也降低了迁移到新模态数据的难度。

  • 提供了用于训练和评估研究中最新模型的端到端示例。 这些示例中用到了一些高阶特性,如集成 FSDP 和用于扩展模型及批尺寸的 activation checkpointing。

初识 TorchMultimodal

TorchMultimodal 是一个 PyTorch domain library,用于多任务多模态模型的大规模训练。 它提供:

1. Building Block

模块及可组合 building block 集合,如模型、融合层、损失函数、数据集和实用程序,例如:

  • 温度对比损失 (Contrastive Loss with Temperature): 常用于训练模型的函数,如 CLIP 和 FLAVA。此外还包括在 ALBEF 等模型中使用的 ImageTextContrastiveLoss 等变量。

  • Codebook layer: 通过向量空间中的最近邻查找压缩高维数据,它也是 VQVAE 的重要组成部分。

  • Shifted-window Attention: window 基于 multi-head self attention,是 Swin 3D Transformer 等编码器的重要组件。

  • CLIP 组件: 由 OpenAI 发布,是一个在学习文本和图像表征方面非常有效的模型。

  • Multimodal GPT: 与生成程序结合时,可将 OpenAI 的 GPT 架构扩展为更适合多模态生成的抽象。

  • MultiHeadAttention: 基于 attention 的模型的一个关键组件,支持 auto-regressive 和 decoding。

2. 示例

一组示例展示了如何将 building block 与 PyTorch 组件和公共基础设施 (Lightning, TorchMetrics) 结合,从而复制文献中发表的 SOTA 模型。目前提供了五个示例,其中包括:

  • FLAVA: CVPR 接收论文的官方代码,包括一个关于 FLAVA 微调的教程。

    查看论文:https://arxiv.org/abs/2112.04482

  • MDETR: 与 NYU 的作者合作提供了一个例子,减轻了 PyTorch 生态系统中互操作性 (interoperability) 痛点,包括一个使用 MDETR 进行 phrase grounding 和可视化问答的 notebook。

    查看论文:https://arxiv.org/abs/2104.12763

  • Omnivore: TorchMultimodal 中处理视频和 3D 数据的模型的第一个例子,包括用于探索模型的 notebook。

    查看论文:https://arxiv.org/abs/2204.08058

  • MUGEN: auto-regressive 生成和检索的基础工作,包括使用 OpenAI coinrun 丰富的大规模合成数据集生成和检索 text-video 的 demo。

    查看论文:https://arxiv.org/abs/2204.08058

  • ALBEF: 模型代码,包括用该模型解决视觉问答问题的 notebook。

    查看论文:https://arxiv.org/abs/2107.07651

以下代码展示了几个与 CLIP 相关的 TorchMultimodal 组件的用法:

# instantiate clip transform
clip_transform = CLIPTransform()

# pass the transform to your dataset. Here we use coco captions
dataset = CocoCaptions(root= ..., annFile=..., transforms=clip_transform)
dataloader = DataLoader(dataset, batch_size=16)

# instantiate model. Here we use clip with vit-L as the image encoder
model= clip_vit_l14()

# define loss and other things needed for training
clip_loss = ContrastiveLossWithTemperature()
optim = torch.optim.AdamW(model.parameters(), lr = 1e-5)
epochs = 1

# write your train loop
for _ in range(epochs):
  for batch_idx, batch in enumerate(dataloader):
    image, text = batch
    image_embeddings, text_embeddings = model(image, text)
    loss = contrastive_loss_with_temperature(image_embeddings, text_embeddings)
    loss.backward()
    optimizer.step()

安装 TorchMultimodal

Python ≥ 3.7,安不安装 CUDA 支持均可。

以下代码以安装 conda 为例

前提条件

1. 安装 conda 环境

conda create -n torch-multimodal python=\<python_version\>
conda activate torch-multimodal

2. 安装 PyTorch、torchvision 以及 torchtext

参阅 PyTorch 文档:
https://pytorch.org/get-started/locally/

# Use the current CUDA version as seen [here](https://pytorch.org/get-started/locally/)
# Select the nightly Pytorch build, Linux as the OS, and conda. Pick the most recent CUDA version.
conda install pytorch torchvision torchtext pytorch-cuda=\<cuda_version\> -c pytorch-nightly -c nvidia

# For CPU-only install
conda install pytorch torchvision torchtext cpuonly -c pytorch-nightly

从二进制文件安装

在 Linux 上,适用于 Python 3.7、3.8 和 3.9 的 Nightly binary 可通过 pip wheels 安装。目前只通过 PyPI 支持 Linux 平台。

python -m pip install torchmultimodal-nightly

源码安装

开发者也可以通过源码构建并运行示例:

git clone --recursive https://github.com/facebookresearch/multimodal.git multimodal
cd multimodal

pip install -e .

以上就是关于 TorchMultimodal 的简单介绍。除代码外,PyTorch 官方还发布了一个关于微调多模态模型的基础教程, 以及一篇关于如何使用 PyTorch Distributed PyTorch (FSDP and activation checkpointing) 技术扩展这些模型的 blog。

后续我们将针对这篇 blog 进行汉化整理。欢迎持续关注 PyTorch 开发者社区公众号!

—— 完 ——

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/26310.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[Linux]----进程间通信之共享内存

文章目录前言一、system V共享内存原理二、创建共享内存关联和去关联共享内存进行通信三、基于管道进行共享内存通信四、临界资源五、信号量总结前言 基于上篇我们利用管道进行进程间通信的使用和实现&#xff0c;本篇将带大家通过共享内存进行进程间通信&#xff01; 正文开始…

R9.8-9.8-9.8-9.8A_特点

R9.8-9.8-9.8-9.8A_特点 R9.8-9.8-9.8-9.8A_特点哈威柱塞泵主要特点是高自吸转速&#xff0c;工作效率高&#xff0c;结构紧凑&#xff0c;工作压力高等。该泵可为工程机械、铲雪车、路堤割草机、柴油叉车、自驱式工作平台和农业机械中的执行元件等提供压力油。 哈威液压泵R9.…

LIRA: Learnable, Imperceptible and Robust Backdoor Attacks 论文笔记

论文信息 论文名称LIRA: Learnable, Imperceptible and Robust Backdoor Attacks作者Khoa Doan(Baidu Research)会议/出版社ICCV 2021pdf&#x1f4c4;在线pdf代码&#x1f4bb;pytorch其他该作者还有一篇攻击的论文&#xff0c;在线pdf 介绍 本文提出了一种新的攻击框架 LIR…

技术中台的定义、范围与内容

【摘要】中台不能算是一个新的概念,只不过把它从一个单一系统扩展到了企业内部所有系统和组织级(企业架构级)的概念。那么时下“中台”的本质究竟是什么?技术中台又该如何理解? 前台、中台、后台的概念早就有之,只不过不同的场景下有不同的内涵。前中后台是从应用系统架…

T293037 [传智杯 #5 练习赛] 白色旅人

题目描述 有一个物品队列 \frak BB&#xff0c;初始时为空。现在共有三种操作。每个操作会给定三个整数 \mathrm{op},x,yop,x,y&#xff0c;其中 \mathrm{op}op 表示操作种类&#xff0c;x,yx,y 是操作的参数。操作分为如下三种&#xff1a; 11&#xff1a;向 \frak BB 尾部添…

React 简书项目实战【3】实现搜索框动画

React 简书项目实战【3】实现搜索框动画 添加判断变量 header/index.js 核心代码 ... class Header extends Component {constructor(props) {super(props);this.state {focused: true}}render() { ...添加classname header/index.js 核心代码 搜索框和放大镜图标 <…

手把手教你如何用界面组件DevExpress WPF应用一个模板主题

DevExpress WPF拥有120个控件和库&#xff0c;将帮助您交付满足甚至超出企业需求的高性能业务应用程序。通过DevExpress WPF能创建有着强大互动功能的XAML基础应用程序&#xff0c;这些应用程序专注于当代客户的需求和构建未来新一代支持触摸的解决方案。 DevExpress WPF组件包…

VR失重太空舱游乐设备|航空航天VR体验|VR航天航空体验馆

普乐蛙推出了十几种不同类型的VR航天航空体验设备&#xff0c;VR创意内容丰富好玩&#xff0c;360全景还原航空各个场景&#xff0c;体验享受航空中的失重、飞行、旋转等刺 激与乐趣;模拟月球、太空、空间站等丰富航天场景&#xff0c;近距离体验航天科幻十足的魅力;通过沉浸式…

vue(移动端)使用高德地图实现精准定位

目录 效果图 前提准备 代码展示 效果图 两个页面 页面一&#xff08;粗略定位&#xff09; 点击城市进入页面二 &#xff08;粗略定位&#xff09;&#xff0c;搜索框输入具体位置&#xff08;以大连理工大学为例&#xff09; 点击大连理工大学&#xff0c;回到页面一&…

[附源码]java毕业设计校园淘宝节系统

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

MongoDB Journaling工作原理

文章目录 小结当 mongod 进程启动后,首先将数据文件映射到 shared 视图中,假如数据文件的大小为 4000 个字节,它会将此大小的数据文件映射到内存中,地址可能为 1000000~1004000。如果直接读取地址为1000060的内存,我们将得到数据文件中第60个字节处的内容。有一点要注意,…

ElementUI的Form表单使用slot-scope=“scope“获取当前表格行数据实现数据回显、修改表单操作

在写项目时&#xff0c;老师通过向后端发请求获得表格原来的数据来填充修改表单里的数据。 这是表格&#xff1a; 这是点击修改按钮后显示出来的修改表单&#xff1a; 但本地里都已经有这些数据了&#xff0c;就没必要再发一次请求&#xff0c;徒增服务器压力。 准备 可是…

Java基础之《netty(3)—NIO之Buffer》

一、Buffer基本介绍 1、缓冲区&#xff08;Buffer&#xff09; 缓冲区本质上是一个可以读写数据的内存块&#xff0c;可以理解成是一个容器对象&#xff08;数组&#xff09;。该对象提供了一组方法&#xff0c;可以更轻松的使用内存块。缓冲区对象内置了一些机制&#xff0c;…

黑盒子问题

一 问题描述 黑盒子代表一个原始数据库&#xff0c;存储一个整数数组和一个特殊的 i 变量。最初的时刻&#xff0c;黑盒子是空的&#xff0c;i0&#xff0c;黑盒子处理一系列命令&#xff08;事务&#xff09;。有两种类型的事务。 ① ADD(x)&#xff0c;将元素 x 放入黑盒子…

按用户导出数据到asm磁盘组,并复制到另一个集群的asm

1.创建asm导出数据目录 sql>select name,total_mb,free_mb from v$asm_diskgroup; 确认集群asm磁盘组环境 asmcmd>cd DGDSDB asmcmd>mkdir dpbak asmcmd>ls -l sql>conn / as sysdba create directory expdp_asm_dir as DGDSDB/dpbak; create directory expdp_l…

堆-c语言实现

1. 树是什么&#xff1f; 树是一种非线性的数据结构&#xff0c;它是由n&#xff08;n>0&#xff09;个有限结点组成一个具有层次关系的集合 注意&#xff1a;根结点没有前驱结点&#xff1b;每棵子树的跟结点有且只有一个前驱结点&#xff0c;可能有0个或者多个后继结点&am…

数学建模学习(108):帮助小白快速实现批量机器学习建模训练和批量的数据可视化

本文主要针对机器学习知识薄弱,不太擅长搭建模型同学使用。 本文主要是讲解可以快速轻松实现可视化、数据预处理、批量模型构建。帮助大家轻松做到可视化和建模。特别是机器学习不扎实同学。 数据科学模型开发管道涉及各种组件,包括数据收集、数据处理、探索性数据分析、建模…

unity il2cpp打包安卓打包崩溃原因Unity2020.3 il2cpp.so丢失

Unity2020.3 il2cpp.so 问题&#xff1a;升级unity2020.3后&#xff0c;使用il2cpp方式打Android包&#xff0c;在手机上启动会崩溃&#xff0c;追查崩溃原因是il2cpp.so not found。 解决过程&#xff1a; il2cpp.so没有&#xff1f;一脸懵逼&#xff01;记得以前在调用Bui…

面试八股 | 计算机网络 | TCP三次握手

CP三次握手和四次挥手是面试题的热门考点&#xff0c;它们分别对应TCP的连接和释放过程&#xff0c;今天我们先来认识一下TCP三次握手过程&#xff0c;以及是否可以使用“两报文握手”建立连接。1、TCP是什么&#xff1f; TCP是面向连接的协议&#xff0c;它基于运输连接来传送…

【附源码】计算机毕业设计JAVA养老机构系统

【附源码】计算机毕业设计JAVA养老机构系统 目运行 环境项配置&#xff1a; Jdk1.8 Tomcat8.5 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; JAVA mybati…