追赶OpenAI的Sora:Meta开源V-JEPA,让AI学会认识世界!

news2024/10/5 8:29:39

就在Sora疯狂刷屏那天,还有两款重磅产品发布:一个是谷歌的Gemini 1.5,首个支持100万tokens上下文的大模型;另外一个便是全球科技、社交巨头Meta的V-JEPA。

有趣的是,在功能方面V-JEPA与Sora有很多相似之处,例如,都具备让AI学会如何通过自我监督学习认识、模拟世界,以提升生成视频的质量、表示学习方法和扩大视频训练数据范围。

可惜那天全世界的目光都聚焦在Sora身上,让图灵奖获得者,Meta首席科学家Yann LeCun s气的直跺脚,在社交平台上各种酸Sora的成果。

开源地址:https://github.com/facebookresearch/jepa

论文地址:https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-representations-from-video/

图片

不过放眼全球,在开源领域有能力追赶OpenAI的Sora不超过5家公司。而Meta作为曾经成功复制ChatGPT的大模型开源鼻祖,相信他有能力再一次创造奇迹。

下面,「AIGC开放社区」将根据其公开的论文,为大家介绍一下这款“悄悄”发布的最新开源模型。

V-JEPA介绍

我们人类对世界的许多认知,特别是在生命的早期阶段都是通过视觉观察、总结获取的。

以牛顿的运动第三定律为例:即使是婴儿(或动物)在多次将物体从桌子上推下并观察结果之后,也能知道凡是上升的必将下降。你无需花费几个小时甚至阅读上千本书,就能总结出这个道理。

同理,Meta希望AI模型也能像人类那样,通过观察以及自我思考、总结,来获取对世界新事物的认识,最终学习并模拟他们

所以,Meta基于Yann LeCun s提出的JEPA(联合嵌入预测架构)模型开发了非生成视频模型V-JEPA。

这是一种从视频中学习表示的自我监督方法,可以应用于各种视频、图像任务,而无需调整模型参数

在图像分类、动作分类和时空动作检测任务的冻结评估中,V-JEPA超越了之前的视频表示学习方法。

图片

V-JEPA核心技术思路是,通过Transformer架构对视频序列进行编码,利用遮蔽自编码框架学习视频的关键特征表示。

再通过基于查询的特征池化模块提取与任务相关的重要特征,最终通过联合嵌入预测架构进行特征预测任务,以学习视频中不同时间步骤之间的语义关系。

因此,V-JEPA能够在无监督的情况下从大量未标记的视频数据中,学习到有用的特征表示,为生成高质量视频提供强大的预测、分析能力

图片

也就是说,即便你使用了没有标签的低质量视频训练数据集,通过V-JEPA模型也能轻松获取视频中的关键表示特征,这对于扩大视频训练数据范围帮助巨大。

V-JEPA主要功能模块

遮蔽自编码:V-JEPA中的核心模块之一,主要用于学习视频中的特征表示。当输入视频序列中的某些帧被随机遮蔽或删除后,模型需要通过观察其余的帧来预测被遮蔽的帧。

因此,模型被迫学习从上下文中推断出缺失信息的能力。遮蔽自编码可以促使模型学习到视频中的关键特征,并且通过预测遮蔽帧,模型还可以学习到不同时间步之间的依赖关系。

图片

Transformer架构:在V-JEPA中,Transformer被用于建模视频序列中的时空关系。可以对输入序列中的每个时间步进行编码,并捕捉不同时间步之间的依赖关系。

Transformer的编码器由多个注意力头组成,每个头都可以学习不同的特征表示。所以,V-JEPA能够有效地建模视频中的时序信息,并将其用于特征预测任务。

JEPA:主要帮助V-JEPA模型,通过预测视频序列中不同时间步之间的特征嵌入,来学习视频中的特征表示。

模型将输入视频序列的不同时间步的特征进行编码,并通过自注意力机制捕捉它们之间的依赖关系。

然后,模型通过最小化预测特征嵌入,与实际特征嵌入之间的差异来进行训练。通过这种方式,使V-JEPA可以学习到视频中不同时间步之间的语义关系,并将其用于特征预测任务。

图片

基于查询的特征池化:主要用于从视频序列中提取关键特征。在这个模块中,模型使用自注意力机制来选择视频序列中最相关的帧作为查询,并从这些帧中提取特征。

基于查询的特征池化使得V-JEPA能够提取丰富的、与任务相关的特征,并为后续的特征预测任务提供强大的特征表示。

V-JEPA的实验数据和未来应用场景

为了评估V-JEPA的性能,使用了冻结和端到端微调两种评估方法,并在多个图像和视频任务上进行了性能测试。

低样本量冻结评估:在Kinetics-400和Something-Something-v2数据集上,通过变化用于训练注意力探针的标签样本百分比,比较V-JEPA与其他视频模型在冻结评估中的表现。

使用训练集的5%、10%或50%,并在每种设置下取三个随机分割以获得更稳健的指标,为每个模型进行九次不同的评估实验。

图片

结果显示,V-JEPA在Kinetics-400任务上达到81.9%的准确率,在Something-Something-v2任务上达到72.2%,在ImageNet1K任务上达到77.9%,明显优于其他模型。

此外,V-JEPA模型还显示出在标记样本数量减少时更具优势,与像素重构模型相比性能更好。

V-JEPA模型中的“V”代表的是Video的意思,也就是说现阶段主要用于视频领域

但Meta表示,下一步,将会把V-JEPA与音频相结合使用,并且可以充当早期的物理世界模拟器使用。

本文素材来源Meta官网,如有侵权请联系删除

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1457023.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

备战蓝桥杯 Day5

1191:流感传染 【题目描述】 有一批易感人群住在网格状的宿舍区内,宿舍区为n*n的矩阵,每个格点为一个房间,房间里可能住人,也可能空着。在第一天,有些房间里的人得了流感,以后每天,得…

用户空间与内核通信(一)

在Linux中,内核空间与用户空间是操作系统中的两个主要部分,它们有着明显的区别和不同的功能。 内核空间: 内核空间是操作系统内核运行的区域,它包括了操作系统内核代码、数据结构和设备驱动程序等。内核空间位于虚拟地址空间的最…

CleanMyMac X2024破解电脑版安装包下载

CleanMyMac X 4.14.6 是 CleanMyMac X 的一个具体版本号。这个版本可能包含了一些新的功能、改进和修复,以提高软件的性能和稳定性。以下是一些关于 CleanMyMac X 4.14.6 的特点和更新内容: 恶意软件保护:CleanMyMac X 4.14.6 继续加强其恶意…

SpringBoot源码解读与原理分析(五)SpringBoot的装配机制

文章目录 2.5 Spring Boot的装配机制2.5.1 ComponentScan2.5.1.1 ComponentScan的基本使用方法2.5.1.2 TypeExcludeFilter(类型排除过滤器)2.5.1.3 AutoConfigurationExcludeFilter(自动配置类排除过滤器) 2.5.2 SpringBootConfiguration2.5.3 EnableAutoConfiguration2.5.3.1 …

Shiro-05-5 分钟入门 shiro 安全框架实战笔记

序言 大家好,我是老马。 前面我们学习了 web 安全之 Spring Security 入门教程 这次我们来一起学习下另一款 java 安全框架 shiro。 什么是Apache Shiro? Apache Shiro是一个功能强大且易于使用的Java安全框架,它为开发人员提供了一种直…

【深度学习笔记】深度学习训练技巧——处理过拟合

处理过拟合 过拟合 定义:对训练集拟合得很好,但在验证集表现较差 神经网络 通常含有大量参数 (数百万甚至数十亿), 容易过拟合 处理策略:参数正则化、早停、随机失活、数据增强 早停 当发现训练损失逐渐下降,但验证集损失逐渐…

【项目管理】CMMI-项目监督和控制

项目监督和控制(Monitoring and Control, MC)的目的是通过周期性地跟踪项目计划的各种性能参数如工作产品的规模、工作量、成本、进度、风险等,不断地了解项目的进展情况,以便当项目实际进展状况显著偏离项目计划时能够及时采取纠…

Apache Flink连载(二十八):Flink细粒度资源管理(1)-适用场景和原理

🏡 个人主页:IT贫道-CSDN博客 🚩 私聊博主:私聊博主加WX好友,获取更多资料哦~ 🔔 博主个人B栈地址:豹哥教你学编程的个人空间-豹哥教你学编程个人主页-哔哩哔哩视频 目录

Hack The Box-Office

端口扫描&信息收集 使用nmap对靶机进行扫描 nmap -sC -sV 10.10.11.3开放了80端口,并且注意到该ip对应的域名为office.htb,将其加入到hosts文件中访问之 注意到扫描出来的还有robots文件,经过尝试后只有administrator界面是可以访问的 …

程序员的自我修养笔记

导读 本书将详细描述现在流行的Windows和Linux操作系统下各自的可执行文件、 目标文件格式; 普通C/C程序代码如何被编译成目标文件及程序在目标文件中如何存储; 目标文件如何被链接器链接到一起, 并且形成可执行文件; 目标文件在…

大白话说说redux

redux的3个重要概念 store 就是用来存放应用的各种状态的action 就是用来描述应用发生了什么动作的,注意理解他是对动作的描述reducer 就是用来处理应用的动作,并且决定怎么去更新应用存放在store里面的状态。 redux的3个原则 应用的所有状态存储为re…

消息中间件之RocketMQ源码分析(十)

Namesrv启动流程 第一步:脚本和启动参数配置。 启动命令 nohup ./bin/mqnamesrv -c ./conf/namesrv.conf > dev/null 2>&1 & 通过脚本配置启动基本参数,比如配置文件路径、JVM参数,调用NamesrvStartup.main()方法,解析命令行的…

Vue24 收集表单数据 实例

实例 <!DOCTYPE html> <html><head><meta charset"UTF-8" /><title>收集表单数据</title><script type"text/javascript" src"../js/vue.js"></script></head><body><!-- 收集…

Spring Security基础学习

一、SpringSecurity框架简介 二、SpringSecurity入门案例 三、SpringSecurity Web权限方案 四、SpringSecurity微服务权限方案 五、SpringSecurity原理总结

Eclipse - Expressions Add Watch Expression

Eclipse - Expressions & Add Watch Expression References Window -> Show View -> Other… Show View -> Debug -> Expressions -> Open Debug 模式下出现 Expressions 窗口 Debug 模式下&#xff0c;如果需要查看指定变量或者返回函数的值&#xff0c;直…

千分位分隔?一个vue指令搞定

说在前面 &#x1f388;对数字进行千分位分隔后展示应该是大部分同学都做过的功能了吧&#xff0c;常规的做法通常是编写一个工具函数来对数据进行转换&#xff0c;那么我们可不可以通过vue指令来实现这一功能呢&#xff1f; 效果展示 实现原理 非输入框 非输入框我们只需要对…

力扣题目训练(16)

2024年2月9日力扣题目训练 2024年2月9日力扣题目训练530. 二叉搜索树的最小绝对差541. 反转字符串 II543. 二叉树的直径238. 除自身以外数组的乘积240. 搜索二维矩阵 II124. 二叉树中的最大路径和 2024年2月9日力扣题目训练 2024年2月9日第十六天编程训练&#xff0c;今天主要…

【白嫖8k买的机构vip教程】python(2):python_re模块

python之re模块 一、正则表达式   re模块是python独有的匹配字符串的模块&#xff0c;该模块中提供的很多功能是基于正则表达式实现的&#xff0c;而正则表达式是对字符串进行模糊匹配&#xff0c;提取自己需要的字符串部分&#xff0c;他对所有的语言都通用。注意&#xf…

程序员必看的几部电影

目录 《我是谁&#xff1a;没有绝对安全的系统》 《模仿游戏》 《硅谷传奇》 《代码 The Code》 作为程序员&#xff0c;除了在工作中不断学习和提升技术外&#xff0c;适当地放松也是必不可少的 看电影可以是一个很好的放松方式&#xff0c;而对于程序员来说&#xff0c;…

GO框架基础 (一)、MySQL数据库

什么是数据库 数据库是一个组织化的数据集合&#xff0c;它被设计为方便存储、管理和检索数据。数据库通常以表格的形式组织数据&#xff0c;其中每一行代表一个数据记录&#xff0c;每一列代表一个数据字段。数据库系统提供了一种结构化的方法来存储和管理数据&#xff0c;以…