VideoPrism——探索视频分析领域模型的算法与应用

news2024/11/19 15:24:26

概述

论文地址:https://arxiv.org/pdf/2402.13217.pdf
视频是我们观察世界的生动窗口,记录了从日常瞬间到科学探索的各种体验。在这个数字时代,视频基础模型(ViFM)有可能分析如此海量的信息并提取新的见解。迄今为止,视频理解领域的研究确实取得了长足进步,但构建真正的基础视频模型,娴熟地处理外观和运动问题,仍是一个尚未实现的领域。

因此,本文提出了创新型通用视频编码器VideoPrism,旨在解决从视频分类到定位、搜索、字幕和问题解答等所有视频理解任务。通过广泛的评估(包括计算机视觉数据集以及神经科学和生态学等科学学科),VideoPrism 以最小的适应度展示了最先进的性能。下图是 VideoPrism 的概览。

在 VideoPrism 的开发过程中,我们强调了预训练数据的重要性。理想情况下,预训练数据应该是来自世界各地的具有代表性的视频样本,但实际上,许多视频并不附带描述内容的文本,或者噪音非常大。因此,VideoPrism 通过收集 3,600 万对高质量视频和字幕以及 5.82 亿个噪声视频片段,充分利用了这些数据。

建模从视频和语言之间的意义对比学习开始。然后,它使用纯视频数据,结合全局和局部提炼、标记洗牌,并通过屏蔽视频建模进一步改进。这种独特的两阶段方法是 VideoPrism 在同时关注视频外观和运动的任务中的优势所在。

通过在四大理解任务类别中进行广泛评估,包括从网络视频、脚本表演到科学实验的 33 种不同基准,证明了这种方法的有效性 VideoPrism 在其中 30 种基准中的表现优于现有的视频基础架构模型 (ViFM)。在其中 30 项基准测试中,VideoPrism 的表现远远超过了现有的视频基础架构模型(ViFM),证明了其卓越的性能。结果如下图所示。

这表明 VideoPrism 具有 "非常 "好的概括能力。

技术

VideoPrism 采用创新的视频理解方法。其核心是一个丰富的预训练数据集,包含 3600 万个片段。这些片段是从 3,600 万个视频中提取出来的,并配有高质量的人工字幕。此外,2.75 亿个视频中的 5.82 亿个片段包含带噪声的平行文本。这种预训练数据集在视频基础模型(ViFM)中是前所未有的,但与图像基础模型所用的数据相比仍然较少。为了填补这一空白,本文还收集了其他数据,包括 ASR、元数据和通过大规模多模态模型生成的噪声文本。

值得注意的是,在预训练和后续训练中都没有使用评估基准的训练集。这可以防止模型针对特定的评估基准进行过度优化。此外,预训练语料库与评估基准视频是去重复的,以避免数据泄露。

在模型架构方面,VideoPrism 基于视觉转换器(ViT),但同时考虑了空间和时间因素。这确保了在输出标记序列中保留空间和时间维度,以支持需要细粒度特征的下游任务:VideoPrism-g 采用了拥有 10 亿个参数的 ViT-giant 网络,而较小的 ViT-Base 网络则采用了更小的 ViT-Giant 网络。VideoPrism-B 采用较小的 ViT-Base 网络。

VideoPrism 采用独特的两阶段方法,通过利用视频和文本对以及纯视频数据来学习纯视频数据。由于大型预训练数据集中的文本在某些视频中通常会出现噪声,因此 VideoPrism 专注于纯视频数据,以捕捉视频的深层含义。

第一阶段:在这一阶段,对比学习用于使视频编码器与文本编码器同步。这一过程根据视频-文本对的相似性得分,通过最小化对称交叉熵损失,从语言中引导视频编码器学习丰富的视觉语义。这一阶段产生的模型为下一阶段的学习提供了语义视频嵌入。

第2 阶段:第 1 阶段中仅基于视觉文本数据的学习面临着一个问题,即文本描述包含噪音,而且往往只捕捉外观而非运动。第二阶段的重点是从纯视频数据中学习外观和运动信息。这里引入了一种新的标记洗牌方案以及全局和每个标记的蒸馏损失,作为对遮蔽视频建模的改进。这样,模型就能在保留语义知识的基础上,根据遮蔽视频学习预测第一阶段的嵌入。

通过这种两阶段方法,VideoPrism 正在构建一个底层视频编码器,它可以更好地理解视频并捕捉外观和运动的语义。

试验

对 VideoPrism 进行了评估,以证明其在各种以视频为中心的理解任务中的性能和多功能性。这些任务分为四类:第一类是一般视频理解。这包括分类和时空定位;第二类是零镜头视频文本检索;第三类是零镜头视频字幕和质量保证;第四类是用于科学研究的计算机视觉;第四类是用于视频分析的视频理解。

在所有实验中,VideoPrism 都被固定为视频编码器,只训练特定任务所需的组件。这样就可以评估 VideoPrism 的多功能性及其独立于特定任务模型的能力。此外,VideoPrism 方法在视频分析中特别有用,因为视频编码的成本可以分摊到多个任务中,因此很难进行昂贵的微调。

首先将其与视频理解基准 VideoGLUE 中的先进模型进行比较。评估范围包括以外观为重点的动作识别(VC(A))、动作丰富的动作识别(VC(M))、多标签视频分类(VC(ML))、时间动作定位(TAL)、时间和空间动作定位(STAL)。这项研究使用了八个具有代表性的数据集,包括

从 ViT-B 到 ViT-g,随着模型大小的增加,VideoPrism 的性能显著提高。这意味着 VideoPrism 在单一编码器中结合了对不同视频源的鲁棒性,如外观和运动线索、空间和时间信息、网络视频和脚本性能。

然后,我们使用 MSRVTT、VATEX 和 ActivityNet 这三个关键基准来评估 VideoPrism 的零镜头视频文本检索性能。零镜头视频分类任务也是对 Kinetics-400、Charades、SSv2-Temporal、SSv2-Events 和 NExT-QA 的 ATP-Hard 子集的挑战。

作为一项重要成果,VideoPrism 在多项基准测试中创造了新的最佳记录,并在特别具有挑战性的数据集上取得了显著改进,VideoPrism-B 的表现优于现有的大型模型。此外,与使用域内数据和其他模式预先训练的模型相比,VideoPrism 的表现同样出色,甚至更好。这些结果表明,VideoPrism 在零镜头搜索和分类任务中具有强大的泛化能力。

此外,MSRVTT、VATEX 和 YouCook2 等标准视频封顶数据集以及 MSRVTT-QA、MSVD-QA 和 NExT-QA 等视频质量保证基准被用于视频封顶和质量保证任务,并在零镜头设置下进行性能 评估。评估。请注意,这些模型并未针对字幕和质量保证任务进行专门调整。

结果如下表所示。尽管结构简单,适配器参数数量有限,但它仍具有竞争力,在除 VATEX 之外的大多数评估中都取得了优异成绩。这表明,VideoPrism 编码器在视频到语言的生成任务中具有广泛的通用能力。

现有的视频分析基准主要侧重于以人为中心的数据,而 VideoPrism 的功能及其在科学应用方面的潜力则是利用科学数据集对各种视频集进行探索。分析涵盖了广泛的学科,包括行为研究、行为神经科学、认知科学和生态学。本研究首次尝试将 ViFM 应用于科学数据集,结果表明 ViFM 的性能与专业模型相当,甚至更好。这

该分析包括在科学实验中捕获的标注了专业知识的大型视频数据集,其中包括苍蝇、小鼠、黑猩猩和肯尼亚野生动物。所有这些数据集都为行为视频分类或时空动作定位进行了详细注释。其中,CRIM13 数据集分析的是笼子侧面和上方视角的视频。

结果表明,使用共享的冻结编码器可以获得等同于或优于专用于个别任务的特定领域模型的性能。尤其是在基本模型中,VideoPrism 的表现优于专家模型。此外,扩展模型可大幅提高所有数据集的性能。这些结果表明,ViFMs 有潜力在多个领域显著加速视频分析。

总结

本文介绍的 VideoPrism 是一种基本的视频编码器,可在视频理解领域实现最先进的技术。它专注于数据和建模方法,建立了自己的大型预训练数据集和有效提取视频外观和运动信息的预训练策略。与其他模型相比,它在各种基准测试中取得了最佳性能,并显示出极高的泛化能力。

视频理解技术的进步有可能加速从科学研究到教育、机器人、医疗保健和内容推荐等领域的发展。这些技术有望促进科学发现、丰富学习体验、增强安保和安全,并实现反应更灵敏的互动系统。

然而,在现实世界中使用这些模型之前,还必须采取措施防止潜在的偏见和滥用。当务之急是减少算法偏差、保护隐私并遵守负责任的研究规范。论文指出,必须继续在社区内推动关于这些新发展的公开讨论,以便以负责任的方式从这项技术中获益。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1890477.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

全国数学建模大赛(一)

全国数学建模大赛 🎈1.数学模型是什么?🔭1.1原型与模型🔭1.2模型的分类🔭1.3数学模型的分类🔭1.4数学模型的全过程🔭1.5论文写作基本流程🔭1.6数学建模的六个步骤🔭1.7小…

【SpringBoot配置文件读取】无法读取yaml文件中文字符

1. yaml配置文件 注意要将该文件编码格式改为UTF-8 spring:application:name: 好好学习admin:name: 李斯age: 24books:- name: 数据结构desc: 数据书- name: 编译原理desc: 编译书2.配置实体类 Data设置get,set方法Component注册为BeanConfigurationProperties(p…

第6章:结构化开发方法

第6章:结构化开发方法 系统设计基本原理 1、抽象 抽象是一种设计技术,重点说明一个实体的本质方面,而忽略或者掩盖不是很重要或非本质的方面。 模块化 模块化是指将一个待开发的软件分解成若干个小的、简单的部分一模块,每个模…

reggie外卖优化

文章目录 一、redis缓存1.1 缓存验证码1.2 缓存菜品数据 二、spring-cache 一、redis缓存 1.1 缓存验证码 不用sesiion,而使用redis来存放验证码。 首先在用户请求验证码,将验证码保存在sesion中,当登录成功之后,将redis中的验证…

人工智能概论 | 基于A*算法的8数码问题求解

大学四年的全部课程和考试都已经结束啦! 最近闲来无事,随便发发自己的实验报告,供后面的学弟学妹们参考~ 目录 实验1 基于A*算法的8数码问题求解 1.1 程序总体流程 1.2 关键代码展示 1.3 输出结果展示及分析 1.3.1 总步数展示 1.…

ENVI5.6使用笔记

目录 1. ENVI安装扩展2. ENVI绘制高光谱3D数据立体图3. 对本次工作存档,下次打开软件可直接续档4. 对图像进行分类 1. ENVI安装扩展 从ENVI App Store下载商店envi_app_store.zip,解压得到ENVI_App_Store.sav,将其复制到ENVI的扩展文件夹下&…

如何优化网站SEO排名?

选择那些容易排名的关键词。使用工具找到那些竞争少但有流量的词语。其次,内部链接非常重要。通过合理的内部链接,可以提升各个页面的权重。 增加FAQ部分能帮助你捕捉更多的长尾关键词流量。争取出现在精选摘要的位置,可以直接提升你的曝光率…

从全连接到卷积

一、全连接到卷积 1、卷积具有两个原则: 平移不变性:无论作用在哪个部分,它都要有相同的作用,而不会随着位置的改变而改变 局部性:卷积核作用处,作用域应该是核作用点的周围一小部分而不作用于更大的部分 …

仓库管理系统27--项目完结

原创不易,打字不易,截图不易,多多点赞,送人玫瑰,留有余香,财务自由明日实现 1、列表分页 这里我们以物资列表分页为例来讲讲如何实现分页,wpf中没有现成封装好的分页,需要自己封装…

提升Unity WebGL游戏启动速度

一、查看启动耗时 通过修改unity-namespace.js中hideTimeLogModal为false,显示timelog开发者可以看到小游戏目前的启动首屏时长: 将其设置为false后,启动小程序后就会显示启动耗时 要知道各个阶段的含义,我们必要理解启动流程。 …

CDC模型

引言 聚类是一种强大的机器学习方法,用于根据特征空间中元素的接近程度发现相似的模式。它广泛用于计算机科学、生物科学、地球科学和经济学。尽管已经开发了最先进的基于分区和基于连接的聚类方法,但数据中的弱连接性和异构密度阻碍了其有效性。在这项…

基于Java英语学习网站设计和实现(源码+LW+调试文档+讲解等)

💗博主介绍:✌全网粉丝10W,CSDN作者、博客专家、全栈领域优质创作者,博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 🌟文末获取源码数据库🌟 感兴趣的可以先收藏起来,…

玩玩快速冥(LeetCode50题与70题以及联系斐波那契)

一.算法快速幂 今天刷到两个题,比较有意思,还是记录一下. 先来讲讲50题. LeetCode50(Pow(x,n)) 实现 pow(x, n) ,即计算 x 的整数 n 次幂函数(即,xn )。 这道题一看很平常啊,不就一直乘嘛,循环走一次就够了.但是很抱歉,单纯的想…

计算机网络知识普及之四元组

在涉及到TCP/UDP等IP类通信协议时,存在四元组概念 这里只是普及使用 先来一些前置知识,什么是IP协议? IP协议全称为互联网协议,处于网络层中,主要作用是标识网络中的设备,每个设备的IP地址是唯一的。 在网…

ASO优化:如何提高应用的可见性

在竞争激烈的应用市场中ASO优化成为了提高应用可见性的重要手段。以下是一些提高应用可见性的方法: 1. 选择合适的关键词 找出和您应用高度相关并且具有一定搜索量的关键词,确保关键词与应用的核心功能和用户搜索意图匹配。比如:当您的应用是…

【Rust入门】生成随机数

文章目录 前言随机数库rand添加rand库到我们的工程生成一个随机数示例代码 总结 前言 在编程中,生成随机数是一种常见的需求,无论是用于数据分析、游戏开发还是模拟实验。Rust提供了强大的库来帮助我们生成随机数。在这篇文章中,我们将通过一…

1.4 ROS2集成开发环境搭建

1.4.1 安装VSCode VSCode全称Visual Studio Code,是微软推出的一款轻量级代码编辑器,免费、开源而且功能强大。它支持几乎所有主流的程序语言的语法高亮、智能代码补全、自定义热键、括号匹配、代码片段、代码对比Diff、GIT 等特性,支持插件…

谈谈浏览器的事件机制:捕获、冒泡

浏览器事件的传播有三个阶段:捕获阶段,目标阶段,冒泡阶段 第一部分称为捕获阶段,该阶段包括从舞台到目标节点的父节点范围内的所有节点。第二部分称为目标阶段,该阶段仅包括目标节点。第三部分称为冒泡阶段。冒泡阶段包…

安装Gitlab+Jenkins

GItlab概述 GitLab概述: 是一个利用 Ruby on Rails 开发的开源应用程序,实现一个自托管的Git项目仓库,可通过Web界面进行访问公开的或者私人项目。 Ruby on Rails 是一个可以使你开发、部署、维护 web 应用程序变得简单的框架。 GitLab拥有与…

工业一体机根据软件应用需求灵活选配

在当今工业领域,数字化、智能化的发展趋势愈发明显,工业一体机作为关键的设备,其重要性日益凸显。而能够根据软件应用需求进行灵活选配的工业一体机,更是为企业提供了高效、定制化的解决方案。 一、工业一体机的全封闭无风扇散热功…