视频序列对比学习

news2025/4/16 18:53:28

前言

视频embedding化也即表征有很多实际的应用场景，比如文本-视频 pair的检索等等。由于视频一般来说较长，所以对于给定的一段话，其中的某些sentence句子一般对应着视频中某几个clip片段，之前常规的做法都是去匹配所有的sentence-clip pairs对。

但是这种单元级别匹配的做法会天然的忽略掉全局的时间序列，这样就在一定程度上限制了泛化性，比如对于一些背景相似的视频，通常会出现一种匹配错误的情况（如下图(a)(b)在画面视觉上很相似，但是分别对应着文本(1)(2)），为此本文提出了一种序列对比学习用以解决这种问题。

如果有小伙伴对多模态方向有兴趣，可以选择性的翻看笔者之前的文章进行穿梭，比如：

《多模态预训练模型综述》：https://zhuanlan.zhihu.com/p/435697429

《第一个大规模中文视频多模态相似度数据集》：https://zhuanlan.zhihu.com/p/539833773

《多模态事件图谱》：https://zhuanlan.zhihu.com/p/530325352

《最新图文大一统多模态模型：FLAVA》：https://zhuanlan.zhihu.com/p/453581899

等等，感兴趣的小伙伴可以参考～

本次分享论文：https://arxiv.org/pdf/2212.13738.pdf

方法

任务定义

假设有一对样本(一段文本或者一个视频) ，由于文本或者视频通常来说比较长，网络比较难一次性提取表征，所以需要切片即，其中就是的第i个切片，就是切片的总长度，是表征后向量的维度；同理的含义同上；在匹配的时候，的某一个分片可以对应的连续几个分片其中是对应的那几个连续分片的开始和结束分片。

序列对比学习

对比学习，相信大家都不陌生，主要就是要找正负样本对，然后直接套用公式即可。

每一个Paragraph段落由多个sentence句子组成，每个句子对应一个视频segment，每个视频segment由多个视频clip分片组成。

假设有一个正样本对，其首先通过随机shuffle 乱得到，这样就打破了和在时间序列上的一致性，同时为了考虑 segment-level 级别的匹配，所以作者在具体打乱的时候是先修改segment的顺序，然后再在每个egment中打乱各自的顺序。

在得到后，就可以做对比学习了即S_{a}和做对比学习：

Sequence-level distance

为了更好的检索，作者这里借鉴了DTW(Dynamic Time Wrapping)算法，该算法可以计算两个时间序列的相似度，尤其适用于不同长度、不同节奏的时间序列。其本质上是一个动态规划问题（更细节的大家可以直接查询即可，很多资料）：

作者这里对应的设计了一个矩阵，首先和中至少得存在一个能够匹配上即同时假设和匹配，那么将不能和中的任一个匹配也即；有了这个矩阵也即；最终两个序列的距离就是

同时作者还实验了DTW的一个变种算法OTAM。

实验

作者也进行了很多实验，这里贴一个检索任务的实验，可以看到相对于基线还是有一些提高的。

总结

大家可以学习一下怎么把序列信息应用到对比学习中以及了解一下DTW算法。

关注

欢迎关注，下期再见啦~

知乎，csdn，github，微信公众号

本文由 mdnice 多平台发布

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/147277.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

视频序列对比学习

前言

方法

实验

总结

关注

相关文章

人工服务、人工智能和分析是联络中心的主要趋势

实现QTreeView、QTableView子项中的复选框勾选/取消勾选功能

【异常】SpringSecurity登录失败：Full authentication is required to access this resource

基于Java+Jsp+SpringMVC漫威手办商城系统设计和实现

2023 年值得关注的 7 大人工智能 (AI) 技术趋势

图数据库Neo4j实战（全网最详细教程）

《Go 并发数据结构和算法实践》学习笔记 Day 1

U3D客户端框架（资源管理篇）之资源热更新管理器 ResourceManager

Visual Code 打开方式添加到右键菜单

【C++】双指针用法

（mysql）Waiting for table metadata lock

python连接mysql之PyMySQL的基本使用

关于Docker如何安装nginx

java spring下载步骤

黑客动态播报 | 2023年网络攻击趋势

过年了，怎么样批量爬取某东商品信息，并做可视化

前端学习之BootStrap

基于Java+SpringBoot+vue+elementUI私人健身教练预约管理系统设计实现

Linux中的文件描述符

Spring Cloud整体架构