视频理解论文串讲——学习笔记

news2025/1/19 8:11:54

文章目录

  • DeepVideo
  • Two-Stream
    • Beyond-short-Smippets
    • Convolutional Fusion
    • TSN
  • C3D
    • I3D
    • Non-local
    • R(2+1)D
    • SlowFast
  • Timesformer


本文是对视频理解领域论文串讲的笔记记录。


一篇相关综述:Yi Zhu, Xinyu Li, Chunhui Liu, Mohammadreza Zolfaghari, Yuanjun Xiong, Chongruo Wu, Zhi Zhang, Joseph Tighe, R. Manmatha, & Mu Li (2020). A Comprehensive Study of Deep Video Action Recognition… arXiv: Computer Vision and Pattern Recognition.
包括了大部分使用deep learning方法做action recognition的论文。

在这里插入图片描述


DeepVideo

Andrej Karpathy, George Toderici, Sanketh Shetty, Thomas Leung, Rahul Sukthankar, & Li Fei-Fei (2014). Large-Scale Video Classification with Convolutional Neural Networks Computer Vision and Pattern Recognition.
在这里插入图片描述
这四种方法中,最后一种方法最好,然而,还是没有之前手工提取特征的方法效果好。
因此,作者尝试寻找其它的方法:(多分辨率卷积神经网络)
在这里插入图片描述
使用这样的操作,确实变好了一些,但提升相对较小。
在这里插入图片描述

当时最好的手工特征在 UCF-101 上的 ac 已经有 87% 了。所以当时引起了大家的思考,为什么深度学习在视频理解领域不能像图像领域那样好。


Two-Stream

Karen Simonyan, & Andrew Zisserman (2014). Two-Stream Convolutional Networks for Action Recognition in Videos arXiv: Computer Vision and Pattern Recognition.
在这里插入图片描述

上面输入 RGB 图像;
下面输入光流图像。
最后softmax后简单加权平均。

14-17年在双流网络上的发展:
14-17年双流网络上的发展


Beyond-short-Smippets

Joe Yue-Hei Ng, Matthew Hausknecht, Sudheendra Vijayanarasimhan, Oriol Vinyals, Rajat Monga, & George Toderici (2015). Beyond Short Snippets: Deep Networks for Video Classification arXiv: Computer Vision and Pattern Recognition.


Convolutional Fusion

Christoph Feichtenhofer, Axel Pinz, & Andrew Zisserman (2016). Convolutional Two-Stream Network Fusion for Video Action Recognition arXiv: Computer Vision and Pattern Recognition.

在这里插入图片描述

1.做了大量的消融实验,可以让大家少走很多弯路。
2.尝试了3D Conv和3D Pooling,变相地推动了 I3D 的出现。

TSN

Limin Wang, Yuanjun Xiong, Zhe Wang, Yu Qiao, Dahua Lin, Xiaoou Tang, & Luc Van Gool (2016). Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
在这里插入图片描述


C3D

Du Tran, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani, & Manohar Paluri (2014). Learning Spatiotemporal Features with 3D Convolutional Networks Cornell University - arXiv.

性能表现:
在这里插入图片描述

网络结构:(很像 vgg)
在这里插入图片描述
16:16个视频帧。
c3d特征:fc6抽出来的特征。

主要还是可以直接拿C3D来抽取特征。(因为别人训练不动)


I3D

Joao Carreira, & Andrew Zisserman (2017). Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset Computer Vision and Pattern Recognition.

  1. 降低了网络训练的难度
  2. 提出了一个很好的数据集
    在这里插入图片描述
    把一个2D的网络扩充成一个3D的网络。(可以很好得使用2d网络在imagenet上预训练好的参数)
    证明了从2D网络到3D网络的有效性,比如后续的工作:
    在这里插入图片描述

在这里插入图片描述
把UCF101和HMDB-51数据集刷爆了,以后就是Kinetics数据集了。


Non-local

Xiaolong Wang, Ross Girshick, Abhinav Gupta, & Kaiming He (2017). Non-local Neural Networks arXiv: Computer Vision and Pattern Recognition.

一个即插即用的模块,可以在很多任务上取得好的结果。

在这里插入图片描述


R(2+1)D

Du Tran, Heng Wang, Lorenzo Torresani, Jamie Ray, Yann LeCun, & Manohar Paluri (2017). A Closer Look at Spatiotemporal Convolutions for Action Recognition Cornell University - arXiv.

一篇非常实验性的论文。
在这里插入图片描述

R(2+1)D这种结构的效果最好。
在这里插入图片描述
R(2+1)D的结构:
在这里插入图片描述


SlowFast

Christoph Feichtenhofer, Haoqi Fan, Jitendra Malik, & Kaiming He (2018). SlowFast Networks for Video Recognition International Conference on Computer Vision.

在这里插入图片描述
慢分支:小输入,大网络
快分支:大输入,小网络
在这里插入图片描述
慢分支是个标准的 i3d 网络。

在时间维度上一直没有做下采样。
在这里插入图片描述


Timesformer

Gedas Bertasius, Heng Wang, & Lorenzo Torresani (2021). Is Space-Time Attention All You Need for Video Understanding?. arXiv: Computer Vision and Pattern Recognition.

通过大量实验,探索了如果将 vision transformer 从图像领域迁移到视频领域中。
在这里插入图片描述
按照R(2+1)D的思路,设计了Divided Space-Time Attention。
Sparse Local Global Attentiono(L+G),类似Swim Transformer

下图是上面5种方法的可视化展示:
在这里插入图片描述

性能表现:
在这里插入图片描述


其它相关工作:
Xinyu Li, Yanyi Zhang, Chunhui Liu, Bing Shuai, Yi Zhu, Biagio Brattoli, Hao Chen, Ivan Marsic, & Joseph Tighe (2021). VidTr: Video Transformer Without Convolutions Cornell University - arXiv.

Haoqi Fan, Bo Xiong, Karttikeya Mangalam, Yanghao Li, Zhicheng Yan, Jitendra Malik, & Christoph Feichtenhofer (2021). Multiscale Vision Transformers Cornell University - arXiv.

Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lucic, & Cordelia Schmid (2021). ViViT: A Video Vision Transformer arXiv: Computer Vision and Pattern Recognition.


脉络总结:

在这里插入图片描述


参考链接:
https://www.bilibili.com/video/BV1fL4y157yA/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/398134.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【YOLO】YOLOv8训练自定义数据集

1. 运行环境 windows11 和 Ubuntu20.04(建议使用 Linux 系统) 首先切换到自己建立的虚拟环境安装 pytorch torch 1.12.0cu116(根据自身设备而定) torchvision 0.13.0cu116(根据自身设备而定&…

详解JAVA枚举类

目录 1.概述 2.常用API 2.1.清单 2.2.代码示例 2.2.1.ordinal 2.2.2.compareTo 2.2.3.toString 2.2.4.valueOf 2.2.5.values 3.成员变量和带参构造 1.概述 枚举变量指的是变量的取值只在一个有限的集合内,如性别、星期几、颜色等。从JDK5开始&#xff0…

超详细CentOS7 NAT模式(有图形化界面)网络配置

在此附上CentOS7(有可视化界面版)安装教程 超详细VMware CentOS7(有可视化界面版)安装教程 打开VMware—>点击编辑---->选择虚拟网络编辑器 打开虚拟网络编辑器后如下图所示: 从下图中我们看到最下面子网IP为…

软测入门(九)unit test

unit test 核心概念 TestCase:测试用例:用类的方式 组织对一个功能的多项测试Fixture : 夹具,用来固定测试环境TestSuite:测试套件:组织多个TestCaseTestRunner:测试执行:用来执行TestSuit,可以导出测试结果 入门 类需要继承unittest.Tes…

ENVI IDL学习笔记之基本操作

前言ENVI IDL(交互式数据语言)是一个通用的科学计算包,它提供了一套数学函数、数据分析工具,以及一些科学可视化和动画工具。IDL 是 ENVI 图像处理和分析软件的基础,可用于编写脚本并自动执行许多使用 ENVI 图形用户界…

【鲁棒优化】基于联合聚类和定价的鲁棒功率控制方法(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

12接口扩展无忧,存储显示充电都拉满,ORICO XDR扩展坞上手

扩展坞现在很多朋友都用,一般是配合笔记本使用,有些带有桌面模式的手机、平板装上扩展坞之后,也可以变身全能型的办公设备。现在市面上的扩展坞选择不少,我目前用的是一款功能比较全的12合1扩展坞,来自国产品牌ORICO。…

【机会约束、鲁棒优化】具有排放感知型经济调度中机会约束和鲁棒优化研究【IEEE6节点、IEEE118节点算例】(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

Django/Vue实现在线考试系统-03-开发环境搭建-MySQL安装

1.概述 MySQL是一种关系型数据库管理系统,所使用的 SQL 语言是用于访问数据库的最常用标准化语言。MySQL 软件采用了双授权政策,分为社区版和商业版,由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,一般中小型和大型网站的开发都选择 MySQL 作为网站数据库…

Redis的持久化操作

目录 介绍 RDB(redis database) 是什么 备份如何执行 配置 优势 劣势 备份恢复 AOF(Append Only File) 是什么 数据恢复 正常恢复 异常恢复 同步频率设置 重写(压缩) 持久化流程 优势 劣势 总结 介绍 redis持久化操作方式有两种:RDB和AOF。 RDB(redis database) 是…

mysql数据库之触发器

触发器是与表有关的数据库对象,指在insert、update、delete之前或之后,触发并执行触发器中定义的SQL语句集合。触发器的这种特性可以协助应用在数据库端确保数据的完整性,日志记录,数据校验等操作。 使用别名old和new来引用触发器…

华为OD机试题,用 Java 解【子序列长度】问题

华为Od必看系列 华为OD机试 全流程解析+经验分享,题型分享,防作弊指南)华为od机试,独家整理 已参加机试人员的实战技巧华为od 2023 | 什么是华为od,od 薪资待遇,od机试题清单华为OD机试真题大全,用 Python 解华为机试题 | 机试宝典使用说明 参加华为od机试,一定要注意不…

力扣第99场双周赛题目记录(复盘)

第一题 2578.最小和分割 给你一个正整数 num ,请你将它分割成两个非负整数 num1 和 num2 ,满足: num1 和 num2 直接连起来,得到 num 各数位的一个排列。 换句话说,num1 和 num2 中所有数字出现的次数之和等于 num 中所…

DolphinScheduler理论知识以及手机、邮箱、钉钉、电话等多种告警部署实操

1、DolphinScheduler简介 1.1、DolphinScheduler概述 Apache DolphinScheduler是一个新一代分布式、易扩展的可视化大数据工作流任务调度平台,致力于“解决大数据任务之间错综复杂的依赖关系,整个数据处理开箱即用”。它以 DAG(有向无环图) 的方式将任…

IDEA插件开发.02之“异味”代码收集插件

前言许久没更新IDEA插件开发系列了。最近刚好在汇总日常开发中常见的代码“异味”,共享文档复制黏贴略显麻烦,所以想着是否可以搞一个IDEA插件来帮忙收集常见代码,毕竟IDEA作为后端程序员必备的开发工具,显然会方便很多。于是&…

STM32开发(七)STM32F103 显示 —— 数码管显示 详解

文章目录一、基础知识点二、开发环境三、STM32CubeMX相关配置四、Vscode代码讲解五、结果演示一、基础知识点 了解 TM1620芯片手册 。本实验是基于STM32F103开发 通过GPIO模拟时序 实现TM1620数码管显示。 准备好了吗?开始我的show time。 二、开发环境 1、硬件开…

flink sql (jdbc)如何支持where 条件下推数据库

背景 最近在使用 flink sql (jdbc)做离线数据同步(历史数据修复),遇到一个问题,只同步几条数据的情况下,测试环境执行竟然需要30分钟。 进一步研究,发现where条件没有下推到数据库…

项目心得--网约车

一、RESTFULPost:新增Put:全量修改Patch:修改某个值Delete: 删除Get:查询删除接口也可以用POST请求url注意:url中不要带有敏感词(用户id等)url中的名词用复数形式url设计:api.xxx.co…

分形(Fractal)及分形维数(Fractal dimension)

文章目录1. 分形介绍2. 分形的定义3. 分形维数介绍4. 历史5. 缩放的作用(Role of scaling)6. D 不是唯一描述符7. 分形表面结构8. 例子8.8 Hausdorff dimension8.8.1 直观概念8.8.2 正式定义8.8.2.1 Hausdorff dimension8.8.2.2 Hausdorff content8.8.3 …

C++ 实现一个反射类

代码环境为VScode CMake GCC 8.1.0 首先,如何才能做到给我一个名字我就能拿到这个对象的这个值,也是比较难的一个地方,方法如下 #define OFFSET(className,fieldName) (size_t)&(((className*)0)->fieldName)这个能够得到该成员变…