【学习笔记】行为识别SOTA方法比较

news2024/12/25 1:29:49

这里写目录标题

    • 前言
    • 方法
      • 1 基于CNN的方法
        • Slow-fast:
      • 2 基于Vision-Transformer的方法
        • Video TimeSformer :
        • Video Swin Transformer :
      • 3、基于自监督的方法
        • VideoMAE:
      • 4、基于多模态的方法
        • Intern video:

前言

常用行为识别数据集包括:HMDB-51、UCF101、AVA、Kinetics等…

主流前沿的行为识别算法主要包括四类:第一类是基于 CNN 的算法,是比较经典的算法,在落地应用场景中很常见;第二类是基于 vision transformer 的算法,这是最近两年比较火的一类方法;第三类是基于自监督的方法;第四类是基于多模态大模型的方法。

为更好比较现有SOTA算法的检测性能,本博客将针对以上四类算法中表现较优模型进行介绍。

类型算法模型年份代码
基于CNNSlowFast Networks for Video Recognition2021https://github.com/facebookresearch/SlowFast
基于transformerVideo TimeSformer2022https://github.com/facebookresearch/TimeSformer
基于transformerVideo Swin Transformer2022https://github.com/SwinTransformer/Video-Swin-Transformer
基于自监督VideoMAE2022https://github.com/MCG-NJU/VideoMAE
基于多模态Intern Video2021https://github.com/opengvlab/internvideo

方法

1 基于CNN的方法

Slow-fast:

arxiv.org/pdf/1812.03982v3.pdf

模型结构:
在这里插入图片描述
Slow-fast为以两种不同帧率运行的单一流结构,其中:(1)Slow路径,以低帧率运行,用于捕捉由图像或稀疏帧提供的空间语义信息;(2)Fast路径,以高帧率运行,以较好的时间分辨率捕捉快速变化的运动。两条路径齐头并进、相辅相成,能够对行为识别产生很好的检测效果。

算法流程:
1、输入视频流同时进入Slow、Fast路径。
2、Slow路径(2D/3D卷积)按照t的大时间步幅设置,对输入视频提取图像空间特征。(无单独时间下采样层)
3、Fast路径(2D/3D卷积)按照T=t/α的小时间步幅设置,对输入视频提取特征。(无单独时间下采样层)
4、在每个阶段的两个通路之间附加“横向单向连接”,包括:通道时间转换、时间跨越采样、时间步长卷积,将Fast路径的特征融合到Slow路径中。
5、对每个路径的输出进行全局平均池化,并连接池化后的特征向量,输入全连接分类器,实现动作分类。

算法性能:
在无任何预训练情况下。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

算法总结:
1、Slow-Fast提出了一种新的检测结构,能够以慢速帧频和快速帧频提取视频中的有效信息。
2、Slow-Fast 的整体计算复杂度低,但准确度很高。在 CVPR 2019 上的 AVA 视频检测挑战赛中排名第一
3、实际运用时可配合不同的Backbone进行特征提取


2 基于Vision-Transformer的方法

当前视频行为识别的SOTA模型,都是基于Vision-Transformer的方法。

Video TimeSformer :

arxiv.org/pdf/2102.05095v4.pdf
在vision transformer的基础上,在时间维度进行了attention,将图像分类拓展到了视频分类。

模型结构:
模型由三部分组成,主要是模型输入attention模块分类器

算法流程:
1、从视频片段中等分抽取F帧图像打包为一个序列作为模型的输入。(比如一个2s,fps为24的视频片段,当F = 8时,就取[ 0 , 6 , 12 , 18 , 24 , 30 , 36 , 42 ]这几帧作为一个序列来输入)。
2、将序列中每一帧图像进行resize、crop和Patch切割,同时在序列始端加入可学习变量z,用于最后分类。将处理后序列通过position embedding层,输出基础特征。
3、attention模块采用时间注意力与空间注意力分开的attention方式,对所得到的基础特征进行增强。
4、将可学习变量z增强后的对应输出送入分类器,实现视频行为分类。
在这里插入图片描述

算法性能:
在这里插入图片描述
在这里插入图片描述
算法总结:
1、虽然TimeSformer相比CNN方法参数量远大于其他模型,但需要的训练时间更少,准确率也更高。
2、在更大的数据集上进行pretrain后,模型的效果会变得更好。
在这里插入图片描述


Video Swin Transformer :

原文
Video Swin Transformer是基于Swin Transformer应用在视频领域的升级版本,其模型结构与Swin Transformer基本一致,只是多了一个时间的维度,做attention和构建window的时候略有区别。

模型结构:
模型由两部分组成,主要是backbonehead
在这里插入图片描述

算法流程:
1、对输入视频进行采样得到T帧(一般为等间隔采样)
2、输入送进添加了时间维度patch size的Patch Partition,然后进入Linear Embedding模块(3D-Conv),实现特征提取。
3、输出经过多个video swin transformer block和patch merging。其中video swin transformer将对同一个window内的特征通过attention进行特征融合,patch merging则是用来改变特征的shape。
在这里插入图片描述
4、最后通过Head(即一层FC)对输入视频进行分类。

算法性能:
模型介绍了四个不同版本的Video Swin Transformer,这些模型变体的体系结构超参数如下:
在这里插入图片描述
作者在三个数据集上进行了测试,分别是kinetics-400,kinetics-600和something-something v2,每个数据集上都有着state-of-art的表现。
在这里插入图片描述
在这里插入图片描述
算法总结:
1、采样输入过程限制了模型处理和训练数据时长相差太多的视频。通常视频分类任务的视频会在10s左右,太长的视频很难分到一个类里。
2、算法原理较简单,基本与Swin transformer差异不大。只是将分割的方式是从 2D扩展到了3D帧。


3、基于自监督的方法

当前直接基于视频分类的方法,其性能已经达到上限。使用自监督的方法,可以继续提升视频分类的性能。

VideoMAE:

原文
VideoMAE是MAE模型(图像领域特征学习效果很好的模型)对时空数据的简单扩展。MAE主要思想是:掩去一部分图像块,用剩余的图像块去恢复整幅图。包含一个encoder和一个decoder,encoder在训练完成之后,可以作为图像特征提取的模型。
受到ImageMAE的启发,作者提出定制视频数据的掩蔽和重建。

模型结构:
VideoMAE: 由三个核心组件组成:cube embeddingencoder(VIT)和decoder
在这里插入图片描述
算法流程:
1、从原始视频中随机采样一个由t个连续帧组成的视频片段,然后使用带有时序间隔采样将视频片段压缩为T帧。
2、对采样得到的视频片段,通过cube embedding进行像素块嵌入,以减小输入数据的时空维度大小,缓解视频数据的时空冗余性。
3、进行tube mask掩码,掩码后未被掩蔽的token送入Encoder中。
4、encoder通过原始ViT结合时空联合自注意力机制,对输入token进行特征提取。
5、最后通过decoder恢复图像。

算法性能:
在这里插入图片描述

算法总结:
1、采用一种自监督的预训练方法,以掩蔽自编码器为基础,提出了一种对于视频的自监督预训练范式
2、证明了管道式掩码方法的效果要优于随机式掩码,能够减少重建过程中的信息泄漏风险。
3、实验非常耗时,需要大量的显卡。


4、基于多模态的方法

Intern video:

原文

模型结构:
在这里插入图片描述

算法流程:
1、遵循VideoMAE的训练方式,使用一个普通的ViT结合联合时空注意机制对视频的时空信息进行建模。
在这里插入图片描述
2、同时对视频/图像、文本对比学习和视频字幕任务模型进行预训练。首先,使用基于预训练的CLIP初始化构建多模态结构。使用UniformerV2作为视频编码器,以实现更好、更有效的时间建模。此外,再联合一个额外的Transformer Encoder来实现跨模态学习。
在这里插入图片描述
3、训练一个MAE和一个带有监督动作分类的多模态视频编码器作为Post-Pretraining步骤,以便在不同的下游任务中更好地表现。同时,为在MAE和视频语言对比学习的基础上学习统一的视频表示,引入交叉表示学习,并添加跨模型注意模块。
在这里插入图片描述

算法性能:
在这里插入图片描述
算法总结:
1、InternVideo是一个结合了MAE和多模态对比学习的视频基础模型,能够用于动作理解、视频语言对齐、开放式理解等多种下游任务。
2、与以往SOTA方法比较,其极大地提升了视频基础模型的通用性,在近40个数据集上达到了最先进的性能,涵盖了10个不同的任务。

------tbc-------
有用请点个👍哦~~😀

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/797245.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

TL-ER3220G设置vlan

TL-ER3220G是企业宽带路由器。 自带5个RJ45接口。 其中接口1到接口4都可以接入宽带线路。最多可以并接4路。 本例由接口1接入宽带,默认接口2到接口4组成1个vlan,名称vlan。其中接口5特殊,带宽最大100M。 计划将接口2和接口4组成第一个vlan&…

STM32使用HAL库BH1750光照度传感器

开发环境 单片机:STM32F103C8T6 光照度传感器:BH1750 IDE:KEILSTM32CUBEMX 单片机配置 1、STM32CUBEMX BH1750代码 1、头文件 /* ************************************************* BH1750光照数据计算(LUX) …

H5和小程序测试点分析

最近接触了较多关于H5页面的测试,H5页面的测试除了业务逻辑功能测试外,其他部分的测试方法基本是可以通用的,在此对H5页面和小程序的一些通用测试方法进行总结分享给大家。 H5优势: 1.H5可以跨平台,开发成本相对较低…

中共湖南麒麟信安科技股份有限公司委员会召开庆祝建党102 周年暨“七一”表彰大会

为隆重庆祝中国共产党成立 102 周年,6月30日下午,中共湖南麒麟信安科技股份有限公司委员会召开庆祝建党102 周年暨“七一”表彰大会。麒麟信安党委书记王忠锋出席会议,党委副书记李广辉主持会议,全体党委委员、各支部委员、受表彰…

Gitlab 合并分支与请求合并

合并分支 方式一:图形界面 使用 GitGUI,右键菜单“GitExt Browse” - 菜单“命令” - 合并分支 方式二:命令行 在项目根目录下打开控制台,注意是本地 dev 与远程 master 的合并 // 1.查看本地分支,确认当前分支是否…

Elasticsearch-增删改查数据工作原理

集群 集群的基本概念: 集群:ES 集群由一个或多个 Elasticsearch 节点组成,每个节点配置相同的 cluster.name 即可加入集群,默认值为 “elasticsearch”。节点:一个 Elasticsearch 服务启动实例就是一个节点&#xff…

伦敦银定盘价机制的改变

一直以来,伦敦都是全球最大的现货白银定价中心,LBMA也是全球金银市场中最具有影响力的机构组织,其定盘价一直是世界各白银市场基准价的主要参考标准,被广泛应用于生产厂商、消费者和金融机构之间的交易结算,也是众多白…

刷题DAY 11

题目一 给定一个整型数组arr&#xff0c;和一个整数num某个arr中的子数组sub&#xff0c;如果想达标&#xff0c;必须满足&#xff1a;sub中最大值-sub中最小值<num&#xff0c;返回arr中达标子数组的数量 滑动窗口法,滑动窗口有两个行为1.右括 2.左缩 错误想法1: 当你已经…

工频耐压测试仪的使用方法

一、凯迪正大工频耐压试验装置使用方法 1、核对试验变压器&#xff0c;测量绕阻额定输出电压&#xff0c;使之与操作箱&#xff08;台&#xff09;相吻合。 2、按接线示意图接好试验变压器与操作箱&#xff08;台&#xff09;及感应调压器之间的联线。 3、接通电源&#xff0c;…

索引能优化查询,那么谈谈索引的优点和缺点?索引原理

面试必备&#xff1a;索引能优化查询&#xff0c;那么谈谈索引的优点和缺点?索引原理 简述&#xff1a; 优点: 第一&#xff0c;通过创建唯一性索引&#xff0c;可以保证数据库表中每一行数据的唯一性。 第二&#xff0c;可以大大加快数据的检索速度&#xff0c;这也是创建…

工程设计施工3D模型素材下载,全套1000+免费获取

在建筑设计和施工过程中&#xff0c;3D模型数据是至关重要的。设计师和工程师需要依赖高质量的3D模型数据进行方案优化、细节设计、施工规划和质量控制。因此&#xff0c;如何下载高质量的3D模型数据成为了一个重要的问题。 今天给大家免费提供一个“设计、施工3D模型数据下载…

推荐几个不错的免费配色工具网站

1. Paletton专业的配色套件,提供色轮理论及调色功能。可查看配色预览效果。 网站:http://paletton.com 2. Colormind一个基于机器学习的智能配色工具。可以一键生成配色方案。 网站:http://colormind.io 3. Adobe ColorAdobe官方的配色工具,可以从图片中取色,也可以随机生成配色…

ModStartCMS v6.9.0 后台多标签改进,主题色自动切换修复

ModStart 是一个基于 Laravel 模块化极速开发框架。模块市场拥有丰富的功能应用&#xff0c;支持后台一键快速安装&#xff0c;让开发者能快的实现业务功能开发。 系统完全开源&#xff0c;基于 Apache 2.0 开源协议&#xff0c;免费且不限制商业使用。 功能特性 丰富的模块市…

docker安装MySQL集群(一主一从)

目录 docker安装MySQL集群&#xff08;一主一从&#xff09;前菜测试MySQL 集群安装master容器slave容器master容器配置主从赋值测试 docker安装MySQL集群&#xff08;一主一从&#xff09; 前菜测试 1、拉取mysql5.7的镜像到本地 [rootaliyun ~]# docker pull mysql:5.72、…

优思学院|丰田公司的精益生产为什么让人敬佩?

因为丰田精益生产方式的成功不是偶然&#xff0c;它历经了50多年&#xff0c;从员工的教育训练着手&#xff0c;使他们能运用非常严格的问题解决程序&#xff0c;采用科学方法&#xff0c;针对各项活动、流程及制度不断地加以评估、检测与改进而自然形成的。事实上&#xff0c;…

【阿Q送书第四期】好书推荐《重构的时机和方法》

文章目录 背景概念介绍案例目录购书 送书规则 背景 最近公司正在组织 Code Review &#xff0c;看看之前为了赶项目写的代码&#xff0c;真的是一言难尽。所以想趁同事审查我的代码之前做点“小动作”&#xff0c;没错&#xff0c;我想说的就是“代码重构”。 对于工作时间较…

css设置背景图片和边框背景

介绍一个网站&#xff0c;在这个网站里可以找到各种好看的背景图片和边框图片。 数据大屏 &#xff08;代码是reactts&#xff0c;使用时请自行转换&#xff09; 一&#xff1a;设置页面背景图片 css部分 .productionBoard {width: 100%;height: 100%;padding: 0 2rem;box-si…

高效梳理商业模式,3个免费的精益画布模板网站!

精益画布是一种能够帮助创业者快速开发商业模式的工具&#xff0c;它广泛应用于初创公司、企业创新、新产品发布等领域&#xff0c;并且精益画布可以帮助创业者系统地归纳商业模式&#xff0c;并从中找到新的商业机会。本文将向大家介绍3款免费的精益画布模板网站&#xff0c;这…

SFP3012-ASEMI快恢复二极管参数、规格、尺寸

编辑&#xff1a;ll SFP3012-ASEMI快恢复二极管参数、规格、尺寸 型号&#xff1a;SFP3012 品牌&#xff1a;ASEMI 芯片个数&#xff1a;2 芯片尺寸&#xff1a;102MIL*2 封装&#xff1a;TO-247 恢复时间&#xff1a;65ns 工作温度&#xff1a;-40C~175C 浪涌电流&am…

37.Vue生命周期-挂载流程

36.Vue引出生命周期_未来音律的博客-CSDN博客下面绿色框中的是Vue实例&#xff0c;红色框中的是具体的逻辑&#xff0c;而且最主要的是红色框中的还在操作绿色框中的数据。这是因为在定时器里&#xff0c;我们修改了data中的数据opacity&#xff0c;而Vue有这样的承诺&#xff…