视频理解AI模型分类与汇总

news2024/11/25 1:01:27

人工智能领域视频模型大体也经历了从传统手工特征,到卷积神经网络、3D卷积网络、双流网络、transformer的发展脉络。

视频的技术大多借鉴图像处理技术,只是视频比图片多了一个时间维度。

下面内容先简单汇总下,后续再逐渐补充。

1. 双流网络

双流网络,通过 Spatial stream ConvNet 和 Temporal stream ConvNets 分别抽取视频的空间和时序特征,最后对两个网络进行融合。详见《Two-stream architecture for video recognition》

2. 3D卷积

 视频比图片多了个时间维度,故将图片的2D卷积可以扩展到3D,处理视频。

在这里插入图片描述

 

详见论文笔记3D Convolutional Neural Networks for Human Action Recognition_AI强仔的博客-CSDN博客

3. transformer

 最近的研究主要集中在3D卷积神经网络和视觉transformer。虽然3D卷积可以在一个小的3D领域内(如3*3*3)可以捕捉详细的局部时空特征,减少了相邻帧之间的时空冗余,即有效处理局部信息来控制局部冗余,但因为受限制的接受域,缺乏捕捉全局依赖的能力。而视觉transformer通过自注意力机制可以捕捉长范围的依赖,但又在每个层中所有token的盲目相似比较导致其不能很好的减少局部冗余。

3.1 UNIFORMER-视频模型(3D CNN和transformer结合)

Unifified transFormer (UniFormer) ,集成了3D卷积和transformer,在计算量和准确度之间取得了较好的平衡。可以同时处理时空冗余和依赖.

详见UNIFORMER-视频模型(3D CNN和transformer结合)_AI强仔的博客-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/518582.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

DS200SLCCG1AFG随着频率的增加而增加。具有高 Dk 的基材将具有高 Df。

​ DS200SLCCG1AFG随着频率的增加而增加。具有高 Dk 的基材将具有高 Df。 Df 耗散因数(又名损耗角正切) Df 测量由于电阻加热而损失了多少功率。PCB 基板形成电容器作为绝缘体,导体通常位于两侧。作为电容器,它会表现出容抗&#…

MySQL---聚合函数、字符串函数、数学函数、日期函数

1. 聚合函数 数据准备: create database mydb4; use mydb4;create table emp(emp_id int primary key auto_increment comment 编号,emp_name char(20) not null default comment 姓名,salary decimal(10,2) not null default 0 comment 工资,department char(20…

激光切割机要换新该怎么选?如何减少激光加工设备的老化问题?

激光器的销量持续攀高,激光切割机的应用领域涉及众多行业。随着加工范围和厚度的提升,运行多年的中低功率 激光切割机已经不能满足时下很多设备加工的需求,要提企业的加工能力,选择一款新的激光加工设备已是势在必行。 激光切割机…

Ubuntu使用(持续更新中)

文章目录 1.以root身份登录2.配置apt源3.安装Docker3.1BUG: 4.在VMware中克隆Ubuntu5.配置apt国内源 额 我们项目用的CentOS7,由于CentOS8停止了维护,客户反馈了这个问题,所以玩一下Ubuntu,我使用的是Ubuntu Serve LST,如有不同,另行百度 1.以root身份登录 Ubuntu默认是不开启r…

java异常的声明、捕获、抛出、处理(throws、throw、try-catch详解)

异常的处理 LBYL: Look Before You Leap. 在操作之前就做充分的检查. 即:事前防御型 boolean ret false; ret 登陆游戏(); if (!ret) { 处理登陆游戏错误; return; } ret 开始匹配(); if (!ret) { 处理匹配错误; return; } ret 游戏确认(); if (!ret) { 处理游…

在职读研是理想还是情怀?你想要的都将在社科大能源管理硕士项目实现

在职读研是理想还是情怀呢,每个读研人的想法不同,原因也有所不同。但选择在职继续攻读硕士学位的群体也有着共同点,他们都是想拥有高学历,拥有高目标的一群人。探寻新的起点和终点是他们想所要追求的。不管读研的初心是什么&#…

Figma怎么导出PDF文件?

Figma 是一款备受网页和 UI 设计师喜爱的基于矢量的设计工具。其最大的优势在于方便用户与团队成员进行协作。当设计师需要与其他团队成员、设计师或客户共享设计文件时,设计师需要将设计图案导出为 PDF 格式以方便查看。同样地,当设计师需要将设计图稿打…

优维低代码实践:数据模型设计

优维低代码技术专栏,是一个全新的、技术为主的专栏,由优维技术委员会成员执笔,基于优维7年低代码技术研发及运维成果,主要介绍低代码相关的技术原理及架构逻辑,目的是给广大运维人提供一个技术交流与学习的平台。 优维…

msvcp110.dll丢失的解决方法,msvcp110.dll一键修复教程

昨天卸载了一个垃圾软件以后,我的ps软件就无法打开运行,提示msvcp110.dll丢失,无法继续执行此代码。今天早上找了很多方法,终于把msvcp110.dll丢失的原因以及修复的方法都弄明白了。msvcp110.dll是一个非常重要的文件,…

【Python】【进阶篇】30、Django模板继承精讲

目录 30、Django模板继承精讲1. 模板继承的概念2. 模板继承的应用3. 父模板内容扩展(block.super)4. 总结归纳 30、Django模板继承精讲 在本节我们讲述模板语言中最后一个知识点,也是最重要的,那就是模板继承。模板继承和 Python 语言中类的继承含义是一…

敏捷专题:下一代的飞机交付

随着信息化和网络化的发展,航空航天领域的装备已经发展成为软件密集型系统,软件负责完成航空装备的大部分功能。资料显示,以美国的F-22战斗机为例,由软件实现的功能已经达到80%以上,航空航天领域的软件规模和重要度与日…

【MySql】数据建模

目录 一:概念 二:数据建模 三:E-R模型 1.1E-R模型之chen方法 1.2E-R模型之crows foot方法 1.3E-R模型之idef 1x方法 一:概念 现实世界---->信息世界(概念模型[E-R模型])---->计算机世界(数据模型[关系、网状和层次模型])…

20230512-VSCode-配置C++17-win11-22h2

20230512-VSCode-配置C17-win11-22h2 一、软件环境 标签:C VSCode w64devkit gcc12分栏:C操作系统:Windows11 x64 22h2编译器:vscode-1.78.2 w64devkit-1.18.0 二、操作步骤 1. 下载安装VScode 官网 打开官网【https://code…

深度学习笔记——数值稳定性、模型初始化与激活函数

机器学习笔记——数值稳定性、模型初始化与激活函数 引言数值稳定性——梯度爆炸小插曲:关于对角阵 Diag [ σ ′ ( W t ⋅ h t − 1 ) ] \text{Diag}[\sigma(\mathcal W_t \cdot h_{t-1})] Diag[σ′(Wt​⋅ht−1​)]的解释梯度爆炸的问题 如何让参数更新更加稳定方…

移动机器人运动规划---基于图搜索的基础知识---配置空间

配置空间 机器人规划的配置空间概念:一个空间包含所有机器人自由度的机器人配置,描述为C-space 机器人配置:表示对机器人上面所以点的位置的描述机器人自由度:规划的时候用最少的坐标数量去表示机器人配置,例如无人机…

NFTScan: 蓝筹 NFT 跌幅严重,如何保持竞争力?

最近的市场大跌影响了 NFT 二级市场,市场情绪冷淡下跌严重,交易量和买家骤然下降,而蓝筹作为市场里的中流砥柱也表现不佳。以 BoerdApeYachtClub 为首的等主流 NFT 价格下跌超过 20%。此外,随着 PFP 的热潮已经过去,市…

【文章学习系列之模型】DLinear

本章内容 文章概况模型流程实验定量结果定性结果其他对比 总结 文章概况 《Are Transformers Effective for Time Series Forecasting?》是2023年发表于AAAI上的一篇文章。该文章以“Transformer在时序预测中是否有效”为论点展开讨论,并提出一种非Transformer系列…

SwiftUI 4.0 中 List 显示层级数据的子视图在展开和收起操作时无动画的解决

问题现象 在 SwiftUI 4.0(iOS 16+)中,一个超简单 List 视图层级子视图的收放操作竟然没有动画,这着实有点让人不爽: 从上图可以看到:我们在点击 List 子项时不仅毫无收放动画可言,而且在展开时还有卡顿,显得非常生硬。 以上代码在目前最新的 iOS 16.4.1(a) 系统中测试…

自动化测试如何做?接口自动化测试框架必备的9个功能,测试老鸟总结...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 当你准备使用一个…

PyQt5桌面应用开发(13):QGraphicsView框架

本文目录 PyQt5桌面应用系列PyQt5 与艺术codeQGraphicsView Framework几何QGraphicsView应用QGraphicsItem应用keyPressEvent QObject cross QThread/thread总计 PyQt5桌面应用系列 PyQt5桌面应用开发(1):需求分析 PyQt5桌面应用开发&#xf…