视频理解AI模型分类与汇总

news2025/4/6 0:56:06

人工智能领域视频模型大体也经历了从传统手工特征，到卷积神经网络、3D卷积网络、双流网络、transformer的发展脉络。

视频的技术大多借鉴图像处理技术，只是视频比图片多了一个时间维度。

下面内容先简单汇总下，后续再逐渐补充。

1. 双流网络

双流网络，通过 Spatial stream ConvNet 和 Temporal stream ConvNets 分别抽取视频的空间和时序特征，最后对两个网络进行融合。详见《Two-stream architecture for video recognition》

2. 3D卷积

视频比图片多了个时间维度，故将图片的2D卷积可以扩展到3D，处理视频。

在这里插入图片描述

详见论文笔记3D Convolutional Neural Networks for Human Action Recognition_AI强仔的博客-CSDN博客

3. transformer

最近的研究主要集中在3D卷积神经网络和视觉transformer。虽然3D卷积可以在一个小的3D领域内（如3*3*3）可以捕捉详细的局部时空特征，减少了相邻帧之间的时空冗余，即有效处理局部信息来控制局部冗余，但因为受限制的接受域，缺乏捕捉全局依赖的能力。而视觉transformer通过自注意力机制可以捕捉长范围的依赖，但又在每个层中所有token的盲目相似比较导致其不能很好的减少局部冗余。

3.1 UNIFORMER-视频模型（3D CNN和transformer结合）

Unifified transFormer (UniFormer) ，集成了3D卷积和transformer，在计算量和准确度之间取得了较好的平衡。可以同时处理时空冗余和依赖.

详见UNIFORMER-视频模型（3D CNN和transformer结合）_AI强仔的博客-CSDN博客

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/518582.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

DS200SLCCG1AFG随着频率的增加而增加。具有高 Dk 的基材将具有高 Df。

DS200SLCCG1AFG随着频率的增加而增加。具有高 Dk 的基材将具有高 Df。

DS200SLCCG1AFG随着频率的增加而增加。具有高 Dk 的基材将具有高 Df。 Df 耗散因数（又名损耗角正切） Df 测量由于电阻加热而损失了多少功率。PCB 基板形成电容器作为绝缘体，导体通常位于两侧。作为电容器，它会表现出容抗&#…

阅读更多...

MySQL---聚合函数、字符串函数、数学函数、日期函数

MySQL---聚合函数、字符串函数、数学函数、日期函数

1. 聚合函数数据准备： create database mydb4; use mydb4;create table emp(emp_id int primary key auto_increment comment 编号,emp_name char(20) not null default comment 姓名,salary decimal(10,2) not null default 0 comment 工资,department char(20…

阅读更多...

激光切割机要换新该怎么选？如何减少激光加工设备的老化问题？

激光切割机要换新该怎么选？如何减少激光加工设备的老化问题？

激光器的销量持续攀高，激光切割机的应用领域涉及众多行业。随着加工范围和厚度的提升，运行多年的中低功率激光切割机已经不能满足时下很多设备加工的需求，要提企业的加工能力，选择一款新的激光加工设备已是势在必行。激光切割机…

阅读更多...

Ubuntu使用(持续更新中)

Ubuntu使用(持续更新中)

文章目录 1.以root身份登录2.配置apt源3.安装Docker3.1BUG: 4.在VMware中克隆Ubuntu5.配置apt国内源额我们项目用的CentOS7,由于CentOS8停止了维护,客户反馈了这个问题,所以玩一下Ubuntu,我使用的是Ubuntu Serve LST,如有不同,另行百度 1.以root身份登录 Ubuntu默认是不开启r…

阅读更多...

java异常的声明、捕获、抛出、处理（throws、throw、try-catch详解）

java异常的声明、捕获、抛出、处理（throws、throw、try-catch详解）

异常的处理 LBYL: Look Before You Leap. 在操作之前就做充分的检查. 即：事前防御型 boolean ret false; ret 登陆游戏(); if (!ret) { 处理登陆游戏错误; return; } ret 开始匹配(); if (!ret) { 处理匹配错误; return; } ret 游戏确认(); if (!ret) { 处理游…

阅读更多...

在职读研是理想还是情怀？你想要的都将在社科大能源管理硕士项目实现

在职读研是理想还是情怀？你想要的都将在社科大能源管理硕士项目实现

在职读研是理想还是情怀呢，每个读研人的想法不同，原因也有所不同。但选择在职继续攻读硕士学位的群体也有着共同点，他们都是想拥有高学历，拥有高目标的一群人。探寻新的起点和终点是他们想所要追求的。不管读研的初心是什么&#…

阅读更多...

Figma怎么导出PDF文件？

Figma怎么导出PDF文件？

Figma 是一款备受网页和 UI 设计师喜爱的基于矢量的设计工具。其最大的优势在于方便用户与团队成员进行协作。当设计师需要与其他团队成员、设计师或客户共享设计文件时，设计师需要将设计图案导出为 PDF 格式以方便查看。同样地，当设计师需要将设计图稿打…

阅读更多...

优维低代码实践：数据模型设计

优维低代码实践：数据模型设计

优维低代码技术专栏，是一个全新的、技术为主的专栏，由优维技术委员会成员执笔，基于优维7年低代码技术研发及运维成果，主要介绍低代码相关的技术原理及架构逻辑，目的是给广大运维人提供一个技术交流与学习的平台。优维…

阅读更多...

msvcp110.dll丢失的解决方法，msvcp110.dll一键修复教程

msvcp110.dll丢失的解决方法，msvcp110.dll一键修复教程

昨天卸载了一个垃圾软件以后，我的ps软件就无法打开运行，提示msvcp110.dll丢失，无法继续执行此代码。今天早上找了很多方法，终于把msvcp110.dll丢失的原因以及修复的方法都弄明白了。msvcp110.dll是一个非常重要的文件，…

阅读更多...

【Python】【进阶篇】30、Django模板继承精讲

【Python】【进阶篇】30、Django模板继承精讲

目录 30、Django模板继承精讲1. 模板继承的概念2. 模板继承的应用3. 父模板内容扩展(block.super)4. 总结归纳 30、Django模板继承精讲在本节我们讲述模板语言中最后一个知识点，也是最重要的，那就是模板继承。模板继承和 Python 语言中类的继承含义是一…

阅读更多...

敏捷专题：下一代的飞机交付

敏捷专题：下一代的飞机交付

随着信息化和网络化的发展，航空航天领域的装备已经发展成为软件密集型系统，软件负责完成航空装备的大部分功能。资料显示，以美国的F-22战斗机为例，由软件实现的功能已经达到80%以上，航空航天领域的软件规模和重要度与日…

阅读更多...

【MySql】数据建模

【MySql】数据建模

目录一：概念二：数据建模三：E-R模型 1.1E-R模型之chen方法 1.2E-R模型之crows foot方法 1.3E-R模型之idef 1x方法一：概念现实世界---->信息世界(概念模型[E-R模型])---->计算机世界(数据模型[关系、网状和层次模型])…

阅读更多...

20230512-VSCode-配置C++17-win11-22h2

20230512-VSCode-配置C++17-win11-22h2

20230512-VSCode-配置C17-win11-22h2 一、软件环境标签：C VSCode w64devkit gcc12分栏：C操作系统：Windows11 x64 22h2编译器：vscode-1.78.2 w64devkit-1.18.0 二、操作步骤 1. 下载安装VScode 官网打开官网【https://code…

阅读更多...

深度学习笔记——数值稳定性、模型初始化与激活函数

深度学习笔记——数值稳定性、模型初始化与激活函数

机器学习笔记——数值稳定性、模型初始化与激活函数引言数值稳定性——梯度爆炸小插曲：关于对角阵 Diag [ σ ′ ( W t ⋅ h t − 1 ) ] \text{Diag}[\sigma(\mathcal W_t \cdot h_{t-1})] Diag[σ′(Wt⋅ht−1)]的解释梯度爆炸的问题如何让参数更新更加稳定方…

阅读更多...

移动机器人运动规划---基于图搜索的基础知识---配置空间

移动机器人运动规划---基于图搜索的基础知识---配置空间

配置空间机器人规划的配置空间概念：一个空间包含所有机器人自由度的机器人配置，描述为C-space 机器人配置：表示对机器人上面所以点的位置的描述机器人自由度：规划的时候用最少的坐标数量去表示机器人配置，例如无人机…

阅读更多...

NFTScan: 蓝筹 NFT 跌幅严重，如何保持竞争力?

NFTScan: 蓝筹 NFT 跌幅严重，如何保持竞争力?

最近的市场大跌影响了 NFT 二级市场，市场情绪冷淡下跌严重，交易量和买家骤然下降，而蓝筹作为市场里的中流砥柱也表现不佳。以 BoerdApeYachtClub 为首的等主流 NFT 价格下跌超过 20%。此外，随着 PFP 的热潮已经过去，市…

阅读更多...

【文章学习系列之模型】DLinear

【文章学习系列之模型】DLinear

本章内容文章概况模型流程实验定量结果定性结果其他对比总结文章概况《Are Transformers Effective for Time Series Forecasting?》是2023年发表于AAAI上的一篇文章。该文章以“Transformer在时序预测中是否有效”为论点展开讨论，并提出一种非Transformer系列…

阅读更多...

SwiftUI 4.0 中 List 显示层级数据的子视图在展开和收起操作时无动画的解决

SwiftUI 4.0 中 List 显示层级数据的子视图在展开和收起操作时无动画的解决

问题现象在 SwiftUI 4.0（iOS 16+）中，一个超简单 List 视图层级子视图的收放操作竟然没有动画，这着实有点让人不爽：从上图可以看到：我们在点击 List 子项时不仅毫无收放动画可言，而且在展开时还有卡顿，显得非常生硬。以上代码在目前最新的 iOS 16.4.1(a) 系统中测试…

阅读更多...

自动化测试如何做？接口自动化测试框架必备的9个功能，测试老鸟总结...

自动化测试如何做？接口自动化测试框架必备的9个功能，测试老鸟总结...

目录：导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结（尾部小惊喜） 前言当你准备使用一个…

阅读更多...

PyQt5桌面应用开发（13）：QGraphicsView框架

PyQt5桌面应用开发（13）：QGraphicsView框架

本文目录 PyQt5桌面应用系列PyQt5 与艺术codeQGraphicsView Framework几何QGraphicsView应用QGraphicsItem应用keyPressEvent QObject cross QThread/thread总计 PyQt5桌面应用系列 PyQt5桌面应用开发（1）：需求分析 PyQt5桌面应用开发&#xf…

阅读更多...

推荐文章

最新文章