视频理解学习笔记(一):双流卷积神经网络

news2025/4/8 14:26:54

视频理解学习笔记(一):双流卷积神经网络

    • 两句话总结双流卷积神经网络
    • 论文概览
    • 方法详解
      • Spatial stream ConvNet
      • Temporal stream ConvNet
      • 测试方法
    • 光流
      • 什么是光流
      • 怎么预处理光流
    • 数据集
      • UCF101(已被刷爆)
      • HMDB51
    • Experiments
    • References

两句话总结双流卷积神经网络

  • 两个神经网络,一个学习空间信息,一个学习时序信息。
  • 在学习时序信息的网络中,传统方法提取运动特征(光流信息作为先验),其后接上CNN学习这些特征。

论文概览

论文标题Two-Stream Convolutional Networks for Action Recognition in Videos

论文地址:https://arxiv.org/abs/1406.2199

作者团队:Karen Simonyan and Andrew Zisserman from 牛津大学的VGG组,也是VGGNet的两个作者。

任务:视频动作识别

背景:在双流卷积之前,也有工作尝试将卷积神经网络应用到视频动作识别任务(DeepVideo_Large-scale Video Classification with Convolutional Neural Networks_CVPR’14),但是效果却没有之前那些手工设计浅层特征的方法好。

贡献:第一个将CNN在Video上的表现提升到和手工设计特征方法媲美的深度学习神经网络。神经网络在视频理解领域的开山之作。

  • 证明将深度学习应用于视频理解是可行的
  • 证明motion信息(可以理解成时序信息)对视频理解是至关重要的

双流:两个神经网络

  • 空间流神经网络(Spatial stream ConvNet)
    • 输入:单帧图片(single frame)
    • 输出:分类概率
  • 时间流神经网络(Temporal stream ConvNet)
    • 输入:多帧光流(multi-frame optical flow)
    • 输出:分类概率
  • 最终输出(late fusion):将两个CNN输出的概率取加权平均,得到最终的分类概率。

    Late fusion:在logits层面去做合并

值得一提的是,在人脑内,也有两条路来做视觉处理,一条路叫做ventral stream,用来做物体识别;一条路叫做dorsal stream,用来做运动识别。

问题:CNN擅长学习局部特征,而难以学习基于时序的移动规律(即motion information)。

解决:既然CNN难以学习motion information,那就教CNN学会motion information。

  • 首先将motion information提前抽取好,也就是得到光流信息(multi-frame optical flow),然后让CNN学习光流和label之间的映射关系。

    事实上,在时序流网络分支中,先抽取光流信息作为运动特征是inspired by传统方法,只是说双流卷积用CNN代替了传统卷积的特征学习。

  • 相当于并没有让CNN直接去学习运动特征,而是将运动特征,也就是光流信息抽取出来后,再去让CNN学习这个抽取好的运动特征。

方法详解

在这里插入图片描述

Spatial stream ConvNet

  • 网络结构:5 Convs + 2 FCs + softmax (其实就是AlexNet)
  • 输入:将视频一帧一帧的喂进去,相当于一个图像分类
  • 输出:分类概率

Temporal stream ConvNet

在这里插入图片描述

  • 网络结构:5 Convs + 2 FCs + softmax (其实就是AlexNet)
  • 输入:11帧,即10个光流图
    • 每两帧能得到一个光流
    • 可以得到很多光流图
      • 如何利用这些光流图:叠加
      • 怎么叠加:
        • stack(实验证明,该方法效果更好)
        • trajectory stack,根据光流的轨迹,在轨迹上去进行光流数值的叠加
          在这里插入图片描述

测试方法

  1. 不管视频有多长,只从里面等间隔取25帧,对这25帧采用10 crop(从原帧取4个corners + 1 center,翻转后再取4个corners + 1 center)的方法,可以得到总共250个crop,送到spatial网络。spaital最后的预测结果是这25帧的预测结果取平均。
  2. 对于光流,依旧是等间隔提取25帧,然后以取的每一帧为起点,取其后面的连续10帧,共11帧,得到10个光流图,送到temporal网络。temporal最后的预测结果是这10个光流图的预测结果取平均。
  3. 最终预测结果是两个网络的最终预测结果取加权平均(或者SVM)。

光流

上面提到了光流和提取光流信息,那么什么是光流?该篇论文是怎么预处理和提取光流信息的?

  • 主要挑战:expensive time and space

什么是光流

光流是一种能够有效描述物体运动特征的物理表示。
在这里插入图片描述

怎么预处理光流

将光流scale到[0, 255]之间的整数,将其存储为JPEG格式。(但仍然expensive)

数据集

论文中在两个数据集上进行了实验,它们是UCF101和HMDB-51。

补充:其他视频理解数据集 and
Sports-1M
Something Something
Kinetic

UCF101(已被刷爆)

Paper: UCF101: A Dataset of 101 Human Action Classes From Videos in The Wild_ICCV’13
Website: UCF101 - Action Recognition Data Set

UCF是University of Central Florida的缩写,101意味该数据集里面共有101个类。

UCF101是中佛罗里达大学在2012年11月推出的一个真实动作视频的人类动作识别数据集,收集自YouTube,有101个类,共包括13320个视频,是UCF50的扩展。
该数据集包含的动作可以分为五大类:

  • Human-Object Interaction
  • Body-Motion Only
  • Human-Human Interaction
  • Playing Musical Instruments
  • Sports

分辨率:320 * 240 (width * height)

HMDB51

Paper: HMDB: A large video database for human motion recognition
Website: HMDB

HMDB是Human Motion DataBase的缩写,51意味着该数据集共包含51个动作类。

HMDB51是一个2011年11月推出的人类动作识别数据集,收集自电影和网络视频等。它包含6766个视频,共有51个动作分类,其中每个动作分类至少包含101个片段。

Experiments

在这里插入图片描述
在这里插入图片描述

References

Bilibili-双流网络论文逐段精读

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/568053.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

安装包UI美化之路-Electron打包出界面美观,功能完善的安装包,这三步就够了

这篇文章应该说是《安装包UI美化之路-nsNiuniuSkin安装包制作可视化配置向导》的延伸与进一步应用,在可视配置的基础之上,生成供electron-builder打包的脚本! 一直有朋友反馈,不知道如何将nsNiuniuSkin与Electron打包结合起来&am…

Real-Time C++ 嵌入式C++ 程序设计(二)

翻译自 Real-Time C Efficient Object-Oriented and Template Microcontroller Programming 4th Edition - Kormanyos, Christopher,这书涉及了从C11 到C20 的内容,主要介绍使用C 的模板、面向对象等特性设计嵌入式程序。书里的示例代码都是公开的&#…

【OpenCV DNN】Flask 视频监控目标检测教程 03

欢迎关注『OpenCV DNN Youcans』系列,持续更新中 【OpenCV DNN】Flask 视频监控目标检测教程 03 3.3 上传本地图片进行人脸检测3.3.1 OpenCV 级联分类器类 cv::CascadeClassifier3.3.2 cvFlask03 项目的构建步骤 本系列从零开始,详细讲解使用 Flask 框架…

Unity3D :运行时 UI 的性能注意事项

推荐:将 NSDT场景编辑器 加入你的3D工具链 3D工具集: NSDT简石数字孪生 运行时 UI 的性能注意事项 本页介绍如何提高运行时的性能用户界面 . 优化数据存储 您可以使用 usageHints 来设置元素在运行时的使用方式,以便相应地优化数据存储。例…

三、CNNs网络架构-跨层连接思想的网络架构

《A review of convolutional neural network architectures and their optimizations》论文指出随着网络架构的深入,梯度消失、爆炸或退化问题变得越来越严重。跨层连接的思想是解决现有问题的有效方案,允许网络在非相邻层之间传递信息。因此&#xff0…

如何利用Python中的pymysql库来操作Mysql数据库,看这篇就够啦~

为了使python连接上数据库,你需要一个驱动,这个驱动是用于与数据库交互的库,本文是向大家介绍了如何利用python中的pymysql库来操作mysql数据库。 1、什么是pymysql? pymysql是从python连接到mysql数据库服务器的接口&#xff0c…

上门服务小程序|东邻到家系统|上门服务系统包含哪些功能?

使用东郊到家小程序,只需要一键预约即可在工作之余、休息娱乐的时候,点一个理按疗摩技师,做一个SPA,缓解工作压力,不失为一种享受,并且上门服务小程序可以为技师或从业岗位人员提供就业服务,线上…

抖音seo优化源代码搭建+抖音小程序私有化开源部署

抖音seo优化源码,抖音seo矩阵系统搭建,抖音账号矩阵系统开发,企业在做账号矩阵过程中,最头疼的莫过于私域线索转化,作为开发者都知道,目前市面上我们了解的矩阵系统除了挂载POI信息外,无法挂载留…

一篇关于 ApiKit 的简单介绍

简介 本文介绍 ApiKit 工具,它是 API 文档、API 调试、API Mock、API 自动化测试一体化协作平台。 一、常用解决方案 使用 Swagger 管理 API 文档 使用 Postman 调试 API 使用 mockjs 等工具 Mock API 数据 使用 JMeter 做 API 自动化测试 二、存在的问题 维护…

ffmpeg学习日记122-视频-获取视频的解码器,yuv格式名称,理解编码格式,封装格式,yuv格式的关系

Author: wencoo Blog:https://wencoo.blog.csdn.net/ Date: 25/05/2023 Email: jianwen056aliyun.com Wechat:wencoo824 QQ:1419440391 Details:文章目录 正文 或 背景获取像素格式,也就是yuv排列格式获取解码器id获取输出文件的封…

景区上线智慧客流人数采集分析系统的根本原因

智慧客流量采集系统是一种高效、智能的客流量采集解决方案,可以实现客流量的实时监控、数据分析和预测,提高服务质量、降低管理成本、提高安全性等优势。该系统适用于各种场所,如景区、商场、服务区、机场等。 AI客流视觉监控 一、智慧客流量…

安科瑞电力监控系统和五防系统在锡林郭勒项目的应用

摘要:随着电力、计算机、信息和网络等技术的不断发展,推动了电力监控的快速发展,人们对电力系统运行的安全性以及稳定性的要求越来越高。本文针对锡林郭勒供配电系统特点及供配电系统高可靠性的要求,提出了保护类、监测类和防误闭…

ASEMI代理长电MCR100-6可控硅的性能与应用分析

编辑-Z 本文主要介绍了新型MCR100-6晶闸管的性能与应用。首先,从晶闸管的基本原理和结构出发,分析了MCR100-6晶闸管的性能特点;其次,探讨了MCR100-6晶闸管在各种电子电路中的应用;最后,对MCR100-6晶闸管的…

档案馆建设标准条文说明

第一章 总则 第一条 本条阐明了本标准的编制目的。 中国是一个历史悠久的文明古国,档案事业的发展源远流长。档案是人类活动的真实记录,是人们认识和把握客观规律的重要依据。借助档案,我们能够更好地了解过去、把握现在、预见未来。档案工…

工业机器视觉缺陷检测工作小结

工业机器视觉检测工作小结 (因为网上没有很系统的讲义和文档,都是零零散散的,因此,我自己尝试着总结一下、仅供参考) 你想知道的大概率在这都可以找到、相机的了解镜头的了解光源的了解传统算法DL深度学习方法 &#…

基于微信小程序渗透-反编译小程序

文章目录 一、概述二、使用电脑版微信获取小程序源码三、使用工具解密源码四、配置nodejs环境五、使用工具解包 一、概述 微信小程序渗透时,因为小程序没有网页端页面,所以不能直接访问抓包分析,如果需要抓包分析,那么一般就是用…

Spring:用 Spring 整合 MyBatis(Spring-MyBatis)代码整理

文章目录 Spring:Day 05Spring - MyBatis1. 依赖:pom.xml2. 外部配置文件:db.properties3. MyBatis 核心配置文件:mybatis-config.xml4. 实体类5. 接口:xxxMapper.java6. 实现类:xxxMapper.xml7. Spring 通…

ATA-4014高压功率放大器驱动超声马达测试应用

ATA-4014 高压功率放大器简介 ATA-4014是一款理想的可放大交、直流信号的单通道高压功率放大器。最大输出160Vp-p(80Vp)电压,452Wp功率,可以驱动高压功率型负载。电压增益数控可调,一键保存常用设置,为您提…

利用 PRIMO 重构 M87 黑洞图像,普林斯顿高等研究院成功将「甜甜圈」变身「金戒指」

内容一览:2019 年,「事件视界望远镜 (Event Horizon Telescope,简称 EHT)」全球研究团队发布了人类历史上第一张黑洞照片,受限于当时的观测条件,这张黑洞图像只呈现出一个模糊不清的轮廓。近日,天体物理学期…

打家劫舍 III——力扣337

文章目录 题目描述法一:动态规划 题目描述 法一:动态规划 问题简化:一棵二叉树,树上的每个点都有对应的权值,每个点有两种状态(选中和不选中),问在不能同时选中有父子关系的点的情况…