视频理解论文串讲(上)【论文精读】

news2024/11/19 15:22:20

文章目录

  • 1. DeepVedio【CNN 首次 for 视频理解】
  • 2. Two-Stream【双流网络】
    • 针对上面不同方向,有不同的代表工作
      • LSTM late fusion 方向【Beyond-short-snippets】
      • Early fusion方向【Convolutional fusion】
      • 长视频 【TSN temporal segment 分段的思想,good work】
  • 总结

from:https://www.bilibili.com/video/BV1fL4y157yA
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

1. DeepVedio【CNN 首次 for 视频理解】

在这里插入图片描述

方法1:融合fusion
在这里插入图片描述
方法2:多分辨率 CNN 网络
在这里插入图片描述
效果

在这里插入图片描述

总结:

  • 当时手工特征最好就能达到87了,本文效果远远不如手工特征
  • 这篇文章的意义在于:【这篇文章的意义不在于它的效果】
    • 引发大家思考:深度学习在视频理解领域碰壁了
    • 提出了视频理解领域最大的数据集
    • 把能想到的融合方式都尝试了一遍,给后续工作很好的铺垫,这才有了后面几年深度学习在视频领域的飞速发展
      在这里插入图片描述

2. Two-Stream【双流网络】

在这里插入图片描述
方法:
当你用一个卷积神经网络无法很好处理时序信息的时候,
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

大幅提高了性能,证明了双流网络的成功,迅速就有很多工作跟进了…
我们其实单从这个图里就能看到,比较容易想到的想法

  • fusion?怎么做early fusion? 中间fusion?
  • 替换 backbone,如何在小数据集上 控制过拟合?
  • 在抽出来的特征之上,再加LSTM,把它们之间的这些时序信息模拟起来 ,最后得到的特征更强
  • 长时间视频理解?

针对上面不同方向,有不同的代表工作

LSTM late fusion 方向【Beyond-short-snippets】

现在深度学习时代,用CNN去抽特征,关键是 如何做pooling操作?这篇论文里做了非常详尽的探索,还做了ConvPooling,latePooling…,最后的结论都是差不多,ConvPooling表现最好

在这里插入图片描述
如何使用LSTM?

  • C是最后抽出来的特征

在这里插入图片描述
效果:

  • LSTM没有那么有用…
    在这里插入图片描述

手工87.9,双流网络88.0,本文在双流网络上做的所以效果要比他好,88.2,88.6,只好了1点点,LSTM带来的提升非常有限

在这里插入图片描述
朱毅老师对此现象的解释:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

文章目录

  • 1. DeepVedio【CNN 首次 for 视频理解】
  • 2. Two-Stream【双流网络】
    • 针对上面不同方向,有不同的代表工作
      • LSTM late fusion 方向【Beyond-short-snippets】
      • Early fusion方向【Convolutional fusion】
      • 长视频 【TSN temporal segment 分段的思想,good work】
  • 总结

Early fusion方向【Convolutional fusion】

关键词:fusion
这篇文章,非常细致地讲了,如何做这种 fusion,如果在两个流之间做fusion

在这里插入图片描述

Spatial fusion【空间维度】

在特征图上

在这里插入图片描述

接下来的问题是说,到底在网络的哪个部分做fusion呢?
到底是偏前面的层conv1,conv2,还是偏后面的conv4,conv5?还是最后的分类层fc6,fc7?

两个方法:
在这里插入图片描述

如何做temporal fusion?

在这里插入图片描述

最后作者得出的方案:

在这里插入图片描述

效果:

  • 尝试1:backbone 换成 VGG,提升还是明显的

在这里插入图片描述

这篇文章的贡献: 1. 详尽的消融实验探索;2. 使用了3D CNN,变相推动3D CNN的发展
【启发:一篇文章的效果不只是看结果好不好,一些探索实验能否给后来研究者一些探索,启发等… 和第一篇论文很像,虽然结果不好,但是做了很多 探索实验】

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

文章目录

  • 1. DeepVedio【CNN 首次 for 视频理解】
  • 2. Two-Stream【双流网络】
    • 针对上面不同方向,有不同的代表工作
      • LSTM late fusion 方向【Beyond-short-snippets】
      • Early fusion方向【Convolutional fusion】
      • 长视频 【TSN temporal segment 分段的思想,good work】
  • 总结

长视频 【TSN temporal segment 分段的思想,good work】

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述

方法:分段

想法非常简单, 给 视频分段 的思想,good work

在这里插入图片描述

好用的技巧:

  • 光流 模型初始化【RGB做平均复制20份】:
    • 在这里插入图片描述

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述

  • 第二个技巧:模型正则化
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述在这里插入图片描述

  • 第3个技巧:数据增强

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
效果:

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

文章目录

  • 1. DeepVedio【CNN 首次 for 视频理解】
  • 2. Two-Stream【双流网络】
    • 针对上面不同方向,有不同的代表工作
      • LSTM late fusion 方向【Beyond-short-snippets】
      • Early fusion方向【Convolutional fusion】
      • 长视频 【TSN temporal segment 分段的思想,good work】
  • 总结

总结

在这里插入图片描述


没整理完,,,转移到本地了,加上whisper的翻译…

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/72228.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

5分钟搞定Linux top命令的基本用法

在linux终端中,输入top, 按下Enter,立即进入top界面 如果你操作正确,应该会看到了下面这样的界面。 此情此景,怎么样是不是看懵逼了 不要慌,坐下来耐心听我逼逼赖赖你就会明白这一堆内容是干嘛的 下面介绍每一项分别是…

2022.12.8 半导体器件物理

作业 用迁移电流来推导出公式 电流是I,J是电流密度,W就是横截面 T是这个薄膜的厚度(我们最后可以消除掉) X就是空间位置,0就是在电极的一端 为什么要减去 因为只有大于阈值电压,才会有水流通过&#xff…

如此简单的时间复杂度计算方法:大O渐进法,你确定不进来康康

对于时间复杂度,空间复杂度,想必这个是大家在学习数据结构的初级阶段就会第一步认识的吧!!但是,对于复杂度的计算,涉及到了大O渐进法,这个方法是一个笼统的概念,所求得的结果&#x…

大一作业HTML个人网页作业(宠物狗)

🎉精彩专栏推荐 💭文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业: 【📚毕设项目精品实战案例 (10…

超算对我们的生活有着什么样的影响?

为什么各国都去抢超算的世界第一?因为它对人们的生活有着很大的影响。 一、核武器的成功研发离不开超算 对美国而言,超算的作用首先在研制核武器领域。加利福尼亚的利弗莫尔国家实验室、新墨西哥州的洛斯阿拉莫斯国家实验室、圣地亚国家实验室、橡树岭…

【分立元件】案例:一小批量生产就发现蜂鸣器一致性差?

在文章: 【分立元件】有源蜂鸣器和无源蜂鸣器有什么区别?_阳光宅男李光熠的博客-CSDN博客_有源和无源蜂鸣器 我们讲到有源蜂鸣器内部带震荡源,发声频率固定。无源内部不带震荡源,通过方波去驱动,发音频率可改变。一般…

(Java)SpringMVC学习笔记(一)

前言 今天开始学习SpringMVC,还是跟着尚硅谷视频自学,从两方面把握学习效果,一是知识点理解程度,一是实践程度,而我会将实践具体实现写以成文,用以回顾与分享 JavaWeb知识点简单回顾 JavaBean技术 为了…

订单服务------技术点及亮点

大技术 线程池来实现异步任务(亮点1) /*** 去结算确认页时封装订单确认页返回需要用的数据* return* throws ExecutionException* throws InterruptedException*/Overridepublic OrderConfirmVo confirmOrder() throws ExecutionException, Interrupted…

小红书推广笔记怎么合作?这里都给大家梳理好啦

截止 2021 年 11 月,小红书月活已达到 2 亿。其中72% 是 90 后群体,50% 的用户在一二线城市。 这些用户流量有着高消费、爱时尚、爱分享、追求品质生活的特点,所以小红书逐渐成为众多品牌方种草推广的必争之地。 小红书推广笔记怎么合作的呢…

FPGA学习笔记(十)IP核之PLL锁相环的学习总结

系列文章目录 一、FPGA学习笔记(一)入门背景、软件及时钟约束 二、FPGA学习笔记(二)Verilog语法初步学习(语法篇1) 三、FPGA学习笔记(三) 流水灯入门FPGA设计流程 四、FPGA学习笔记(四&…

pytest自动化测试框架详解+mark标记+fixture夹具

介绍 pytest是python的一种单元测试框架,同自带unittest框架类似,功能,效率更强大 特点: 1. 非常容易上手,入门简单,丰富的文档 2. 支持参数化 3. 执行测试用例的过程中,跳过某些用例&#x…

Python环境搭建

将向大家介绍如何在本地搭建Python开发环境。 Python可应用于多平台包括 Linux 和 Mac OS X。 你可以通过终端窗口输入 "python" 命令来查看本地是否已经安装Python以及Python的安装版本。 Unix (Solaris, Linux, FreeBSD, AIX, HP/UX, SunOS, IRIX, 等等。) W…

Dev-C++ 的下载、安装和配置

Dev-C 的下载、安装和配置 Dev-C 下载 我们直接打开 https://sourceforge.net/projects/orwelldevcpp/ 点击 Download 进行下载即可,如下图所示: 下载速度也不错,很快就可以下载完成了。 不像某些博主,为了引流量,…

Cadence Allegro PCB设计88问解析(二十二) 之 Allegro中放入元器件

一个学习信号完整性仿真的layout工程师 在之前的文章和大家介绍过Allegro中导入网表,那么导入网表成功之后,还在Allegro在进行一步就是放入导入成功的器件。下面和大家简单介绍具体的操作过程: 第一步:添加版外形outline 我们在…

DAX:SUMMARIZE的秘密

作为一个查询函数,SUMMARIZE 执行三个操作: 它可以按表本身或相关表的任何列对表进行分组;它可以创建新列,在行上下文和过滤上下文中计算表达式;它可以产生不同级别的小计(subtotal)。 在 SUMMARIZE 的三个主要操作中&…

PHP代码审计系列(三)

PHP代码审计系列&#xff08;三&#xff09; 本系列将收集多个PHP代码安全审计项目从易到难&#xff0c;并加入个人详细的源码解读。此系列将进行持续更新。 sql闭合绕过 源码如下 <?phpif($_POST[user] && $_POST[pass]) {$conn mysql_connect("*******…

关于操作PPL进程引发的一些问题

背景 之前发布过一篇关于procexp的利用&#xff0c;但是最近有brother说&#xff0c;最新的版本不能利用了&#xff0c;然后就去下载了最新版本的。 发现判断了是不是受保护进程&#xff0c;不是就拒绝。 这里简单看一下这个函数&#xff0c;发现对比的是_PS_PROTECTION,其实就…

windows cmd指令记录、监听进程是否存在、exe注册到服务中开机后台运行

cmd指令记录 mstsc&#xff1a;远程桌面 regedit&#xff1a;打开注册表 control userpasswords2&#xff1a;去掉开机登录界面 shell:startup&#xff1a;进入登录界面后自启程序 services.msc&#xff1a;启动、终止并设置服务管理界面 shutdown -r -t 0&#xff1a;-r…

一步一步学Iceberg-对比Flink+Kafka和Flink+Iceberg的差异

一 FlinkKafka做实时数仓的弊端 我们以前&#xff08;包括现在&#xff09;还有用FlinkKafka做实时数仓&#xff0c;以及日志传输。Kafka本身的存储成本很高&#xff0c;并且数据保留时间有时效性&#xff0c;一旦消费积压&#xff0c;数据达到过期事件后&#xff0c;就会导致…

[附源码]JAVA毕业设计文件发布系统(系统+LW)

[附源码]JAVA毕业设计文件发布系统&#xff08;系统LW&#xff09; 环境项配置&#xff1a; Jdk1.8 Tomcat8.5 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; …