《Tam》论文笔记(下)

news2024/11/26 22:22:43

3 Method

3.1. The Overview of Temporal Adaptive Module

正如我们在第1节中讨论的,视频数据通常表现出由相机运动和速度变化等因素引起的复杂时间动态。因此,我们的目标是通过引入具有视频特定内核的时间自适应模块 (TAM) 来解决这个问题,这与 3D CNN 中的共享卷积核不同。我们的TAM可以很容易地集成到现有的2D CNN(例如ResNet)中,以产生视频网络架构,如图2所示。我们将概述TAM,然后描述其技术细节。

形式上,令 X ∈ R^C×T ×H×W 表示视频剪辑的特征图,其中 C 表示通道数,T, H, W 是其时空维度。为了提高效率,TAM 只关注时间建模,空间模式由 2D 卷积捕获。因此,我们首先使用全局空间平均池化来压缩特征图,如下所示:(结合着上边的图二去看,再说一遍一定要结合图去看)

其中 c, t, j, i 是不同维度的索引(在通道、时间、高度和宽度中),^X ∈ RC×T 聚合 X 的空间信息。为简单起见,我们在这里使用φ来表示聚合空间信息的函数。提出的时间自适应模块(TAM)是基于这种压缩的一维时间信号建立的,TAM具有很高的效率。

我们的TAM由两个分支组成:局部分支L和一个全局分支G,旨在学习位置敏感的重要性图来增强鉴别特征,然后产生位置不变权值,以卷积的方式自适应地聚合时间信息。更具体地说,TAM 公式如下:

其中⊗表示卷积操作,⊙是元素乘法。值得注意的是,这两个分支侧重于时间信息的不同方面,其中局部分支试图通过使用时间卷积来捕获短期信息以关注重要特征,而全局分支旨在结合远程时间结构来指导具有全连接层的自适应时间聚合。将内核学习过程分解为局部和全局分支被证明是实验的有效方法。这两个分支将在以下部分中介绍。

3.2. Local Branch in TAM

如上所述,局部分支是位置敏感的,旨在利用短期时间动态来执行视频特定的操作。鉴于短期信息在时间维度上变化缓慢,因此需要学习位置敏感重要性图来区分局部时间语义(这句话说的是什么意思呢,本文一直说location sensitive importance map,这个map其实就是下边的这个用于逐元素乘法的Frescale(V),局部分支的作用就是生成这个map用于点乘)

如图 2 所示,局部分支由一系列具有 ReLU 非线性的时间卷积层组成。由于局部分支的目标是捕获短期信息,我们将内核大小 K 设置为 3,仅根据局部时间窗口学习重要性图。为了控制模型的复杂性,第一个在BN [14]后的Conv1D将通道数从 C 减少到 C/β。然后,具有 sigmoid 激活的第二个 Conv1D 产生对时间位置敏感的重要性权重 V ∈ R^C×T。最后,时间激励公式如下:

其中⊙表示逐元素乘法,Z∈RC×T ×H×W。为了匹配 X 的大小,Frescale(V ) 通过在空间维度中复制将 V 重新缩放为 ^V ∈ RC×T ×H×W。

3.3. Global Branch in TAM

全局分支是位置不变的,专注于基于长期时间信息生成自适应核。它包含全局上下文信息,并学习生成位置不变和视频自适应卷积核进行动态聚合。(为啥能成成全局自适应层呢?因为他用FC层来进行全局感知,生成卷积核权重,所以不同视频的特征输入进全局分支以后都会产生不同的卷积核,这就是他所说的动态卷积核,他的聚合操作也就是顺理成章的卷积操作了)

Learning the Adaptive Kernels.我们在这里选择为每个视频剪辑生成动态内核,并以卷积方式聚合时间信息。为了简化这个过程并保持高效率,自适应卷积将以通道方式应用。从这个意义上说,学习的自适应内核有望仅在不考虑通道相关性的情况下对时间关系进行建模。因此,我们的 TAM 不会改变输入特征图的通道数,学习到的自适应内核以通道方式对输入特征图进行卷积。更正式地说,对于第 c 个通道,自适应内核学习如下:

其中 Θc ∈ R^K 是第 c 个通道生成自适应内核(聚合权重),K 是自适应内核大小,δ 表示激活函数 ReLU。自适应核也是基于压缩特征图 ^Xc ∈ R^T 学习的,没有考虑空间结构来提高建模效率。但是与本地分支不同,我们使用全连接 (fc) 层 F 通过利用长期信息来学习自适应内核。学习到的具有全局感受野的自适应内核,因此可以在全局上下文的指导下聚合时间特征。为了提高全局分支的建模能力,我们堆叠了两个 fc 层,学习到的内核使用 softmax 函数进行归一化以产生正聚合权重。学习到的聚合权重 Θ = {Θ1, Θ2,..., ΘC } 将用于执行视频自适应卷积。

Temporal Adaptive Aggregation.在引入自适应聚合之前,我们可以回顾香草时间卷积如何聚合时空视觉信息:

其中 W 是卷积核的权重,在推理中对输入视频样本没有关注。我们认为这种方式忽略了视频中的时间动态,因此提出了一种视频自适应聚合:

其中 G 可以看作是一个内核生成器函数G 生成的内核可以执行自适应卷积,但共享跨时间维度,仍然保持不变。为了解决这个问题,本地分支生成具有位置敏感重要性图的 Z。整个过程可以表示如下:

其中 · 表示标量乘法,Y 是输出特征图(Y ∈ R^C×T ×H×W)。

总之,TAM 提出了一个具有独特聚合方案的自适应模块,其中位置敏感激励和位置不变聚合都源自输入特征,但专注于捕获不同的结构(即短期和长期时间结构)。

3.4. Exemplar: TANet

我们在这里打算描述如何实例化 TANet。时间自适应模块可以赋予现有的二维cnn对视频片段中不同时间结构进行建模的强大能力。在实践中,TAM 只会导致有限的计算开销,但明显提高了不同类型数据集的性能。

ResNets[12]被用作骨干来验证TAM的有效性。如图2所示,在第一个Conv2D之后,TAM被嵌入到ResNet-Block中,这很容易将普通的ResNet-Block变成TA-Block。这种方式不会过度改变网络的拓扑结构,并且可以重用 ResNet-Block 的权重。假设我们将 T 帧采样为输入剪辑,fc 后 T 帧的分数将通过平均池化聚合以产生剪辑级别的分数。在 fc 层之前没有进行时间下采样。广泛的实验在第 4 节中进行,以证明 TANet 的灵活性和有效性。

Discussions.我们注意到局部分支的结构类似于SENet[13]和STC[5]。第一个明显区别是局部分支不挤压时间维度。因此,我们使用时间 1D 卷积而不是 fc 层作为基本层。两层设计只是在非线性拟合能力和模型复杂性之间寻求权衡。局部分支提供位置敏感信息,从而解决了全局分支对时间位置不敏感的问题。

TSN [40] 和 TSM [23] 仅使用固定方案聚合时间特征,但 TAM 可以产生视频特定的权重来自适应地聚合不同阶段的时间特征。在极端情况下,当学习动态内核权重 Θ 等于 [0, 1, 0] 时,TAM 中的全局分支退化为 TSN。从另一个角度来看,如果内核权重 Θ 设置为 [1, 0, 0] 或 [0, 0, 1],则全局分支可以转化为 TSM。似乎我们的 TAM 理论上提供了一种更通用和灵活的形式来对视频数据进行建模。

当它指的是3D卷积[15]时,所有输入样本共享相同的卷积核,同时不知道视频中的时间多样性。此外,我们的全局分支本质上执行一个视频自适应卷积,其滤波器的大小为1 × k × 1 × 1,而正常3D卷积中的每个滤波器的大小为C × k × k,其中C为通道数,k为接收野。因此,我们的方法比 3D CNN 更有效。与现有的一些动态卷积 [3, 45] 不同,TAM 更灵活,可以直接生成内核权重来执行视频自适应卷积。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1659786.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一键自动化博客发布工具,用过的人都说好(infoq篇)

infoq的博客发布界面也是非常简洁的。首页就只有基本的标题,内容和封面图片,所以infoq的实现也相对比较简单。 一起来看看吧。 前提条件 前提条件当然是先下载 blog-auto-publishing-tools这个博客自动发布工具,地址如下:https://github.c…

营收如泡沫,利润如刀片,万辰集团万店梦想下的阴影

(作者注:本文建议配乐《泡沫》阅读!) 从“食用菌第一股”转型为“量贩零食第一股”的首个财年,万辰集团新业务发展迅猛。 财报显示,2023年公司量贩零食业务实现营业收入87.59亿元,同比增长1305…

微火全域运营平台的优缺点分别是什么?

随着全域运营赛道的兴起,微火全域运营平台在市场占有率持续走高,与之相关的各类问题也层出不穷。其中,微火全域运营平台是什么、微火全域运营平台的优缺点等与平台本身相关的问题长期位居话题榜前列。 所谓微火全域运营平台,就是由…

京东手势验证码-YOLO姿态识别+Bézier curve轨迹拟合

这次给老铁们带来的是京东手势验证码的识别。 目标网站:https://plogin.m.jd.com/mreg/index 验证码如下图: 当第一眼看到这个验证码的时候,就头大了,这玩意咋识别??? 静下心来细想后的一个方案&#xf…

使用apache和htaccess对目录访问设置密码保护配置教程

对目录设置密码保护配置说明 我们有时候访问某些网站的时候,要求输入用户名和密码才能访问。这是为了保护隐私,只让经过许可的人访问。 在本教程中主要介绍两种方法,一种是通过apache httpd.conf配置文件对管理后台目录设置密码保护&#xff…

ESP32引脚入门指南(四):从理论到实践(PWM)

引言 ESP32 作为物联网领域的明星微控制器,除了强大的Wi-Fi和蓝牙功能,还内置了丰富的外设资源,其中就包括高级的PWM(脉冲宽度调制)功能。本文将深入探讨ESP32的PWM引脚,解析其工作原理,并通过…

分布式与一致性协议之Quorum NWR算法

Quorum NWR算法 概述 不知道你在工作中有没有遇到过这样的事情:你开发实现了一套AP型分布式系统,实现了最终一致性,且业务接入后运行正常,一切看起来都那么美好。 可是突然有同事说,我们要拉这几个业务的数据做实时分析&#xf…

进口原装二手 Keysight86142B 是德86142A 高性能光谱分析仪

进口原装二手 Keysight86142B 是德86142A 高性能光谱分析仪 内置测试应用程序 • 10 pm 波长精度 • 快速双扫法 • 覆盖 S、C 和 L 波段 Keysight 86142B是一款台式光谱分析仪(OSA),最适于对功率和波长精度、动态范围和低偏振敏感性都要…

asp.net论坛指南系统

说明文档 运行前附加数据库.mdf(或sql生成数据库) 主要技术: 基于asp.net架构和sql server数据库 登陆可查看 浏览记录 TA的发布 TA的回复 TA的收藏 TA的点赞 管理员登陆可以查看举报管理 编辑管理 认证审核 帖子置顶申请审核 运行环境…

【数据处理系列】深入理解递归特征消除法(RFE):基于Python的应用

目录 一、递归特征消除法介绍 二、方法介绍 三、导入数据并选择模型 (一)导入数据 (二) 递归特征消除需要选择模型吗 四、RFE方法进行递归特征消除法 五、RFECV方法进行递归特征消除法(建议使用这种方法) 即交叉验证递归特征消除法 (一)参数介绍 (二)python使用RFECV…

我们真的需要5G吗?再读《5G将是一个彻底的失败通信技术》

目录 投入与产出不成正比 《5G将是一个彻底的失败通信技术》 无线通信技术体制 无线通信技术演进 5G需求 移动通信与WiFi 5G之局 未来之路 参考 投入与产出不成正比 2018年开始大规模装备5G设备,因此2018年被称为5G元年。一般5G基站的寿命为8年左右&#…

GeoServer 任意文件上传漏洞分析研究 CVE-2023-51444

目录 前言 漏洞信息 代码审计 漏洞复现 前言 时隔半月,我又再一次地审起了这个漏洞。第一次看到这个漏洞信息时,尝试复现了一下,结果却很不近人意。从官方公布的漏洞信息来看细节还是太少,poc不是一次就能利用成功的。也是当时…

工器具管理(基于若依)

文章目录 前言一、工器具管理项目总览 二、入库功能1. 前端1.1 界面展示1.2 具体操作实现1.3 js文件 2. 后端2.1 工器具信息回显2.2 工器具入库 三、领用功能1. 前端1.1 界面展示1.2 具体实现操作1.3 js文件 2. 后端2.1 工器具信息回显2.2 工器具领用 遇到的问题1. 同一页面展示…

2024最新版守约者二级域名分发系统源码,提供全面的二级域名管理服务

主要功能 二级域名管理:我们的系统提供全面的二级域名管理服务,让您轻松管理和配置二级域名。 下 载 地 址 : runruncode.com/php/19756.html 域名分发:利用我们先进的域名分发技术,您可以自动化地分配和管理域名&…

【教程向】从零开始创建浏览器插件(二)深入理解 Chrome 扩展的 manifest.json 配置文件

第二步:深入理解 Chrome 扩展的 manifest.json 配置文件 上一次我们已经着手完成了一个自己的浏览器插件,链接在这里:我是链接 在本篇博客中,我们将更详细地探讨 Chrome 扩展中的 manifest.json 文件。这个文件是每个浏览器扩展…

keep健身小程序源码搭建/部署/上线/运营/售后/更新

基于FastAdminThinkPHPUniApp(目前仅支持微信小程序和公众号)开发的健身相关行业微信小程序,程序适用于健身房、瑜伽馆、游泳馆、篮球馆等健身培训场所。平台拥有课程售卖、课程预约、多门店管理、私教预约、教练端、会员卡办理、在线商城、分…

超分辨率专题 | 3 种方法、4 个教程、10 个数据集,一文 Get 核心知识点

2010 年 12 月,清华大学电子工程系教授苏光大接到一通不寻常的电话,内蒙古自治区准格尔刑警队的警员拿着一张模糊不清的犯罪嫌疑人人脸图像,向苏光大寻求帮助。 「这张图像是由路边的监控摄像头拍摄的,像素非常低,肉眼…

一文搞懂什么是外贸企业邮箱?

一文搞懂什么是外贸企业邮箱?外贸企业邮箱,也就是外贸行业使用的企业邮箱系统,一般需要具备海外抵达率高、安全稳定等特点,通过外贸企业邮箱,企业可以和国内国外的客户或者同事进行业务的沟通交流。 一、什么是外贸企…

接口自动化框架篇:使用python连接数据库 - PySQL介绍!

PySQL介绍:使用Python连接数据库的接口自动化框架 在接口自动化测试中,经常需要使用数据库来操作测试数据,验证接口返回的数据是否正确。Python是一种功能强大的编程语言,可以轻松地连接数据库,并进行各种数据库操作。…

林更新博士之路星途璀璨再启航

林更新:博士之路,星途璀璨再启航在这个充满机遇与挑战的时代,有一位演员以其出色的演技和不懈的努力,赢得了无数观众的喜爱。他,就是林更新。今日,一条消息如重磅炸弹般在娱乐圈炸开,让无数粉丝…