论文《PointTAD》

news2024/9/20 20:23:16

模型的输出集合(Tns,Tne,Cn),Tns是第n个预测动作开始时间,Tne是第n个预测动作结束时间,Cn是第n个预测动作的类别。

模型有三个输入:1.RGB帧  2.可学习的query points  3.query vector

在该模型中,预测一段连续的动作,称之为query。

例如,我规定了一条视频要预测20个连续动作,那么query_num = 20。

可学习的query points描述了一个query中的动作位置,一个query可以有Ns个point

每个query vector从被采样的特征中解码query中的动作语义和位置,一个query有一个vector。

1.模型的整体流程

1.首先 RGB帧序列会被video Encoder提取特征

2.然后模型利用video feature、query points 、query vector 来得到点级别的视频特征

3.query vector通过自注意力机制来提取vector之间的关联关系,从而得到attention_query vector

4.然后通过点级的视频特征和attention_query vector来得到实例级别的vector

5.将实例级别的vector利用全连接、激活函数等,得到预测结果

6.预测的points其实是偏移量,首先将points与原来的points相加,然后加工得到一个每个query的片段(中心点,长度)

2.视频编码器

视频编码器是由一系列的卷积、池化、等操作组成的,用来提取视频特征。

其中最基础的单元操作就是Unit3D

 然后在此基础上,设计了特征提取模块,InceptionModule

其中in_c是输入的通道数,out_c是存放输出通道的数组

每个分支提取的特征会在channel维度进行拼接

 

 最终的特征提取网络结合了上述两个模块

在提取视频的过程中,作者用了Mixed_5c和Mixed_4c两层的输出

然后将其两层输出进一步卷积,池化,相加,变形,再卷积等最终输出了3维视频特征

 3.点级别视频特征

 每个query point附近的特征为

 4.自注意力机制

为了挖掘不同动作(query)之间的关联,使用多头自注意力机制来学习query vector 得到对应的attention_query vector

5.自适应混合帧和通道

核心就是利用矩阵的乘法进行混合。

首先用attention_query vector得到三个参数矩阵

 

点级的视频特征point_feature如下所示:

 假如有4个点,每个点对应的特征是3为,点级视频特征如下所示:

1)帧的混合

现在将point_feature转置

 然后与通道混合参数矩阵相乘,此时我们发现point1处的特征,其他位置的point的特征也被混合了进来

 2)通道的混合

 

 3)实例级特征的生成

 6.预测过程

 最终网络返回的不是query_points

而是segment,即一个动作开始到结束的范围

 7.网络中的残差结构

需要注意的是网络运用了残差结构

1.在attention模块里面

 2.实例级特征的产生

 8.计算损失

1)预测结果与真实实例的匹配

 通过三个成本来计算每个query的segment对应每个真实数据segment的成本。

2) 交叉熵损失

假设:我们的动作类别为3类,那么再加上non-object就是4类

A类:1000,B类:0100,C类:0010,object:0001

3)位置损失

位置损失包含了回归损失和iou损失

其中回归损失如下:

损失就是sum(|x1-x2|+|y1-y2|)/真实segment的个数 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/378041.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

佛科院计算机软件技术基础——线性表

一、基础知识了解:结构体的理解:我们知道整型是由1位符号位和15位数值位组成,而就可以把结构体理解为我们定义的数据类型,如:typedef struct {int data[2]; //存储顺序表中的元素int len; …

Python识别二维码的两种方法(cv2)

在学习Python处理二维码的过程中,我们看到的大多是“用python生成酷炫二维码”、“用Python制作动图二维码”之类的文章。而关于使用Python批量识别二维码的教程,并不多见。所以今天我会给大家分享两种批量识别二维码的Python技巧!pyzbar PI…

【架构师】零基础到精通——服务与网关

博客昵称:架构师Cool 最喜欢的座右铭:一以贯之的努力,不得懈怠的人生。 作者简介:一名Coder,软件设计师/鸿蒙高级工程师认证,在备战高级架构师/系统分析师,欢迎关注小弟! 博主小留言…

IV测试系统3A太阳能模拟器在光伏中应用

一、概述IV测试系统3A太阳能模拟器应具备光束准直、光斑均匀、辐照稳定、且与太阳光谱匹配的特点,使用户可足不出户的完成需要太阳光照条件的测试。科迎法电气提供多规格高品质的太阳模拟器,可适用于单晶硅、多晶硅、非晶硅、染料敏化、有机、钙钛矿等各…

织梦TXT批量导入TAG标签并自动匹配相关文章插件

织梦TXT批量导入TAG标签并自动匹配相关文章插件是一种非常有用的插件,它可以帮助网站管理员快速地将TAG标签添加到文章中,并自动匹配相关文章。 以下是该织梦TXT批量导入TAG标签插件的几个优点: 1、提高网站的SEO效果:TAG标签是搜…

如何利用ReconPal将自然语言处理技术应用于信息安全

关于ReconPal 网络侦查一直是网络安全研究以及渗透测试活动中最重要的阶段之一,而这一阶段看起来很容易,但往往需要很大的努力和很强的技术才能做好来。首先,我们需要使用正确的工具、正确的查询/语法以及正确的操作,并将所有信息…

服务拆分及远程调用

目录 服务拆分 服务拆分注意事项 服务间调用 步骤一:注册RestTemplate 步骤二:修改业务层代码 总结: 提供者和消费者 思考 服务调用关系 服务拆分 服务拆分注意事项 单一职责:不同微服务,不要重复开发相同业…

备战英语6级——记录复习进度

开始记录—— 学习:如何记录笔记? 1:首先我认为:电脑打字比较适合我! 2:先记笔记,再“填笔记”! 记笔记就是一个框架,记录一个大概的东西。后面需要在笔记中&#xff0…

WEB前端性能(页面+接口)

WEB前端性能(页面接口)前端性能渲染过程Blocked时间Connect时间Send时间Waiting时间TTFBReceive时间响应时间OS相关指标idleiowaitussyswapmemory前端性能渲染过程 Blocked时间 是浏览器查看本地有没有缓存的资源,不会与服务器进行交互&…

自动化测试 ——自动卸载软件

在平常的测试工作中,经常要安装软件,卸载软件, 即繁琐又累。 安装和卸载完全可以做成自动化。 安装软件我们可以通过自动化框架,自动点击Next,来自动安装。 卸载软件我们可以通过msiexec命令行工具自动化卸载软件 用msiexec 命令来卸载软件 …

Linux系列 常用命令(目录和文件管理)vi和vim 编辑使用,(笔记)

作者简介:一名云计算网络运维人员、每天分享网络与运维的技术与干货。 座右铭:低头赶路,敬事如仪 个人主页:网络豆的主页​​​​​​ 目录 前言 一.常用命令(目录和文件管理) 1.查看文件内容 2.统计…

【Java开发】JUC基础 03:线程五大状态和主要方法

1 概念介绍📌 五大状态:new:Thread t new Thread(); 线程对象一旦被创建就进入到了新生状态;就绪状态:当调用start()方法,线程立即进入就绪状态,但不意味着立即调度执行;运行状态&a…

【蓝桥杯集训10】Tire树 字典树 最大异或对专题(3 / 3)

目录 字典树模板 1、插入操作 2、查询操作 143. 最大异或对 - trie 二进制 3485. 最大异或和 - 前缀和Trie滑动窗口 字典树模板 活动 - AcWing 字典树:高效存储和查找字符串集合的数据结构 son[节点1地址][值]节点2地址 —— 节点1的子节点为节点2cnt[节点地…

第三十八章 linux-并发解决方法二(信号量)

第三十八章 linux-并发解决方法二(信号量) 文章目录第三十八章 linux-并发解决方法二(信号量)信号量的定义DOWN操作UP操作相对于自旋锁,信号量的最大特点是允许调用它的线程进入睡眠状态这意味着试图获得某一信号的进程…

第六章.决策树(Decision Tree)—ID3算法,C4.5算法

第六章.决策树(Decision Tree) 6.1 ID3算法,C4.5算法 1.决策树适用的数据类型 比较适合分析离散数据,如果是连续数据要先转换成离散数据再做分析 2.信息熵 1).概念: 一条信息的信息量大小和它的不确定性有直接的关系,要搞清楚一件非常不确…

动态规划(以背包问题为例)

1) 要求达到的目标为装入的背包的总价值最大,并且重量不超出2) 要求装入的物品不能重复动态规划(Dynamic Programming)算法的核心思想是:将大问题划分为小问题进行解决,从而一步步获取最优解的处理算法。动态规划算法与分治算法类似&#xff…

JAVA线程池原理详解二

JAVA线程池原理详解二 一. Executor框架 Eexecutor作为灵活且强大的异步执行框架,其支持多种不同类型的任务执行策略,提供了一种标准的方法将任务的提交过程和执行过程解耦开发,基于生产者-消费者模式,其提交任务的线程相当于生…

Linux操作系统安装MySQL(rpm安装)

Linux操作系统安装MySQL(rpm安装)1 背景2 环境说明3 准备工作3.1 端口查看3.2 检查安装3.3 创建MySQL用户和组4 MySQL安装4.1 下载MySQL4.2 解压安装包4.3 安装MySQL4.4 初始化MySQL4.5 启动MySQL4.6 设置MySQL初始密码4.6.1 查看数据库初始密码4.6.2 更…

力扣-合作过至少三次的演员和导演

大家好,我是空空star,本篇带大家了解一道简单的力扣sql练习题。 文章目录前言一、题目:1050. 合作过至少三次的演员和导演二、解题1.正确示范①提交SQL运行结果2.正确示范②提交SQL运行结果3.正确示范③提交SQL运行结果4.正确示范④提交SQL运…

taobao.user.openuid.getbyorder( 根据订单获取买家openuid )

¥免费不需用户授权 根据订单获取买家openuid,最大查询30个 公共参数 请求地址: HTTP地址 http://gw.api.taobao.com/router/rest 公共请求参数: 请求示例 TaobaoClient client new DefaultTaobaoClient(url, appkey, secret); UserOpenuidGetbyorderR…