Non-Autoregressive Coarse-to-Fine Video Captioning【论文阅读】

Non-Autoregressive Coarse-to-Fine Video Captioning【论文阅读】

news2025/7/3 3:16:08

Non-Autoregressive Coarse-to-Fine Video Captioning

发表：AAAI 2021
idea：（1）针对推理阶段不能并行，推理效率低的问题使用一种双向解码（在bert中不使用sequence mask）。（2）对于视觉词汇训练不充分（由于视觉词汇数量远小于非视觉词汇）导致生成的描述比较宽泛的问题，考虑使用一种coarse-to-fine的解码方式，先生成主要的视觉词汇，然后基于这个“模板”进行填充和细调

1. Architecture

在这里插入图片描述

Encoder

对2D、3D特征做以下处理
在这里插入图片描述

Length Predictor

这里需要预先预测序列的长度L
在这里插入图片描述

Decoder

这里使用了bert，修改了两处：第一不使用sequence mask，这样解码的时候就变成了bi-directional；第二，没看懂，跟随NMT通过整合复制的源信息来增强解码器输入（上图中右侧的虚线）。
同样用了完形填空任务。（这里是mask掉 $\beta_l$ ~ $\beta_h$ 的概率）

2. Visual Word Generation

生成视觉词汇（动词和名词），在上述decoder的基础上。目标就是将序列中所有不是视觉词汇的单词都mask掉
优化目标

从左到右依次是长度 $L$ 损失，完形填空损失以及视觉词汇损失

3. Coarse-to-Fine Captioning

这里真的没看懂。。。
就是迭代优化，感觉很繁琐。。。
后期需要这方面的工作再仔细研读研读。。。

4. Experiments

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1038.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

基于QD求解法的二分类SVM仿真

基于QD求解法的二分类SVM仿真

目录 1.算法概述 2.部分程序 3.算法部分仿真结果图 4.完整程序获取 CSDN用户：我爱C编程 CSDN主页：https://blog.csdn.net/hlayumi1234567?typeblog 擅长技术：智能优化，路径规划，通信信号，图像处理&…

阅读更多...

【数据结构与算法分析】0基础带你学数据结构与算法分析06--树(TREE)

【数据结构与算法分析】0基础带你学数据结构与算法分析06--树(TREE)

目录前言树的属性树的实现树的遍历与应用深度有限遍历 (DFS) 广度优先遍历 (BFS) Not all roots are buried down in the ground, some are at the top of a tree. — Jinvirle 前言 Tree 是一些结点的集合，这个集合可以是空集；若不是空集…

阅读更多...

【模型训练】YOLOv7行人检测

【模型训练】YOLOv7行人检测

YOLOv7行人检测 1、YOLOv7算法行人检测模型训练2、YOLOv7模型模型评估3、模型和数据集下载1、本项目采用YOLOv7算法实现对行人的检测和识别，在一万多张行人检测数据集中训练得到，我们训练了YOLOv7模型，经评估我们得出了各个模型的评价指标; 2、目标类别数：1 ；类别名：pers…

阅读更多...

笔试强训第15天（手套+ 查找输入整数二进制中1的个数）

笔试强训第15天（手套+ 查找输入整数二进制中1的个数）

选择 C barfoob_bar new B 会先创建一个B类对象，B类对象的构造需要调用B的构造函数，从而调用A的构造函数。A的构造函数中调用了 bar()函数，该函数虽然重写了，但这里不构成多态调用。因为虚表中的函数指针是在构造函数的初始化列表…

阅读更多...

爱上源码，重学Spring IoC深入

爱上源码，重学Spring IoC深入

回答： 我们为什么要学习源码？ 1、知其然知其所以然 2、站在巨人的肩膀上，提高自己的编码水平 3、应付面试1.1 Spring源码阅读小技巧 1、类层次藏得太深，不要一个类一个类的去看，遇到方法该进就大胆的进 2、更不要一行…

阅读更多...

【3D目标检测】SECOND: Sparsely Embedded Convolutional Detection

【3D目标检测】SECOND: Sparsely Embedded Convolutional Detection

目录概述细节网络结构稀疏卷积方向分类损失函数概述首先，本文是基于点云，并且将点云处理成体素的3D目标检测网络，提出的SECOND可以看做是VoxelNet的升级版。提出动机与贡献 VoxelNet计算量比较大，速度比较慢（训练和…

阅读更多...

第二节：数据类型与变量【java】

第二节：数据类型与变量【java】

目录 📃前言 📗1.数据类型 📕2. 变量 2.1 变量概念 2.2 语法格式 📙3.整型变量 3.1 整型变量 3.2 长整型变量 3.3 短整型变量 3.4 字节型变量 📘4.浮点型变量 4.1 双精度浮点型 4.2 单精度浮点型 &#…

阅读更多...

[SpringBoot] AOP-AspectJ 切面技术

[SpringBoot] AOP-AspectJ 切面技术

✨✨个人主页:沫洺的主页 📚📚系列专栏: 📖 JavaWeb专栏📖 JavaSE专栏 📖 Java基础专栏📖vue3专栏 📖MyBatis专栏📖Spring专栏📖SpringMVC专栏📖SpringBoot专…

阅读更多...

python的编译器与解释器

python的编译器与解释器

作者介绍： 🐥作者：小刘在C站 👆每天分享课堂笔记，一起努力，共赴美好人生 🍁夕阳下，是最美的绽放目录一.为什么会有编译器和解释器二.编译器和解释器的区别三.python解释器种类…

阅读更多...

RK3399应用开发 | 移植libdrm到rk3399开发板（2.4.113）

RK3399应用开发 | 移植libdrm到rk3399开发板（2.4.113）

一、下载源码下载地址：https://dri.freedesktop.org/libdrm/。这里我下载最新的2.4.113版本： wget https://dri.freedesktop.org/libdrm/libdrm-2.4.113.tar.xz解压： xz -d libdrm-2.4.113.tar.xz tar -xf libdrm-2.4.113.tar二、编译环境安装 1. 更新python ubuntu安…

阅读更多...

CalBioreagents 艾美捷重组BCOADC-E2蛋白说明书

CalBioreagents 艾美捷重组BCOADC-E2蛋白说明书

艾美捷CalBioreagents 重组BCOADC-E2蛋白英文说明： PRODUCT DESCRIPTION: Branched Chain 2-Oxo-Acid Dehydrogenase Complex E2 protein, recombinant. CLINICAL INDICATION: Primary biliary cirrhosis CATALOG NUMBER: A268 SOURCE: Recombinant protein ex…

阅读更多...

《CTF攻防世界web题》之茶壶我爱你（2）

《CTF攻防世界web题》之茶壶我爱你（2）

前言 🍀作者简介：被吉师散养、喜欢前端、学过后端、练过CTF、玩过DOS、不喜欢java的不知名学生。 🍁个人主页：被吉师散养的职业混子 🫒文章目的：记录唯几我能做上的题 🍂相应专栏：CT…

阅读更多...

Pytorch调用GPU时显示CUDA版本过低的解决方案

Pytorch调用GPU时显示CUDA版本过低的解决方案

在调用torch.cuda.is_available时，有如下报错： cuda initialization: The Nvidia driver on your system is too old. 事情的发展是这样的： 1. 服务器的CUDA版本是10.1，仅支持pytorch版本最高1.7；前几天跑项目需要用…

阅读更多...

Oracle 中常用的字符串函数总结

Oracle 中常用的字符串函数总结

一、substr 函数 —— 字符串截取格式1： substr(string,start_pos,length) 格式2： substr(string,start_pos) 说明： 从指定位置start_pos截取字符串string的length位，如果不指定length（格式2）则从指…

阅读更多...

【数据挖掘】2022数据挖掘之Pandas库相关使用

【数据挖掘】2022数据挖掘之Pandas库相关使用

数据挖掘之Pandas库相关使用一、概念1、介绍2、Pandas的优点3、软件推荐（Jupyter Notebook）4、软件下载网址以及参考文档二、基础知识1、DataFrame属性和方法1.1 结构（1）行索引（2）列索引1.2 常用属性&#…

阅读更多...

配置非法AP设备检测和反制

配置非法AP设备检测和反制

1、业务需求某企业分支机构为了保证工作人员可以随时随地访问公司网络资源，部署WLAN基本业务实现移动办公。且在覆盖区域内移动发生漫游时，不影响用户的业务使用。分支机构位于开放式场所，容易受到网络入侵，例如攻击者在WLAN网络…

阅读更多...

摒弃“短板”——数据中心基础设施运维管理建议书

摒弃“短板”——数据中心基础设施运维管理建议书

数据中心是数字基础设施的重要组成部分，同时也是一整套复杂的设施。它不仅仅包括计算机系统和其它与之配套的设备（例如通信和存储系统），还包含冗余的数据通信连接、环境控制系统、监控系统以及各种安全系统。运维管理又是数据中心…

阅读更多...

基于智能优化算法实现自动泊车的路径动态规划（Matlab代码实现）

基于智能优化算法实现自动泊车的路径动态规划（Matlab代码实现）

目录 💥1 概述 📚2 运行结果 🎉3 参考文献 👨‍💻4 Matlab代码 💥1 概述作为一种方便、快捷的交通工具，汽车已成为人们生活和工作的重要组成部分。随着汽车数量的逐年增加，有限…

阅读更多...

在ubuntu上用QT写一个简单的C++小游戏(附源码)

在ubuntu上用QT写一个简单的C++小游戏(附源码)

最近老师让用Qt写一个可视化界面，然后就给了一个小视频，好奇的不得了，就照着做了一下视频链接如下：C案例教学–一个类游戏小程序的设计与实现全过程–用到QT-简单的STL容器创建项目 1、打开QT 如果不知道怎么下载的话&#xff…

阅读更多...

【牛客网刷题】VL8-VL10 generate for语句、比较数大小、function的使用

【牛客网刷题】VL8-VL10 generate for语句、比较数大小、function的使用

👉 写在前面 👉 本系列博客记录牛客网刷题记录 👉 日拱一卒，功不唐捐！ 目录 VL8 使用generate for语句简化代码题目描述输入描述输出描述 RTL 设计 testbench 设计仿真测试 VL9 使用子模块实现三输入数的大…

阅读更多...

推荐文章

最新文章