Video Caption / 视频字幕:数据集总结

news2024/11/17 9:31:04

目录

一、背景

二、介绍

2.1 MSR-VTT

2.2 MSVD

2.3 VATEX

三、参考文献


一、背景

Video Caption / 视频字幕:常用指标(BELU-4,ROUGE-L,METEOR,CIDEr,SPICE)和数据集总结-CSDN博客Video Caption / 视频字幕:常用指标(BELU-4,ROUGE-L,METEOR,CIDEr,SPICE)和数据集总结https://blog.csdn.net/Crystal_remember/article/details/133126871     上篇文章总结介绍了Video Caption / 视频字幕的常用指标,本文接着总结Video Caption / 视频字幕的常用数据集。

     目前Video Caption / 视频字幕常用数据集主要有MSR-VTT[1]、MSVD[2]、VATEX[3]。下main进行分别介绍。

二、介绍

2.1 MSR-VTT

        MSR-VTT是一个通用的视频字幕数据集,包括10000个视频片段,每个片段都注释有20个字幕。平均地,每个视频剪辑持续约15秒。标准情况下通常使用6153个片段进行训练,497个片段用于验证,2090个片段用于测试。

        如下为MSR-VTT数据集中的6个片段和标注的语句。每个片段包含四个帧来表示视频片段和五个人类标记的句子。

2.2 MSVD

        MSVD包含1970个视频,每个视频片段有40个字幕。每个视频片段的平均持续时间约为10秒。常见情况下,包括使用1200个视频进行训练,100个视频进行验证,670个视频进行测试。数据集示例如下。

2.3 VATEX

         VATEX是一个包含约41250个视频剪辑的大规模数据集,和 82.5 万中英文视频描述,其中包括超过 20.6 万描述是中英平行翻译对。每个视频片段的持续时间在10秒之间,每个片段手动注释10个英文字幕。

每个视频具备 10 个英文描述和 10 个中文描述,分别来自 20 个人类标注者。所有这些都描绘了相同的视频,因此彼此之间是平行的,而最后五个是彼此成对的翻译。

三、参考文献

[1]Jun Xu, Tao Mei, Ting Yao, and Yong Rui. MSR-VTT: A large video description dataset for bridging video and language. In IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5288–5296, 2016.

[2]David L. Chen and William B. Dolan. Collecting highly parallel data for paraphrase evaluation. In Annual Meeting of the Association for Computational Linguistics, 2011.

[3]Xin Wang, Jiawei Wu, Junkun Chen, Lei Li, Yuan-Fang Wang, and William Yang Wang. Vatex: A large-scale, highquality multilingual dataset for video-and-language research. In IEEE/CVF International Conference on Computer Vision, 2019

      

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1063325.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Windows照片查看器无法查看某些照片的解决方案

windows11中将默认的照片查看器替换成了Windows照片查看器,但是在查看某些手机截屏的照片时出现如下报错: Windows照片查看器无法显示此图片,因为计算机上的可用内存可能不足。请关闭一些目前没有使用的程序或者释放部分硬盘空间(如果硬盘几乎已满)&…

AOP

Spring AOP 1.什么是AOP AOP(Aspect Oriented Programming):面向切面编程,它是⼀种思想,它是对某⼀类事情的集中处理。 AOP 是⼀种思想,而 Spring AOP 是⼀个框架,提供了⼀种对 AOP 思想的实现…

关于C语言的一些尘封记忆的唤醒

文章目录 size_t类型stddef.hstdint.h math.h如何生成静态链接库优化单片机的执行效率 这两天要搞一个动态背光的项目,涉及到单片机。十几年没有接触了。 size_t类型 size_t是C语言中用于表示大小和索引的无符号整数类型。它是一种与平台相关的类型,在不…

计算机专业毕业设计项目推荐10-饮食搭配平台(Go+微信小程序+Mysql)

饮食搭配平台(Go微信小程序Mysql) **介绍****系统总体开发情况-功能模块****各部分模块实现** 介绍 本系列(后期可能博主会统一为专栏)博文献给即将毕业的计算机专业同学们,因为博主自身本科和硕士也是科班出生,所以也比较了解计算机专业的毕业设计流程…

好用的 WAF 工具(SafeLine)

好用的 WAF 工具(SafeLine) SafeLine安装访问 Web应用防火墙(WAF)是一种工作在应用层的防火墙,主要对Web请求/响应进行防护 WAF可以帮助保护Web应用程序免受各种常见攻击,比如SQL注入,跨站脚本漏…

leetcode - 双周赛114

一&#xff0c;2869.收集元素的最小操作次数 // 解法&#xff1a;哈希表 从右往左遍历 class Solution {public int minOperations(List<Integer> nums, int k) {Set<Integer> set new HashSet<>();for(int i1; i<k; i){set.add(i);}for(int inums.size…

记录本地部署Stable-diffusion所依赖的repositories和一些插件

今天按照其他文章的步骤拉取好了https://github.com/AUTOMATIC1111/stable-diffusion-webui后&#xff0c;点击webui-user.bat后发现&#xff0c;repositories和models还得慢慢拉取&#xff0c;好吧&#xff0c;GitHub Desktop&#xff0c;启动&#xff01; BLIP: https://git…

axios的get请求时数组参数没有下标

开发新项目过程中 发现get请求时 数组参数没有下标 这样肯定是不行的 后端接口需要数组[0]: 7 数组[1]:4这样的数据 原因是因为在请求拦截器没有处理需要的参数 解决方法 在请求拦截器 处理一下参数 import axios, { AxiosError, AxiosInstance, AxiosRequestHeaders } fro…

汽车驾驶 - 四梁六柱是什么

汽车的四梁六柱指的是车辆的两个前纵梁&#xff0c;两个后纵梁和ABC柱。虽然不像车辆上的发动机变速箱这些部件出镜率那么高&#xff0c;但这几个部位的重要作用可一点都不含糊。一辆车在碰撞时能够受力起到保护左右的就是四梁六柱&#xff0c;对我们汽车的安全性起到至关重要的…

封装unordered_map和unordered_set

先前用红黑树封装出了map和set&#xff0c;现在就要用哈希来封装unordered_map和unordered_set&#xff08;为了简化名称&#xff0c;后面称u_map和u_set&#xff09;&#xff0c;u_map和u_set在学习map时曾了解过&#xff0c;只知道是无序&#xff0c;我还在想&#xff0c;不能…

架构师选择题--数据库技术

架构师选择题--数据库技术 三级模式-两级映像数据库设计函数依赖公理系统范式 数据库在选择题考查3到5分&#xff08;不超纲&#xff09; 案例分析每年会考察一道题目 三级模式-两级映像 逻辑独立性 物理独立性 数据库设计 了解每个阶段的产出 逻辑结构设计&#xff1a;将E-R图…

使用Scipy优化梯度下降问题

目 录 问题重述 附加问题 步骤实施 1.查看Scipy官网SciPy&#xff0c;找到优化有关的模块&#xff08;Optimize&#xff09; 2.研究多种优化策略&#xff0c;选择最符合代码的方案进行优化 3.minimize函数参数及其返回值 4.代码展示 5.结果展示 6.进一步优化 6.1对…

数字孪生、AR和VR如何改进数据中心设计

数据中心基础设施管理(DCIM)已存在多年&#xff0c;它在许多数据中心被广泛使用&#xff0c;但还没有普遍使用&#xff0c;由于两个因素&#xff0c;这种情况正在改变&#xff1a;数字化的概念正在普及&#xff0c;IT与运营技术(OT)系统(如建筑管理系统(BMS)和电源管理工具)的集…

Leetcode 151. 反转字符串中的单词 JS版两种方法(内置API,双指针)有详细讲解 小白放心食用

&#x1f3b6;Leetcode 151. 反转字符串中的单词 难度&#xff1a;中等 ✨题目描述&#xff1a; 给你一个字符串 s &#xff0c;请你反转字符串中 单词 的顺序。 单词 是由非空格字符组成的字符串。s 中使用至少一个空格将字符串中的 单词 分隔开。 返回 单词 顺序颠倒且 …

使用4090显卡部署 Qwen-14B-Chat-Int4

使用4090显卡部署 Qwen-14B-Chat-Int4 1. Qwen-Agent 概述2. Github 地址3. 创建虚拟环境4. 安装依赖项5. 快速使用6. 启动 web 演示7. 访问 Qwen 1. Qwen-Agent 概述 通义千问-14B&#xff08;Qwen-14B&#xff09; 是阿里云研发的通义千问大模型系列的140亿参数规模的模型。…

cartographer(1)-运行

1.下载数据集 #1.下载数据集&#xff1a; mkdir /home/tang/bagfiles#2.开始二维建图 cd /home/tang/carto_ws/cartographer_detailed_comments_ws/install_isolated/source install_isolated/setup.bash rospack profile #新装的包索引地址存在ros的环境里 roslaunch ca…

【Python】读取显示pgm图像文件

文章目录 零. 前言一. pgm基本概念二. pgm基本信息读取三. pgm图像渲染四. 代码优化 零. 前言 这学期要学多媒体信息隐藏对抗&#xff0c;发现其中的图像数据集文件都是pgm文件形式的。虽然是图像文件&#xff0c;但是却不能直接通过图像查看器来打开&#xff0c;上网一搜&…

【有限域除法】二元多项式除法电路原理及C语言实现

二元多项式除法电路原理 例: g ( x ) = x 4 + x 2 + x + 1 g(x)=x^4 + x^2+x+1

C语言-字符串与输入输出

一、字符串 1、字符串简介 在 C 语言中&#xff0c;字符串实际上是使用空字符 \0 结尾的一维字符数组。因此&#xff0c;\0 是用于标记字符串的结束。 空字符&#xff08;Null character&#xff09;又称结束符&#xff0c;缩写 NUL&#xff0c;是一个数值为 0 的控制字符&…

深入了解“注意力”和“变形金刚” -第1部分

一、说明 这是一篇很长的文章&#xff0c;几乎讨论了人们需要了解的有关注意力机制的所有信息&#xff0c;包括自我注意、查询、键、值、多头注意力、屏蔽多头注意力和转换器&#xff0c;包括有关 BERT 和 GPT 的一些细节。因此&#xff0c;我将本文分为两部分。在本文中&#…