【LLM】文生视频相关开源数据集(VidGen、Panda、Cogvideox等)

news2025/1/10 11:21:51

note

  • 总结了VidGen数据集、Panda-70m数据集、Openvid数据集、OpenVid-1M数据集、Cogvideox训练数据准备过程、ShareGPT4Video数据集等
  • 在一篇综述中还总结了评估指标包括:峰值信噪比(PSNR)、结构相似性指数(SSIM)、Inception 分数(IS)、Fréchet Inception 距离(FID)、CLIP 分数、视频 Inception 分数(Video IS)、核视频距离(KVD)、帧一致性分数(FCS)
  • 各家提出的开源数据后,为了证明自己有效,会在上面这些不同指标评测

文章目录

  • note
  • 一、VidGen数据集
  • 二、Panda-70m数据集
  • 三、Openvid数据集
  • 四、OpenVid-1M数据集
  • 五、Cogvideox训练数据准备
  • 六、综述:From Sora What We Can See: A Survey of Text-to-Video Generation
  • 七、ShareGPT4Video数据集
  • Reference

一、VidGen数据集

(1)VidGen数据集:vidgen-1M利用了来自HD-VILA数据集的380万高分辨率、长时段视频。随后,这些视频被分割成1.08亿个视频片段。接下来,本文对这些视频片段进行了标注和采样。然后,使用VILA模型进行视频字幕生成
论文链接:https://arxiv.org/pdf/2408.02629
项目链接:https://sais-fuxi.github.io/projects/vidgen-1m/
git链接:https://github.com/SAIS-FUXI/VidGen

二、Panda-70m数据集

(2)Panda-70m数据集:这里是从公开可用的高清视频语料库HD-VILA-100M中策划了380万个高分辨率视频。然后,我们将它们分割成语义一致的视频片段,并应用多个跨模态教师模型为每个视频获取字幕。panda-70m数据集价值:视频字幕生成、视频和文本检索以及文本驱动的视频生成。
论文名:Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers
论文链接:https://arxiv.org/pdf/2402.19479.pdf

三、Openvid数据集

(3)Openvid数据集:通过广泛的实验和消融研究,验证了OpenVid-1M数据集相较于先前数据集的优越性以及MVDiT模型的有效性。在公共基准测试中,MVDiT在多个评估指标上均取得了最佳性能,包括视频质量评估(VQAA和VQAT)、文本与视频对齐(Blip_bleu和SD_score)以及视频时间一致性(Clip_temp_score和Warping_error)。这些结果证明了OpenVid-1M数据集在生成高质量视频方面的显著贡献。
http://arxiv.org/abs/2407.02371v1
https://nju-pcalab.github.io/projects/openvid

在这里插入图片描述

四、OpenVid-1M数据集

(4)OpenVid-1M数据集:
介绍:https://nju-pcalab.github.io/projects/openvid/
论文:https://export.arxiv.org/abs/2407.02371

  • OpenVid-1M的多样性也体现在其包含的多种场景,如人像、风景、城市、变形内容和动物等。数据集的视频分辨率至少为512×512,远高于许多现有的视频数据集,如WebVid-10M和Panda-70M。
  • OpenVid-1M的视频片段经过了自动化流程的筛选,包括使用LAION Aesthetics Predictor进行美学评分,利用CLIP模型评估时间一致性,以及通过UniMatch评估运动差异,确保了视频内容的流畅性和稳定性。最终,通过DOVER模型进行清晰度评估,筛选出具有清晰纹理的高质量视频片段,并使用Cascaded Cut Detector进行片段提取,确保每个片段只包含单一场景。

在这里插入图片描述

数据筛选流程:数据集的策划采用了自动化的多步骤处理流程,包括:

  • 使用LAION Aesthetics Predictor进行美学评分,筛选出具有高美学得分的视频。
  • 利用CLIP模型评估视频的时间一致性,筛选出视觉质量高且时间上连续的视频片段。
  • 通过UniMatch评估运动差异,选择运动平滑的视频片段。
  • 使用DOVER模型进行清晰度评估,保留纹理清晰、质量高的片段。
  • 采用Cascaded Cut Detector进行片段提取,确保每个片段只包含单一场景。

高清视频子集:从OpenVid-1M中精选出433K个1080p高清视频,构成了OpenVidHD-0.4M子集,专门用于推动高清视频生成技术的研究。

五、Cogvideox训练数据准备

caption数据准备pipeline如下:
(0)基于一些开源数据:Panda70M (Chen et al., 2024b)、COCO Caption (Lin et al., 2014) 和 WebVid Bain et al. (2021)
(1)取出视频的每帧,送给cogvlm进行图生文逐帧理解,然后对每帧内容进行汇总总结;这里用GPT4造了些微调数据,基于llama微调文本摘要模型
(2)第二种方法是直接使用cogvlm2-video视频理解模型

在这里插入图片描述

六、综述:From Sora What We Can See: A Survey of Text-to-Video Generation

原文链接:https://arxiv.org/pdf/2405.10674
研究列表:https://github.com/soraw-ai/Awesome-Text-to-Video-Generation?tab=readme-ov-file

回顾了T2V数据集,并主要根据收集的领域将其分类为六个流派:面部、开放、电影、动作、指导和烹饪。核心就是下面这个图:

在这里插入图片描述
评估指标包括:峰值信噪比(PSNR)、结构相似性指数(SSIM)、Inception 分数(IS)、Fréchet Inception 距离(FID)、CLIP 分数、视频 Inception 分数(Video IS)、核视频距离(KVD)、帧一致性分数(FCS)。

七、ShareGPT4Video数据集

链接:https://hf-mirror.com/datasets/ShareGPT4Video/ShareGPT4Video
单位:中科大、上海AI实验室
描述文本的字数主要在200-400之间,提供了丰富的时间信息,可以很好地完成视频理解和生成任务。
论文地址:https://arxiv.org/abs/2406.04325v1
项目主页:https://ShareGPT4Video.github.io/
GitHub:https://github.com/ShareGPT4Omni/ShareGPT4Video

数据集类型: ShareGPT4Video Captions 4.8M 是一组由 GPT4-Vision 提供支持的视频多模式字幕数据。

它的构建是为了增强大型视频语言模型 (LVLM) 和文本到视频模型 (T2VM) 中的模态对齐和细粒度视觉概念感知。这一进步旨在使 LVLM 和 T2VM 达到 GPT4V 和 Sora 的功能。

  • sharegpt4video_40k.jsonl 由 GPT4-Vision (ShareGPT4Video) 生成。
  • share-captioner-video_mixkit-pexels-pixabay_4814k_0417.json 由我们的 ShareCaptioner-Video 生成,该 ShareCaptioner-Video 经过 GPT4-Vision 生成的视频字幕对训练。
  • sharegpt4video_mix181k_vqa-153k_share-cap-28k.json 是从 sharegpt4video_instruct_gpt4-vision_cap40k.json 中精选出来的用于 LVLM 的监督微调阶段。
  • llava_v1_5_mix665k_with_video_chatgpt72k_share4video28k.json 将 VideoChatGPT 中的 28K 详细字幕相关数据替换为 ShareGPT4Video 中的 28K 高质量字幕。此文件用于验证 VideoLLaVA 和 LLaMA-VID 模型下高质量字幕的有效性。

用现有的闭源模型生成高质量视频描述的挑战有三个方面——

  • 一是清晰地理解帧间的时序变化;
  • 二是详细准确地描述帧内内容;
  • 另外,对任意长度视频的可扩展性也是一大难点。

为此,研究者们精心设计了一种描述策略。这种策略叫做差分滑窗视频描述(Differential Sliding-Window Captioning, DiffSW),可以稳定且高效地为任意分辨率、宽高比和长度的视频生成高质量描述。具体而言,研究者们每次送入GPT-4V的输入是当前关键帧、上一关键帧,以及上一关键帧对应的差分描述。
这样做的目的是让GPT-4V通过观察两帧之间的时间与空间变化,总结出当前帧相对于上一帧的重要空间、时序变化,也就是当前帧与上一帧对应的差分描述。最终,所有差分描述会连同时间戳一起送入GPT4中,从而总结出最终的关于整个视频的高质量字幕。

Reference

复旦最新VidGen-1M: 文生视频还得靠好数据
7000万高质量视频文本对!文生视频最大的开源数据集Panda-70M来了!
Panda-70M数据集:用多模态教师模型为7000万视频自动生成字幕
OpenVid-1M:专为文本到视频生成(T2V)的大规模高质量数据集

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2096294.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

NLP从零开始------16.文本中阶处理之序列到序列模型(1)

1. 序列到序列模型简介 序列到序列( sequence to sequence, seq2seq) 是指输入和输出各为一个序列(如一句话) 的任务。本节将输入序列称作源序列,输出序列称作目标序列。序列到序列有非常多的重要应用, 其中最有名的是机器翻译( machine translation), 机…

Day-01—QT项目的新建

1.选择创建的项目类型,可以看到,这里可以创建多种语言的项目,可以直接用QT来进行前期C 的学习。 2.创建的名字中不要包含中文,可以用英文就用英文,如果不会英文,就用拼音也可以,保存地址中也不要…

aosp13自由窗口项目出现图库app划线不全bug修改-安卓framework实战项目

背景 在学习了马哥的分屏自由窗口pip专题后,进行了相关的自由窗口等比例放大操作,但是操作测试过程中学员朋友们有发现图库app进入自由窗口进行操作放大有红框显示不全的问题。 但是使用图库app时候发现红框居然显示不完整,具体效果如下图&a…

C语言基础(三十)

1、希尔排序&#xff1a; #include "date.h" #include <stdio.h> #include <stdlib.h> #include <time.h> // 希尔排序函数 void shellSort(int arr[], int n) { for (int gap n / 2; gap > 0; gap / 2) { // 对每个子列表进行插入排…

90分钟实现一门编程语言——极简解释器教程

关键字 解释器, C#, Scheme, 函数式编程 关于 本文介绍了如何使用C#实现一个简化但全功能的Scheme方言——iScheme及其解释器&#xff0c;通过从零开始逐步构建&#xff0c;展示了编程语言/解释器的工作原理。 作者 Lucida a.k.a Luc 如果你是通过移动设备阅读本教程&…

面向对象软件编程——OOP入门实践

工作一段时间了&#xff0c;工作内容趋向于算法模型的复现&#xff0c;就是复现论文算法然后结合业务逻辑开发软件。但是在设计和开发软件时&#xff0c;发现对于OOP理念和软件的设计原则等在实战中还是非常缺乏。于是开始补习&#xff0c;基础软件开发技术。 书籍&#xff1a;…

Arduino UNO 编程 第一期——下载及使用

字幕君已上线...... 副字幕君已上线...... 计数君已上线...... 彩色字幕君 ( 花了重金请来的 ) 已上线...... Doge智能系统已上线...... Doge:嗨嗨我又来了&#xff01; 观众们......已上线&#xff01;&#xff01;&#xff01;&#xff01;&#xff01; OK LETS GO&am…

理解大模型中的Cursor技术:优化长文本推理的前沿方案

理解大模型中的Cursor技术&#xff1a;优化长文本推理的前沿方案 随着自然语言处理&#xff08;NLP&#xff09;领域的快速发展&#xff0c;大型语言模型&#xff08;如GPT系列&#xff09;已广泛应用于文本生成、对话系统和复杂推理任务。然而&#xff0c;随着文本长度的增加…

灾难性遗忘问题(Catastrophic Forgetting,CF)是什么?

灾难性遗忘问题&#xff08;Catastrophic Forgetting&#xff0c;CF&#xff09;是什么&#xff1f; 在深度学习和人工智能领域中&#xff0c;“灾难性遗忘”&#xff08;Catastrophic Forgetting&#xff09;是指当神经网络在增量学习&#xff08;Incremental Learning&#…

用AI生成旅游打卡照!FLUX假装去旅行lora的使用【附工作流】

hello&#xff01;今天我们来聊聊一个特别有意思的话题&#xff1a;如何用AI生成那些看起来像是去过世界各地的旅游打卡照&#xff0c;还能在朋友圈里炫耀一番。很多人看到这些照片都会问&#xff1a;“你真的去过这些地方吗&#xff1f;” 而且最主要的是这种图片做点自媒体旅…

数据仓库系列13:增量更新和全量更新有什么区别,如何选择?

你是否曾经在深夜加班时&#xff0c;面对着庞大的数据仓库&#xff0c;思考过这样一个问题&#xff1a;“我应该选择增量更新还是全量更新&#xff1f;” 这个看似简单的选择&#xff0c;却可能影响整个数据处理的效率和准确性。今天&#xff0c;让我们深入探讨这个数据仓库领域…

RT-DETR+Sort 实现目标跟踪

在前一篇博客中&#xff0c;博主介绍了利用YOLOv8与Sort算法实现目标跟踪&#xff0c;在今天这篇博客中&#xff0c;博主将利用RT-DETR算法与Sort算法相结合&#xff0c;从而实现目标跟踪。。 这里博主依旧是采用ONNX格式的模型文件来执行推理过程&#xff0c;由于Sort算法是基…

vue part6

Vue脚手&#xff08;CLI&#xff09; 第一步&#xff08;仅第一次执行&#xff09;&#xff1a;全局安装vue/cli。 npm install -g vue/cli- 第二步&#xff1a;切换到你要创建项目的目录&#xff0c;然后使用命令创建项目vue create xxxx&#xff08;项目名字&#xff09; 第…

el-table利用折叠面板 type=“expand“ 嵌套el-table,并实现 明细数据多选,选中明细数据后返回原数据得嵌套格式

效果图: 废话不多说直接上代码&#xff0c;完整代码展示&#xff1a; <template><el-tableborderref"multipleTable":data"tableData"tooltip-effect"dark"style"width: 100%"><el-table-columnwidth"50"la…

线程池在接受到30个比较耗时的任务时的状态,在前面30个比较耗时的任务还没执行完成的情况下,再来多少个任务会触发拒绝策略?

目录 一、提出问题 二、解答 问题 1: 线程池在接受到30个比较耗时的任务时的状态 问题 2: 在前面30个比较耗时的任务还没执行完成的情况下&#xff0c;再来多少个任务会触发拒绝策略&#xff1f; 总结 一、提出问题 我们首先自定义一个线程池&#xff1a; new ThreadPoo…

18042 计算分段函数值

### 伪代码 1. 读取输入的实数x。 2. 根据x的值计算y&#xff1a; - 如果x < 1&#xff0c;y x。 - 如果1 < x < 10&#xff0c;y 2x - 1。 - 如果x > 10&#xff0c;y 3x - 11。 3. 输出y的值&#xff0c;保留两位小数。 ### C代码 #include <io…

fl studio 21/24破解版(水果音乐制作软件24) v24.1.1.4285附安装教程

fl studio 21/24破解版&#xff0c;又被国内网友称之为水果音乐制作软件24&#xff0c;是Image-Line公司成立26周年而发布的一个版本&#xff0c;是目前互联网上最优秀的完整的软件音乐制作环境或数字音频工作站&#xff0c;包含了编排&#xff0c;录制&#xff0c;编辑&#x…

World of Warcraft [CLASSIC][80][Grandel] Call to Arms: Warsong Gulch

Call to Arms: Warsong Gulch - Quest - 魔兽世界怀旧服CTM4.34《大地的裂变》数据库_大灾变85级魔兽数据库_ctm数据库 10人PVP战歌峡谷&#xff0c;该战场经常用来互刷军衔和荣誉&#xff0c;哈哈 wow plugin_魔兽世界挂机插件-CSDN博客

完美解决node-sass@4.14.1 postinstall: `node scripts/build.js` 问题

node v14.16.0 安装node-sass4.14.1会出现报错 看日志排查发现设置的源国内的都有问题 直接梯子下载&#xff1a; https://github.com/sass/node-sass/releases/download/v4.14.1/win32-x64-83_binding.node 本地启动phpstudy&#xff0c;当然你也可以放在你服务器上&#xff0…

学习笔记 ---- 数论分块(整除分块)

文章目录 算法概述引理引理 1 1 1引理 2 2 2 数论分块结论&#xff08;区间右端点公式&#xff09;过程 N N N 维数论分块向上取整的数论分块 例题 H ( n ) H(n) H(n)[CQOI2007] 余数求和[清华集训2012] 模积和 算法 概述 数论分块可以快速计算一些含有除法向下取整的和式(即…