CelebV-Text——从文本生成人脸视频的数据集

news2024/11/12 10:28:42

概述

近年来,生成模型在根据文本生成和编辑视频方面受到了广泛关注。然而,由于缺乏合适的数据集,生成人脸视频领域仍然是一个挑战。特别是,生成的视频帧质量较低,与输入文本的相关性较弱。在本文中,我们通过开发 CelebV-Text来解决这些问题,CelebV-Text 是一个根据文本生成人脸视频的大型数据集。这是一个包含文本和视频对的大型高质量数据集。

CelebV-Text 是一个包含 7 万个不同面部视频片段的数据集,每个片段有 20 个文本描述。这些文本描述是通过半自动文本生成技术生成的,包含静态和动态属性的详细信息。与其他数据集相比,该数据集对视频、文本以及文本和视频之间的关系进行了全面的统计分析。大量实验也证明了该数据集的实用性。

设计了包括数据收集、数据注释和半自动文本生成在内的综合数据构建管道,并提出了文本视频生成的新基准。此外,还在一个具有代表性的模型上对其进行了评估,结果显示生成的面部视频与文本之间的关联性得到了改善,时间一致性也有了显著提高。

数据集构建

提出了一种高效的方法,包括数据收集和处理、数据标注和半自动文本生成,用于在高质量人脸上建立大型文本视频数据集。

首先,在数据收集方面采用了与 CelebV-HQ 类似的方法。针对人名、片名、视频日志等生成查询,并检索包含动态时间状态变化和丰富面部属性的视频。这些数据是从网上资源下载的,其中不包括低分辨率(<512 x 512)、短视频(<5 秒)和已经包含在 CelebV-HQ 中的视频。

注释也是一个重要的过程,对 CelebV-Text 文本和视频的相关性有重大影响,因此在设计时尤为谨慎。

与图像不同,视频包含随时间发生的变化。然而,大多数人脸视频数据集都侧重于不会随时间变化的静态属性。因此,本文将人脸视频详细分为静态属性(Static)和动态属性(Dynamic)。

作为静态属性,当前的数据集只考虑了外观属性,而 CelebV-Text 不仅包括一般外观,还包括细节外观和光照条件。详细外观包括五个类别:疤痕、痣、雀斑、酒窝和一只眼睛,而光线条件包括六个类别,包括光的色温和亮度。

此外,还设计了三个动态属性用于塑造:动作、情感和光照方向。动作属性参照 CelebV-HQ 进行了扩展,而情感属性则采用了 Affectnet 的八种情感设置。光照方向有六个类别。与 CelebV-HQ 一样,动态属性也有开始和结束的时间戳。

因此,CelebV 文本注释旨在捕捉视频中的时间变化细节,并提高文本与视频的相关性。

为了优化数据集的质量和成本,CelebV-Text还根据这些属性设计引入了自动和手动注释相结合的方法。

对于可以自动标注的属性,首先对算法进行研究,然后选择准确率至少达到 85% 的算法。光照条件、外观和情感标签都是自动标注的。通过人工修改,进一步提高自动标注的准确性。对于动态和详细的外观属性,则需要人工标注。标注人员会创建自然、恰当的描述。

这种自动标注和人工标注的有效结合,可以高效地建立高质量的数据集。

此外,常见的多模态文本视频数据集使用字幕、手动文本生成和自动文本生成来生成文本。然而,每种方法都有其自身的挑战。字幕很容易获取,但相关性较低,而且噪音较大。手动生成耗时长、成本高且难以扩展。而自动生成虽然更容易扩展,但在生成文本的多样性、复杂性和自然性方面也存在挑战。

为了解决这些问题,本文提出了 "基于模板的半自动文本生成 "方法,它结合了人工和自动方法的优点。在这种方法中,注释器首先为每个属性生成 10 个不同的面部视频描述,并分析它们的语法结构。然后,它使用概率无上下文语法设计自己的模板,从而增加生成文本的多样性。

这些方法能够高效生成自然、多样的文本,并可扩展地构建高质量的文本-视频数据集。

数据集统计分析

本文将 CelebV-Text 与其他领先的面部视频数据集进行了比较,并对视频、文本以及文本与视频之间的关系进行了全面分析。

CelebV-Text 包含约 70,000 个视频片段,总播放时间约为 279 小时。每个视频片段都配有 20 个描述性文本,对所有六个属性进行了描述。与其他数据集相比,该数据集的规模更大,分辨率更高。例如,VoxCeleb2 有大量样本,但视频种类(分布)有限,因为它主要由会说话的面孔组成;CelebV-HQ 和 CelebV-Text 样本是通过各种查询收集的,因此种类(分布)更多。其中,CelebV-Text 的视频数据量几乎是其两倍,视频属性更多,相关文本描述也更多。就规模和质量而言,它优于 MM-Vox(现有的唯一人脸文本视频数据集)。

为了显示 CelebV-Text 中属性的分布情况,我们将一般外貌、动作和光照方向属性分为几组。面部特征(如双下巴、大鼻子、蛋形脸)约占 45%,基本组约占 25%,胡须类型约占 12%。发型和配饰组分别约占 10%和 8%。在动作属性方面,与头部相关的动作约占 60%,与眼睛相关的动作约占 20%。互动组(如进食)、情绪组(如大笑)和日常组(如睡觉)分别约占 9%、7% 和 4%。就光照方向而言,大部分样本包括正面光照,其余的光照方向分布均匀。

对所收集视频的质量进行了分析,并与 MM-Vox 和 CelebV-HQ 进行了比较,以显示 CelebV-Text 的优越性。BRISQUE 和 VSFA 用于评估图像和视频质量。在所有数据集中,CelebV-Text 和 CelebV-HQ 的图像质量都较高,明显高于 MM-Vox。CelebV-Text 的视频质量同样最高,这可能是由于视频分割方法减少了背景切换时的不连续性。

CelebV-Text 文本比 MM-Vox 和 CelebV-HQ文本更长、更详细。平均文本长度分别为 28.39、31.06 和 67.15。全面的注释意味着 CelebV-Text 视频描述包含的字数更多。

对三个数据集的独特语篇(动词、名词、形容词和副词)进行了比较,以考察语言的多样性。CelebV-Text 的属性列表和模板设计全面,因此文本范围更广,涵盖了各种时间静态和动态面部属性。

此外,还考察了 CelebV-Text 与 MM-Vox 相比的文本自然度和复杂度。可以看出,语法结构和同义词替换大大提高了 CelebV-Text 的语言自然度和复杂度。

此外,还在 MM-Vox、CelebV-HQ 和 CelebV-Text 三个数据集上进行了文本-视频检索任务,以定量测试文本和视频的相关性。Recall@K(R@K)、中位数排名 (MdR) 和平均排名 (MnR) 被用作评价指标。请注意,R@K 越高、中位数排名和平均排名越低,表明性能越好。

首先,对包含一般外观描述的文本的性能进行了评估:CelebV-HQ 和 CelebV-Text 的结果均优于 MM-Vox,这表明所设计的模板能比 MM-Vox 生成更多相关的视频文本。接下来,我们添加了动态情感变化描述,发现两个数据集的结果相似,表明静态外观属性的注释准确率更高。我们还添加了行为描述,在大多数指标上都取得了最佳性能。

验证数据集的实用性

在此,我们通过根据文本生成面部视频,并使用具有代表性的方法对该任务进行基准测试,从而检验 CelebV-Text 数据集的有效性。

为了证明 CelebV-Text 的静态和动态属性描述的有效性,我们基于最先进的开源方法 MMVID 进行了多项实验,并将其与 CogVideo 进行了比较。

为了首先验证 CelebV-Text 数据集在静态属性方面的有效性,我们根据一般外观、面部细节和光线条件描述生成了视频;使用 CelebV-Text 从头开始训练 MMVID,并生成了三个输入文本,包括每个静态属性的单独描述使用 CelebV-Text 生成视频。然后将生成的文本输入 MMVID 和 CogVideo,并对视频输出进行比较。

一般外观可视化结果如下图(a)所示,CogVideo 根据文本描述生成面部视频,但文本与视频之间的相关性较低,例如 "黑眼圈 "和 “波浪形头发”。另一方面,MMVID 生成的视频包含文本中描述的所有属性,显示出较高的相关性。

我们还根据动态属性(如情绪、动作、光线方向)的变化测试了 CelebV-Text 的有效性。从上图 (b) 可以看出,CogVideo 无法反映输入文本中描述的时间变化(如微笑 -> 旋转)。然而,在 CelebV-Text 文本中训练的 MMVID 能准确模拟动态属性的变化,这证明了数据集的有效性。

请注意,CogVideo 的模型大小约为 MMVID 的 100 倍,并且是在约为 CelebV-Text 75 倍的文本-视频数据集上训练的,但如上图所示,CogVideo 生成的视频样本质量低于仅在 CelebV-Text 上训练的 MMVID 生成的样本质量这表明本文提出的数据集非常有效。

文本到视频生成技术发展迅速,MM-Vox 是人脸视频生成的唯一基准。在本文中,我们扩展了这一基准,并使用 MM-Vox、CelebV-HQ 和 CelebV-Text 三个数据集建立了一个新基准。这样就能全面评估从文本生成人脸视频任务的性能。我们选择了 TFGAN 和 MMVID 这两种方法进行性能评估,它们基于以下指标

  • FVD:时间一致性评估。
  • FID: 评估每个帧的质量。
  • CLIPSIM:评估文本和生成视频的相关性。

在定量评估中使用了具有静态和动态属性的变体文本,以验证基线方法。结果显示 MMVID 优于 TFGAN,如下表所示。同时还发现,当输入文本包含时间状态变化时,MMVID 生成的视频质量会降低。

下图显示了在不同数据集上训练出 MMVID 的视频样本。可以看出,这些视频帧的尺寸为 128 x 128 像素,在时间上保持一致,而且质量很高。但也可以看出,MMVID 有时无法完全再现输入文本中描述的属性。

总结

本文提出的 CelebV-Text 是一个具有静态和动态属性的大型面部文字视频数据集。该数据集包含 70,000 个视频片段,每个片段包含 20 个描述静态和动态元素的独立文本。通过大量的统计分析和实验,证明了 CelebV-Text 的优越性和有效性。

论文还指出,未来计划包括进一步扩大 CelebV-Text 的规模和多样性。预计 CelebV-Text 还将应用于基于 CelebV-Text 的新任务,如视频人脸的细粒度控制、一般预学习模型在人脸领域的适配,以及文本驱动的 3D 识别人脸视频生成。

注:
论文地址:https://arxiv.org/pdf/2303.14717
源码地址:https://github.com/celebv-text/CelebV-Text.git

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2237108.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

天地图入门|标注|移动飞行|缩放,商用地图替换

“天地图”是国家测绘地理信息局建设的地理信息综合服务网站。集成了来自国家、省、市&#xff08;县&#xff09;各级测绘地理信息部门&#xff0c;以及相关政府部门、企事业单位 、社会团体、公众的地理信息公共服务资源&#xff0c;如果做的项目是政府部门、企事业单位尽量选…

Python、Delphi 和 C++ 复制文件速度比较

比较 Python、Delphi 和 C 在文件处理上的速度&#xff0c;可以分为以下几个方面进行测试和分析&#xff1a;文件读写速度&#xff1a;指的是在这三种语言中执行相同的文件读写操作所花费的时间。文件大小影响&#xff1a;不同语言对小文件和大文件的处理是否有显著不同。并发性…

复现LLM:带你从零认识语言模型

前言 本文会以Qwen2-0.5B模型为例&#xff0c;从使用者的角度&#xff0c;从零开始一步一步的探索语言模型的推理过程。主要内容如下&#xff1a; 从使用的角度来接触模型本地运行的方式来认识模型以文本生成过程来理解模型以内部窥探的方式来解剖模型 1. 模型前台使用 1.1…

企业IT架构转型之道:阿里巴巴中台战略思想与架构实战感想

文章目录 第一章&#xff1a;数据库水平扩展第二章&#xff1a;中台战略第三章&#xff1a;阿里分布式服务架构HSF&#xff08;high speed Framework&#xff09;、早期Dubbo第四章&#xff1a;共享服务中心建设原则第五章&#xff1a;数据拆分实现数据库能力线性扩展第六章&am…

R语言实战——一些批量对地理数据进行操作的方法

各位朋友在进行数据处理时&#xff0c;当有多张栅格影像时&#xff0c;如果我们都要进行同一操作时&#xff0c;一张一张做很繁琐&#xff0c;用ArcGIS模型构建器是一种比较好的方法。当然&#xff0c;今天小编新学了R语言上面进行批量裁剪&#xff0c;一起来学习一下吧&#x…

详解如何创建SpringBoot项目

目录 点击New Project 选择依赖 简单使用SpringBoot 前面已经讲解了如何获取IDEA专业版&#xff0c;下面将以此为基础来讲解如何创建SpringBoot项目。 点击New Project 选择依赖 注意&#xff0c;在选择SpringBoot版本时&#xff0c;不要选择带SNAPSHOT的版本。 这样&#…

点云分割总结

点云分割总结 point transformerbackground 标量自注意力和向量自注意力&#xff08;可参考论文&#xff09;标量自注意力向量注意力 Point Transformer Layer下采样上采样整体结构 point transformer v2group vector attentionPosition Encoding MultiplerPartition-based Poo…

智象未来(HiDream.ai):从科技创新启程,绘制智能未来新篇章

在人工智能领域飞速演进的当下&#xff0c;智象未来&#xff08;HiDream.ai&#xff09;作为全球领先的多模态生成式人工智能技术供应商&#xff0c;正以其独树一帜的视觉多模态大模型及创新应用&#xff0c;推动行业趋势的前进。智象未来&#xff08;HiDream.ai&#xff09;自…

CSP/信奥赛C++刷题训练:经典例题 - 栈(2):洛谷P1981 :[NOIP2013 普及组] 表达式求值

CSP/信奥赛C刷题训练&#xff1a;经典例题 - 栈&#xff08;2&#xff09;&#xff1a;洛谷P1981 &#xff1a;[NOIP2013 普及组] 表达式求值 题目背景 NOIP2013 普及组 T2 题目描述 给定一个只包含加法和乘法的算术表达式&#xff0c;请你编程计算表达式的值。 输入格式 …

LVGL加入外围字库

一、首先lvgl是有自带字库的 lvgl/src/font 如下图 二、但如果这个字库不能满足我们的需求我们就要外建字库。 1、字库生成软件LVGL官网&#xff0c;字体转换器 — LVGL如下图&#xff1a; 最后按“提交”就可以看到有一个字体被下载到你电脑里。他是以.c文件的型式&#xff0…

创新引领,模块化微电网重塑能源格局

根据QYResearch调研团队最新发布的《全球模块化微电网市场报告2023-2029》显示&#xff0c;预计到2029年&#xff0c;全球模块化微电网市场的规模将扩大至33.1亿美元&#xff0c;且在未来几年内&#xff0c;其年复合增长率&#xff08;CAGR&#xff09;将达到8.8%。 如下图所示…

FPGA 第4讲 初识Verilog HDL

时间&#xff1a;2024.11.9 一、学习内容 1.Verilog HDL简介 1.1语言简介 Verilog HDL是一种硬件描述语言&#xff0c;以文本的形式来描述数字系统硬件的结构和行为的语言&#xff0c;用它可以表示逻辑电路图、逻辑表达式&#xff0c;还可以表示数字逻辑系统所完成的逻辑功能…

【51单片机】LED点阵屏 原理 + 使用

学习使用的开发板&#xff1a;STC89C52RC/LE52RC 编程软件&#xff1a;Keil5 烧录软件&#xff1a;stc-isp 开发板实图&#xff1a; 文章目录 LED点阵屏显示原理74HC595 编码LED点阵屏显示笑脸LED点阵屏显示动画 LED点阵屏 点阵屏在开发板的右上角&#xff0c;注意使用前需要…

Chrome扩展是程序员做独立开发的绝佳入场机会

一、开发成本低&#xff0c;难度低 简便灵活&#xff1a;相比开发移动应用&#xff0c;浏览器扩展的开发过程更加简便灵活&#xff0c;更适合初学者。省时省力&#xff1a;通过扩展&#xff0c;你可以修改现有网站的功能&#xff0c;无需从零开始搭建应用&#xff0c;大大节省…

记录一下最近遇到的两个问题

问题1 网友问&#xff1a;一个数据同步的程序之前运行正常&#xff0c;突然数据有问题了&#xff0c;俺的回答是退出杀毒软件 问题是很快解决了&#xff0c;但是网友后来说&#xff0c;客户觉得程序很不稳定。俺不清楚这算不算背锅。 问题2 今天下午&#xff0c;调试着程序蓝…

30.1 时序数据库TSDB的典型特点

本节重点介绍 : db-ranking网站对db进行排名时序数据特点时序数据库特点时序数据库遇到的挑战开源时间序列数据库 db-ranking 一个神奇的网站 https://db-engines.com/en/ranking 时序数据ranking https://db-engines.com/en/ranking/timeseriesdbms 排名方法 https://db-en…

Linux SSH私钥认证结合cpolar内网穿透安全高效远程登录指南

文章目录 前言1. Linux 生成SSH秘钥对2. 修改SSH服务配置文件3. 客户端秘钥文件设置4. 本地SSH私钥连接测试5. Linux安装Cpolar工具6. 配置SSHTCP公网地址7. 远程SSH私钥连接测试8. 固定SSH公网地址9. 固定SSH地址测试 前言 开发人员在工作中经常需要远程访问服务器和数据中心…

vscode摸鱼学习插件开发

不知道大家在摸鱼的时候&#xff0c;会不会想要学习&#xff1f; 或者有没有考公人&#xff0c;下班要学习的&#xff1f; 上班时间摸鱼&#xff0c;下班时间不够学习&#xff1f; 为此&#xff0c;我决定开发一个vscode插件&#xff0c;来刷粉笔题 粉笔插件名称&#xff1a;…

深入浅出WebSocket(实践聊天室demo)

文章目录 什么是WebSocket?WebSocket连接过程WebSocket与Http的区别重连机制完整代码使用方法心跳机制实现聊天室demo(基于Socket.io)参考文章、视频小广告~什么是WebSocket? WebSocket 是一种在单个TCP连接上进行全双工通信的协议(计算机网络应用层的协议) 在 WebSocket A…

[ Linux 命令基础 7 ] Linux 命令详解-磁盘管理相关命令

&#x1f36c; 博主介绍 &#x1f468;‍&#x1f393; 博主介绍&#xff1a;大家好&#xff0c;我是 _PowerShell &#xff0c;很高兴认识大家~ ✨主攻领域&#xff1a;【渗透领域】【数据通信】 【通讯安全】 【web安全】【面试分析】 &#x1f389;点赞➕评论➕收藏 养成习…