【LLM之Data】SKYSCRIPT-100M论文阅读笔记

news2024/11/15 13:26:21

研究背景

随着短视频和短剧的兴起,自动化的剧本生成和短剧制作在影视行业中的需求逐渐增加。传统的剧本生成过程需要大量的人工干预,限制了其在规模和效率上的扩展性。当前的大型语言模型(LLM)在剧本生成方面展现出一定潜力,但依然存在着生成内容的多样性、连贯性以及与实际影视制作需求对接不足的问题。因此,创建一个涵盖从剧本到拍摄脚本的大规模数据集成为了应对这一挑战的关键。

研究目标

本研究的目标是构建一个大规模的剧本-拍摄脚本配对数据集(SkyScript-100M),涵盖了10亿对剧本与拍摄脚本。这一数据集旨在支持短剧生成模型的开发,通过丰富的多模态信息(如场景描述、人物关系、镜头信息等)提升模型在生成短剧时的表现。本研究不仅探索了如何自动化生成高质量的短剧剧本,还提出了一种新的短剧生成范式。

相关工作

现有的多模态数据集(如MSR-VTT、HowTo100M、YouCook2等)主要通过网络爬虫获取视频数据并进行标注。这些数据集广泛应用于视频描述、视频-文本匹配等任务,但在短剧生成领域缺乏足够的覆盖和针对性。SkyScript-100M在这些现有数据集的基础上进行了优化,特别是在短剧这一特定领域中,提供了更大规模且更细致的配对数据。
而早期的剧本生成研究主要集中在基于Writing Prompts(WP)和ROCStories的开放域故事生成。然而,这些方法生成的内容常常缺乏逻辑性和连贯性。随着大型语言模型的发展,近年来的研究更多关注如何生成连贯且长篇的剧本,如Dramatron等框架。然而,短剧生成需要更多的多模态信息(如场景布局、人物关系等),这是现有方法的薄弱环节。
在这里插入图片描述

数据集的构建

多模态大语言模型预提取关键信息

为了减少人工标注的成本,研究团队首先使用多模态大语言模型(如InternVL2-Llama3-76B)对短剧视频进行预处理,提取出关键帧和场景信息。这包括人物、物体描述、镜头类型等信息,为后续数据标注提供了基础。
在这里插入图片描述
提取模板:
在这里插入图片描述
在这里,描述角色的‘Continuous Emotion’用于表达角色当前的情感状态。它包括三个维度:愉悦度(Valence,V),表示情感的积极或愉快程度,从负面到正面,用于描述幸福感的水平;激活度(Arousal,A),表示角色的激动程度,从平静或非活跃到激动或准备行动,用于描述兴奋度的水平;以及控制感(Dominance,D),表示角色在情境中的掌控程度,从顺从或无控制到主导或掌控,用于描述权威感或存在感。此外,还使用了气质和面部吸引力指标,前面提到的角色配对兼容性计算(‘shipping’)中涉及到这些指标:
在这里插入图片描述

关键信息清洗和隐私保护

在预提取信息后,进行了数据清洗与格式化,将信息转换为标准JSON格式。为确保数据的隐私安全,处理过程中对人物面部信息进行了像素化处理。此外,格式化后的数据还经过进一步的校准,以提高标注的准确性。
在这里插入图片描述
在这里插入图片描述

开放词汇检测

研究团队使用开放词汇检测模型(如Grounding-DINO)校准图像中的人物和物体位置,确保标注信息与实际内容的一致性。这一步骤帮助提升了多模态数据的质量和完整性。

主角信息后处理

使用Deepface和AlphaPose等工具进一步完善了角色的外观、情绪和动作标注,并通过2D-3D位置转换确保角色在不同场景中的一致性和连贯性。

数据校准

为确保数据的高质量,研究团队建立了一个12人的校准团队,对标注结果进行人工复核与调整,最终达到了超过90%的标注准确率,满足短剧生产的需求。

新的短剧生产范式

传统流程依赖人工调整,而新范式通过在拍摄脚本中嵌入更多关于短剧世界的信息,使生成模型能更好地保持角色、场景和情感的连贯性。
研究团队将这一新范式应用到大规模短剧生成模型SkyReels中,并在多个维度上进行了实验评估,包括主题表达、人物发展、对话质量、情感影响、节奏感、冲突解决、情节连贯性和叙事结构。实验结果显示,基于新范式生成的短剧在保持画面风格一致性、角色稳定性以及剧情连贯性上表现优异。

短剧领域的广泛影响

视频高光检测

短剧制作过程中,如何自动识别和提取剧情中的亮点(如情感高潮、剧情转折等)是一个关键问题。现有的亮点检测技术通常依赖于用户交互数据(如点赞、弹幕等),但在短剧中,这些数据往往不充分或缺乏细粒度标注。为此,本文引入了基于Plutchik情感理论的连续亮点评分模型,通过分析角色的情感维度(Valence、Arousal、Dominance),为短剧中的关键场景打分,实现了更加精确和连续的亮点检测。这一方法支持基于回归模型的亮点检测,适用于大规模短剧内容的分析与推广。
在这里插入图片描述

世界布局理解

短剧生成中的另一个挑战是对场景中世界布局的理解。传统生成模型在处理多人物、多物体的复杂场景时,容易出现角色或物体位置异常、遮挡等问题。为解决这一问题,研究团队通过2D-3D位置转换模型,推导出场景中角色和物体的3D位置,并应用多视图几何理论实现了3D-2D的映射。这一方法通过一致性约束确保了场景生成过程中物体和角色位置的合理性,显著提高了生成视频的稳定性和视觉效果。
在这里插入图片描述

隐含人物关系挖掘

传统剧本中,人物关系通常以固定的显式关系(如三元组形式)保存,但现实生活中,人物关系随着情感和情节发展会不断变化。本文提出了一种时间变化的隐含人物关系挖掘方法,利用多模态模型从图像和文本中提取隐含关系。这一方法结合角色的情感状态、位置和行为,通过时间序列分析构建更加复杂的动态人物关系网络。这种关系挖掘有助于生成更复杂和富有层次感的短剧情节,使剧本能够更好地反映现实中的复杂社交关系。
在这里插入图片描述

参考资料

  • 论文
  • 代码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2080345.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Leetcode面试经典150题-5.最长回文子串

解法都在代码里,不懂就留言或者私信 class Solution {public static String longestPalindrome(String s) {if(s null || s.length() 0) {return null;}//加工字符串,例如abcdcba加工成#a#b#c#d#a#b#c#d#String str getManacherString(s);char[] str…

UWB实操:用litepoint确认UWB SP0和SP3帧长度

用litepoint确认UWB SP0和SP3帧长度 预备知识 SP0 frame length Sync+SFD = 65.1+ 8.1 = 73 us

uniapp定义scss颜色变量deep()修改子组件样式

uni.scss中 import "/common/style/base-style.scss"; 在base-style.scss中 $brand-theme-color:#28B389;//品牌主体红色$border-color:#e0e0e0 ; $border-color-light:#efefef; $text-font-color-1: #000 ;//文字主色 $text-font-color-2:#676767;//副标题颜色 $…

​​聆思CSK6大模型语音视觉开发板接入AIUI技能实操(控制风扇开关)

前言 本文以大模型语音控制灯的开关为例,讲解如何通过LSPlatform的云端编排功能在大模型语音交互流程中加入AIUI技能,实现更丰富的产品功能。 大模型语音模板加入AIUI技能节点后的数据流程如下图所示: 大模型语音控制AIUI之风扇 硬件准备工作 聆思CSK6大…

使用 FinalShell 链接 Centos

1. 安装 FinalShell 下载地址:https://www.hostbuf.com/t/988.html 2. 查看 IP地址。 2.1 通过命令查询IP 输入 ip addr show 查询,输出效果如下截图,其中的 192.168.1.5 就是 IP 地址。 2.2 通过可视化界面查询IP 点击右上角的网络图标…

LLM自对齐技术最新研究分享(二):对齐 Pipeline 数据合成(下)

LLM 自对齐技术最新研究进展分享 系列文章继续更新啦!本系列文章将基于下图的架构,对当前 Self-alignment 相关工作进行全面梳理,厘清技术路线并分析潜在问题。 添加图片注释,不超过 140 字(可选) 在上一篇…

MySQL数据库——概念与安装

目录 一、数据库的概述 1、数据库的基本概念 2、数据库管理系统(DBMS) 2.1、数据库管理系统概述 2.2、DBMS的工作模式 3、数据库系统(DBS) 3.1、数据库系统概述 3.2、数据库系统发展史 3.3、当今主流数据库介绍 4、关系…

VS2022离线安装包 - 下载安装教程

总目录 前言 一般情况下我们都是通过网络下载并安装VS2022,但是有些情况下,由于公司内部网络管理比较严格,可能会需要安装离线安装包这样的操作。 一、下载Visual Studio bootstrapper 进入Visual Studio bootstrapper下载界面按照如下图示…

angular xlsx-style,复杂表头样式导出

导出效果如下图所示: 下载xlsx npm install xlsx angular.json中引入: "node_modules/xlsx/dist/xlsx.full.min.js","src/assets/js/jszip.js","src/assets/js/xlsx.js" 两个插件地址: 上传中,等…

Android U WMShell动画调用堆栈

本文主要简单介绍WMShell动画调用堆栈 代码环境:repo init -u https://mirrors.tuna.tsinghua.edu.cn/git/AOSP/platform/manifest -b android-14.0.0_r7 Systemserver侧 TAG: at com.android.server.wm.Transition.onTransactionReady(Transition.java:1575) TA…

Centos 设置成中国时区

原因是初始安装的 Centos 系统,时区是UTC,跟中国时间不一样,这样会导致一些问题,例如后面安装一些软件,证书认证失败等问题。 修改时间命令如下 1.首先,使用以下命令安装 tzdata 软件包(如果尚…

喜羊羊做Python二级(模拟考试--易错点)

今天距离Python二级考试,还有28天左右。坚持每天做几套试卷,保持记忆和手感。 个人在做题的过程中是先不断练习选择题。当你选择题不达标的时候,系统不会看大题(大概是觉得选择题都做的那么差,大题也不会那么好&#…

数据执行保护讲解

数据执行保护(Data Execution Prevention,简称DEP)操作系统中的一项安全功能,旨在防止恶意代码利用缓冲区溢出漏洞执行。它通过将内存的某些区域标记为不可执行,从而防止从这些区域执行代码。这适用于所有程序&#xf…

05:【江科大stm32】:定时器输出比较功能(PWM)

定时器输出比较功能(PWM) 1、LED呼吸灯2、PWM驱动舵机3、PWM驱动电机 1、LED呼吸灯 ①PWM.c文件的代码如下: #include "stm32f10x.h" // Device header/*使用定时器TIM2,通过通道CH1(PA0)输出PWM波 …

模型 PMI思考法

系列文章 分享 模型,了解更多👉 模型_思维模型目录。全面评估,三思而后行。 1 PMI思考法的应用 1.1 个人职业发展中的PMI思考法应用 张华是一位有志于提升自己职业竞争力的职场人士。他正在考虑报名参加一个专业认证课程,以期提…

Windows安装Ora2Pg(迁移表结构,表数据)

版本: windows server 2012 R2 oracle 12 说明: 目前该操作是在安装了oracle的机子上做的。 1、安装perl Strawberry Perl下载地址: Strawberry Perl for Windows - Releases 选择一个合适的版本,下载下来之后只需要选择…

百度广告联盟:抢占流量蓝海,精准营销新引擎

百度广告联盟:抢占流量蓝海,精准营销新引擎 在数字营销时代,争夺消费者的注意力与流量成为品牌竞争的关键。百度广告联盟,作为互联网营销领域的佼佼者,凭借其广泛的平台覆盖、精准的受众定位以及丰厚的合作回报…

水稻病害-目标检测数据集(包括VOC格式、YOLO格式)

水稻病害-目标检测数据集(包括VOC格式、YOLO格式 数据集: 链接:https://pan.baidu.com/s/1eiygobnVJklOdgyCwb2RVg?pwdvsoc 提取码:vsoc 数据集信息介绍: 共有 2148 张图像和一一对应的标注文件 标注文件格式提供了…

《深入浅出WPF》读书笔记.8路由事件

《深入浅出WPF》读书笔记.8路由事件 背景 路由事件是直接响应事件的变种。直接响应事件,事件触发者和事件响应者必须显示订阅。而路由事件的触发者和事件响应者之间的没有显示订阅,事件触发后,事件响应者安装事件监听器,当事件传…

MySQL EXPLAIN 完全解读

MySQL EXPLAIN 完全解读 一、一个EXPLAIN简单执行二、简单了解2.1. id:查询的标识符。2.2. select_type:查询的类型。2.3. table:输出结果集的表。2.4. type:连接类型,这是MySQL决定如何查找表中行的方法。2.5. possib…