【AI论文】FilmAgent: 一个用于虚拟3D空间中端到端电影制作自动化的多智能体框架

摘要：虚拟电影制作涉及复杂的决策过程，包括剧本编写、虚拟摄影以及演员的精确定位和动作设计。受近期基于语言智能体社会的自动化决策领域进展的启发，本文提出了FilmAgent，这是一个新颖的、基于大型语言模型（LLM）的多智能体协作框架，旨在实现我们构建的3D虚拟空间中的端到端电影制作自动化。FilmAgent模拟了各种剧组成员角色，包括导演、编剧、演员和摄影师，并涵盖了电影制作工作流程的关键阶段：（1）创意开发，将头脑风暴的想法转化为结构化的故事大纲；（2）剧本编写，为每个场景详细阐述对话和角色动作；（3）摄影指导，确定每个镜头的摄像机设置。一组智能体通过迭代反馈和修订进行协作，从而验证中间剧本并减少虚构内容。我们对基于15个创意和4个关键方面的生成视频进行了评估。人类评估结果显示，FilmAgent在所有方面均优于所有基线方法，平均得分为3.98（满分5分），表明了多智能体协作在电影制作中的可行性。进一步的分析揭示，尽管FilmAgent使用的是较不先进的GPT-4o模型，但其性能仍超越了单智能体o1，这体现了协调良好的多智能体系统的优势。最后，我们讨论了OpenAI的文本到视频模型Sora和我们的FilmAgent在电影制作中的互补优势和劣势。Huggingface链接：Paper page

论文链接：2501.12909

1. 引言

1.1 虚拟电影制作背景

虚拟电影制作是一种利用计算机辅助制作和可视化电影的方法，它支持远程协作，提高了电影制作的便捷性和可访问性。随着技术的发展，虚拟电影制作在电影行业中得到了广泛应用，如《曼达洛人》电视剧就显著采用了这项技术。游戏引擎的革新，如Unity中的虚拟摄像机插件，允许电影制作者在虚拟环境中实时渲染模拟场景，这在很大程度上替代了传统的故事板预可视化方法。

1.2 自动化决策与语言智能体

近年来，基于语言智能体的自动化决策领域取得了显著进展。这些智能体能够理解自然语言指令，执行复杂任务，并在需要时与人类或其他智能体进行交互。这一领域的进步为电影制作的自动化提供了新的思路。电影制作从根本上说是一种由语言驱动的协作任务，涉及对话、剧本、拍摄脚本以及导演的指导。因此，设计一个基于大型语言模型（LLM）的多智能体系统来模拟电影制作流程中的各个角色，是实现电影制作自动化的一个自然选择。

1.3 FilmAgent框架的提出

本文提出了FilmAgent，一个新颖的、基于LLM的多智能体协作框架，旨在实现虚拟3D空间中的端到端电影制作自动化。FilmAgent模拟了电影制作流程中的各种角色，包括导演、编剧、演员和摄影师，并涵盖了电影制作的关键阶段：创意开发、剧本编写和摄影指导。

2. FilmAgent框架概述

2.1 虚拟3D空间构建

为了支持FilmAgent框架的电影制作流程，作者团队精心构建了虚拟3D空间。这些空间包括15个反映日常设置的场景，如客厅、厨房、办公室和路边等，为各种叙事提供了多样化的背景。每个场景都预先配置了演员位置和摄像机设置，以满足不同拍摄需求。

演员位置：环境中包括32个站立点和33个坐立点，每个点都附有详细描述，指示其位置。
摄像机设置：定义了9种镜头类型，包括3种静态镜头（特写、中景和远景）和6种动态镜头（摇镜头、变焦镜头、跟踪镜头等）。

2.2 智能体角色与职责

在FilmAgent框架中，定义了四个主要角色：导演、编剧、演员和摄影师，每个角色都有其特定的职责。

导演：负责启动和监督整个电影制作项目，包括设置角色档案、开发视频大纲、提供剧本反馈、与其他剧组成员讨论并做出最终决策。
编剧：在导演的指导下工作，负责编写对话，指定每个镜头的角色定位和动作，并根据导演的反馈不断更新剧本。
演员：负责根据角色档案对台词进行微调，确保对话与角色一致，并向导演提供必要的反馈。
摄影师：根据镜头使用指南为每个镜头选择摄像机设置，与同行摄影师比较和讨论这些选择，并确保摄像机设置的恰当性。

2.3 智能体协作策略

FilmAgent框架引入了两种协作策略：Critique-Correct-Verify和Debate-Judge，分别应用于剧本编写和摄影指导阶段。

Critique-Correct-Verify：涉及两个智能体，一个智能体生成响应，另一个智能体进行评审并提供改进建议。生成智能体根据评审建议修正响应，评审智能体再次评估更新后的响应，以确定是否已充分解决评审意见或是否需要进一步迭代。
Debate-Judge：涉及多个智能体，每个智能体独立提出响应，然后进行辩论以说服彼此。第三方智能体最终总结讨论并做出最终裁决。

3. FilmAgent工作流程

3.1 创意开发阶段

从简短的故事创意出发，导演生成与故事相关的角色档案，包括性别、职业和个性特征等关键属性。使用这些档案和预定义的3D虚拟空间位置，导演将初始故事创意扩展为详细的场景大纲，指定每个段落的地点、事件和人物。

3.2 剧本编写阶段

剧本编写是一个协作过程，涉及编剧、导演和演员，分为三个阶段：

初始草稿：编剧起草初始剧本，包括角色对话、定位和动作。
导演-编剧讨论：导演和编剧进行Critique-Correct-Verify循环，导演对剧本进行全面评审，提供关于情节连贯性和角色动作的建议。编剧根据导演的反馈修订剧本，导演验证更新后的剧本以确定是否需要进一步调整。
演员-导演-编剧讨论：演员根据对角色的理解提供反馈，确保剧本与角色档案一致。导演过滤和汇总演员反馈，并与编剧一起再次使用Critique-Correct-Verify循环来完善剧本。

3.3 摄影指导阶段

摄影指导是两位同行摄影师和导演之间的协作过程，采用Debate-Judge方式。摄影师独立为每个镜头分配摄像机选择，然后进行辩论以解决任何差异。导演总结辩论过程，解决剩余冲突，并根据讨论结果确定最终摄像机设置。

4. 实验与评估

4.1 实验设置

作者团队手动构思了15个故事创意，这些创意可以在构建的虚拟3D空间约束内实现。评估方案涵盖五个关键方面：剧本与预期主题的契合度、摄像机设置的恰当性、剧本与角色档案的一致性、演员动作的准确性以及整体情节连贯性。

基线方法：
- CoT：单个智能体，根据提示中的关键阶段线索，直接生成链式思维推理并产生完整剧本。
- Solo：单个智能体负责创意开发、剧本编写和摄影指导，代表没有多智能体协作算法的FilmAgent框架。
- Group：完整的FilmAgent框架，利用多智能体协作。

4.2 实验结果

人类评估结果显示，FilmAgent在所有方面均优于所有基线方法，平均得分为3.98（满分5分）。特别是，多智能体配置的FilmAgent（Group）在情节连贯性和摄像机设置的恰当性方面表现尤为突出。与单智能体o1的比较表明，尽管FilmAgent使用的是较不先进的GPT-4o模型，但其性能仍超越了o1，这体现了协调良好的多智能体系统的优势。

4.3 偏好分析

进一步分析显示，人类评估者更倾向于经过多智能体协作修订后的剧本和摄像机选择。案例分析表明，多智能体协作策略通过迭代反馈和验证，有效减少了虚构内容，增强了情节连贯性，并改善了摄像机选择。

5. 与Sora的比较

5.1 Sora模型简介

Sora是OpenAI开发的一个文本到视频生成工具，能够从文本提示、图像或现有视频中创建高质量视频。作者团队利用Sora的故事板功能，将FilmAgent中的导演计划场景作为每个视频段落的提示。

5.2 互补优势与劣势

与Sora相比，FilmAgent在电影制作中具有以下优势：

连贯性和叙事能力：FilmAgent能够产生连贯、符合物理定律的视频，具有强大的叙事能力，这得益于其在游戏引擎中预先构建的3D空间和角色，以及协作工作流程。
一致性：FilmAgent生成的视频与文本指令保持一致，避免了Sora中有时出现的角色不一致和违反物理定律的情况。
故事讲述能力：FilmAgent能够生成更长的视频，具有更多的情节变化和视觉元素，从而更好地讲述完整的故事。

然而，Sora在快速适应不同场景、风格和镜头方面表现出色，这对于需要快速头脑风暴和想法验证的视频创作者来说是一个有用的工具。

6. 讨论与未来工作

6.1 当前限制

FilmAgent框架目前主要依赖于预定义的虚拟3D空间，这些空间具有有限的动作空间和预设的摄像机设置。这限制了框架的灵活性和动态性。

6.2 未来研究方向

未来的研究可以集成更灵活和动态的3D场景合成、运动和摄像机调整技术，以提高FilmAgent的适应性和灵活性。此外，还可以探索对动作和摄像机设置的更精细控制，以及多模态LLM的集成，以提高反馈和验证过程的准确性。

6.3 扩展剧组成员角色

为了创建符合电影标准的视频，还需要包括音乐制作、色彩分级和视频编辑等关键角色。未来工作可以考虑将这些角色集成到FilmAgent框架中。

7. 结论

本文提出了FilmAgent，一个基于LLM的多智能体框架，用于在虚拟3D空间中实现端到端的电影制作自动化。该框架模拟了电影制作流程中的各种角色，并通过多智能体协作策略显著提高了剧本质量和摄像机选择的恰当性。人类评估结果显示，FilmAgent在所有方面均优于基线方法，表明了多智能体协作在电影制作中的巨大潜力。未来的工作将集中在提高框架的灵活性、动态性和多模态集成方面，以进一步推动电影制作的自动化进程。