FlagEval 8月榜 | 文生视频大模型主观评测结果揭晓，新增6款新发布模型

news2026/2/13 19:00:59

近日，智源研究院联合中国传媒大学发布文生视频大模型主观评测榜单，在今年5月对Sora、Runway Gen-2、PixVerse V1、Pika 1.0、VideoCrafter-V2、Show-1、Open-Sora 1.0七个模型性能表现评测结果的基础之上，不仅对部分模型的升级版本进行了对比评测，包括Runway Gen-3和Runway Gen-2、PixVerse V2和PixVerse V1、Pika 2.0和Pika 1.0以及Open-Sora 1.2和Open-Sora 1.0，还引入了即梦、Luma、可灵（高性能版）、Vega Ai、星火绘镜和Pixeling 6款新近发布的文生视频大模型进行评测。相比于上期评测的模型，本期模型普遍在物体运动表现上有了提升，动作更加流畅自然。此外，部分产品有了分镜切换能力，使得镜头语言更加丰富。

评测方法

本次评测采用的数据集和主观评价方法与今年5月开展的文生视频模型评测高度一致，并沿用了部分评测结果作为参考基准，以保持新旧模型评测标准的一致性，使两次评测结果具有可比性。

评测发现

当前的文生视频大模型在以下方面仍然存在共性问题：

（1）画面质量问题：许多模型生成的视频存在画质问题，如分辨率不高、马赛克效应、噪点、摩尔纹等。这些问题在剧烈运动的场景中尤为明显，在静态场景中则相对缓解。

（2）活动主体真实性较差：许多模型在生成活动的主体对象时表现不佳，尤其是在生成运动幅度较大的动物或人物时，常出现躯干结构缺失、形变或面部崩坏等问题。

（3）难以刻画复杂行为：当主体与环境有交互行为或操纵工具、设备时，生成效果往往较差。当存在多个主体有交互行为时，常常出现主体融合、消失或分身等现象。

（4）对超现实场景表现不足：对于高度抽象场景，尤其是对于反物理规律或反常识的提示词，如物体漂浮、雨水逆流等，大多数模型难以生成准确画面。

（5）文化特色相关场景生成困难：多个模型在生成具有文化特色的场景或标志性建筑时容易出错，尤其是在生成中国特色场景时问题较为突出。

（6）时间和因果关系容易出错。

这些问题表明，尽管当前文生视频模型在很多方面已经取得了显著进步，但在实际应用中仍面临诸多挑战，有待解决。

评测结果

1、榜单排名

从综合性能排名来看，Sora的排名依然处于领先位置。Runway Gen-3紧随其后，综合总分为0.634，在本次参评模型中排名第一。即梦和可灵的综合得分分别为0.591和0.565，也具备一定的竞争力。而Vega Ai、Pika 2.0、Open-Sora 1.2的综合性能排名相对靠后。

在CUC T2V Prompts数据集上，Runway Gen-3在总体印象分、图文一致性、视频质量三个维度上均排名第一，显示出强大的综合性能。即梦在美学质量上领先，同时在其他多个维度上位列第二，表现出全面的竞争力，是Runway Gen-3的强劲对手。此外，可灵在真实性方面也有不错的表现。

在Sora T2V Prompts数据集上，Runway Gen-3在总体印象分、图文一致性、真实性、视频质量和美学质量五个维度上均表现优异，除Sora外位居第一，再次证明其强大的综合实力。即梦在总体印象分、视频质量和美学质量上表现突出，是有力的竞争者。而可灵则在图文一致性和真实性方面取得了不错的成绩。

2、新增模型特点

新增的即梦、可灵、Luma、Vega Ai、星火绘镜和Pixeling六个模型展示了各自特的优势与不足：

（1）即梦：在动态表现、美学表现和精细动作生成方面表现卓越，尤其是在动画风格的生成上具有较高美感。然而，随着视频长度的增加，其真实性和前后内容一致性会有一定的下降。

（2）Luma：在生成日常生活场景时表现相对出色，画面质感贴近现实。此外，Luma的镜头移动和场景切换频率较高，能够生成动态画面。但在生成文化特色场景、人与物体交互场景（如操作器材）和超现实场景时表现欠佳。

（3）可灵：在真实性上表现尤为出色，尤其是在动物毛发细节和质感的处理上。当人物运动幅度较小时，可灵能够生成皮肤细节清晰、人体比例真实的形象。不过，可灵生成的部分视频画面清晰度有所欠缺。

（4）Vega Ai：在动态表现上较为突出，但在人物生成的真实性、视频质量和镜头布局方面存在不足，限制了其在高质量视频生成中的应用。

（5）星火绘镜：擅长生成长视频和处理多镜头拼接，适合生成包含转场和多视角的视频内容。但在图文一致性和风格多样性上仍有改进空间。

（6）Pixeling：在色彩搭配和图文一致性上表现较好。然而，在视频画面稳定性和一致性上存在不足，生成视频常出现前后内容不一致的现象。

3、不同版本对比

本次评测还对部分模型的升级版本进行了性能对比。

（1）Runway Gen-3 vs. Runway Gen-2：Runway Gen-3在图文一致性、动态表现和风格多样性等方面有显著提升。

（2）PixVerse V2 vs. PixVerse V1：PixVerse V2 在总体印象和图文一致性上超越了PixVerse V1，但前后内容一致性和面部崩坏的情况还有待改善。