FlagEval 8月榜 | 文生视频大模型主观评测结果揭晓,新增6款新发布模型

news2024/12/25 9:24:28

近日,智源研究院联合中国传媒大学发布文生视频大模型主观评测榜单,在今年5月对Sora、Runway Gen-2、PixVerse V1、Pika 1.0、VideoCrafter-V2、Show-1、Open-Sora 1.0七个模型性能表现评测结果的基础之上,不仅对部分模型的升级版本进行了对比评测,包括Runway Gen-3和Runway Gen-2、PixVerse V2和PixVerse V1、Pika 2.0和Pika 1.0以及Open-Sora 1.2和Open-Sora 1.0,还引入了即梦、Luma、可灵(高性能版)、Vega Ai、星火绘镜和Pixeling 6款新近发布的文生视频大模型进行评测。相比于上期评测的模型,本期模型普遍在物体运动表现上有了提升,动作更加流畅自然。此外,部分产品有了分镜切换能力,使得镜头语言更加丰富。

评测方法

本次评测采用的数据集和主观评价方法与今年5月开展的文生视频模型评测高度一致,并沿用了部分评测结果作为参考基准,以保持新旧模型评测标准的一致性,使两次评测结果具有可比性。

评测发现

当前的文生视频大模型在以下方面仍然存在共性问题:

(1)画面质量问题:许多模型生成的视频存在画质问题,如分辨率不高、马赛克效应、噪点、摩尔纹等。这些问题在剧烈运动的场景中尤为明显,在静态场景中则相对缓解。

(2)活动主体真实性较差:许多模型在生成活动的主体对象时表现不佳,尤其是在生成运动幅度较大的动物或人物时,常出现躯干结构缺失、形变或面部崩坏等问题。

(3)难以刻画复杂行为:当主体与环境有交互行为或操纵工具、设备时,生成效果往往较差。当存在多个主体有交互行为时,常常出现主体融合、消失或分身等现象。

(4)对超现实场景表现不足:对于高度抽象场景,尤其是对于反物理规律或反常识的提示词,如物体漂浮、雨水逆流等,大多数模型难以生成准确画面。

(5)文化特色相关场景生成困难:多个模型在生成具有文化特色的场景或标志性建筑时容易出错,尤其是在生成中国特色场景时问题较为突出。

(6)时间和因果关系容易出错。

这些问题表明,尽管当前文生视频模型在很多方面已经取得了显著进步,但在实际应用中仍面临诸多挑战,有待解决。

评测结果

1、榜单排名

从综合性能排名来看,Sora的排名依然处于领先位置。Runway Gen-3紧随其后,综合总分为0.634,在本次参评模型中排名第一。即梦和可灵的综合得分分别为0.591和0.565,也具备一定的竞争力。而Vega Ai、Pika 2.0、Open-Sora 1.2的综合性能排名相对靠后。

在CUC T2V Prompts数据集上,Runway Gen-3在总体印象分、图文一致性、视频质量三个维度上均排名第一,显示出强大的综合性能。即梦在美学质量上领先,同时在其他多个维度上位列第二,表现出全面的竞争力,是Runway Gen-3的强劲对手。此外,可灵在真实性方面也有不错的表现。

在Sora T2V Prompts数据集上,Runway Gen-3在总体印象分、图文一致性、真实性、视频质量和美学质量五个维度上均表现优异,除Sora外位居第一,再次证明其强大的综合实力。即梦在总体印象分、视频质量和美学质量上表现突出,是有力的竞争者。而可灵则在图文一致性和真实性方面取得了不错的成绩。

2、新增模型特点

新增的即梦、可灵、Luma、Vega Ai、星火绘镜和Pixeling六个模型展示了各自特的优势与不足:

(1)即梦:在动态表现、美学表现和精细动作生成方面表现卓越,尤其是在动画风格的生成上具有较高美感。然而,随着视频长度的增加,其真实性和前后内容一致性会有一定的下降。

(2)Luma:在生成日常生活场景时表现相对出色,画面质感贴近现实。此外,Luma的镜头移动和场景切换频率较高,能够生成动态画面。但在生成文化特色场景、人与物体交互场景(如操作器材)和超现实场景时表现欠佳。

(3)可灵:在真实性上表现尤为出色,尤其是在动物毛发细节和质感的处理上。当人物运动幅度较小时,可灵能够生成皮肤细节清晰、人体比例真实的形象。不过,可灵生成的部分视频画面清晰度有所欠缺。

(4)Vega Ai:在动态表现上较为突出,但在人物生成的真实性、视频质量和镜头布局方面存在不足,限制了其在高质量视频生成中的应用。

(5)星火绘镜:擅长生成长视频和处理多镜头拼接,适合生成包含转场和多视角的视频内容。但在图文一致性和风格多样性上仍有改进空间。

(6)Pixeling:在色彩搭配和图文一致性上表现较好。然而,在视频画面稳定性和一致性上存在不足,生成视频常出现前后内容不一致的现象。

3、不同版本对比

本次评测还对部分模型的升级版本进行了性能对比。

(1)Runway Gen-3 vs. Runway Gen-2:Runway Gen-3在图文一致性、动态表现和风格多样性等方面有显著提升。

(2)PixVerse V2 vs. PixVerse V1:PixVerse V2 在总体印象和图文一致性上超越了PixVerse V1,但前后内容一致性和面部崩坏的情况还有待改善。

(3)Pika 2.0 vs. Pika 1.0:Pika 2.0在画面稳定性和细节表现上有所提升,但在生成超现实场景和提高人物真实性方面仍需进一步优化。

(4)Open-Sora 1.2 vs. Open-Sora 1.0:Open-Sora 1.2在视频时长、分辨率和画面稳定性上较Open-Sora 1.0有显著进步,但在实体对象呈现和前后内容一致性上仍有不足。

由于评测数据集的规模及类别限制,评测结果会存在一定局限性。未来,智源研究院将携手中国传媒大学继续推动文生视频评测技术与主观评价方法体系的迭代与完善。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2079470.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++初学(16)

16.1、if语句 当C程序必须决定是否执行某个操作时,通常使用if语句来实现选择。if有两种格式:if和if else。 if语句的语法与while相似: if(text-condition)statement 如果text-condition(测试条件)为true&#xff0…

iTimes工时管理系统:企业高效管理的得力助手

在当今快节奏的商业环境中,企业面临着越来越多的挑战,其中之一便是如何高效、准确地管理员工工时。工时管理不仅关乎企业的成本控制,还直接影响到项目执行效率、员工满意度以及整体运营水平。因此,选择一款优秀的工时管理系统显得…

【应用层】Tomcat10安装以及对应的VScode插件使用

文章日期是2024年8月26日,Tomcat10为稳定版中最新的,Tomcat11为测试版。 流程:下载Tomcat10-->等待下载时,安装对应的VScode插件-->配置Tomcat10-->配置对应的VScode插件 1、下载Tomcat10 2、安装对应的VScode插件 3…

Codeforce 963

CF 963 B 模拟加贪心 偶数个数C 模拟前缀和 灯能否全亮D 二分DP 中位数尽可能大F1 模拟镜像 题目链接 B 模拟加贪心 偶数个数 考点:贪心 思路:除了全是偶数的情况,其他的情况都需要将偶数转换为奇数。最少的操作步数是偶数个数,…

IOS 15 实现Toast和小菊花Loading提示

本文主要是实现toast和loading两种提示功能,例如:登陆时参数不正确提示,toast提示后会自动隐藏。加载提示:不会自动隐藏,常用于网络请求,上传等。 添加依赖 #提示框架 #https://github.com/jdg/MBProgress…

20240828 每日AI必读资讯

8岁女孩玩转AI编程,45分钟打造聊天机器人,Karpathy都看呆了 - 新晋顶流AI代码编辑器——Cursor,已经进化到了“0手工代码”阶段。 - 提供了多个AI模型,包括GPT-4、GPT-4o和Claude 3.5 Sonnet等,可以通过跟大模型聊天…

一文弄懂MySQL中的锁

MySQL中的锁概述 MySQL中的锁机制是数据库管理系统用于控制并发操作的一种手段,主要用于保证数据的一致性和完整性。当多个事务同时操作同一数据时,锁机制可以防止数据冲突和确保事务的隔离性。 在MySQL中,锁可以分为三大类:全局…

如何用Python Django和Vue构建网络电视剧收视率分析系统?

🎓 作者:计算机毕设小月哥 | 软件开发专家 🖥️ 简介:8年计算机软件程序开发经验。精通Java、Python、微信小程序、安卓、大数据、PHP、.NET|C#、Golang等技术栈。 🛠️ 专业服务 🛠️ 需求定制化开发源码提…

《计算机操作系统》(第4版)第11章 多媒体操作系统 复习笔记

第11章 多媒体操作系统 一 、多媒体系统简介 1. 多媒体的概念 多媒体 (multimedia) 目前没有统一的定义,一般是指多种方法、多种形态传输(传播)的信息介质、多种 载体的表现形式以及多种存储、显示和传递方式。 2.超文本和超媒体 (1)超文本 (hypertext)。 (2)超链接…

探索Python性能监控的瑞士军刀:psutil的神秘面纱

文章目录 探索Python性能监控的瑞士军刀:psutil的神秘面纱背景:为何psutil不可或缺?什么是psutil?如何安装psutil?五个简单的库函数使用方法场景应用:psutil在实际开发中的妙用常见问题与解决方案总结 探索…

性价比高的开放式耳机?开放式耳机推荐

在开放式耳机市场中,有多个品牌的性价比表现较为突出。以下是一些性价比较高的开放式耳机品牌及其产品特点: 1.虹觅(Holme) 虹觅Fit2: 以其简约而不失精致的设计,首先吸引了众多目光。这款耳机采用可调节…

苹果M4芯片Mac全面曝光 或10月发布

彭博社的马克・古尔曼(Mark Gurman)发布博文,曝料称苹果内部正在测试 4 款采用 M4 芯片的 Mac 设备,有望今年秋季(可能是 10 月)发布。 古尔曼表示苹果计划今年升级 MacBook Pro、Mac mini 和 iMac 产品线&…

驱动:中断底半部 platform平台总线

中断底半部实现方法: 1. 软中断2. tasklet 3. workqueue 解释 workqueue和tasklet是Linux内核中用于处理中断后续任务的两种机制,它们在中断处理流程中扮演着重要的角色。下面是对它们的详细解释: Tasklet 定义与作用: Taskl…

Vue笔记总结(Xmind格式):第二天

Xmind鸟瞰图: 简单文字总结: vue知识总结: 创建vue脚手架: 1.安装Node.js:Vue CLI作为一个npm包,需要Node.js来安装和运行。 2.安装Vue CLI:cmd指令 npm install -g vue/cli 3.创…

【微前端】前端微服务框架对比和技术选型

文章目录: 目录 文章目录: 前言: 具体内容: 1.什么是微前端 2.使用微服务的场景: iframe方案的缺点: 3.主流微服务框架介绍 2.1 无界-腾讯 官网 github地址: 无界的运行模式 简单了…

git笔记:git常用命令备忘录

1、工作区域和文件状态 1.1、工作区域 git的数据管理分为四个区域: 工作区(Working Directory) 本地工作目录,是我们电脑上的目录,是我们实际编写代码的区域,修改完工作区的文件后可以使用git add命令将…

Web开发:在 try-catch 块中有效捕捉和记录日志的最佳实践

目录 一、控制台程序(demo) 二、封装方法 三、实现效果 一、控制台程序(demo) using System.Diagnostics;namespace Progaram {class Program{public class Student{public int Id { get; set; }public string Name { get; se…

DataWhale AI夏令营-《李宏毅深度学习教程》笔记

DataWhale AI夏令营-《李宏毅深度学习教程》笔记 第三章 深度学习基础补充一些基础临界点及其种类逃离临界点方法批量动量自适应学习率学习率调度 分类分类损失批量归一化 之前一直接触的LLM大模型做一些应用,或者传统的自然语言处理,都是直接拿别人的模…

坐牢第三十天(c++)

1.作业&#xff1a; 提示并输入一个字符串&#xff0c;统计该字符串中字母个数、数字个数、空格个数、其他字符的个数 #include <iostream> #include <stdio.h> #include <string> using namespace std; int main(int argc, char const *argv[]) {string st…

什么软件可以用平板远程控制电脑?

在当今快节奏的工作和生活中&#xff0c;使用平板远程控制电脑已成为一种便捷高效的办公方式。无论你是想随时随地访问办公室的电脑&#xff0c;还是需要在旅途中进行紧急工作任务&#xff0c;Splashtop都是你的不二选择。本文将介绍如何使用Splashtop通过平板远程控制电脑&…