快手可灵视频生成大模型全方位测评

news2024/11/16 19:41:56
快手视频生成大模型“可灵”(Kling),是全球首个真正用户可用的视频生成大模型,自面世以来,凭借其无与伦比的视频生成效果,在全球范围内赢得了用户的热烈追捧与高度评价。截至目前,申请体验其内测版的用户数量已突破70万大关,累计生成的视频作品更是高达700万。

可灵在持续创新的道路上也从未停下脚步,在七月份举办的世界人工智能大会(WAIC)期间,可灵再次迎来重大升级。新功能包括上线web端、基础模型效果升级、图生视频支持首尾帧、增添相机镜头控制功能、单次生成时长增至10s等。

大模型落地的实际效果如何离不开用户的体验与感知,来自中科院计算所数字内容合成与伪造检测实验室的唐帆副研究员及黄子尧、徐子艺等同学对可灵AI视频生成大模型进行了测评。该团队致力于生成式AI的正向应用与反向监管工作,近年来在人工智能和图形学顶级会议和期刊(ACM TOG/CVPR等)上发表了多个图像视频生成成果。团队本次对可灵AI的评测,是为了评估现有视频生成模型能力,探索视频生成技术在学术和现实场景里的新方向和应用潜力。本文转自 数字内容合成与伪造检测 帐号,已获得作者授权转载,本文发表在新功能上线之前,目前可灵最新功能已更新,欢迎爱好者朋友至https://klingai.kuaishou.com 体验)

六个角度:

团队主要从画面质量、内容可控与运动生成三方面进行评测,并与当下最火热的Stable Video Diffusion、Sora和Dream Machine进行比较。画面质量考量视频画面的真实感,包括细节刻画的逼真度与物理世界的一致性两个角度;内容可控从多主体生成、特定内容风格与模型创造力三个角度测试;最后,从运动生成的角度测试了生成结果中动态场景的流畅性和时空关系的合理性。

测评情况:

1、细节刻画:超乎想象

细节决定着一个视频是否会被一眼“打假”,一年前,网上还在大呼“图像生成的场景虽然宏大,但仔细一看完全是东拼西凑”。而可灵对细节的刻画,超出我们的想象。

精美自然界 晶莹剔透的水珠,微微摆动的湿润绿叶,虚化的背景,这个画面真的太美了。不过这里也体现出了后续会说的一个问题——运动不符合提示词。

“一滴雨水滑落叶片的边缘,特写水珠的表面张力和反射的光芒。”

对动物的刻画也十分细致,透明的小翅膀,在花蕊上采蜜的动作,不细看像是真的一样。

“一只蜜蜂在花瓣上采蜜,特写其细腻的翅膀和花粉粘附在腿上的情景。”

精准手和脸 我们知道脸部崩坏,手指抽象是生成模型的老问题了,而可灵的结果看起来不错。看起来画面中的演员真的很痛苦,完全符合我们的提示词。

“一位演员在舞台上表演悲剧角色,特写脸上的悲伤表情和流下的泪水。”

纸张纹理、手部青筋、握笔方式都刻画得十分到位,甚至在纸面上留下了持续新增的笔触。

“一位画家的手在画布上细致地勾勒出人物的轮廓,特写手指的灵活运动。” 

总之,可灵对细节的把控比较到位,不管是自然界的花花草草还是人的面部情绪、手部动作,在视频生成领域有很大的进步。

2、物理世界:表象or内核

人工智能是否能够真正地理解物理世界?我们认为可灵仍然停留在视频的表象。我们发现它对自然界有着细致入微的观察,并且面对镜子、光影可以生成一些令人惊叹的视频,不过在视频中偶尔会发生不合理的事情。

绽放的花朵 两朵花缓慢绽放,花蕊的细节清晰可见,像真是用延时摄影拍摄的一样。“两朵黄色的花在黑色背景下缓慢绽放,展示出细腻的花瓣和花蕊。”

令人惊叹的镜子 这个视频仿佛是在真实场景中发生的,特别是耳部动作的刻画。虽然最后几秒镜子里的动作有问题,但瑕不掩瑜,整体质量十分好。

“一只狗在照镜子,背景是房间内的物品。”

越来越满的咖啡 这是一个特别常见的画面,然而模型完全没有理解我们的意思,蒸汽不减少,咖啡却越来越多。

“一杯满是热咖啡的透明玻璃杯,慢慢地冷却,蒸汽逐渐消失。”

3、想象力:生成不可能

到了可灵主打的想象力环节,我们来看看它能不能生成天马行空的内容。

海底探险 海底、发光宝藏、潜水员和海洋生物该有的元素都有了,镜头不断推进,仿佛我们也深陷海底。

科幻都市 这里的光影令人惊喜,倒影、反光都随着小猫的前进不断变化。整个场景也充满科技风,以后设计画面都可以来这找灵感了。

活灵活现的画面 这里动静之间的处理得特别好,跃出纸面的动物、画板和画家之间的空间关系完全正确。

更具想象力 可灵没有成功生成这个充满想象力的画面,丢失了很多元素。

“一只猫坐在一本打开的书上,书页上的文字围绕着猫身形成漩涡。”

总之,可灵在想象力上中规中矩,能生成让人眼前一亮充满想象力的大场景,但偶尔面对过于超脱的提示词时不知道如何创意地组合各个概念。不过以现在生成的总体质量来看,再改进一下提示词,应该就可以实现想要的内容。

4、多主体:更丰富的内容

谁是狮子 可灵成功生成了两只老虎、两只狮子,但让它生成一只老虎和一只狮子时,却生成了两只老虎。

猫狗合体 小猫小狗作为最常见的动物,可灵却分不清,第一个视频猫变身狗,第二个视频猫狗直接合体。另外可以看到,可灵不会数数但对颜色的把控到位。

“一只白猫,一只黑狗,两只黄色鸭子在一起玩。”“一只白猫,一只黑狗,两只绿色鸭子在一起玩。”

对模型来说,模拟多个角色之间的复杂交互具有挑战性,在多主体上可灵稍显逊色,可能会生成错误的内容。

5、角色和风格:个性化生成

指定角色 可灵在软件上禁止生成现实中存在的名人,因此我们简单地尝试了几个常见角色。

在角色、动作、场景上符合提示词,生成的质量还可以。

“圣诞老人将礼物递过来。”

虽然生成了猴子形象,并且吃东西的动作也很生动,但生成了一行字幕,也完全不符合我们心中孙悟空的样子。在这方面希望国产模型可以认识更多国内文化,让用户可以生成含有优秀传统文化的视频。

“孙悟空吃饭。”

指定风格 我们尝试了不同的风格,模型能够根据提示词生成对应风格,尤其是科幻风较好。

“熊猫弹吉他,赛博朋克风格。”

“熊猫弹吉他,迪士尼动画风格。”

“熊猫弹吉他,写实风格。”

总之,在指定角色和风格上,生成的视频还是令人满意的。不过,生成更加个性化的内容有广泛需求,比如用户自己、家养宠物。如何通过微调或无需训练的方法实现完全的定制化是一个值得深入探讨的话题。

6、运动:复杂的时空关系

相对于图像生成,视频生成最大的难点就在于建模复杂的时空关系,可灵官方声明“可灵采用3D时空联合注意力机制,能够更好地建模复杂时空运动,生成较大幅度运动的视频内容”。

常见运动 首先看看官方提示词的生成对比:

景色不错,但我们的马没有官方的跑得快。

“一个男人骑着马在戈壁沙漠飞奔,背后美丽的夕阳,电影级别画面。”(官方)

“一个男人骑着马在戈壁沙漠飞奔,背后美丽的夕阳,电影级别画面。”(我们)

猎豹跑得没马快。

“一只猎豹在草原上全速奔跑,追逐猎物。”

飞机飞得可以,但是没有体现出“急速俯冲和爬升”,只是常见的飞行。

“一架喷气式飞机在蓝天中做出急速俯冲和爬升的动作。”

复杂场景 完美生成了场景,但是完全不符合动作。

“一只猫在书架上跳跃,书本、装饰品和其他物品之间的空间关系清晰可见。”

交互式动作 模型在拿出来还是放进去反复横跳。

“一个人打开冰箱,拿出里面的可乐。”

看得出来,可灵对于一些常见的动作可以按照提示词生成一致的运动,但存在运动幅度较小的问题,对“飞快、急速”等词的响应有一点问题。而面对复杂场景时,可灵生成的结果也较差,无法生成对应的动作。

模型对比

可灵 vs. SVD

Stable Video Diffusion是Stability公司在2023年底公布并开源的视频生成模型,凭借其出色的性能和应用潜力,吸引了全球技术圈的目光。由于SVD是图生视频模型,我们首先利用SDXL生成图片,再用SVD基于图片生成视频。与SVD相比,时隔半年的可灵生成质量如何?

"The waves crash against the beach, the sunset slowly sets in the distance,Beautiful view,the afterglow."(SVD)

“海浪拍打着沙滩,夕阳在远处缓慢落下,美景,余晖。”(可灵)

"A Chinese man sits at a table and eats noodles with chopsticks."(SVD)

“一个中国男人坐在桌前,用筷子吃面条。”(可灵)

可灵生成的海浪拍打沙滩、吃面条的动作十分真实,而SVD似乎只是简单的镜头移动。在视频连续性、真实性方面,可灵有着飞跃进展。

可灵 vs. Sora

今年2月,OpenAI研发的Sora横空出世,60秒的视频时长,影视级的画面质量一度盖过其它视频生成模型的风头。我们将可灵与Sora进行对比,由于Sora尚未开放测试,我们选取官方公布的测试样例进行对比,因此对比结果可能有失偏颇。

可灵生成的视频中,大象的每一步都会掀起一阵雪花,对阳光、影子都有准确的刻画,虽然后面的小象出现了问题,但还是凸显出可灵对光影的理解。而Sora对猛犸象的生成更加准确,但大象背后雪花造成的烟雾略显夸张。

"Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow-covered trees and dramatic snow-capped mountains in the distance, mid-afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field." (Sora)

“几只巨大的毛茸茸的猛犸象在白雪皑皑的草地上踩踏,它们长长的毛茸茸的皮毛在风中轻轻吹拂,远处白雪皑皑的树木和壮观的雪山,午后的阳光与缕缕的云彩和远处的太阳高高地营造出温暖的光芒。低相机视角令人惊叹,以精美的摄影捕捉大型毛茸茸的哺乳动物,深度。”(可灵)

在Sora展示的一个失败例子中,可灵也失败了。同样是让篮球爆炸,Sora虽然在结尾又冒出了一个篮球,但确实让篮球爆炸了,而可灵的篮球像橡皮泥捏的。

"Basketball through hoop then explodes."(Sora)

“篮球穿过篮筐然后爆炸。”(可灵)

相比于Sora,可灵没有完全败下阵来,二者都有可圈可点的地方,等Sora放出Demo才能进行更全面的对比。

可灵 vs. Dream Machine

6月13日,Luma AI发布视频生成模型Dream Machine,用户可以通过文字或图片生成高质量的高清视频。不需要申请,登录就可以免费使用,但目前限制每天生成十个视频。下面是它与可灵生成的视频对比(使用Dream Machine文生视频功能):

"It was raining heavily outside the window, and the rain was sliding down the window, leaving water lines."(Dream Machine)

“窗外下着大雨,雨水在窗户上滑落,留下水流纹路。”(可灵)

"A cute cat is looking at a mirror through the water surface with fish swimming in it."(Dream Machine)

“一只可爱的猫通过水面照镜子,水里有游动的鱼。”(可灵) 

在上面两个例子中,可灵在画面展现、物理规律上还是完全胜于Dream Machine的。在用户使用上,可灵的生成速度比Dream Machine慢,可灵通常是3分钟生成一个5秒的视频,而Dream Machine官方称2分钟即可生成120帧5秒的视频。

合成 vs. 检测

视频生成技术不断进步,生成的视频质量越来越接近真实内容。这也引发了对视频内容真实性的关注,特别是在新闻、法律和安全等敏感领域。我们用中科睿鉴研发的视频伪造检测小程序对可灵生成的40个视频进行检测,在检测模型未针对可灵模型进行调优时,检出率为85%。

被识别为真的视频画面

我们利用可灵生成的这些视频,具有逼真的画面,较高的一致性和连续性,很少存在抖动情况。被检测出来的视频通过肉眼看也很难判别真伪,大多数视频很少存在失真、变形。可灵AI视频生成大模型的表现展示了AI在视频生成领域的巨大潜力,同时也突显了确保数字内容真实性的挑战。这一领域的未来发展将是技术创新和伦理责任并行的结果。

总结

总的来说,可灵的生成质量还是很不错的,支持中文输入极大提高了用户体验感。视频时长、分辨率、流畅度大幅提升,在细节、人体上有着很大进步,在动作幅度、想象力上还略显不足。本文采用的提示词都不是经过精心挑选的,有时甚至能达到随手出片的效果。

今年,Sora、可灵和Dream Machine等高质量视频生成模型不断涌现,各大科技机构纷纷投入视频生成赛道。目前,视频生成落地面临多重难点,快速高质量的生成技术、昂贵的算力成本都是亟需解决的问题。在这一背景下,快手推出面向公众开放测试的产品级应用,一键生成视频,直接剪辑发布,形成了一套完整流程,极大推动了视频生成的实际落地。在未来,如何形成一个完善的AIGC生态体系,以及完整的产业链与现有产品进行联动,都是长期关注的焦点。另外,随着Sora类的生成技术不断成熟,整个视频生成研究领域会进入到下一个阶段:不仅会关注视频内容的真实性,还会更加注重视频中的物理规律和运动幅度等“幻觉”问题。这意味着,未来的视频生成技术不仅要在视觉上令人信服,还要在物理动作和逻辑上保持一致,以产生更加自然和流畅的视觉效果。此外,随着技术的发展,我们还可能看到更多的交互式视频内容生成,其中用户可以指定某些参数或直接与视频内容互动,从而创造出独一无二的个性化视频体验。这将极大地扩展视频生成技术的应用范围,比如娱乐、教育、专业培训和模拟等多个领域。

总之,视频生成技术的未来发展将不仅仅局限于提高图像质量,更将涉及到如何创造出符合物理规律、具有高度互动性和个性化的视频内容。这将是一个充满挑战但也极具潜力的新阶段。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1948952.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何使用C#自制一个Windows安装包

原文链接:https://www.cnblogs.com/zhaotianff/p/17387496.html 以前都在用InstallShield制作安装包,基本需求是能满足的,但也有一些缺点: 1、界面不能完全定制 2、不能直接调用代码里的功能 平常使用一些其它软件,…

ETL数据集成丨将PostgreSQL数据库数据实时同步至PostgreSQL

前言 我们在进行数据集成、实时数据同步中,经常会出现在同一个数据库中做数据同步和复制、实时分析和报告、负载均衡和高可用性等场景,这次我们以PostgreSQL为例,通过ETLCloud工具,进行同数据库中数据实时同步的步骤应该如何设置…

Anconda 快速常用命令简洁版

目的:简单清楚的使用基本的conda 命令 可能需求 查看项目中的虚拟环境及依赖是否满足需求操作新环境来满足项目或者论文的实现 Anconda 常用命令 conda 查看基础命令1. 进入Anaconda 环境2. 查看版本3.查看有哪些虚拟环境4.激活虚拟环境5. 进入虚拟环境查看6. 退出…

shopee虾皮 java后端 一面面经 整体感觉不难

面试总结:总体不难,算法题脑抽了只过了一半,面试官点出了问题说时间到了,反问一点点,感觉五五开,许愿一个二面 1.Java中的锁机制,什么是可重入锁 Java中的机制主要包括 synchronized关键字 Loc…

微信小程序之计算器

在日常生活中,计算器是人们广泛使用的工具,可以帮助我们快速且方便地计算金额、成本、利润等。下面将会讲解如何开发一个“计算器”微信小程序。 一、开发思路 1、界面和功能 “计算器”微信小程序的页面效果如图所示 在计算器中可以进行整数和小数的…

NET8部署Kestrel服务HTTPS深入解读TLS协议之Certificate证书

Certificate证书 Certificate称为数字证书。数字证书是一种证明身份的电子凭证,它包含一个公钥和一些身份信息,用于验证数字签名和加密通信。数字证书在网络通信、电子签名、认证授权等场景中都有广泛应用。其特征如下: 由权威机构颁发&…

Minos 多主机分布式 docker-compose 集群部署

参考 docker-compose搭建多主机分布式minio - 会bk的鱼 - 博客园 (cnblogs.com) Minio 是个基于 Golang 编写的开源对象存储套件,虽然轻量,却拥有着不错的性能 中文地址:MinIO | 用于AI的S3 & Kubernetes原生对象存储 官网地址&#xf…

数字看板:跨行业需求下的创新与升级

在当今这个数据驱动的时代,数字看板作为信息展示与决策支持的重要工具,正逐步渗透到各行各业之中。从智慧城市到智能制造,从金融分析到医疗健康,数字看板以其直观、动态、高效的特点,成为了连接数据与决策者的桥梁。本…

C# 将字符串数组以树型结构化

例如字符串数组: string[] arr { "1","3-4-5-6-7", "2","3-4","3-4-5","3-4-5-6", "3", "6", "4", "6-1", "6-2", "5", "6-1-1&…

c++如何理解多态与虚函数

目录 **前言****1. 何为多态**1.1 **编译时多态**1.1.1 函数重载1.1.2 模板 **1.2 运行时多态****1.2.1 虚函数****1.2.2 为什么要用父类指针去调用子类函数** **2. 注意****2.1 基类的析构函数应写为虚函数****2.2 构造函数不能设为虚函数** **本文参考** 前言 在学习 c 的虚…

Tableau入门|数据可视化与仪表盘搭建

原视频链接(up:戴戴戴师兄),文章为笔者的自学笔记,用于复习回顾,原视频下方有原up整理的笔记,更加直观便捷。因为视频中间涉及的细节较多,建议一边操作,一边学习。 整体介绍 可视化…

生成式AI:对话系统(Chat)与自主代理(Agent)的和谐共舞

生成式AI:对话与行动的和谐共舞 我们正站在一个令人激动的时代门槛上——生成式AI技术飞速发展,带来了无限的可能性。一个关键问题浮现:AI的未来是对话系统(Chat)的天下,还是自主代理(Agent&am…

非凸T0算法,如何获取超额收益?

什么是非凸 T0 算法? 非凸 T0 算法基于投资者持有的股票持仓,利用机器学习等技术,短周期预测,全自动操作,抓取行情波动价差,增厚产品收益。通过开仓金额限制、持仓时长控制等,把控盈亏风险&…

【Ant Design Pro】快速上手

初始化 初始化脚手架:快速开始 官方默认使用 umi4,这里文档还没有及时更新(不能像文档一样选择 umi 的版本),之后我选择 simple。 然后安装依赖。 在 package.json 中: "start": "cross-e…

java-数据结构与算法-02-数据结构-05-栈

文章目录 1. 栈1. 概述2. 链表实现3. 数组实现4. 应用 2. 习题E01. 有效的括号-Leetcode 20E02. 后缀表达式求值-Leetcode 120E03. 中缀表达式转后缀E04. 双栈模拟队列-Leetcode 232E05. 单队列模拟栈-Leetcode 225 1. 栈 1. 概述 计算机科学中,stack 是一种线性的…

学习Numpy的奇思妙想

学习Numpy的奇思妙想 本文主要想记录一下,学习 numpy 过程中的偶然的灵感,并记录一下知识框架。 推荐资源:https://numpy.org/doc/stable/user/absolute_beginners.html 💡灵感 为什么 numpy 数组的 shape 和 pytorch 是 tensor 是…

WordPress 后台开发技巧:向文章发布页右侧添加自定义菜单项

案例图片 这个案例向你介绍了如何在文章发布页的右侧边栏增加一个新的自定义菜单项。具体用它实现什么功能,就看你的需要了。 代码 function add_custom_menu_item() { add_meta_box(custom_menu_item, 这里是菜单项名称, display_custom_menu_item, post, side, …

昇思MindSpore学习入门-高阶自动微分

mindspore.ops模块提供的grad和value_and_grad接口可以生成网络模型的梯度。grad计算网络梯度,value_and_grad同时计算网络的正向输出和梯度。本文主要介绍如何使用grad接口的主要功能,包括一阶、二阶求导,单独对输入或网络权重求导&#xff…

代码随想录算法训练营Day 63| 图论 part03 | 417.太平洋大西洋水流问题、827.最大人工岛、127. 单词接龙

代码随想录算法训练营Day 63| 图论 part03 | 417.太平洋大西洋水流问题、827.最大人工岛、127. 单词接龙 文章目录 代码随想录算法训练营Day 63| 图论 part03 | 417.太平洋大西洋水流问题、827.最大人工岛、127. 单词接龙17.太平洋大西洋水流问题一、DFS二、BFS三、本题总结 82…