视频生成模型哪家强?豆包可灵通义海螺全面评测【AI评测】

news2024/11/17 19:39:15

比较贴切的表述是,豆包的视频模型这次的升级,已然将国内AI视频的美学境界拔高了一个档次,让AI视频也开始变得更加实用了。 

作者|斗斗 

出品|产业家 

国内的文生视频领域,也是吃上“细糠”了。

最近,火山引擎宣布豆包大模型正式发布视频生成模型。至此,两大短视频平台在文生视频领域的较量正式开启。

产业家也是在第一时间提前感受了一把。先来几个demo,给你们一个小小的震撼。

很明显,这生成效果并不亚于Sora。

要知道,Sora在初期的宣传和报道中被赋予了很高的期望。然而,至今为止,Sora尚未真正面向普通人群应用,可以说是实实在在的期货。

为了更加客观的展示豆包文生视频模型的真实能力,产业家申请到即梦AI内测版的豆包视频生成-Seaweed模型测试机会,将其与国内几家主流文生视频模型,进行了同一提示词下的生成效果对比,意外看到了豆包文生视频模型的一些新亮点。

一、复杂指令下,足够听话 

众所周知,拍摄电影时,导演会指导演员进行多个镜头的拍摄,然后剪辑成连贯的故事。如果一场戏的角色比较多,导演则需要统筹演员的站位、进场时间以及他们之间的对话、动作等。

只有这样,拍摄出来的画面,才会更加流畅。然而,对于当下的文生视频模型而言,大部分只能完成简单指令单一动作。比如只能生成单一的镜头,无法切换,人物动作也较为单一。

这样生成出来的效果,其实和照片差不多。但是在豆包视频生成模型的平台上,有了新的突破。

提示词:一群朋友在餐厅里聚餐,然后其中一人突然提出一个惊喜的计划。

豆包-Seaweed生成的视频中,涉及诸多人物的动作处理。可以发现每个人物的动作表达、面部表情都较为和谐,虽然一些细节有待优化,但整体上已经十分优异。可以实现多主体多动作的画面生成。

海螺AI在整体画面构图、和光的运用方面一如既往的出色。不过画面中的人物几乎都出现了或多或少的畸变。

可灵AI生成视频,总体来看人的动作较为简单,画面也缺乏一些真实性。

能看到,通义万相人物动作较为简单,真实性、自然流畅性相对较弱。

总体来看,豆包视频生成模型还是十分“听话”的,可以遵从复杂的复杂prompt,解锁时序性多拍动作指令与多个主体间的交互能力,指哪儿打哪儿,打开想象力的大门。

二、推拉摇移跟

画面依旧稳定、一致

豆包文生视频模型,还有一个比较特殊的点,即它生成的视频画面整体的故事性很强。

提示词:男子从明亮的室外走进昏暗的室内,镜头切换要自然,光线变化要平滑。

可以发现,在提示词描述的文本之外,其对于周围环境以及画面的细节衔接和过渡很自然。这本身对应的是模型强力的泛化能力。

例如从下面这组提示词生成的画面来看,豆包生成的视频相对更有画面感、更连贯。

提示词:一名女子奔跑在阴暗潮湿的街道上

画面中地面的石板路,路边的房屋,以及奔跑的女人,在运动逻辑、灯光、流畅度上,都表现的十分优异。

可灵生成画面中的女子的肢体发生了不规则的扭曲。

通义万相生成的视频,整体很不错,但在像地面这种细节的效果处理上,还需要进一步强化。

海螺AI有着通义万相一样的问题,仔细发现人物在奔跑时,路面的生成效果并不稳定,且人物和画面之间的衔接度并不自然。

从几组生成的视频不难看出,豆包文生视频模型,在运用镜头语言时,画面较为稳定,可以保证人物、氛围、环境的一致性,以及镜头的自然切换和运镜的自然。

比如基于豆包-Seaweed,我们可以身临其境的感受肌肉男选美现场。

还可以穿越森林,看到远处壮观的雪山。

可以发现,无论镜头怎么推进和切换,视频中的画面风格、人物、灯光、服饰等都依旧有着一致性。

另外一个更加炸裂的点,在于豆包视频生成模型还能实现主体动作和镜头的切换。这么说可能有点难懂,简而言之就是当画面中的人物在运动过程中,可以实现镜头自然切换。

正如下方豆包文生视频模型生成的视频,先是出现一个跟镜头,继而切换到以人为画面主体的跟镜头。

提示词:生成一段视频,要求镜头跟随主角在森林中探险,包括跳跃过溪流和攀爬岩石。

具体来看,生成的视频中,一个空境交代背景环境,切换到另一个以人物为画面主体的推镜头。这种镜头切换手法,也叫“镜头匹配剪辑”。利用了两个镜头中相似的动作或运动方向来平滑地过渡,从而减少视觉上的跳跃感。

这种技巧需要精心的拍摄和编辑,以确保动作的匹配和视觉的连贯性。

但是豆包的视频生成模型,做到了。

对比可灵AI的生成结果来看,画面中并未出现运镜和镜头切换的痕迹。

海螺AI基于这个提示词的生成效果其实各方面效果着实不错,但是在场景切换时,可以发现,其第一个镜头切换的同时,画面左方出现了一个分身,走出了画面,可见场景切换上还需要优化。

通义万相生成的效果,其实较为充分展现了其在语意理解上的优势,尤其是“跳跃过溪流和攀爬岩石”实现了语义一致性,但未实现多个场景、镜头上的切换,且人物流畅度和自然度也有可以优化的空间。

不得不承认的是,豆包视频生成模型确实是有两把刷子。

据官方介绍,这是因为豆包视频生成模型基于 DiT 架构,通过高效的DiT融合计算单元,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。其全新设计的扩散模型训练方法攻克了多镜头切换的一致性难题,在镜头切换时可同时保持主体、风格、氛围的一致性。

这是豆包视频生成模型独树一帜的技术创新。

三、大场景描绘

光影、镜头、构图美学拉满

在文生视频领域,大场景的生成,由于涉及的元素过度,往往是最容易出现问题的。而经过我们测试,豆包的文生视频模型,也非常不错。

从下面豆包、可灵AI、通义万相以及海螺AI(MiniMax文生视频平台)生成效果对比来看。豆包生成的视频,不仅画面构图、色调十分优异,甚至把清晨湖面的雾气也刻画了出来。

不知道的,还以为是在看《动物世界》。

提示词:清晨,第一缕阳光穿透薄雾,照亮了宁静的森林。一只小鹿在溪边饮水,水波荡漾,反射出金色的光辉。

可灵AI在色调和构图上也可圈可点,但细看鹿的动作连贯性和真实性,就显得有些不足。

通义万相整体观感也不错,语义理解能力较强,例如“反射出金色的光辉”这细节,通义万相刻画的最好,但有点缺乏真实性,更像是动画。

海螺AI的画面,在写实能力上较强。但由于角度和构图的问题,整体来看,主体的灵活性较差,对文本的理解力不足,此外也缺乏一些美感。

其实,豆包视频生成模型,经过剪映、即梦AI等业务场景打磨和持续迭代,在专业级光影布局和色彩调和积累了大量的数据和技术经验,画面视觉呈现上面,可谓是实现了延续,使得豆包处理这种大场景时,既能刻画细节,又极具美感和真实感。

   图示:各家视频生成效果表现汇总 

四、各种风格、尺寸,都Hold的住

根据介绍能看到,豆包视频生成模型采用的是Transformer深度学习模型的架构,并且进行了优化。这种架构,可以使模型更加强大,泛化能力也会更强。从风格来看,其可以生成3D动画、2D动画、国画、黑白、厚涂等多种不同的艺术风格的视频。

此外,生成的视频可以适应不同设备的屏幕尺寸,包含1:1,3:4,4:3,16:9,9:16,21:9五个比例。无论是电影大屏幕、电视、电脑还是手机,都能观看。

这些视频目前可以被用于电商营销(如产品展示视频)、动画教育(如教学动画)、城市文旅(如旅游宣传视频)、微剧本(如短视频故事)等多种商业用途。

除了商业用途,豆包还能帮助专业的视频创作者和艺术家们在创作过程中节省时间,提供灵感,或者完成一些复杂的视频制作任务。

写在最后‍

最后对豆包的文生视频进行一个总结。

首先它是一个语义大师。它不仅听得懂你的指令,还能理解背后的深层含义,让视频里的每个动作都恰到好处。

还是一个镜头切换高手。在切换镜头时,它能保证故事的流畅和一致性,就像一个无缝连接的叙事大师。

更是一个动态捕捉专家。无论是快速的动作还是炫酷的镜头移动,它都能捕捉得生动活泼,让你仿佛置身于真实世界。

也可以是一个视觉艺术家:它创造的视频不仅清晰逼真,还具有专业的色彩和光影,支持多种风格和尺寸,让你的视觉体验丰富多彩。

比较贴切的表述是,豆包的视频模型这次的升级,已然将国内AI视频的美学境界拔高了一个档次,让AI视频也开始变得更加实用了。

在文章的最后,想要强调的一点是,文中所提到的生成的视频都是基于豆包视频生成模型S 2.0的非会员版本。目前,具备更强多主体互动、多镜头切换一致性能力的豆包视频生成模型-PixelDance,正在紧锣密鼓的内测上线中,或许能给大家带来更多惊喜。

豆包,多少是有点不露锋芒,闷声干大事了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2170482.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

必收藏,售后客服日常回复必备的话术 (精华版)

在售后客服工作中,使用恰当的话术对客户进行回复至关重要。本文精选了售后客服日常工作中必备的精华话术,旨在帮助客服人员提升回复效率和服务质量。其中包括客户投诉处理、问题解决、礼貌用语等多个方面的话术内容。 前言 在售后客服工作中&#xff0c…

Flux【lora模型】【禅意插画】:画风清新唯美,充满禅意韵味的插画模型:Zenpainting l 禅意插画

大家好我是安琪!!! 今天和大家推荐一款基于Flux训练的禅意插画风格的lora模型:Zenpainting l 禅意插画**。**此Lora模型可生成富禅意韵味的艺术插画,画风清新唯美,充满艺术意境。 提示词:Zen painting il…

URI和URL的区别

1: 将 URI 转换为 URL import java.net.URI; import java.net.URL;public class UriToUrlExample {public static void main(String[] args) {// 创建一个 URI 对象URI uri = new URI("http://example.com/path/to/resource");// 将 URI 转换为 URLtry {URL url = u…

C++:模板(1)

目录 实现泛型的交换函数 函数模板 1.概念 2.格式 3.原理 4.函数模板实例化 5.函数模板参数的匹配原则 类模板 1.定义格式 2.实例化 3.声明与定义问题 实现泛型的交换函数 我们实现一个对所有类型都通用的交换函数,可以用函数重载来实现。 void Swap(in…

Map和Set,TreeMap和TreeSet,HashMap和HashSet

文章目录 TreeSet和TreeMap二叉搜索树模拟TreeMAp定义 基本操作插入查找删除(难点)遍历性能分析应用场景 Map&&Set模型 HashMap常用方法 HashSet常用方法HashMap和HashSet区别数据结构不同元素类型不同方法不同使用场景不同 TreeSet和TreeMap 定义: TreeSe…

个人健康档案管理系统

基于springbootvue实现的个人健康档案管理系统(源码L文ppt)4-076 4.1 系统功能结构设计 根据对个人健康档案管理系统的具体需求分析,把系统可以划分为几个不同的功能模块:管理员可以对系统首页、用户管理、健康体检管理、疫…

智能密码、指纹锁语音芯片ic方案 可存放40s语音内容 NVD语音芯片

随着科技的飞速发展,智能家居安全领域迎来了前所未有的变革。智能密码与指纹锁作为现代家庭安全防护的重要一环,其背后的语音芯片IC开发更是这一变革中的关键技术突破。 智能密码、指纹锁语音芯片ic方案 选型与简介: NVD语音芯片是一款低成…

基于JAVA+SpringBoot+Vue的疫苗发布和接种预约系统

基于JAVASpringBootVue的疫苗发布和接种预约系统 前言 ✌全网粉丝20W,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末附源码下载链接&#x1f3…

AlmaLinux 安裝JDK8

在 AlmaLinux 上安装 JDK 8 可以通过包管理器 dnf 来完成。AlmaLinux 是基于 RHEL 的一个开源发行版,因此其包管理系统和 RHEL 类似。以下是详细的步骤来安装 OpenJDK 8 1. 更新系统包列表 sudo dnf update -y 2. 安装 OpenJDK 8 使用 dnf 安装 OpenJDK 8。你可…

【Python-tkinter】实现简单的文本编辑器(附带教程源码)

如果你也是刚入门的小伙伴呢,小编为你们准备了入门Python学习籽料和Python入门实践,点击领取(无偿获得) 利用tkinter实现简单的文本编辑器。创建一个简单的文本编辑器。可以用读文件的方式在一个文本域里显示一些文字供用户编辑…

大模型分布式训练并行技术(七)-自动并行

近年来,随着Transformer、MOE架构的提出,使得深度学习模型轻松突破上万亿规模参数,传统的单机单卡模式已经无法满足超大模型进行训练的要求。因此,我们需要基于单机多卡、甚至是多机多卡进行分布式大模型的训练。 而利用AI集群&a…

5--苍穹外卖-SpringBoot项目中菜品管理 详解(一)

目录 公共字段自动填充 问题分析 实现思路 代码开发 步骤一 步骤二 功能测试 新增菜品 需求分析和设计 代码开发 文件上传接口 功能测试 1--苍穹外卖-SpringBoot项目介绍及环境搭建 详解-CSDN博客 2--苍穹外卖-SpringBoot项目中员工管理 详解(一&#…

医疗器械库存管理软件 符合gsp要求

软件介绍: 盘谷医疗器械进销存管理软件契合医疗器械行业特点,符合gsp要求,专为一二三类医疗器械经营企业开发的医疗器械进销存、质量验收、GSP管理、UDI扫码识别、财务管理一体化经营管理系统,符合药监新版医疗器械经营质量管理规…

C++在线开发环境搭建(WEBIDE)

C在线开发环境搭建 一、环境说明1.1 系统基础环境说明1.1 docker-ce社区版安装 二、codeserver构建2.1 构建codeserver环境的docker容器2.2 构建docker镜像2.3 运行docker2.4 运行展示 三、构建codeserver中的c开发环境3.1 插件下载3.2 插件安装 四、其他知识4.2 code-server配…

vue仿chatGpt的AI聊天功能--大模型通义千问(阿里云)

vue仿chatGpt的AI聊天功能–大模型通义千问(阿里云) 通义千问是由阿里云自主研发的大语言模型,用于理解和分析用户输入的自然语言。 1. 创建API-KEY并配置环境变量 打开通义千问网站进行登录,登陆之后创建api-key,右…

20个数字经济创新发展试验区建设案例【2024年发布】

数据简介:国家数字经济创新发展试验区的建设是一项重要的国家战略,旨在推动数字经济与实体经济的深度融合,促进经济高质量发展。自2019年10月启动以来,包括河北省(雄安新区)、浙江省、福建省、广东省、重庆…

【java】前端RSA加密后端解密

目录 1. 说明2. 前端示例3. 后端示例3.1 pom依赖3.2 后端结构图3.3 DecryptHttpInputMessage3.4 ApiCryptoProperties3.5 TestController3.6 ApiCryptoUtil3.7 ApiDecryptParamResolver3.8 ApiDecryptRequestBodyAdvice3.9 ApiDecryptRsa3.10 ApiCryptoProperties3.11 KeyPair3…

一天面了8个Java后端,他们竟然还在背5年前的八股文!

今天面了8个Java候选人,在面试中我发现他们还停留在面试背八股文的阶段,5年前面试背八股文没问题,随着市场竞争越来越激烈,再问普通的Java八股文已经没有意义了,因为考察不出来获选人的真实实力! 现在面试…

VIGOSERVO帝人伺服驱动器维修ARN135-F ARS135-25

帝人VIGOSERVO驱动器维修TEIJIN SEIKI伺服驱动器全系列型号修理。 关于VIGOSERVO伺服驱动器维修的相关内容,可以归纳为以下几个方面: 一、维修概述 VIGOSERVO伺服驱动器作为自动化设备组件,多应用于工业机器人、数控加工等高精度传动系统中…

【大数据】大数据运维方案浅析总结

1. 引言 在大数据时代,如何高效管理和维护大规模数据平台,成为许多企业面临的重要挑战。本文将对市面上一些流行的大数据运维管理方案进行全面分析,包括Cloudera的CDH和CDP、Hortonworks的HDP、Apache的Ambari、国产开源平台Datasophon&#…