文生视频开源产品的一些调研（一）

news2026/2/11 16:19:17

笔者尝试AI视频生成的几个特点：

玄学prompt，每个视频的prompt可能也需要微调很多次，需要找到使用模型的最佳prompt词组合，不恰当的比喻，骑自行车，座位高度等都是人与车彼此熟悉
玄学生成，因为需要连贯，你可能需要生成无数个视频，99%可能都是一坨屎，各种垮脸的关键帧，需要失败很多次，才有那么个能看的，所以按照这个原理，买在线平台比较不划算，因为每次生成都是计费的

如果要生成比较合理的长视频：

合理的拆解分镜
每个分镜要有适配模型的prompt，包括背景描述

几个可以同时支持图+文共同输入的模型：

即梦
lumalabs.AI

1 产品调研

AIGC产品列表可见：[AI视频生成]

1.1 快手：可灵

https://kling.kuaishou.com/

没有申请到测试账户，生成短视频一般5s左右，示例视频的动作还蛮丰富

在这里插入图片描述
号称可以支持长视频：

1.2 lumalabs.AI

https://lumalabs.ai/dream-machine/creations

120 秒生成 120 帧，视频模型 Dream Machine

在这里插入图片描述

Dream Machine 可在 120 秒生成 120 帧，目前单个视频最长为 5 秒；生成的视频具有逼真的流畅运动、电影摄影和戏剧效果；还可以匹配摄像机运动，创造出“惊艳”的画面。
Luma AI 也提到了目前模型存在的问题，比如切换视角时汽车会变形，狗的运动没有用到爪子，显示文字会有问题（将 Luma 显示成 Lumma），北极熊在转身时出现了两个头（Janus 是罗马人的门神，具有前后两个面孔），官方表示他们仍将继续优化模型。

1.3 即梦 - 剪映旗下

https://jimeng.jianying.com/ai-tool/home
在这里插入图片描述

有一些比较视觉的功能，比如运镜控制，还有首帧，尾帧的图片的上传可以固定首尾情况
但是整体5S中，可以连贯的剧情可能比较简单，
笔者体验下来可能仅仅实现的是图像动起来

生成的内容也会有变形，所以需要生成很多次才可以。

在这里插入图片描述

1.4 科大讯飞-星火绘镜

https://typemovie.art/#/dashboard
在这里插入图片描述

笔者猜测底层可能是【Stable Video Diffusion】，使用的某个Lora都是高清现代人物，比较亮眼的长视频的分镜处理
第一步：给入主题大纲生成分幕剧情
在这里插入图片描述

第二步：根据每一个分镜描述，生成分镜首图，然后后续会根据这些首页图再次生成
咋说呢，首图看着确实很亮眼，但是后续生成的视频，简直不能看，胆小慎入…
反正不能人样…
在这里插入图片描述

1.5 魔搭MotionAgent

https://modelscope.cn/studios/iic/MotionAgent/summary

MotionAgent是一个能将用户创造的剧本生成视频的深度学习模型工具。用户通过我们提供的工具组合，进行剧本创作、剧照生成、图片/视频生成、背景音乐谱写等工作。

是一个比较完整的项目了，包括剧本，音乐生成，就是缺了一个分镜就更好了
比较适合自己搭服务器玩

在这里插入图片描述

1.6 CogVideo

https://segmentfault.com/a/1190000044809082
https://models.aminer.cn/cogvideo/
只有4s，可以免费试用的相对固定

在这里插入图片描述

1.7 runwayml

https://runwayml.com/?ref=magicspace.agency

在这里插入图片描述

1.8 Stable Video

Stable Video是由著名的Stability AI推出的在线AI视频生成工具，目前拥有最强大的AI绘画模型之一，Stable Diffusion。它提供文本生成视频和图像生成视频两种模式，每天还可获得积分，免费生成多达十几个视频。
网址 https://www.stablevideo.com/

测试下来，本质就是让图动起来，差了点意思，剧情感不强

在这里插入图片描述