文生视频开源产品的一些调研(一)

news2024/11/26 8:23:51

笔者尝试AI视频生成的几个特点:

  • 玄学prompt,每个视频的prompt可能也需要微调很多次,需要找到使用模型的最佳prompt词组合,不恰当的比喻,骑自行车,座位高度等都是人与车彼此熟悉
  • 玄学生成,因为需要连贯,你可能需要生成无数个视频,99%可能都是一坨屎,各种垮脸的关键帧,需要失败很多次,才有那么个能看的,所以按照这个原理,买在线平台比较不划算,因为每次生成都是计费的

如果要生成比较合理的长视频:

  • 合理的拆解分镜
  • 每个分镜要有适配模型的prompt,包括背景描述

几个可以同时支持图+文共同输入的模型:

  • 即梦
  • lumalabs.AI

1 产品调研

AIGC产品列表可见:[AI视频生成]

1.1 快手:可灵

https://kling.kuaishou.com/

没有申请到测试账户,生成短视频一般5s左右,示例视频的动作还蛮丰富

在这里插入图片描述
号称可以支持长视频:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.2 lumalabs.AI

https://lumalabs.ai/dream-machine/creations

120 秒生成 120 帧,视频模型 Dream Machine

在这里插入图片描述

Dream Machine 可在 120 秒生成 120 帧,目前单个视频最长为 5 秒;生成的视频具有逼真的流畅运动、电影摄影和戏剧效果;还可以匹配摄像机运动,创造出“惊艳”的画面。
Luma AI 也提到了目前模型存在的问题,比如切换视角时汽车会变形,狗的运动没有用到爪子,显示文字会有问题(将 Luma 显示成 Lumma),北极熊在转身时出现了两个头(Janus 是罗马人的门神,具有前后两个面孔),官方表示他们仍将继续优化模型。

1.3 即梦 - 剪映旗下

https://jimeng.jianying.com/ai-tool/home
在这里插入图片描述

有一些比较视觉的功能,比如运镜控制,还有首帧,尾帧的图片的上传可以固定首尾情况
但是整体5S中,可以连贯的剧情可能比较简单,
笔者体验下来可能仅仅实现的是图像动起来

生成的内容也会有变形,所以需要生成很多次才可以。

在这里插入图片描述

1.4 科大讯飞-星火绘镜

https://typemovie.art/#/dashboard
在这里插入图片描述

笔者猜测底层可能是【Stable Video Diffusion】,使用的某个Lora都是高清现代人物,比较亮眼的长视频的分镜处理
第一步:给入主题大纲生成分幕剧情
在这里插入图片描述
在这里插入图片描述

第二步:根据每一个分镜描述,生成分镜首图,然后后续会根据这些首页图再次生成
咋说呢,首图看着确实很亮眼,但是后续生成的视频,简直不能看,胆小慎入…
反正不能人样…
在这里插入图片描述

1.5 魔搭MotionAgent

https://modelscope.cn/studios/iic/MotionAgent/summary

MotionAgent是一个能将用户创造的剧本生成视频的深度学习模型工具。用户通过我们提供的工具组合,进行剧本创作、剧照生成、图片/视频生成、背景音乐谱写等工作。

是一个比较完整的项目了,包括剧本,音乐生成,就是缺了一个分镜就更好了
比较适合自己搭服务器玩

在这里插入图片描述

1.6 CogVideo

https://segmentfault.com/a/1190000044809082
https://models.aminer.cn/cogvideo/
只有4s,可以免费试用的相对固定

在这里插入图片描述

1.7 runwayml

https://runwayml.com/?ref=magicspace.agency

在这里插入图片描述

1.8 Stable Video

Stable Video是由著名的Stability AI推出的在线AI视频生成工具,目前拥有最强大的AI绘画模型之一,Stable Diffusion。它提供文本生成视频和图像生成视频两种模式,每天还可获得积分,免费生成多达十几个视频。
网址 https://www.stablevideo.com/

测试下来,本质就是让图动起来,差了点意思,剧情感不强

在这里插入图片描述

1.9 Lumen5

Lumen5能够将长篇文章、博客等文本内容转化为视频,并提供丰富的视频模板供选择。用户可以对制作过程进行微调,添加素材等,享有高度自由度。
网址https://lumen5.com/

在这里插入图片描述

1.10 腾讯智影 - 数字人创作

腾讯智影是一款集成了AI数字人物、AI文字转语音(TTS)、文章转视频等功能的智能创作工具。用户可以选择多种AI数字人物,并进行细节控制,如动作、服装等。
网址 https://zenvideo.qq.com/

1.11 即创 - 电商商品生成

即创是字节跳动专为抖音生态而推出的AI创作平台,能够通过AI快速生成文案、带货视频、直播以及商品宣传图等内容。同时也提供AI数字人功能。
用户可以通过抖音精选联盟的商品ID,在即创中一键生成爆款内容,非常适合从事抖音带货的用户。
官网 https://aic.oceanengine.com

1.12 一帧秒创

https://aigc.yizhentv.com/product/aiVideo

拆分剧本,但是视频都是哪个影视剧的小片段裁剪的,不是合成的

在这里插入图片描述

1.13 domoAI - 视频转动漫

官方 Discord 链接: https://discord.gg/domoai

DomoAI 的服务目前托管 Discord 上的,可以将真人视频转化为动漫、3D、像素、彩色插画、中国水墨画等多种风格。下面是官方展示的真人视频转动漫视频的效果,非常稳定丝滑。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1833741.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ubuntu与RedHat Linux的不同

部署Ubuntu 安装在服务器上的系统一般追求极致的稳定,所以安装系统时为了避免潜在的问题,所以选的时候应该往后推选几个版本 首先因为现在使用的电脑是MacBook,还是最新的Mac所以在部署的时候要注意其安装的支持芯片架构(最新的…

Gitlab SSH无法连接但是HTTP可以连接

项目场景: Gitlab在docker中布置好之后测试,发现SSH无法连接但是HTTP可以连接 提示:这是一个无效的源路径 问题描述 http可以识别为git项目,而ssh无法识别成git项目。 原因分析: 三种猜想 端口号被占用 尝试查看…

UE5开发游戏Tutorial

文章目录 PlayerStart 初始化设置默认 LevelBP_Character 初始化BP_Character 添加动画BP_Character 攻击BP_Enemy 初始化 以及 AI 运动Camera Collision 相机碰撞BP_Character 生命以及伤害Wave Spawner 波生成UI 初始化以及 Damage Screen指定位置随机生成添加声音环境 Envir…

Apache Doris 全新分区策略 Auto Partition 应用场景与功能详解 | Deep Dive系列

编辑:SelectDB 技术团队 在当今数据驱动的时代,如何高效、有序地管理数据库中的海量数据成为挑战。为了处理庞大的数据集,分布式数据库引入了类似分区和分桶策略,通过将数据按特定规则划分成较小的单位并分布到不同节点上&#x…

Azure创建虚拟机

Azure创建虚拟机 一、创建步骤(1)登录到Azure portal(2)启动新实例(3)填写必要信息选择系统镜像(4)选择实例类型(5)配置管理员帐户和入站端口规则(6) 磁盘:保持默认(7) 网络:保持默认(8) 管理:保持默认(9) Monitoring:Boot diagnostics选择Disable(10) 最后直接点击查看 + …

2024年第三届数据统计与分析竞赛(A题)数学建模完整思路+完整代码全解全析

本次A题主要涉及正态分布、数据处理、自然语言处理等知识点 问题一题目重述:根据附件中抖音用户的评论数据,对抖音 APP 的“评分”和“点赞数”进行数据统计与分析,并使用假设检验判断这两个指标的分布是否服从正态分布。 接下来对问题一进…

深度学习工具jupyter的new没有环境选项以及遇到的EnvironmentLocationNotFound:Not such a environment

jupyter安装使用 安装完Anaconda(安装Anaconda具体请参考其他教程)后,一般默认有安装jupyter打开 注意当前是base环境,后期使用jupyter需要切换环境 我们找到文件地址。用记事本打开 可以搜索:c.NotebookApp.noteb…

redis持久化方式—AOF

redis为什么需要持久化 redis是内存数据库,redis所有的数据都保存在内存中 如果此时pc关机或重启,那么内存中的用户数据岂不是丢失了?redis这么不安全吗? 作为数据库,保证数据的安全,持久是基本需求&…

RERCS系统开发实战案例-Part05 FPM Application的Feeder Class搜索组件的实施

1、通过事务码 SE24对Feeder Class实施 1)接口页签的简单说明: ① IF_FPM_GUIBB:通用UI构建块,整个UIBB模块的基础接口; ② IF_FPM_GUIBB_SEARCH:通用搜索UI构建块,搜索组件UIBB的基础接口&…

操作系统入门 -- CPU调度算法

操作系统入门 – CPU调度算法 在了解完进程和线程的概念后,我们就需要了解当一个进程就绪后系统会进行怎样的资源分配并运行进程,因此我们就需要了解CPU的调度算法 1.CPU调度 1.1概念 CPU调度即按照某种算法将CPU资源分配给某个就绪的进程。 1.2调度…

外链是否会增加流量?

外链确实可以间接地帮助增加网站流量,不过要了解的是这不是直接影响,首先,外链主要是提升你的网站在搜索引擎中的整体权重。简单地说,当你的网站被很多其他的网站通过dofollow链接指向时,搜索引擎会认为你的网站内容质…

TCP三次握手和四次挥手过程简介(抓包分析,简单易懂,小白)

接上篇 传输层部分 链路层、网络层、传输层和应用层协议详解分析-CSDN博客文章浏览阅读689次,点赞10次,收藏15次。wireshark抓包分析-CSDN博客wireshark是网络包分析工具网络包分析工具的主要作用是尝试捕获网络包,并尝试显示包的尽可能详细…

SQL Server数据库安装

原文:https://blog.c12th.cn/archives/26.html SQL Server数据库安装 测试:笔记本原装操作系统:Windows 10 家庭中文版 资源分享链接:提取码:qbt2 注意事项: 请严格按照步骤安装,SQL软件安装较…

单片机 PWM输入捕获【学习记录】

前言 学习是永无止境的,就算之前学过的东西再次学习一遍也能狗学习到很多东西,输入捕获很早之前就用过了,但是仅仅是照搬例程没有去进行理解。温故而知新! 定时器 定时器简介 定时器的分类 高级定时器 通用定时器 基本定时器…

用TensorRT-LLM进行LLama的推理和部署

Deploy an AI Coding Assistant with NVIDIA TensorRT-LLM and NVIDIA Triton | NVIDIA Technical BlogQuick Start Guide — tensorrt_llm documentation (nvidia.github.io) 使用TensorRT-LLM的源码,来下载docker并在docker里编译TensorRT-LLM; 模型…

LabVIEW回热系统热经济性分析及故障诊断

开发了一种利用LabVIEW软件的电厂回热系统热经济性分析和故障诊断系统。该系统针对火电厂回热加热器进行优化,通过实时数据监控与分析,有效提高机组的经济性和安全性,同时降低能耗和维护成本。系统的实施大幅提升了火电厂运行的效率和可靠性&…

【调试笔记-20240617-Linux- frp 结合 nginx 实现内网网站在公网发布】

调试笔记-系列文章目录 调试笔记-20240617-Linux- frp 结合 nginx 实现内网网站在公网发布 文章目录 调试笔记-系列文章目录调试笔记-20240617-Linux- frp 结合 nginx 实现内网网站在公网发布 前言一、调试环境操作系统:Windows 10 专业版调试环境调试目标 二、调试…

CSS-0_2 CSS和继承(inherit initial)

文章目录 CSS的层叠和继承inheritinitial很多你以为的样式初始值,其实是用户代理样式 碎碎念 CSS的层叠和继承 在上一篇 CSS和层叠、样式优先级 里已经讲过了层叠和优先级之间的关系,但是在CSS中的层叠除了体现在争抢露脸机会的优先级之外,还…

HTML/CSS Xiaomi综合案例day 6.13-6.16

ok了家人们今天不做别的,今天浅做一个小米网站,话不多说看看怎么事 一.顶部 我们先看看代码 1,html 2,css代码 1.我们先消除浏览器自带的内外边距,添加一个总背景颜色为浅灰色,设置顶部盒子的大小&#x…

【电脑小白】装机从认识电脑部件开始

前言 在 B 站上刷到了一个很牛逼的电脑装机视频,很适合电脑小白学习,故用文本记录下。 推荐对组装台式电脑有兴趣的小伙伴都去看看这个视频: 原视频链接:【装机教程】全网最好的装机教程,没有之一_哔哩哔哩_bilibil…