FancyVideo环境搭建推理

news2024/11/13 9:30:21

引子

很少关注360开源的代码,最近360AI团队开源了最新视频模型FancyVideo,据说RTX3090可跑。可以在消费级显卡 (如 GeForce RTX 3090) 上生成任意分辨率、任意宽高比、不同风格、不同运动幅度的视频,其衍生模型还能够完成视频扩展、视频回溯的功能,一种基于 UNet 架构的视频生成模型。OK,让我们开始吧

一、模型介绍

作者在进行视频生成研究过程中,发现现有的文本到视频(T2V)工作通常会采用空间交叉注意力(Spatial Cross Attention),将文本等价地引导至不同帧的生成过程中,缺乏对不同帧灵活性的文本引导(如下图左)。这会导致模型理解提示词所传达的时间逻辑和生成具有连续运动视频的能力受到限制。FancyVideo 正是从这一角度切入,特殊设计了跨帧文本引导模块(Cross-frame Textual Guidance Module, CTGM, 如下图右)改进了现有文本控制机制。

具体来说,CTGM 包含 3 个子模块:

(1)时序信息注入器(Temporal Information Injector, TII)-- 将来自潜在特征的帧特定信息注入文本条件中,从而获得跨帧文本条件;

(2)时序特征提取器(Temporal Affinity Refiner, TAR)-- 沿时间维度细化跨帧文本条件与潜在特征之间的相关矩阵;

(3)时序特征增强器(Temporal Feature Booster, TFB)-- 增强了潜在特征的时间一致性。

二、环境搭建

模型下载

https://huggingface.co/qihoo360/FancyVideo/tree/main

https://huggingface.co/runwayml/stable-diffusion-v1-5/tree/main

目录结构如下:

📦 resouces/

├── 📂 models/

│ └── 📂 fancyvideo_ckpts/

│ └── 📂 CV-VAE/

│ └── 📂 res-adapter/

│ └── 📂 LongCLIP-L/

│ └── 📂 sd_v1-5_base_models/

│ └── 📂 stable-diffusion-v1-5/

├── 📂 demos/

│ └── 📂 reference_images/

│ └── 📂 test_prompts/

代码下载

git clone https://github.com/360CVGroup/FancyVideo.git

环境安装

docker run --rm -it -v /datas/work/zzq/:/workspace --gpus=all pytorch/2.2.2-cuda12.1-cudnn8-devel bash

cd /workspace/FancyVedio/FancyVideo-main

修改requirements.txt包版本

pip install -r requirements.txt -i Simple Index

三、推理测试

1、图生视频

CUDA_VISIBLE_DEVICES=0 PYTHONPATH=./ python scripts/demo.py --config configs/inference/i2v.yaml

2、文生视频

CUDA_VISIBLE_DEVICES=0 PYTHONPATH=./ python scripts/demo.py --config configs/inference/t2v_pixars.yaml

结果如下:

t2v

i2v

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2118705.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

springboot+vue+mybatis计算机毕业设计网上购物系统+PPT+论文+讲解+售后

本文首先实现了网上购物系统设计与实现管理技术的发展随后依照传统的软件开发流程,最先为系统挑选适用的言语和软件开发平台,依据需求分析开展控制模块制做和数据库查询构造设计,随后依据系统整体功能模块的设计,制作系统的功能模…

《JavaEE进阶》----13.<Spring Boot【配置文件】>

本篇博客讲解 1.SpringBoot配置文件的格式以及对应的语法 2.了解两个配置文件格式的差异、优缺点。 我们这里只做简单的介绍。看会,了解,学会读取就行了。 因为配置文件实在太多了,这里只做基础的介绍。 一、配置文件的作用 前言 计算机中有许…

E5053A 微波下变频器

_XLT新利通_ E5053A 微波下变频器 E5052B SSA 专用的微波下变频器 Keysight E5053A 是一款与 E5052B 信号源分析仪(SSA)相关的微波下变频器。 如果您需要设计和测试微波或毫米波频率的信号源,E5053A 支持您扩展该分析仪的频率范围。 从…

阿卡迈 Akamai 逆向分析2

在Lzo这个url中点击第一个 进入以后有个HPH是我们需要破解的参数 我们搜索所有的HPH 大概有10个地方,我们需要全部打上断点(部分HPH用不到) 大约这5个地方的HPH需要破解 第一步 清除cookie f5进行刷新 需要破解K1H, 58位的数组其中下标 1 3 15 25 53需…

C# winforms 窗口延迟初始化 splash 定时器

初级代码游戏的专栏介绍与文章目录-CSDN博客 我的github:codetoys,所有代码都将会位于ctfc库中。已经放入库中我会指出在库中的位置。 这些代码大部分以Linux为目标但部分代码是纯C的,可以在任何平台上使用。 源码指引:github源…

微课录制技巧|高效录制微课的方法,如何高效录制微课?

在教育领域,微课作为一种新兴的教学方式,越来越受到教师和学生的欢迎。本文将为您详细介绍如何高效录制微课,以及如何利用各种资源来提升备课和教学的质量。 微课录制技巧: 录制前的准备 在开始录制前,确保您已经明确…

客服知识库与员工培训:打造专业客服团队的秘密武器

在竞争激烈的商业环境中,优质的客户服务已成为企业脱颖而出的关键要素之一。而构建一个高效、专业的客服团队,则离不开一个全面、精准的客服知识库。客服知识库不仅是信息的宝库,更是员工培训与技能提升的秘密武器,它在新员工入职…

Adobe Illustrator非矢量图片的交集利用剪切蒙版实现

AI不支持对于非矢量图片的交集处理,但是可以通过剪切蒙版类似地实现需求。 如下图,字母F是一张PNG图片,为位图文件(非矢量)。 现在我需要将这种图片与黑色的矩形求交: 将两个目标全部选中,鼠标…

AI 浪潮中的一体化数据库|外滩大会之OceanBase实录

2024 年 9 月 5 日至 7 日,在上海黄浦世博园区,“2024 Inclusion 外滩大会”盛大举行。期间,9月6日,由OceanBase携手赛迪顾问共同策划并主办了 “AI浪潮中的分布式数据库:探索行业增长新动能与关键业务负载实践”。本…

优橙240419期就业榜来啦!就业班平均就业薪资8,333.3元!梦想不会发光,发光的是追梦的你!

有多坚定的信念,就有多勇毅的行动,就能开辟多光明的未来。时隔3个月,优橙240419就业喜报已送达! 就业班平均就业薪资8,333.3元,就业学员即将奔赴祖国各地。 行百里者半九十。人类的美好理想,都不可能唾手而…

构建Web3社交平台:DeBox式DApp开发全攻略

要仿照DeBox构建一款Web3社交平台系统,首先需要理解DeBox的核心功能和技术架构,并根据自己的目标和用户需求进行调整和创新。以下是一个基本的开发步骤指南,帮助你从概念到实践,逐步构建一个类似的Web3社交平台。 1. 明确项目目标…

vue3 +百度地图 实现 地点检索,输入联想,经纬度,逆地理编码,创建标记,label等

由于百度地图文档确实有点欠缺,在这里记录一下 vue3 百度地图(js api 3.0)实现效果如下实现方式注意事项 vue3 百度地图(js api 3.0) 需求: 地图弹框组件,可以搜索地图点,输入联想…

算法-双指针技巧

文章目录 算法概述奇偶数字归位寻找重复数字接雨水救生艇问题 算法概述 设置两个指针的技巧,其实这种说法很宽泛,似乎没什么可总结的 有时候所谓的双指针技巧,就单纯是代码过程用双指针的形式表达出来而已。 没有单调性(贪心)方面的考虑有时…

基于Python的网络编程

现代的应用程序都离不开网络,网络编程是非常重要的技术。Python提供了两个不同层次的网络编程API:基于Socket的低层次网络编程和基于URL的高层次网络编程。Sockrt采用TCP、UDP等协议,这些协议属于低层次的通信协议;URL采用HTTP和H…

4G工业路由器:SR700的智能连接解决方案

在现代工业环境中,网络连接的稳定性和速度是确保生产效率和数据安全的关键。SR700 4G工业路由器凭借其卓越的性能和多样的功能,成为了工业自动化和物联网应用中的理想选择。本文将详细介绍SR700的产品特点,并结合一个真实的项目案例&#xff…

网络传输的基本流程

目录 0.前言 1.TCP/IP四层协议模型的认识 2.数据传输的大致流程 3.局域网通信的原理 4.同一网段下两台主机之间的通信 5.不同网段下两台主机之间的通信 0.前言 不知道你有没有这样的疑问,为什么不同的设备之间能够进行数据的发送和接收?不同的通信…

小米嵌入式面试题目RTOS面试题目 嵌入式面试题目

第一章-非RTOS bootloader工作流程 MCU启动流程 通信协议,SPI IIC MCU怎么选型,STM32F1和F4有什么区别 外部RAM和内部RAM区别,怎么分配 外部总线和内部总线区别 MCU上的固件,数据是怎么分配的 MCU启动流程 IAP是怎么升级的…

​​MEPA(Maximum Efficiency Per Ampere)控制

一.控制目的 与MTPA控制相比,没有忽略电机的铁耗,以电能损耗最小为目的优化电流。 分析思路与MTPA控制类似,在此省略。 二. 推导过程

【前端】读取csv文件,将数据转换为对象。spilce与slice的区别

一. 解决思路 解决思路:将csv文件的第一行作为key,后续的每一行作为value存入对象数组。 二. 代码写法 2 .1 JS写法 2.1.1 数组.map(function(item, index,arr){}) Item: 这个表示的是每一项对应的索引。 index: 这个表示的是每一项对应的索引。 a…

LTE PSS主同步信号PSS搜索阶段频偏估计

频偏的影响: 本期要讲到PSS搜索阶段,整数倍频偏和小数倍频偏的估计方法,整数倍频偏指的是子载波间隔的整数倍比如15k、30k等,小数倍频偏指的是一个子载波间隔以内的。在OFDM通信系统中,频偏是一个比较敏感的词,正常如果频偏估不准会带来一系列的问题,比如OFDM信号的正交…