FollowYourPose - 生成可编辑、姿态可控制的人物视频

news2024/9/28 13:56:26

文章目录

    • 关于 FollowYourPose
    • 摘要
    • 🍻🍻🍻设置环境
    • 💃💃💃培训
    • 🕺🕺🕺推理
    • 💃💃💃 本地 Gradio 演示
    • 🕺🕺🕺权重
    • 💃💃💃结果


关于 FollowYourPose

  • 主页:https://follow-your-pose.github.io/
  • github : https://github.com/mayuelala/FollowYourPose

摘要

生成文本可编辑、姿态可控制的人物视频是创造各种数字人的迫切需求。然而,这项任务受到了限制 由于缺乏具有配对视频姿势字幕和视频生成先验模型的综合数据集。

在这项工作中,我们设计了一种新的两阶段训练方案,可以利用容易获得的数据集(即图像姿态对和无姿态视频)和预训练的数据集 文本到图像(T2I)模型,以获得姿态可控的字符视频。

具体来说,在第一阶段,关键点-图像对仅用于可控制的文本-图像生成。我们学习了一个零初始化的卷积 对姿态信息进行编码的传统编码器。

在第二阶段,我们通过添加可学习的时间自注意和改革的跨帧自注意,通过无姿态视频数据集对上述网络的运动进行微调 块。

在我们的新设计的支持下,我们的方法成功地生成连续的姿势可控的角色视频,同时保持编辑和概念组成 预训练T2I模型的能力。代码和模型将公开提供。


🍻🍻🍻设置环境

我们的方法是使用cuda11、加速器和xformer在8a100上进行训练的。

conda create -n fupose python=3.8
conda activate fupose

pip install -r requirements.txt

为了节省内存和运行时间,A100 GPU推荐使用xformers

单击xformer安装

我们发现它的安装不稳定。你可以试试下面的轮子:

wget https://github.com/ShivamShrirao/xformers-wheels/releases/download/4c06c79/xformers-0.0.15.dev0+4c06c79.d20221201-cp38-cp38-linux_x86_64.whl
pip install xformers-0.0.15.dev0+4c06c79.d20221201-cp38-cp38-linux_x86_64.whl

我们的环境类似于Tune-A-video(官方的,非官方的)。你可以查看更多的细节。


💃💃💃培训

我们在8 A100上修复了Tune-a-video和微调稳定扩散-1.4中的错误。 要微调文本到图像的扩散模型,以生成文本到视频,请执行以下命令:

TORCH_DISTRIBUTED_DEBUG=DETAIL accelerate launch \
    --multi_gpu --num_processes=8 --gpu_ids '0,1,2,3,4,5,6,7' \
    train_followyourpose.py \
    --config="configs/pose_train.yaml" 

🕺🕺🕺推理

训练完成后,运行inference:

TORCH_DISTRIBUTED_DEBUG=DETAIL accelerate launch \
    --gpu_ids '0' \
    txt2video.py \
    --config="configs/pose_sample.yaml" \
    --skeleton_path="./pose_example/vis_ikun_pose2.mov"

你可以用mmpose来制作姿势视频,我们用HRNet来检测骨骼。你只需要运行视频演示来获得姿势视频。记得用黑色代替背景。


💃💃💃 本地 Gradio 演示

您可以在本地运行梯度演示,只需要一个 A100/3090

python app.py

那么演示在本地URL上运行: http://0.0.0.0:Port


🕺🕺🕺权重

[Stable Diffusion] Stable Diffusion 是一种潜在的文本到图像扩散模型,能够在给定任何文本输入的情况下生成逼真的图像。预训练的稳定扩散模型可以从拥抱脸下载(例如,稳定扩散v1-4)

我们还在Huggingface中提供了预训练的检查点。您可以下载它们并将它们放入 checkpoints 文件夹中来推断我们的模型。

FollowYourPose
├── checkpoints
│   ├── followyourpose_checkpoint-1000
│   │   ├──...
│   ├── stable-diffusion-v1-4
│   │   ├──...
│   └── pose_encoder.pth

💃💃💃结果

我们展示了关于各种姿势序列和文本提示的结果。

注意这个github页面中的mp4和gif文件是压缩的。 请查看我们的项目页面,获取原始视频结果的mp4文件。

在这里插入图片描述
在这里插入图片描述


2024-09-24 (二)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2173705.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

性能测试常见故障和解决思路详解

🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 一、性能问题分析流程 1、查看服务器的CPU、内存 、负载等情况,包括应用服务器和数据库服务器 2、查看数据库健康状态,数据库死锁、连…

监控易监测对象及指标之:全面监控Sybase_New数据库

随着企业数据量的不断增长和业务的复杂化,数据库的稳定性和性能成为了保障业务连续性的关键因素。Sybase_New数据库作为众多企业选择的数据管理解决方案,其稳定性和性能对于企业的运营至关重要。 为了确保Sybase_New数据库的稳定运行和高效性能&#xff…

在类外定义的运算符重载函数

对基本的数据类型,C提供了许多预定义的运算符,如,-,*,/,等,他们可以用一种简洁的方式工作,例如 运算符: int x, y, z; x 3; y 5; z x y; 这是将两个整数相加的方法…

急!现在转大模型还来得及吗?零基础入门到精通,收藏这一篇就够了

大模型的出现,让行内和行外大多数人都感到非常焦虑。 行外很多人想了解却感到无从下手,行内很多人苦于没有硬件条件无法尝试。想转大模型方向,相关的招聘虽然层出不穷,但一般都要求有大模型经验。而更多的人,则一直处…

指数级增长使Hugging Face上的人工智能模型达到100万个

本周四,人工智能托管平台Hugging Face的人工智能模型列表首次突破100 万个,这标志着快速扩张的机器学习领域的一个里程碑。 人工智能模型是一种计算机程序(通常使用神经网络),通过数据训练来执行特定任务或进行预测。 …

【算法】字符串相关

【ps】本篇有 4 道 leetcode OJ。 一、算法简介 字符串是一种数据结构,大多与别的算法结合在一起出题,例如模拟、高精度算法、双指针、dp、回溯等,因此这个专题的题型本身是特别丰富的。本篇选取了较为典型的字符串题型,除了涵盖一…

双端之Nginx+Php结合PostgreSQL搭建Wordpress

第一台虚拟机:安装 Nginx 更新系统包列表: sudo apt update安装 Nginx及php扩展: sudo apt install nginx php-fpm php-pgsql php-mysqli -y启动 Nginx 服务: sudo systemctl start nginx检查 Nginx 是否正常运行: xdg-open http://localhost注意:终端命令打开网址 …

【射频通信电子线路第六讲】射频信号与调制包括调幅和部分调频的内容

一、调制(Modulation)与解调(Demodulation) 1、相关概念 调制是指使一个信号(如光信号、高频电磁振荡等)的某些参数(振幅、频率和相位)按照另一个欲传输的信号的特点变化的过程。 …

Linux基础(二):磁盘分区

1.磁盘在Linux中的文件名 SATA接口的磁盘在Linux中名字为/dev/sdx。/dev 几乎是所有外接设备存放的文件夹: 磁盘在Linux中的文件名是不确定的,比如拿一个U盘插到Linux主机,可能第一次名字为sda,拔插后名字为sdc,这取…

新160个crackme - 067-CarLitoZ.1

运行分析 需要破解Code PE分析 VB程序,32位,无壳 静态分析&动态调试 使用VB Decompiler分析,发现注册模块需要满足var_18 var_ret_7var_18 abt.Label1.MousePointer 即输入框填入的信息var_ret_7 Mid(var_1C, 6, 1) Mid(var_20, 9, 1…

《Linux运维总结:使用 MongoDB工具备份和恢复mongodb 7.0.14分片集群(方案一)》

总结:整理不易,如果对你有帮助,可否点赞关注一下? 更多详细内容请参考:《Linux运维篇:Linux系统运维指南》 一、备份说明 1、要使用mongodump备份分片集群,您必须 停止负载均衡器、 停止写入,避免备份的数据出现状态不一致问题。 2、从MongoDB7.0.2开始(也可以从6.0…

net core mvc 数据绑定 《1》

其它的绑定 跟net mvc 一样 》》MVC core 、framework 一样 1 模型绑定数组类型 2 模型绑定集合类型 3 模型绑定复杂的集合类型 4 模型绑定源 》》》》 模型绑定 使用输入数据的原生请求集合是可以工作的【request[],Querystring,request.from[]】, 但是从可读…

芝法酱学习笔记(0.3)——SpringBoot下使用mybatis做增删改查和报表

零、前言 书接上回,我们搭建了windows下的开发环境,并给出了一个hello world级别的多模块SpringBoot项目。 毕竟java后端开发,离不开数据库的操作,为方便后面内容的讲解,这里再做一期铺垫,core模块下新增一…

国际版多语言点赞抖音分享点赞任务平台源码

>>>系统简述: 本系统是一个国际化的点赞、分享任务平台的源代码,特别针对抖音这个短视频社交平台进行了定制。源码支持十二种不同的语言,旨在为用户提供一个全球化的服务环境,促进内容的传播和互动。首页可领取脸书tikt…

如何使用 DomCrawler 进行复杂的网页数据抓取?

在互联网时代,数据是宝贵的资源。无论是市场分析、客户洞察还是内容聚合,从网页中抓取数据都是一项关键技能。Symfony 的 DomCrawler 是一个强大的工具,可以帮助开发者从复杂的网页中提取所需的数据。本文将详细介绍如何使用 DomCrawler 进行…

学习Python的难点分析

一、语法灵活性带来的困惑 缩进规则 Python使用缩进来表示代码块,而不是像其他编程语言(如C或Java)使用大括号。这虽然使代码看起来简洁,但对于初学者来说可能会造成困扰。例如: if True:print("This is insid…

C语言开发基础新手快速入门及精通系列学习教程(系统性完整C语言学习笔记整理)

关注我,一起学编程 前言 作为一名拥有多年开发经验的码农,我的职业生涯涵盖了多种编程语言,包括 C 语言、C、C# 和 JavaScript。在这一过程中,我深刻地意识到扎实的基础对于编程学习的重要性,尤其是对于 C 语言…

React 启动时webpack版本冲突报错

报错信息: 解决办法: 找到全局webpack的安装路径并cmd 删除全局webpack 安装所需要的版本

这条挣钱的路,离我好遥远啊

近日,笔者在发表的《乱篇弹(54)让子弹飞》一文中写道:“ 当然,笔者在《博客中国-狼头长啸的作家专栏》耕耘期间,也赚了一些用以补贴自己养老的‘ 散碎银两’。那么笔者是否可以依照知乎网的‘申请开通权限’…

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28 目录 文章目录 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28目录前言1. Cognitive phantoms in LLMs through the lens of latent variables摘要研究背景问题与挑战创新点算法模型实验效果…