引子
Sora,2024年2月15日,OpenAI发布的人工智能文生视频大模型。支持60秒视频生成,震荡了国内国际学术圈、广告圈、AI教培圈。Sora最主要有三个优点:第一,“60s超长视频”,之前文本生成视频大模型一直无法真正突破AI视频的4秒连贯性瓶颈,而Sora直接做到了60秒连贯视频。第二,单视频既能有多角度镜头也能一镜到底,可以很好地展现场景中的光影关系、各个物体间的物理遮挡、碰撞关系,并且镜头丝滑可变。第三,Sora所合成的内容与物理世界规律保持一致,即不会出现违反世界客观规律的视觉信息。嗯,这段是我抄的,其实还是有些不符合物理世界规律的地方。说明OpenAI也亲自下场来卷文生图的这个领域了,当然我们现在没办法直接试用Sora看效果,那么今天的主角出场,Open-Sora,北京大学与兔展智能联合发起的Sora复现计划,旨在联合开源社区力量完成对Sora的复现。2024年3月1日正式公开,这也快一个月了,估摸着bug也解的差不多了。OK,那就让我们开始吧。
一、环境安装
1、代码仓库
https://github.com/hpcaitech/Open-Sora
cd /datas/work/zzq
mkdir OpenSora & cd OpenSora
git clone https://github.com/hpcaitech/Open-Sora
2、docker内安装依赖
docker pull pytorch/pytorch:2.2.2-cuda12.1-cudnn8-devel
docker run -it --gpus=all --rm -v /datas/work/zzq/:/workspace pytorch/pytorch:2.2.2-cuda12.1-cudnn8-devel bash
apt-get update && apt-get install libgl1
apt-get install libglib2.0-0
pip3 install torch torchvision -i Simple Index
pip3 install -U xformers --index-url https://download.pytorch.org/whl/cu121
pip install packaging ninja -i Simple Index
pip install flash-attn --no-build-isolation -i Simple Index
cd Open-Sora
pip install -v . -i Simple Index
pip install gradio -i Simple Index
git clone https://github.com/NVIDIA/apex
cd apex
pip install -v --disable-pip-version-check --no-cache-dir --no-build-isolation --config-settings "--build-option=--cpp_ext" --config-settings "--build-option=--cuda_ext" .
3、模型下载
https://github.com/hpcaitech/Open-Sora?tab=readme-ov-file#model-weights
stabilityai 模型
https://huggingface.co/stabilityai/sdxl-vae/tree/main
t5模型
https://huggingface.co/DeepFloyd/t5-v1_1-xxl/tree/main
根据16X512X512.py文件中的设置,放置预训练模型
二、测试
1、推理
显卡不支持,关掉flashattn
torchrun --standalone --nproc_per_node 1 scripts/inference.py configs/opensora/inference/16x256x256.py --ckpt-path /workspace/OpenSora/Open-Sora/OpenSora-v1-HQ-16x256x256.pth --prompt-path ./assets/texts/t2v_samples.txt
注:--ckpt-path一定要是绝对路径,否则会网络下载模型
视频生成路径