Diffusion Models视频生成-博客汇总
前言:Stable Video Diffusion已经开源一周多了,技术报告《Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets》对数据清洗的部分描述非常详细,虽然没有开源源代码,但是博主正在尝试复现其中的操作。这篇博客先梳理一下Stable Video Diffusion的数据清洗部分。
原始收集数据集的缺点
(1)生成视频模型对运动不一致很敏感,例如剪切通常许多包含在原始和未处理的视频数据中。
(2) 字幕影响。理想情况下每个视频有对应的多个字幕。
级联剪辑
用了三个切割器以不同的帧速率和不同的阈值运行,以检测突然的变化和缓慢的变化,例如褪色。
关键帧剪辑
提取源视频中关键帧的时间戳并将检测到的切割捕获到不交叉检测到的切割最近的关键帧时间戳上。