Sora那么牛，他的模型的成本会有多少呢？

news2026/2/16 21:54:10

Sora的训练需要大量的计算资源，估计需要4211-10528个 Nvidia H100 GPUs运行一个月。

推理成本：一个Nvidia H100 GPU大约每小时能生成5分钟的视频。

初期的Sora成本将非常高，肯定是不适合普通人来使用，所以目前OpenAI都是先找一些艺术和电影工作室或者公司合作。

训练计算估算

从DiT到Sora的推算：Sora的详细信息虽然有限，但可以基于DiT（Diffusion Transformers）论文的数据，将Sora看作是DiT在视频生成方面的扩展。DiT-XL模型有675M参数，使用了大约1021 FLOPS的总计算量，相当于大约0.4 Nvidia H100s运行一个月。
计算乘数： 假设视频以24fps编码，1分钟的视频包含1440帧。考虑到Sora的空间和时间压缩，如果按DiT论文的8倍压缩率，我们得到180帧在潜在空间中的表示。因此，相较于DiT处理图像，处理视频的计算量至少增加了180倍。
模型大小和数据集： 估计Sora的模型参数数量远超675M。如果假设一个20B参数的模型，相对于DiT，计算需求增加了30倍。此外，Sora训练的数据集比DiT大很多倍，增加了数据集规模的乘数4-10倍。
将上述因素综合考虑，得出Sora训练所需的计算量约为4,211 - 10,528 Nvidia H100s运行一个月。

推理计算估算

推理与训练计算比较： 训练计算是一次性的大量计算，而推理计算虽然较小，但随着模型的广泛应用，会被频繁调用。
达到平衡点： 平衡点是指花费在推理上的计算量超过训练所需计算量的时刻。基于DiT到Sora的推算，Sora每生成一段视频的计算成本约为708×10^15 FLOPS，相当于每Nvidia H100 GPU大约能每小时生成5分钟视频。
平衡点达成： 在生成15.3M到38.1M分钟视频后，推理计算将超过训练计算。考虑到YouTube每天上传的视频量约为43M分钟，这个平衡点在实际应用中很快就会达到。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1549076.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！