AIGC-文生视频

news2026/2/15 4:26:02

stable diffusion：

stable diffusion原理解读通俗易懂，史诗级万字爆肝长文，喂到你嘴里 - 知乎个人网站一、前言（可跳过）hello，大家好我是 Tian-Feng，今天介绍一些stable diffusion的原理，内容通俗易懂，因为我平时也玩Ai绘画嘛，所以就像写一篇文章说明它的原理，这篇文章写了真滴挺久的，如果对你有用…https://zhuanlan.zhihu.com/p/634573765

文生图相关的一些原理：

https://zhuanlan.zhihu.com/p/645939505前言传送门： stable diffusion：Git｜论文 stable-diffusion-webui：Git Google Colab Notebook部署stable-diffusion-webui：Git kaggle Notebook部署stable-diffusion-webui：Git今年AIGC实在是太火了，让人大呼…https://zhuanlan.zhihu.com/p/645939505

stable diffusion的相关介绍与代码展示：CLIP text encoder、UNet、文生图、文生视频、inpainting

https://zhuanlan.zhihu.com/p/617134893通向AGI之路码字真心不易，求点赞！ https://zhuanlan.zhihu.com/p/6424968622022年可谓是 AIGC（AI Generated Content）元年，上半年有文生图大模型DALL-E2和Stable Diffusion，下半年有OpenAI的文本对话大模型Ch…https://zhuanlan.zhihu.com/p/617134893

AnimateDiff：

https://blog.csdn.net/qq_41994006/article/details/132011849
https://blog.csdn.net/shadowcz007/article/details/131757666
https://www.zhihu.com/pin/1685665464804700161
部署：https://blog.csdn.net/weixin_51330846/article/details/133795764

https://huggingface.co/guoyww/animatediff/discussions/5

Dreambooth

https://zhuanlan.zhihu.com/p/620577688这个系列会分享下stable diffusion中比较常用的几种训练方式，分别是Dreambooth、textual inversion、LORA和Hypernetworks。在 https://civitai.com/选择模型时也能看到它们的身影。本文该系列的第一篇Dreambooth1…https://zhuanlan.zhihu.com/p/620577688

Reuse-And-Diffuse

ReuseAndDiffuse笔记-CSDN博客文章浏览阅读111次。Long video classification datasets：一些较长的视频，如VideoLT数据集，用MiniGPT-4等大模型，来先分类出哪些帧是可以剪出来用的，然后再理解这些帧。平常的stable-diffusion，是图片的解码器，这样的话帧间还是有差别的，文章在解码器中间也加入了Temp-Conv，以提高帧间的连贯性。对于Unet，每层都加入两个可训练的，包含时间维度的层，Temp-Conv是针对视频数据的三维卷积，Temp-Attn是时间维度上的注意力机制。https://blog.csdn.net/pc9803/article/details/134131805?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22134131805%22%2C%22source%22%3A%22pc9803%22%7D

phenaki

GitHub - lucidrains/phenaki-pytorch: Implementation of Phenaki Video, which uses Mask GIT to produce text guided videos of up to 2 minutes in length, in PytorchImplementation of Phenaki Video, which uses Mask GIT to produce text guided videos of up to 2 minutes in length, in Pytorch - GitHub - lucidrains/phenaki-pytorch: Implementation of Phenaki Video, which uses Mask GIT to produce text guided videos of up to 2 minutes in length, in Pytorchhttps://github.com/lucidrains/phenaki-pytorchReuseAndDiffuse笔记-CSDN博客文章浏览阅读111次。Long video classification datasets：一些较长的视频，如VideoLT数据集，用MiniGPT-4等大模型，来先分类出哪些帧是可以剪出来用的，然后再理解这些帧。平常的stable-diffusion，是图片的解码器，这样的话帧间还是有差别的，文章在解码器中间也加入了Temp-Conv，以提高帧间的连贯性。对于Unet，每层都加入两个可训练的，包含时间维度的层，Temp-Conv是针对视频数据的三维卷积，Temp-Attn是时间维度上的注意力机制。https://blog.csdn.net/pc9803/article/details/134131805?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22134131805%22%2C%22source%22%3A%22pc9803%22%7D

【项目部署调试】 AnimateDiff-CSDN博客文章浏览阅读674次。717行，原来是直接改为路径本来，一切到这就结束了，可是726行却总是报错原本是百思不得其解，知道在 github 的 issue 里的某个问题的某个评论看到了改为OK ，结束，跑起来了~p.s. 按照默认的16帧跑要12G显存。https://blog.csdn.net/weixin_51330846/article/details/133795764

maskgit

自回归解码加速64倍，谷歌提出图像合成新模型MaskGIThttps://m.thepaper.cn/baijiahao_17087787
[CVPR2022]MaskGIT: Masked Generative Image Transformer阅读笔记 - 知乎arxiv： MaskGIT: Masked Generative Image Transformergithub： google-research/maskgit: Official Jax Implementation of MaskGIT (github.com)笔记链接： https://occipital-aphid-dee.notion.site/MaskGIT-Ma…https://zhuanlan.zhihu.com/p/618235198

ViViT

ViViT: A Video Vision Transformer阅读和代码 - 知乎文章地址： https://arxiv.org/pdf/2103.15691.pdf文章代码： https://github.com/google-research/scenic/tree/main/scenic/projects/vivit依旧是Google的作品，Google算法上确实是领跑世界。在视频理解上使用了T…https://zhuanlan.zhihu.com/p/506607332【项目部署调试】 AnimateDiff-CSDN博客文章浏览阅读674次。717行，原来是直接改为路径本来，一切到这就结束了，可是726行却总是报错原本是百思不得其解，知道在 github 的 issue 里的某个问题的某个评论看到了改为OK ，结束，跑起来了~p.s. 按照默认的16帧跑要12G显存。https://blog.csdn.net/weixin_51330846/article/details/133795764【ViViT】A Video Vision Transformer 用于视频数据特征提取的ViT详解_vit 视频_萝卜社长的博客-CSDN博客文章浏览阅读2.5k次，点赞5次，收藏36次。VIVIT详解_vit 视频https://blog.csdn.net/lym823556031/article/details/127939000

IQA--VQA

不同的图像质量评价指标(IQA)_LanceHang的博客-CSDN博客文章浏览阅读800次。NRQM（Non-Reference Quality Metric）是一种非参考图像质量评价指标，用于自动评估图像的质量，而不需要参考图像（即原始或真实图像）。总的来说，NIMA 是一种基于深度学习的图像质量评价方法，它利用深度CNN模型从图像中提取特征，并能够输出图像的质量分数，使其成为自动化图像质量评估的有力工具。LPIPS 在计算机视觉和图像处理领域中被广泛应用，特别是在图像生成、超分辨率、图像风格迁移等任务中，用于评估生成的图像与原始图像之间的相似性和质量。https://blog.csdn.net/LanceHang/article/details/132802874

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1265524.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！