【计算机视觉】Image Generation Models算法介绍合集

news2025/1/4 19:40:15

文章目录

    • 一、Diffusion
    • 二、Guided Language to Image Diffusion for Generation and Editing(GLIDE)
    • 三、classifier-guidance
    • 四、Blended Diffusion
    • 五、DALL·E 2
    • 六、AltDiffusion
    • 七、Group Decreasing Network
    • 八、Make-A-Scene
    • 九、Iterative Inpainting
    • 十、Differential Diffusion

一、Diffusion

扩散模型通过逐渐去除信号中的噪声来生成样本,其训练目标可以表示为重新加权的变分下界(https://arxiv.org/abs/2006.11239)。

二、Guided Language to Image Diffusion for Generation and Editing(GLIDE)

GLIDE 是一种基于文本引导扩散模型的生成模型,可生成更加逼真的图像。 引导扩散应用于文本条件图像合成,并且该模型能够处理自由形式的提示。 扩散模型使用文本编码器来调节自然语言描述。 除了零样本生成之外,该模型还提供编辑功能,允许迭代改进模型样本以匹配更复杂的提示。 该模型经过微调以执行图像修复。

在这里插入图片描述

三、classifier-guidance

四、Blended Diffusion

混合扩散可实现自然图像的零样本本地文本引导图像编辑。 给定输入图像,输入掩码和目标指导文本该方法能够改变图像内与引导文本相对应的遮蔽区域。 未遮蔽的区域保持不变。

在这里插入图片描述

五、DALL·E 2

DALL·E 2 是一种生成式文本到图像模型,由两个主要组件组成:先验模型(在给定文本标题的情况下生成 CLIP 图像嵌入)和解码器(根据图像嵌入生成图像)。

在这里插入图片描述

六、AltDiffusion

在这项工作中,我们提出了一种概念上简单而有效的方法来训练强大的双语多模态表示模型。 从OpenAI发布的预训练多模态表示模型CLIP开始,我们将其文本编码器更换为预训练的多语言文本编码器XLM-R,并通过由教师学习和对比学习组成的两阶段训练模式来对齐语言和图像表示。 我们通过评估广泛的任务来验证我们的方法。 我们在 ImageNet-CN、Flicker30k-CN 和 COCO-CN 等一系列任务上设置了新的最先进性能。 此外,我们在几乎所有任务上都使用 CLIP 获得了非常接近的性能,这表明人们可以简单地改变 CLIP 中的文本编码器以获得扩展功能,例如多语言理解。 我们的模型和代码可在 https://github.com/FlagAI-Open/FlagAI 获取。

在这里插入图片描述

七、Group Decreasing Network

组递减网络(Group Decreasing Network,简称 GroupDNet)是一种用于多模态图像合成的卷积神经网络。 GroupDNet 包含 1 个编码器和 1 个解码器。 受 VAE 和 SPADE 思想的启发,编码器产生一个潜在的代码应该遵循高斯分布在训练中。 测试时,编码器被丢弃。 从高斯分布中随机采样的代码替代。 为了实现这一点,使用重新参数化技巧在训练期间启用可微分的损失函数。 具体来说,编码器通过两个全连接层预测均值向量和方差向量来表示编码分布。 编码分布和高斯分布之间的差距可以通过施加 KL 散度损失来最小化。

在这里插入图片描述

八、Make-A-Scene

Make-A-Scene 是一种文本到图像的方法,它 (i) 实现了一种与场景形式的文本互补的简单控制机制,(ii) 引入了通过采用关键领域特定知识来改进标记化过程的元素 图像区域(面部和显着物体),以及 (iii) 针对变压器用例采用无分类器指导。

在这里插入图片描述

九、Iterative Inpainting

十、Differential Diffusion

差分扩散是图像到图像扩散模型的增强,它增加了通过变化图控制应用于每个图像片段的变化量的能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1017680.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

c++ - 抽象类 和 使用多态当中一些注意事项

抽象类 纯虚函数 在虚函数的后面写上 0 ,则这个函数为纯虚函数。 class A { public:virtual void func() 0; }; 纯虚函数不需要写函数的定义,他有类似声明一样的结构。 抽象类概念 我们把具有纯虚函数的类,叫做抽象类。 所谓抽象就是&a…

docker gitlab+jenkins搭建

一:gitlab搭建: 1:docker部署 2:修改root密码 3:创建普通账户 4:设置sshken 二:jenkins搭建 配置脚本 bash -x /var/jenkins_home/shell/game01.sh

图解数据结构

🌞欢迎来到数据结构的世界 🌈博客主页:卿云阁 💌欢迎关注🎉点赞👍收藏⭐️留言📝 🌟本文由卿云阁原创! 📆首发时间:🌹2023年9月17日&…

【探索Linux】—— 强大的命令行工具 P.8(进程地址空间)

阅读导航 前言一、内存空间分布二、什么是进程地址空间1. 概念2. 进程地址空间的组成 三、进程地址空间的设计原理1. 基本原理2. 虚拟地址空间 概念 大小和范围 作用 虚拟地址空间的优点 3. 页表 四、为什么要有地址空间五、总结温馨提示 前言 前面我们讲了C语言的基础知识&am…

性能测试-性能调优主要方向和原则(15)

性能调优主要方向明确性能瓶颈之后,就需要进行性能调优了,调优主要从图所示的多个方向入手。能优化手段并不一定是独立应用的,在一次优化过程中很可能应用了多种优化技巧。 硬件层面优化 硬件层面优化更偏向于监控,当定位到硬件资源成为瓶颈后,更多是采用扩容等手段来解决…

代码随想录算法训练营第三十六天| 435. 无重叠区间 763.划分字母区间 56. 合并区间

今天的三道题目,都算是 重叠区间 问题,大家可以好好感受一下。 都属于那种看起来好复杂,但一看贪心解法,惊呼:这么巧妙! 还是属于那种,做过了也就会了,没做过就很难想出来。 不过大…

synchronized实战:synchronized 锁升级过程

下面程序通过对加锁前后Object对象字节码的打印验证了对象由无锁到偏向锁的过程。 public class T01 {public static void main(String[] args) {Object o new Object();System.out.println(ClassLayout.parseInstance(o).toPrintable());o.hashCode();System.out.println(Cl…

Linux界的老古董

Slackware 是由 Patrick Volkerding 制作的 Linux 发行版,从 1993 年发布至今也一直在 Patrick 带领下进行维护。7 月 17 日,Slackware 才刚刚过完它 24 岁的生日,看似年纪轻轻的它,已然是 Linux 最古老的发行版。 Slackware 的发…

laravel框架 - 安装初步使用学习 composer安装

一、什么是laravel框架 Laravel框架可以开发各种不同类型的项目,内容管理系统(Content Management System,CMS)是一种比较典型的项目,常见的网站类型(如门户、新闻、博客、文章等)都可以利用CM…

【Linux学习笔记】权限

1. 普通用户和root用户权限之间的切换2. 权限的三个w2.1. 什么是权限(what)2.1.1. 用户角色2.1.2. 文件属性 2.2. 怎么操作权限呢?(how)2.2.1. ugo-rwx方案2.2.2. 八进制方案2.2.3. 文件权限的初始模样2.2.4. 进入一个…

Linux基础操作

ls [-a -l -h] [Linux路径] 当不使用选项和参数,直接使用ls命令本体,表示以平铺的方式:列出当前工作目录下的内容 ls -a -a表示all的意思,即列出所有文件(包含隐藏的文件和文件夹) ls -l 以竖列的形式展示信…

linux C语言 socket的server、client 实现

讲解: 在Linux中,使用socket与另一端建立连接通常涉及到以下步骤: 1. 创建Socket:首先,你需要创建一个套接字(socket)。你可以使用socket()系统调用来创建套接字。通常,你需要指定套接字的类型&#xff0…

ssh服务登录原理与配置

文章目录 前言一、基于口令的认证(用户名密码)二、基于公钥的认证(免密登录)三、禁止用户登录和修改端口四、免密登录具体操作 前言 非对称加密是在认证用户连接的时候使用的,对称加密是在用户连接之后开始传输数据的…

【C++】深拷贝和浅拷贝 ④ ( 深拷贝示例 )

文章目录 一、深拷贝示例1、浅拷贝问题2、自己实现深拷贝 二、深拷贝完整代码示例 一、深拷贝示例 1、浅拷贝问题 在上一篇博客 【C】深拷贝和浅拷贝 ③ ( 浅拷贝内存分析 ) 中 , 使用了浅拷贝 , 将 原始对象 Students 赋值给了 拷贝对象 Student s2 ; 使用 C 编译器 生成的 默…

Mysql的基本查询练习

目录 一、Create 1.1单行数据全列插入 1.2 多行数据指定列插入 1.3插入否则更新 1.4 替换 二、Retrieve 2.1全列查询 2.2指定列查询 2.3查询字段为表达式 2.4为查询结果指定别名 2.5 结果去重 2.6 where 条件 2.6 NULL的查询 2.7 结果排序 三、 Update 四、Dele…

电力系统直流潮流分析【N-1】(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

VHOST-SCSI代码分析(0)VHOST概述

与VIRTIO框架相比,VHOST将设备放到HOST上,让Guest和Host Kernal Space之间共享virtqueue,减少Exception Level切换。 对于数据的传递,依次经历:Guest UserSpace(EL0)-> Guest KernelSpace&am…

MySQL索引,事务及存储引擎

目录 MySQL索引 创建索引的依据: 索引的类型 普通索引 唯一索引 主键索引 组合索引 全文索引 查看索引 删除索引 事务 事务的 ACID 特性 原子性 一致性 隔离性 持久性 隔离级别 设置隔离级别 事务管理操作 自动提交事务 存储引擎 M…

GODIVA论文阅读

论文链接:GODIVA: Generating Open-DomaIn Videos from nAtural Descriptions 文章目录 摘要引言相关工作Video-to-video generationText-to-image generationText-to-video generation GODIVA方法逐帧视频自动编码器GODIVA视频生成器 实验数据集评价指标自动评估指…

QT基础教程(对话框1)

文章目录 前言一、对话框概念二、模态对话框三、非模态对话框总结 前言 本篇文章我们来讲解QT中的对话框。 资料合集地微信公众号:优质程序猿一、对话框概念 在Qt中,对话框(Dialog)是一种用于与用户进行交互、收集输入或展示信…