论文阅读:《High-Resolution Image Synthesis with Latent Diffusion Models》

news2025/2/27 11:12:55

High-Resolution Image Synthesis with Latent Diffusion Models

论文链接
代码链接

What’s the problem addressed in the paper?(这篇文章究竟讲了什么问题?比方说一个算法,它的 input 和 output 是什么?问题的条件是什么)

  • 这篇文章提出了一种合成高分辨率图片的潜在空间扩散模型(LDM),解决了在像素空间中优化Diffusion Models时面临的高计算开销问题。
  • 下图是LDM的结构流程图,从左到右的三个模块分别是:感知图片压缩(Perceptual Image Compression),潜在扩散模型(Latent Diffusion Model),和条件机制模块(Condition mechanism)。首先,原始图片 x x x在像素空间中被感知压缩模型压缩为潜在空间特征 z z z,然后,Unet通过扩散过程(向 z z z中添加噪声和去除噪声)重构了潜在空间特征 z t z_t zt,其被解码为输出图片 x ~ \tilde{x} x~。在这个过程中,条件机制将输入的条件(例如,文本,图片等)编码为文本嵌入。然后,利用cross-attention机制将条件输入注入到Unet结构中。
    LDM的模型结构

Is it a new problem? If it is a new problem, why does it matters? 新问题的话有意义吗?重要吗? If it is not an entirely new problem, why does it still matter? 为什么要研究这个问题/为什么这个问题是重要的

  • 不是新问题,但是仍然很重要
  • 因为在高分辨率图片数据上进行训练时梯度的计算量很大,而现有的采样和层级化策略无法解决这个问题。

What is the scientific hypothesis that the paper is trying to verify? 这篇文章觉得自己发现了什么新的知识?

  • 在一个压缩的潜在空间(compressed latent space)上优化的一个潜在扩散模型,可以高效和低开销地合成高分辨率的图片,在和cross-attention机制结合后,LDM可以有效应用于条件生成任务,包括文本生成图片等任务。

What are the key related works and what are the key people working in this topic?

  • Diffusion Models(DMs) & UNet:
    Jascha Sohl-Dickstein, Eric A. Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. CoRR, abs/1503.03585, 2015.
  • cross attentions
    Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, pages 5998–6008, 2017
  • UNet:
    Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, pages 5998–6008, 2017
  • image compression
    Patrick Esser, Robin Rombach, and Bj¨orn Ommer. Taming transformers for high-resolution image synthesis. CoRR,abs/2012.09841, 2020

What’s the key of the proposed solution in the paper? 所提解决方案的关键

  • 将在像素空间上优化扩散模型转变为在一个低维潜在空间上优化模型

How are experiment designed?

  • 1、分析不同downsampling factors f 对LDMs性能的影响,包括FID,IS等指标(On Perceptual Compression Tradeoffs)
    不同f的影响

  • 2、无条件图片合成评估:在不同数据集上,像素空间上训练的DMs和LDM在图片质量(FID)和有效性(Precision和Recall)上进行比较 (Image Generation with Latent Diffusion)
    无条件图片合成

  • 3、条件图片合成评估(text-to-image, class-to-image, layout-to-image, image-to-image)(Conditional Latent Diffusion)
    布局生成图片
    类生成图片

文生图

  • 4、超分辨率图片合成(在低分辨率数据集上训练的模型可以生成高分辨率图片)(Super-Resolution with Latent Diffusion)
    超分辨率图片合成

  • 5、图片修复任务(Inpainting with Latent Diffusion)
    图片修复效率
    超分辨率图片合成和图片修复任务的用户偏好调查

What datasets are used for quantatitiave evaluation? Is the code open sourced?

  • 数据集:unconditional:CelebA-HQ [39], FFHQ [41], LSUN-Churches and Bedrooms [102],and ImageNet [12];conditional:LAION-400M [78]
  • 评估标准:FID、IS、Precision-and-Recall等
  • 代码:https://github.com/CompVis/latent-diffusion
  • 基准方法

Is the scientific hypothesis well supported by evidence in the experiments?

  • 是。LDM相较于像素空间训练的DMs,大大降低了计算开销,并且在无条件和条件图片合成任务中表现得更好。

What are the contributions of this paper? (try to summarize in your own words)

  • 压缩的低维度潜在空间相较于像素空间,在高分辨率图片合成时更能减少计算和时空开销,同时保证图片质量
  • 潜在扩散模型(LDM)能够在多种图片合成任务上取得优异的变现(包括无条件和条件生成)
  • 开源可复用的代码

What should do next? 这篇文章局限性在哪里,接着它还能怎么做?

  • 尽管LDM比基于像素空间的DMs减少了很多计算开销,但是它的序列采样过程仍然比GAN慢
  • LDM在像素空间上需要高细粒度精度的任务,LDM仍然存在不足

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1473476.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

蚓链数字化生态系统, 高效的分钱体验!

​2024年2月24日,农历正月十五是个团圆的好日子,开利网络推出更强体验的“数据分析功能”---【订单分析】:给各位运营用户更加直接、直观的“分钱体验”! 该功能使得运营者掌握更加强有力的数字化工具!可以更高效的服务…

Qt网络编程——UDP

UDP UDP(User Datagram Protocol,用户数据报协议)是一个轻量级的、不提供可靠性保证的、面向数据报的无连接协议,用于可靠性不是非常重要的情况。例如,传感器数据传输:一些传感器数据,如温度、…

Spring6学习技术|事务

学习材料 尚硅谷Spring零基础入门到进阶,一套搞定spring6全套视频教程(源码级讲解) 事务 什么是事务?好像是数据库部分的词,我自己的理解是对数据库进行的操作序列,要么一起完成,要么都不完成…

./configure配置说明

./configure是用来检测你的安装平台的目标特征的。configure根据给定的参数和系统环境会生成Makefile。 在一次configure报错后记得删除生成的config.cache的相关文件再重新configure。(make distclean类似make clean,但同时会将configure生成的文件全部删除掉&…

thinkphp6定时任务

这里主要是教没有用过定时任务没有头绪的朋友, 定时任务可以处理一些定时备份数据库等一系列操作, 具体根据自己的业务逻辑进行更改 直接上代码 首先, 是先在 tp 中的 command 方法中声明, 如果没有就自己新建一个, 代码如下 然后就是写你的业务逻辑 执行定时任务 方法写好了…

代码随想录算法训练营day28

题目:78_子集(没看题解) 给定一组不含重复元素的整数数组 nums,返回该数组所有可能的子集(幂集)。 说明:解集不能包含重复的子集。 示例: 输入: nums [1,2,3] 输出: [ [3], [1], [2], …

HarmonyOS—低代码开发Demo示例

接下来为大家展示一个低代码开发的JS工程的Demo示例,使用低代码开发如下华为手机介绍列表的HarmonyOS应用/服务示例。 1.删除模板页面中的控件后,选中组件栏中的List组件,将其拖至中央画布区域,松开鼠标,实现一个List组…

Mavenn编译报processing instruction can not have PITarget with reserveld xml name

在java项目中,平时我们会执行mvn clean package命令来编译我们的java项目,可是博主今天执行编译时突然报了 processing instruction can not have PITarget with reserveld xml name 这个错,网上也说法不一,但是绝大绝大部分是因…

C++:类与对象(2)

创作不易,感谢三连! 一、六大默认成员函数 C为了弥补C语言的不足,设置了6个默认成员函数 二、构造函数 2.1 概念 在我们学习数据结构的时候,我们总是要在使用一个对象前进行初始化,这似乎已经成为了一件无法改变的…

YOLOv9中的“ADown”结构!

ADown结构出炉啦,收藏起来写论文用! 论文链接: YOLOv9: Learning What You Want to Learn Using Programmable Gradient 代码链接:https://github.com/WongKinYiu/yolov9/tree/main 1.代码: 代码路径:yol…

gitlab添加ssh公钥

一:生成公钥 桌面鼠标右击打开 Open Git Bash here (前提是安装了Git); 2.输入命令 ssh-keygen -t rsa -C "123*****90qq.com"来生成新的密钥对,将其中的"123*****90qq.com"替换为你自己的电子邮件地址。 命令:ssh-keyg…

BUUCTF crypto做题记录(10)新手向

一、[MRCTF2020]古典密码知多少 这题一看首先能想到猪圈密码,每种颜色都代表一种古典密码。鉴于都是用图形表示,其余两种与猪圈密码类似。BUUCTF-Crypto-猪圈密码及其变种银河密码跳舞的小人_猪圈密码对照表-CSDN博客 在这篇文章中介绍一些与猪圈密码类…

windows 11+docker desktop+grafana+influxDB+python写入

下载安装docker desktop 出现WSL相关的错误。WSL是一个linux内核的子系统,docker是基于linux内核的,所以运行docker需要WSL。 以管理员权限打开powershell,查看WSL状态 wsl --status 我遇到的错误是因为我关闭了windows的某些更新 执行上…

dhtmlxGannt显示的时间比end_date少一天

在配置项中增加gantt.config.server_utc true,设置允许在向服务器发送数据时将服务器端日期从UTC转换为本地时区;

nginx---------------重写功能 防盗链 代理 (五)

一、重写功能 rewrite Nginx服务器利用 ngx_http_rewrite_module 模块解析和处理rewrite请求,此功能依靠 PCRE(perl compatible regular expression),因此编译之前要安装PCRE库,rewrite是nginx服务器的重要功能之一,重写功能(…

postgressql和postgis安装

PostgreSQL安装 1 简 介 2 PostgreSQL优点特性 3 安装PostgreSQL 3.1 Yum安装 3.2 RPM包安装 3.3 源码安装 4 安装PostGIS 4.1 安装依赖 4.2 检查PostGIS是否安装成功 5 PostgreSQL多实例 PostgreSQL安装 1 简 介 PostgreSQL 是一种非常复杂的对象-关系型数…

华为手动ipv6-to-ipv4隧道

中间r2的两个接口配置两个地址就行了,其它什么都不用配置 两边出接口R1和R3手动隧道建立:先把IPV4打通,并配置默认路由 再起隧道接口上进行配置,再配置带隧道的默认路由 PC上和上联接口网关只有IPV6地址 最终两个PC可以ping通 …

基于Java SSM框架实现音乐播放器管理系统项目【项目源码+论文说明】

基于java的SSM框架实现音乐播放器管理系统演示 摘要 随着社会的发展,计算机的优势和普及使得音乐播放器管理系统的开发成为必需。音乐播放器管理系统主要是借助计算机,通过对首页、音乐推荐、付费音乐、论坛信息、个人中心、后台管理等信息进行管理。减…

【element+vue】点击加号增加一行,点击减号删除一行

代码实现&#xff1a; 页面部分&#xff1a; vueelement 备注&#xff1a;v-if “i>0” &#xff08;保证第一行不出现减号&#xff09; <div v-for"(item,i) in studentList"><el-form-item label"学生:" prop"name"><el-i…

电动车进电梯监测报警摄像机助力提升安全管理

电动车作为环保、便捷的出行工具&#xff0c;在城市中越来越受到人们的青睐。然而&#xff0c;在电梯内使用电动车存在一定的安全隐患&#xff0c;为了有效管理电动车进出电梯的安全&#xff0c;一款电梯监测报警摄像机应运而生&#xff0c;为出行安全提供了更为全面的保障。 这…