【论文】2405.Phased Consistency Model(港中文提出了AI绘画加速模型,一步采样生成图像,支持SD1.5,SDXL)

news2025/1/23 4:43:39

论文:https://arxiv.org/abs/2405.18407 (2024.05.30发布)
代码:https://github.com/G-U-N/Phased-Consistency-Model

一、论文要解决什么问题?效果如何? (需要先了解LCM模型)

(阶段性一致性模型:朝着稳定、快速的图像和视频生成方向发展)
一致性模型(CM, Consistency Model)最近在加速生成扩散模型方面取得了显著进展。然而,其在潜在空间(即高分辨率、文本条件的图像生成,简称 LCM, Latent Consistency Model)中的应用仍不令人满意

LCM当前设计的三个主要缺陷:

  1. 一致性差:可以发现使用相同种子在不同推理步骤中生成的结果不一致。(见下图右上)
  2. 可控性(Controllability):尽管稳定扩散可以在广泛的推理步骤(即2-15步)中接受分类器无关指导(CFG, Classifier-Free Guidance),但配备LCM权重后,它们只能接受1-2步的CFG。较大的CFG值会导致曝光问题
  3. 效率(Efficiency):我们发现LCM在少数步骤设置中生成的结果质量较差,特别是在少于4步的推理中

提出的PCM模型的生成效果?

在这里插入图片描述

采样1次

在这里插入图片描述

二、相关工作与对比

LCM (Latent Consistency Model) :https://github.com/luosiallen/latent-consistency-model
相关论文:“Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference”
相关论文:“LCM-LoRA: A Universal Stable-Diffusion Acceleration Module”
SDXL-Turbo:https://huggingface.co/stabilityai/sdxl-turbo
SDXL-Lightning: 2402.Progressive Adversarial Diffusion Distillation.: https://huggingface.co/ByteDance/SDXL-Lightning
InstaFlow!One-Step Stable Diffusion with Rectified Flow: https://github.com/gnobitab/InstaFlow
在这里插入图片描述

三、方法概述

3.1 原论文图3:扩散模型和常微分方程(ODE)

在这里插入图片描述
左侧图
这张图展示了四种不同类型模型(扩散模型、一致性模型、一致性轨迹模型和逐步一致性模型)在训练和推理中的差异。

扩散模型 (Diffusion Models):扩散模型通过拟合得分函数来训练,即估计数据分布的梯度
一致性模型 (Consistency Models): 通过拟合ODE(常微分方程)解来训练。这种模型强制所有轨迹上的点映射到同一个解。
一致性轨迹模型 (Consistency Trajectory Models): 一致性轨迹模型通过拟合任意ODE轨迹来训练。即轨迹中的任意点对之间强制相同的预测。
逐步一致性模型 (Phased Consistency Models) :逐步一致性模型通过拟合分阶段的ODE解来训练。即将ODE轨迹分为多个子轨迹,并在每个子轨迹上强制执行一致性。

右侧图
展示了数据分布和噪声分布之间的转换过程。

  • 橙色实线表示数据分布。
  • 橙色虚线表示从数据分布到噪声分布的正向**SDE(随机微分方程)**过程。
  • 蓝色虚线表示从噪声分布到数据分布的逆向PF-ODE(概率流ODE)过程。

图4:逐步一致性模型 (Phased Consistency Models)的训练流程

这张图展示了逐步一致性模型(PCM)的训练流程。流程图从左到右展示了数据从编码到解码和对抗训练的全过程

在这里插入图片描述
在这里插入图片描述

附录

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1812272.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

express入门02静态资源托管

目录 1 搭建静态资源结构2 代码助手3 多目录托管4 服务器热启动总结 上一篇我们讲解了使用express搭建服务器的过程,服务器搭建好了之后,除了在地址栏里输入URL发起get请求或者post请求外,通常我们还需要访问静态资源,比如html、c…

一文看懂linux ext4文件系统工作原理

前言 Linux系统中的ext2、ext3、ext4 文件系统,它们都有很强的向后和向前兼容性,可以在数据不丢失的情况下进行文件系统的升级。目前ext4是一个相对较成熟、稳定且高效的文件系统,适用于绝大部分规模和需求的Linux环境。 ext4它突出的特点有&…

修改SubVI的LabVIEW默认搜索路径

在启动顶级VI后&#xff0c;LabVIEW可能会遇到找不到subVI的情况。这通常是由于subVI的路径发生了变化或没有被正确配置。 LabVIEW默认搜索路径 默认情况下&#xff0c;LabVIEW会按以下顺序搜索文件位置&#xff08;*表示LabVIEW将搜索子目录&#xff09;&#xff1a; <t…

PS系统教程15

仿制图章与修饰照片 仿制图章工具使用&#xff08;S&#xff09;使用方法&#xff1a;按住Alt键进行采样选定照片新建图层&#xff08;方便修改&#xff09;按住Alt键&#xff0c;进行吸取进行采样复制 下面那个石柱是我们复制的石柱 多余的部分用历史画笔工具涂抹掉一部分 案…

外汇天眼:Brighter Super 选择 State Street 作为托管和管理合作伙伴

State Street Corporation&#xff08;纽约证券交易所代码&#xff1a;STT&#xff09;今日宣布&#xff0c;其已被选为 Brighter Super 成员所投资的超过300亿澳元基金的托管人和管理员。 State Street 将为 Brighter Super 涵盖多种资产类别的130多个投资组合提供广泛的服务…

一文带你入门 - Qt绘图QPainter

QPaintEvent绘图事件: QPaintEvent 是 Qt 框架中一个重要的事件类&#xff0c;专门用于处理绘图事件。当 Qt 视图组件需要重绘自己的一部分时&#xff0c;就会产生 QPaintEvent 事件。这通常发生在以下几种情况&#xff1a; 1. 窗口第一次显示时&#xff1a;当窗口或控件第一次…

探秘C++ STL中的Stack与Queue:数据结构的艺术与实践

在C的世界里&#xff0c;标准模板库(STL)无疑是一颗璀璨的明珠&#xff0c;它不仅极大地丰富了C的生态系统&#xff0c;更为开发者提供了强大的工具箱。其中&#xff0c;stack和queue作为两种基础而重要的数据结构&#xff0c;扮演着不可或缺的角色。本文将深入剖析这两个容器适…

国内著名的四个“大模型”

关于您提到的国内四大模型&#xff0c;这里为您详细介绍&#xff1a; 文心大模型&#xff1a;文心大模型是百度自主研发的产业级知识增强大模型。它以创新性的知识增强技术为核心&#xff0c;从单模态大模型发展到跨模态&#xff0c;从通用基础大模型到跨领域、跨行业&#xff…

英特尔为何大力押注边缘AI

正如近期历史上所有AI领域的情况一样&#xff0c;边缘AI部署也未能免受指数级增长的影响。 随着钟摆从集中式部署转向分布式部署&#xff0c;AI推动了边缘计算的大部分增长&#xff0c;组织越来越多地希望将AI算法和模型部署到本地边缘设备上&#xff0c;消除了不断依赖云基础设…

程序员们,如何预防大龄危机?

困境 在中国&#xff0c;程序员到了35岁&#xff0c;基本是一个坎&#xff0c;如果你还是通过常规的招聘网或者猎头去找工作&#xff0c;能拿到offer的比例相对低&#xff0c;因为跟新手程序员比&#xff0c;你没有明显的优势。 论薪资&#xff1a; 大龄程序员的薪资要求应该…

3.Nginx配置文件基本介绍

nginx配置文件所在路径&#xff1a;/usr/local/nginx/conf/nginx.conf nginx配置文件有三块&#xff1a; 1.全局块 从配置文件开始到events块之间的内容&#xff0c;主要会设置一些影响nginx服务器整体运行的配置指令。 配置运行nginx服务器的用户(组)允许生成的worker pro…

stm32 Listings和Objects文件夹目录设置

我们在test.c文件里面输入如下代码&#xff1a; #include "sys.h" #include "usart.h" #include "delay.h" int main(void) { u8 t0; Stm32_Clock_Init(9); //系统时钟设置 delay_init(72); //延时初始化 uart_i…

探索Android异步编程:Coroutine与RxJava的差异及实例分析

探索Android异步编程&#xff1a;Coroutine与RxJava的差异及实例分析 在Android开发中&#xff0c;处理异步操作&#xff08;例如网络请求或数据库操作&#xff09;是一项常见任务。传统的回调方法虽然能解决问题&#xff0c;但代码复杂且难以维护。为了解决这些问题&#xff…

修复错误提示“由于找不到msvcr120.dll,无法继续执行代码”的几种方法

当你的电脑出现“由于找不到msvcr120.dll,无法继续执行代码”的错误提示时&#xff0c;首先&#xff0c;需要确定您的系统中是否缺少或损坏了msvcr120.dll文件。这可以通过运行程序时收到类似“无法启动程序&#xff0c;因为msvcr120.dll丢失”或“找不到msvcr120.dll”等错误信…

6.结构体

目录 一、普通结构体&#xff08;struct&#xff09;1.1 说明1.2 举例1&#xff09;结构体定义及访问2&#xff09;结构体初化的简单写法3&#xff09;结构体更新语法 二、元组结构体&#xff08;tuple struct&#xff09;2.1 概念2.2 示例 三、类单元结构体&#xff08;unit-l…

贪 吃 蛇

简介 简易贪吃蛇&#xff0c;使用 javax.swing 组件构建游戏界面&#xff0c;通过监听键盘按键实现游戏操纵。 功能设计 按1 - 开始游戏按2 - 重新开始按3 - 暂停/继续按Esc-退出游戏统计吃到的苹果个数&#xff08;得分&#xff09;难度控制&#xff0c;得分超过阈值时难度…

计算机内存分类

1&#xff0c;非易失性存储器。 断电时&#xff0c;存储器的内容不会丢失&#xff0c;并且 加电时再次可用。这对于处理器启动或重启时使用的引导代码是必需的。 o ROM&#xff1a;只读存储器&#xff1b;此存储器的内容在制造过程中定义 设备。一旦发生错误&#xff0c;芯片…

推荐系统学习笔记(五)-----双塔模型

目录 双塔模型 训练 pointwise训练 pairwise训练 listwise训练 双塔模型 矩阵补充模型只用到了用户id和物品id&#xff0c;其余属性没有用上 用户属性也可以这样处理 用户塔和物品塔各输出一个向量&#xff0c;两个向量的余弦相似度作为兴趣的预估值 训练 第一种&#x…

VFP发送邮件有哪些配置要求?如何使用VFP?

VFP发送邮件支持的邮件服务器&#xff1f;邮件发送功能怎么优化&#xff1f; 在如今的互联网时代&#xff0c;应用程序发送邮件功能几乎是不可或缺的&#xff0c;VFP也不例外。然而&#xff0c;要实现VFP发送邮件&#xff0c;需要了解并配置相关的要求和步骤。AokSend将详细介…

如何查看个人大数据信用报告?查询报告哪家好呢?

大数据信用报告是现代社会中非常重要的信用评估工具&#xff0c;对于个人来说也具有非常重要的意义。那么&#xff0c;如何查看个人大数据信用报告?查询报告哪家好呢?本文将为您介绍。 首先&#xff0c;查看个人大数据信用报告需要了解报告的内容和格式 一般来说&#xff0c;…