港中文斯坦福提出SD加速模型PCM,一步即可生成图像和视频,可直接与SD1.5,SDXL,AnimateLCM结合!

news2024/9/20 22:35:10

又有新的SD加速模型可以用了,PCM解决了原来LCM模型的各种问题。并且对 AnimateLCM 也做了优化,用PCM直接生成动画也可以保证质量了。 PCM从这三个角度说明了LCM的设计空间是有限的并很好地解决了这些限制。

PCM主要改善了三个LCM原有的问题:

  • LCM 只能接受小于 2 的 CFG 规模。较大的值会导致图像过度曝光。此外,LCM 对负面提示不敏感。

  • LCM 在不同的推理步骤中无法产生一致的结果。当推理步骤过大或过小时,其输出的结果会变得模糊。

  • LCM 的损失项无法实现分布一致性,在低推理步骤下会产生质量较差的结果。

相关链接

论文:https://arxiv.org/abs/2405.18407

视频:https://www.youtube.com/watch?v=B4ieLnS4MTY

代码:https://github.com/G-U-N/Phased-Consistency-Model

论文阅读

阶段性一致性模型:朝着稳定、快速的图像和视频生成方向发展

动机

一致性模型(CM)是一种具有高质量和快速生成特性的新型生成模型。潜在一致性模型(LCM)试图将其扩展到文本条件下的高分辨率生成的潜在空间。然而,其结果并不令人愉快。在这项工作中,我们表明了当前LCM的设计在三个方面存在缺陷。

我们提出了相位一致性模型~(PCM),推广了LCM的设计空间,很好地解决了这些局限性。在训练和推理两方面提出了创新策略,以提高生成质量。包括1步、2步、4步、8步、16步在内的大量实验结果以及广泛应用的稳定扩散和稳定扩散XL基础模型验证了PCM的进步。

潜在一致性模型有三个主要的局限性。

  • LCM只接受CFG小于2的标度。较大的值会导致过度曝光。LCM对负提示不敏感。

  • LCM在不同的推理步骤下不能得到一致的结果。当步长过大或过小时,其结果是模糊的。

  • LCM的损失项不能达到分布一致性,在低阶跃状态下产生较差的结果。

在这项工作中,我们调查了这些限制背后的原因,并提出了PCM,它很好地解决了所有这些限制。

PCM与以往方法质量比较

由PCM一步生成的图像

SD1.5+PCM

由PCM一步生成的图像

SDXL+PCM

文字转视频

与AnimateLCM在低步进模式下的视频生成质量比较。模型可以在两个步骤中生成高质量的视频。

结论

尽管可以在几个步骤中生成高质量的图像和视频,但我们发现当步数很低,特别是只有一步,生成质量不稳定。模型可能产生结构错误或图像模糊。

幸运的是,我们发现这种现象可以通过多步细化来缓解。总之,在本文中,我们观察到了缺陷 在文本条件控制下使用一致性模型生成高分辨率潜在空间。本文从三个层面对这些缺陷进行了总结,分析了缺陷产生的原因,并概括了缺陷的设计框架来解决这些缺陷。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1808665.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Labview】通过串口通信从上位机读取和写入数据

最近博主需要通过Labview的上位机控制一个温控仪表,主要实现在上位机读取实时温度和设定的目标温度,以及通过上位机设定目标温度。这里将其中遇到的问题和心得分享给大家,博主自己也做一个记录。 由于温控仪表采用的485通讯,modb…

阿里云邮件推送服务配置教程:怎么做批发?

阿里云邮件推送的API配置步骤?配置教程有哪些步骤? 阿里云邮件推送服务凭借其高并发、稳定性强和安全性高等特点,成为众多企业的首选。Aok将详细介绍如何使用阿里云邮件推送服务进行批发配置,并简要提及AokSend的优势。 阿里云邮…

DeepSORT(目标跟踪算法)中的数值表格与调参的关系

DeepSORT(目标跟踪算法)中的数值表格与调参的关系 flyfish DeepSORT(目标跟踪算法)中的马氏距离详解(很详细) DeepSORT(目标跟踪算法)中 可以设置阈值进行异常检测或目标跟踪的原…

Xilinx(AMD) vivado对FPGA网表文件进行功能仿真的方法

1 概述 在FPGA开发中很多商用IP核出于知识产权保护的目的,不提供源代码,而是提供综合后的FPGA网表。由于没有源代码,也无法对网表文件直接进行仿真的操作来验证功能,此时需要独立的仿真模型文件。 本文介绍在Xilinx(AMD) vivado软…

阻塞队列和线程池

一、什么是阻塞队列 1.1 什么是队列 队列是先进先出。 队列是一种特殊的线性表,特殊之处在于它只允许在表的前端(front)进行删除操作,而在表的后端(rear)进行插入操作,和栈一样,队…

数据可视化Python实现超详解【数据分析】

各位大佬好 ,这里是阿川的博客,祝您变得更强 个人主页:在线OJ的阿川 大佬的支持和鼓励,将是我成长路上最大的动力 阿川水平有限,如有错误,欢迎大佬指正 Python 初阶 Python–语言基础与由来介绍 Python–…

深度学习模型的生命周期与推理系统架构

目录 深度学习模型的生命周期 ​编辑 深度学习模型的生命周期 推理相比训练的新特点与挑战 推理系统架构 推理系统 vs 推理引擎 顶层:API接口和模型转换 中层:运行时(计算引擎) 底层:硬件级优化 边缘设备计算 主要问题 边缘部署和推理方式 方式1:边缘设备计…

0元白嫖阿里云4G内存云服务器——感谢伟大的CSDN和阿里云

🧸欢迎来到dream_ready的博客,📜相信您对博主首页也很感兴趣o (ˉ▽ˉ;) 学生邮箱白嫖/免费安装JetBrains全家桶(IDEA/pycharm等) —— 保姆级教程-CSDN博客 目录 1、学生认证领取300元优惠券 ​2、购买云服务器 1、学生认证领取…

Upscayl:款利用人工智能技术,深度学习算法,实现图像无损放大和增强的强大工具。

Upscayl AI: Upscayl AI是一款基于先进的人工智能技术,特别是深度学习算法开发的图像增强工具。它能够智能地分析并改善图像质量,实现无损放大、细节重建和模糊消除,让老旧、低分辨率或模糊的照片焕发新生,达到高清画…

【图论应用】使用多路图(multigraph)对上海地铁站点图建模,并解决最短路径问题

文章目录 1 前言2 导包导入数据集3 创建多路图,导入节点和边信息3 绘制线路图4 计算最短路径 1 前言 最近正在学习图神经网络,先pick up了一些最基础的图论知识并学习了一些好玩的应用。 本文启发于B站视频(BV1LY411R7HJ)&#…

自动驾驶跟驰仿真

联合仿真需求分析报告 一、项目背景 随着汽车技术的快速发展,自动驾驶和智能网联汽车已成为行业发展的重要趋势。为确保自动驾驶车辆在复杂交通环境中的安全性和可靠性,进行联合仿真测试显得尤为重要。本报告旨在明确联合仿真的具体需求,为…

基本表的定义:创建表、修改表、删除表

一、创建数据库与打开数据库 学生选课数据库 学生(学号,姓名,性别,出生时间,所在系) 课程(课程编号,课程名,先修课程号) 选课(学号&#xff0…

浅析Vue3 实战笔记(一)

本文是结合实践中和学习技术文章总结出来的笔记(个人使用),如有雷同纯属正常((✿◠‿◠)) 喜欢的话点个赞,谢谢! 有问题欢迎指正!! 前面已经讲了基本的Vue生命周期和入门知识,本篇开始使用Vite构建一个demo 1. 创建项目 1.1. 初始化项目 使用Vite初始化项目 yarn create v…

简单了解java中的异常

异常 1、异常的概述 1.1、概述 异常就是程序出现了不正常的情况,程序在执行过程中,数据导致程序不正常,最终导致JVM的非正常停止。语句错误不算在异常体系中。 1.2、异常的存在形式 异常有类型之分,比如我们比较熟悉的数组越…

【C++11】常见的c++11新特性(一)

文章目录 1. C11 简介2. 常见的c11特性3.统一的列表初始化3.1initializer_list 4. decltype与auto4.1decltype与auto的区别 5.nullptr6.右值引用和移动语义6.1左值和右值6.1.1左值的特点6.1.2右值的特点6.1.3右值的进一步分类 6.2左值引用和右值引用以及区别6.2.1左值引用6.2.2…

两台电脑通过网线直连共享数据(超详细)- 我的实践记录

原文链接 按照原文的操作,成功通过直连网线连接了两台windows电脑并共享传输数据。 ping不通可能是防火墙没关闭导致的,但是完全关闭防火墙又不安全。 那么有没有不关闭防火墙,能够上网,又能直连另一台电脑呢? 我们…

tokenization(一)概述

文章目录 背景基于词(Word-based)基于字符(Character-based)子词词元化(Subword tokenization) 背景 tokenization是包括大语言模型在内所有自然语言处理的任务的基础步骤,其目标是将文本数据转…

数据结构:二叉树的实现

目录 二叉树的遍历方式 前序遍历: 中序遍历: 后序遍历: 二叉树的基本结构和功能 基本结构: 基本功能: 二叉树功能的实现思路 二叉树功能的实现 1、构建一个二叉树 2、二叉树的销毁 3、计算二叉树里的节点个数 4、得…

音频数据上的会话情感分析

情感分析,也被称为观点挖掘,是自然语言处理(NLP)中一个流行的任务,因为它有着广泛的工业应用。在专门将自然语言处理技术应用于文本数据的背景下,主要目标是训练出一个能够将给定文本分类到不同情感类别的模型。下图给出了情感分类器的高级概述。 例如,三…

从零开始理解AdaBoost算法:设计思路与算法流程(二)【权值更新与加权表决、数学公式】

设计思路 AdaBoost算法属于Boosting算法家族中的一种,其基本思路是将多个弱分类器组合成一个强分类器。 “强分类器”是指一个分类准确率较高的模型“弱分类器”则是指分类准确率略高于随机猜测的简单模型。 AdaBoost的核心思想是通过 加权 的方式逐步提高分类器…