OpenAI开源全新解码器,极大提升Stable Diffusion性能

news2024/11/27 8:33:25

在11月7日OpenAI的首届开发者大会上,除了推出一系列重磅产品之外,还开源了两款产品,全新解码器Consistency Decoder(一致性解码器)和最新语音识别模型Whisper v3。

据悉,Consistency Decoder可以替代Stable Diffusion VAE解码器。该解码器可以改善所有与Stable Diffusion 1.0+ VAE兼容的图像,尤其是在文本、面部和直线方面有大幅度提升。仅上线一天的时间,在Github就收到1100颗星。

Whisper large-v3是OpenAI之前开源的whisper模型的最新版本,在各种语言上的性能都有显著提升。OpenAI会在未来的API计划中提供Whisper v3。

解码器地址:https://github.com/openai/consistencydecoder

Whisper v3地址:https://github.com/openai/whisper
在这里插入图片描述

Consistency Decoder效果展示

Consistency Decoder算是OpenAI“一致性”家族里的新成员,所以,「AIGC开放社区」想为大家介绍一下OpenAI之前开源的另一个创新模型——Consistency Models。

扩散模型的出现极大推动了文生图片、视频、音频等领域的发展,涌现了GAN、VAE等知名模型。但是这些模型在推理的过程中,过于依赖迭代采样过程,导致生成效率非常缓慢或生成图片质量太差。

OpenAI为了突破这个技术瓶颈,提出了Consistency Models(一致性模型)框架并将其开源。该技术的最大优势是支持单步高质量生成,同时保留迭代生成的优点。简单来说,可以使文生图模型在推理的过程中又快又准攻守兼备。

此外,Consistency Models可以通过提取预先训练的扩散模型来使用,也可以作为独立的生成模型来训练,兼容性强且灵活。

开源地址:https://github.com/openai/consistency_models

论文:https://arxiv.org/abs/2303.01469

为了让大家更好的理解Consistency Models技术特点,「AIGC开放社区」先简单的介绍一下扩散模型的原理。

在这里插入图片描述

什么是扩散模型

扩散模型主要通过模拟扩散过程来生成数据,核心技术是将数据看作是由一个简单的随机过程(例如,高斯白噪声)经过一系列平滑变换得到的结果。

扩散模型主要由正向过程和反向过程两大块组成。正向过程(扩散过程):首先将原始数据通过添加噪声逐渐扩散,直到变成无法识别的噪声。

具体来说,每一步都会添加一点噪声,噪声的强度通常会随着步骤的进行而增大。这个过程可以用一个随机微分方程来描述。

在这里插入图片描述

反向过程(去噪声过程):然后使用一个学习到的模型从噪声数据中重建原始数据。

这个过程通常通过优化一个目标函数来进行,目标是让重建的数据与原始数据尽可能相似。

Consistency Models简单介绍

Consistency Models受扩散模型技术思路启发,直接将噪声映射到数据分布,无需迭代过程直接生成高质量图像。实验证明,如果模型输出在同一轨迹上的点保持一致,可以有效学习此映射。

在这里插入图片描述

简单来说,Consistency Models直接放弃了逐步去噪过程,而是直接学习把随机的噪声映射到复杂的图像上,同时加上了一致性的规则约束,避免生成的图像出现“驴唇不对马嘴”的情况。

说的更直白一点,我们如果要做一道麻婆豆腐,需要先切豆腐、配菜,然后放在马勺里进行大火翻炒,再放上调料最后出锅。

而Consistency Models的方法是直接就变出一盘麻婆豆腐,省去了所有制作流程,并且口味、菜品都是按照用户标准来的,这就是该技术的神奇之处。

基于上述技术概念,OpenAI的研究人员使用了知识蒸馏和直接训练两种方法来训练Consistency Models。

知识蒸馏:使用一个预先训练好的扩散模型(如Diffusion),生成一些数据对,然后训练Consistency Models时让这些数据对的输出尽可能接近,来跟扩散模型进行知识蒸馏。

在这里插入图片描述

直接训练法:直接从训练集样本中学习数据到噪声的映射,不需要依赖预训练模型。主要是加入噪声进行数据增强,然后优化增强前后的输出一致性。

实验数据

研究人员在多个图像数据集上测试了Consistency Models,包括CIFAR-10、ImageNet 64x64和LSUN 256x256。

结果表明,知识蒸馏训练的Consistency Models效果最好,在所有数据集和步数下均优于现有最好的蒸馏技术Progressive Distillation。

在这里插入图片描述

例如,在CIFAR-10上,单步生成达到新记录的FID 3.55,两步生成达到2.93;在ImageNet 64x64上,单步生成FID为6.20,两步生成为4.70,均刷新记录。

在这里插入图片描述

直接训练方式下,Consistency Models也显示出强大的能力,在CIFAR-10上打败了大多数单步生成模型,质量接近Progressive Distillation。

此外,该模型支持进行零样本图像编辑,可实现图像去噪、插值、上色、超分辨率生成、笔触生成等多种任务,而无需专门训练。

本文素材来源OpenAI官网、论文、开源项目,如有侵权请联系删除

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1188414.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何实现Debian工控电脑USB接口安全管控

Debian 作为工控电脑操作系统具有稳定性、安全性、自定义性和丰富的软件包等优势,适用于要求高度可靠性和安全性的工控应用。 Debian 作为工控电脑操作系统在工业控制领域有很大优势,包括: 稳定性:Debian 的发布版以其稳定性而闻…

等保评测是什么意思

等保评测是一种信息安全评估标准,是国家信息安全管理机构为确保信息安全而对信息系统的安全性能进行定期评估的行为。它主要用于评估网络安全的实现情况,包括组织和技术。 等保评测具有系统性和综合性,能够及时发现网络安全风险,…

云闪付app拉新 地推和网推百搭项目 升级涨价啦 附一手渠道

云闪付为银联的支付产品,在地推网推拉新项目市场里也是比较稳定的项目 可以通过”聚量推客“ 渠道申请推广 今天平台拿到了更好的政策价格 价格再次上涨,地推和网推的小伙伴们可以申请推广哦,百搭项目

基于范数求解缩放因子方法的MIMO系统预编码技术matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1. MIMO系统模型 4.2. 基于范数求解缩放因子的预编码技术 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 MATLAB2022A 3.部分核心程序 。。。。。。。。。。。。。。。…

使用Docker部署开源分布式任务调度系统DolphinScheduler

🔥博客主页: 小羊失眠啦. 🎥系列专栏:《C语言》 《数据结构》 《Linux》《Cpolar》 ❤️感谢大家点赞👍收藏⭐评论✍️ 使用Docker部署开源分布式任务调度系统DolphinScheduler 文章目录 使用Docker部署开源分布式任务…

计数排序【java实现】

一、计数排序 排序特点: 输入元素大于等于零,当输入的元素是 n 个 0 到 k 之间的整数时,它的运行时间是 O(n k)。计 数排序不是比较排 序,排序的速度快于任何比较排序算法。适合数据范围小的数组。 核心思想: 找出…

Java单元测试及常用语句

1、前言 编写Java单元测试用例,即把一段复杂的代码拆解成一系列简单的单元测试用例,并且无需启动服务,在短时间内测试代码中的处理逻辑。写好Java单元测试用例,其实就是把“复杂问题简单化,建单问题深入化“。在编写的…

Python - 利用 OCR 技术提取视频台词、字幕

目录 一.引言 二.视频处理 1.视频样式 2.视频截取 ◆ 裁切降帧 ◆ 处理效果 3.视频分段 三.OCR 处理 1.视频帧处理 2.文本识别结果 3.后续工作与优化 ◆ 识别去重 ◆ 多线程提效 ◆ 片头片尾优化 四.总结 一.引言 视频经常会配套对应的台词或者字幕&#xff0c…

11.斐波那契数列【兔子生崽】

文章目录 前言一、题目描述 二、解题 前言 本系列为循环结构编程题,点滴成长,一起逆袭。 一、题目描述 二、解题 古典问题(兔子生崽)

k8s存储卷 PV和PVC

目录 emptyDir存储卷 hostPath存储卷 nfs共享存储卷 PVC 和 PV 生命周期 一个PV从创建到销毁的具体流程如下: 静态pvc 动态pvc 3、定义PVC 4、测试访问 搭建 StorageClass NFS,实现 NFS 的动态 PV 创建 1、在stor01节点上安装nfs&#xff0…

Flutter学习:使用CustomPaint绘制路径

Flutter学习:认识CustomPaint组件和Paint对象 Flutter学习:使用CustomPaint绘制路径 Flutter学习:使用CustomPaint绘制图形 Flutter学习:使用CustomPaint绘制文字 Flutter学习:使用CustomPaint绘制图片 drawPath 绘制路…

IDC发布2023H1CRM报告 ,纷享销客增长率稳居第一

近期,国际数据公司(IDC)发布了《IDC China Semiannual CRM SaaS Tracker 2023H1》数据报告,该报告详细分析了纷享销客和Salesforce等国内外CRM厂商的数据。根据报告数据显示,纷享销客2023年H1的增长速度依然保持近40%&…

使用easyui前端框架快速构建一个crud应用

本篇文章将会详细介绍jquery easyui前端框架的使用,通过创建一个crud应用来带大家快速掌握easyui的使用。 easyui是博主最喜欢的前端框架,没有之一,因为它提供了多种主题,而且圆润可爱的组件吸引了我。 快速开始 easyui的官网地址…

相交链表~

题目描述 给你两个单链表的头节点 headA和headB,请你找出并返回两个单链表相交的起始节点。如果两个链表不存在相交节点,返回 null。图示两个链表在节点 c1 开始相交: 题目数据保证整个链式结构中不存在环。注意,函数返回结果后&…

文本标注工具doccano 中上传dataset无法成功

问题描述 文本标注工具doccano 中上传dataset无法成功,一直处于加载界面 解决方法 没有执行这个方法 doccano task

CorelDRAW2023绿色版免安装

我们都知道最新的画笔库和画笔搜索:CorelDRAW 2023中新增了最新的画笔库和画笔搜索功能,使用者能够轻松查找和应用各种画笔和笔刷。根据软件大数据显示 CorelDRAW? Graphics Suite 专为提高您的工作效率而设计,受到全球数百万图形专业人员和…

GEO地图数据分布处理

需求 已知访问用户经纬度数据,根据经纬度统计每个省的访问总数 地区经纬度分布表 CREATE TABLE area_geo (id int(11) NOT NULL,name varchar(250) NOT NULL COMMENT 地区名,ext_name varchar(255) NOT NULL COMMENT 地区扩展名,geo geometry NOT NULL COMMENT 地…

【修车案例】一波形一案例(7)

背景介绍:由于间歇性短路导致车厢内的照明灯不亮了,客户自己购买了廉价保险丝替换原装10A保险丝。但是线束却发生了着火事故,这条线束从车厢内保险丝盒 一直延伸到遮阳板处的梳妆灯。短路的原因后面确定是梳妆灯组件故障,但是客户…

PHP网站源码 知识付费分站代理自助下单系统花粥商城放墙带知识付费模版

花粥商城,自带防墙,本人一直在用,没有被墙过,自带知识付费模版美化版,用户登录的页面也很好看 上传商城源码,再把知识付费模版上传到根目录 访问域名,后台地址:域名/admin 登录账…

关于炒股融资的条件,3个你不知道的小知识

随着投资者对股市的关注度不断提高,炒股融资成为了常见的投资方式,但是很多投资者对炒股融资的条件了解不够。下面给大家介绍三个你可能不知道的小知识。 融资比例的计算方式 融资比例指的是投资者可以借的资金比例,其计算方式是融资金额除以…