一个Transformer在尺度上适合多模态扩散的所有分布

news2024/9/22 1:37:38

文章目录

  • One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale
    • 摘要
    • 本文方法
    • 实验结果

One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale

摘要

本文提出了一个统一的扩散框架(UniDiffuser)来拟合一个模型中与一组多模态数据相关的所有分布。
我们的关键观点是——边缘分布、条件分布和联合分布的学习扩散模型可以统一为预测扰动数据中的噪声,其中扰动水平(即时间步长)对于不同的模态可能是不同的。
受统一视图的启发,UniDiffuser同时学习所有分布,对原始扩散模型进行最小的修改-扰动所有模态的数据,而不是单一模态,输入不同模态的单个时间步长,预测所有模态的噪声,而不是单一模态.
UniDiffuser是由扩散模型的转换器参数化的,以处理不同模态的输入类型。
UniDiffuser在大规模成对的图像-文本数据上实现,可以通过设置适当的时间步来执行图像、文本、文本到图像、图像到文本和图像-文本对的生成,而不需要额外的开销。
特别是,UniDiffuser能够在所有任务中产生感知上真实的样本,其定量结果(例如FID和CLIP分数)不仅优于现有的通用模型,而且在代表性任务(例如文本到图像生成)中也可与定制模型(例如,Stable Diffusion和DALL·e2)相媲美。
代码地址

在这里插入图片描述

本文方法

在这里插入图片描述
与定制扩散器的比较。UniDiffuser在Ho等人的最小修改下同时拟合所有分布(2020)。特别是,通过适当地设置时间步长(或噪声水平),它退化为预定的扩散模型
形式上,假设我们有两个从分布q(x0, y0)中采样的数据模态。我们的目标是设计一个基于扩散的模型,能够捕获由q(x0, y0)决定的所有相关分布,即边际分布q(x0)和q(y0),条件分布q(x0|y0)和q(y0|x0),以及联合分布q(x0, y0)。
使用扩散模型学习分布等同于估计噪声上的条件期望。对边际分布q(x0)进行建模相当于估计注入到xt的噪声的条件期望,即E[λ x |xt]。同样,在对条件分布q(x0|y0)和联合分布q(x0, y0)进行建模时要估计的关键量分别是E[λ x |xt, y0]和E[λ x, λ |xt, yt]。
在这里插入图片描述
联合图像和文本
在这里插入图片描述
UniDiffuser对图像-文本数据的实现。(a)首先,对图像和文本进行隐空间编码。(b)其次,我们以图2所示的方式训练由变压器参数化的UniDiffuser 。

实验结果

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/740159.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vue3+Vite+Pinia+Naive后台管理系统搭建之三:vue-router 的安装和使用

前言 如果对 vue3 的语法不熟悉的,可以移步 Vue3.0 基础入门快速入门。 如果对 vue-router 语法不熟悉的,可以移步Vue3 系列:vue-router。 1. 安装依赖 yarn add vue-router // or npm install vue-router 2. 构建 src/router/index.js …

对话式ai人工智能的主要好处有哪些

对话式 AI 是客户服务的一个重要且不断增长的组成部分,尤其是客户越来越多地采用的数字自助服务。 对话式 AI 可以在提高客户满意度 (CSAT) 方面发挥很重要的作用。在 IBM 于 2021 年进行的一项研究中,99% 的公司报告称,由于使用虚拟对话式 …

支持源码的低代码核心工具,逻辑引擎

在现代企业管理中,决策扮演着至关重要的角色。然而,随着业务规模的扩大和数据量的增加,人工决策变得越来越困难和耗时,而且容易受到主观因素的影响。逻辑引擎的出现为企业提供了一种高效、准确的决策推理工具,能够以逻…

数字化转型迫在眉睫

在挑战商业世界现状并实现数字化转型时,一定程度的阻力是不可避免的。事实上,《福布斯》的一篇文章援引哈佛商学院的研究表明,70%的组织变革努力都失败了,“原因之一是高管们没有从足够多的人那里了解他们的计划和想法。”支持。”…

市面上的ipad国产触控笔怎么样?好用的电容笔合集

而对那些把IPAD当作学习工具的人而言,这个Apple Pencil绝对是不可或缺的。然而,苹果版本的Pencil却是昂贵得让许多人望而却步。因此,最佳方法是选择一个平替的电容笔。我是从几年前开始用IPAD的,也是一个数码爱好者,近…

AIGC行业周刊【2023-0709】【第六期】2023年世界人工智能大会大佬发言汇总

点击加入->【智子纪元-AIGC】技术交流群 一、大咖观点: 0709AI日报:2023年世界人工智能大会大佬发言汇总「5年内,人类程序员没了」,Stability AI老板大胆预测,一众大佬狂怼:大错特错,都懒得…

在vite创建的vue3项目中加载Cesium立体地形信息并调整初始化角度

在vite创建的vue3项目中加载Cesium立体地形信息并调整初始化角度 使用vite创建vue3项目 npm create vitelatestcd到创建的项目文件夹中 npm install安装Cesium npm i cesium vite-plugin-cesium vite -D配置 (1)在项目的vite.config.js文件中添加&#x…

算法训练营第三十一天||理论基础 ● 455.分发饼干 ● 376. 摆动序列 ● 53. 最大子序和

理论基础 贪心的本质是选择每一阶段的局部最优,从而达到全局最优。 这么说有点抽象,来举一个例子: 例如,有一堆钞票,你可以拿走十张,如果想达到最大的金额,你要怎么拿? 指定每次…

专项练习24

目录 一、选择题 1、JavaScript 中的数字在计算机内存中占多少个Byte? 2、请问以下JS代码会输出什么 二、编程题 1、以数字的形式返回数字参数向下取整的结果 一、选择题 1、JavaScript 中的数字在计算机内存中占多少个Byte? A、2 Byte B、4Byte C…

如何在购物 App 上实现商品快递物流信息的展示

前言 现如今,人们大多数会选择在手机购物App上进行购物,这样买东西很是便捷,不用出门就能买到全国各地甚至是国外的商品,下单之后只需要等待快递送达就可以了。一个购物APP,不可或缺的一个辅助功能就是,展…

GPT-4 验明真身的经典三连问:快速区分 GPT-3.5 与 GPT-4

GPT-4 验明真身的经典三连问:快速区分 GPT-3.5 与 GPT-4

华为VRP系统基础

系列文章目录 华为数通学习(1) 目录 一,什么是VRP? 二,VRP的发展 三,VRP的文件系统 3.1,系统文件:.cc结尾 ​编辑 3.2,配置文件:.cfg,.zip,.dat结尾 3.…

统计年,月,日,java补充无的数据

需求:营收趋势图。需要按年,按月,按日。按年,后方选择日历 起始年-结束年。例如start2013 end 2023 按月,后方选择月份 起始月-结束月。例如start 2022-10 end 2023-07。 按日,后方选择日 起始日-结束日。例…

Vue-CodeMirror 使用

vue2 安装 npm install vue-codemirror -S # or yarn add vue-codemirror -S 全局配置&#xff0c;main.js文件引入 import VueCodemirror from vue-codemirror // import base style import codemirror/lib/codemirror.css Vue.use(VueCodemirror)Vue 文件内使用 <templ…

QDialog的相关API函数

目录 常用的一些 API 函数: QDialog 的子类 QMessageBox&#xff1a; QFileDialog QFont 字体类 QColorDialog QInputDialog QProgressDialog 总结 QDialog是Qt框架中的一个控件类&#xff0c;用于实现对话框的界面。对话框通常用于显示一个独立的窗口&#xff0c;该窗口会显…

手撕spring05(xml解析bean)

概述 通过加载配置文件的信息&#xff0c;注册xml的bean配置 整体设计 知识点补充 返回指定资源的输入流 // 相对路径获取流 java.lang.ClassLoader#getResourceAsStream // 绝对路径获取流 java.io.FileInputStream#FileInputStream(java.io.File) // URL获取流 java.net…

尚医通02:医院API的CRUD+环境搭建

目录 今日必会 项目环境搭建 医院设置模块搭建 配置使用Swagger2 统一返回结果 实现带条件带分页查询接口 新增、修改接口开发 批量删除、锁定医院设置 统一异常处理 今日必会 1.简单的搭建环境。要明白什么时候是pom/war/jar yygh_parent <pom> commo…

开发第一个基于PyQt5的桌面应用

必须使用两个类&#xff1a;QApplication和QWidget。都在PyQt5.QtWidgets。 创建设计了一个小窗口 Qt-Designer的介绍 布局——垂直布局、水平布局、栅格布局、表张布局 空间 垂直、水平空间 按钮相关的控件 普通按钮、工具条按钮、单选按钮、多选按钮、连接命令按钮 列表控…

GD32F4_USB无法识别

Q&#xff1a;GD32F4做USB通讯&#xff0c;在120M\160M时钟主频下能被识别并通讯&#xff0c;在设置主频为200M时无法被识别或通讯异常。 A&#xff1a;注意USB时钟来源&#xff0c;USB工作时钟频率为48M

ETHERNET/IP转PROFIBUS-DP网关Profibus DP转EtherNet/IP协议转换网关

大家好&#xff0c;今天要给大家介绍一款非常神奇的通讯网关捷米特JM-DPM-EIP&#xff01;这款产品可以将各种PROFIBUS-DP从站接入到ETHERNET/IP网络中&#xff0c;真是一款神奇的产品啊&#xff01;你是否想过&#xff0c;如果没有这款产品&#xff0c;PROFIBUS-DP从站和ETHER…