当自回归遇到Diffusion

当自回归遇到Diffusion

news2025/7/12 18:01:00

文章目录

Autoregressive Image Generation without Vector Quantization
- 一. 简介
- - 1.1 摘要
  - 1.1 引言
- 二.相关工作
- - 2.1 Sequence Models for Image Generation
  - 2.2 Diffusion for Representation Learning
  - 2.3 Diffusion for Policy Learning
- 三.方法
- - 3.1 重新思考离散值的tokens
  - 3.2 Diffusion Loss
  - - 损失函数
    - 采样器
  - 3.2 Diffusion Loss for Autoregressive Models
  - 3.3 Unifying Autoregressive and Masked Generative Models
- 四.实现
- - 4.1 Diffusion Loss
  - 4.2 Autoregressive and Masked Autoregressive Image Generation
- 五.实验
- - 5.1 Properties of Diffusion Loss
  - 5.2 Properties of Generalized Autoregressive Models
  - 5.3 与现有系统的基准测试
- 六.讨论与结论

Autoregressive Image Generation without Vector Quantization

一. 简介

机构：MIT，DeepMind，清华
代码：https://github.com/LTH14/mar
任务: 自回归图像生成
特点: 自回归建模tokens之间的相互依赖 + Diffusion Loss建模每个token的分布，能够不被约束在向量量化（vector-quantized）的表示内，而在continuous-valued tokens框架下实现
方法: Diffusion Loss，MAR

1.1 摘要

在这里插入图片描述

常规观点认为，用于图像生成的自回归模型通常伴随着向量量化（vector-quantized）的token。我们观察到，虽然使用离散值空间能够帮助表示类别分布，但这并不是自回归建模的必要条件。在这项工作中，我们提出使用扩散过程来建模每个token的概率分布，这使得我们能够在连续值空间中应用自回归模型。我们没有使用传统的分类交叉熵损失函数，而是定义了一种扩散损失函数来建模每个token的概率。这个

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1976444.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Kotlin OpenCV 图像图像50 Haar 级联分类器模型

Kotlin OpenCV 图像图像50 Haar 级联分类器模型

Kotlin OpenCV 图像图像50 Haar 级联分类器模型 1 OpenCV Haar 级联分类器模型2 Kotlin OpenCV Haar 测试代码 1 OpenCV Haar 级联分类器模型 Haar级联分类器是一种用于对象检测（如人脸检测）的机器学习算法。它由Paul Viola和Michael Jones在2001年提出…

阅读更多...

conda环境pip 安装Tensorflow-gpu 2.10.2提示nbconvert 的包依赖冲突

conda环境pip 安装Tensorflow-gpu 2.10.2提示nbconvert 的包依赖冲突

问题如下： ERROR: pip’s dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts. nbconvert 7.16.4 requires beautifulsoup4, which is not inst…

阅读更多...

DETR论文详解

DETR论文详解

文章目录前言一、DETR理论二、模型架构1. CNN2. Transformer3. FFN 三、损失函数四、代码实现总结前言 DETR是Facebook团队在2020年提出的一篇论文，名字叫做《End-to-End Object Detection with Transformers》端到端的基于Transformers的目标检测，DET…

阅读更多...

数仓入门：数据分析模型、数仓建模、离线实时数仓、Lambda、Kappa、湖仓一体

数仓入门：数据分析模型、数仓建模、离线实时数仓、Lambda、Kappa、湖仓一体

往期推荐大数据HBase图文简介-CSDN博客数仓分层ODS、DWD、DWM、DWS、DIM、DM、ADS-CSDN博客数仓常见名词解析和名词之间的关系-CSDN博客目录 0. 前言 0.1 浅谈维度建模 0.2 数据分析模型 1. 何为数据仓库 1.1 为什么不直接用业务平台的数据而要建设数仓？ …

阅读更多...

ChatGPT能代替网络作家吗？

ChatGPT能代替网络作家吗？

最强AI视频生成：小说文案智能分镜智能识别角色和场景批量Ai绘图自动配音添加音乐一键合成视频百万播放量https://aitools.jurilu.com/ 当然可以！只要你玩写作AI玩得6，甚至可以达到某些大神的水平！ 看看大神、小白、AI输出内容的区…

阅读更多...

重塑企业知识库：AI搜索的深度应用与变革

重塑企业知识库：AI搜索的深度应用与变革

在数字化浪潮的推动下，企业知识库已成为企业智慧的核心载体。而AI搜索技术的融入，让海量信息瞬间变得井然有序，触手可及。它不仅革新了传统的搜索方式，更开启了企业知识管理的新纪元，引领着企业向更加智能化、高效化的…

阅读更多...

【人工智能】FPGA实现人工智能算法硬件加速学习笔记

【人工智能】FPGA实现人工智能算法硬件加速学习笔记

一. FPGA的优势 FPGA拥有高度的重配置性和并行处理能力,能够同时处理多个运算单元和多个数据并行操作。FPGA与卷积神经网络(CNN)的结合,有助于提升CNN的部署效率和性能。由于FPGA功耗很低的特性进一步增强了其吸引力。此外,FPGA可以根据具体算法需求量身打造硬件加速器。针对动…

阅读更多...

[CR]厚云填补_SEGDNet

[CR]厚云填补_SEGDNet

Structure-transferring edge-enhanced grid dehazing network Abstract 在过去的二十年里，图像去雾问题在计算机视觉界受到了极大的关注。在雾霾条件下，由于空气中水汽和粉尘颗粒的散射，图像的清晰度严重降低，使得许多计算机视觉…

阅读更多...

鸿蒙媒体开发【基于AVCodec能力的视频编解码】音频和视频

鸿蒙媒体开发【基于AVCodec能力的视频编解码】音频和视频

基于AVCodec能力的视频编解码介绍本实例基于AVCodec能力，提供基于视频编解码的视频播放和录制的功能。视频播放的主要流程是将视频文件通过解封装->解码->送显/播放。视频录制的主要流程是相机采集->编码->封装成mp4文件。播放支持的原子能力规…

阅读更多...

【从0到1进阶Redis】Jedis 操作 Redis

【从0到1进阶Redis】Jedis 操作 Redis

笔记内容来自B站博主《遇见狂神说》：Redis视频链接 Jedis 是一个用于 Java 的 Redis 客户端库，它提供了一组 API 用于与 Redis 数据库进行交互。Redis 是一个高性能的键值存储数据库，广泛用于缓存、消息队列等场景。Jedis 使得 Java 开发者能…

阅读更多...

图欧科技-IMYAI智能助手24年5月~7月更新日志大汇总

图欧科技-IMYAI智能助手24年5月~7月更新日志大汇总

上一篇推文盘点了我们图欧科技团队近一年来的更新日志，可以说是跟随着人工智能时代的发展，我们的IMYAI也丝毫不落后于这场时代的浪潮！近三个月以来，我们的更新频率直线上升，现在我们AI网站已经成为一个集GPT、Claude、…

阅读更多...

《学会 SpringMVC 系列 · 消息转换器 MessageConverters》

《学会 SpringMVC 系列 · 消息转换器 MessageConverters》

📢 大家好，我是【战神刘玉栋】，有10多年的研发经验，致力于前后端技术栈的知识沉淀和传播。 💗 🌻 CSDN入驻不久，希望大家多多支持，后续会继续提升文章质量，绝不滥竽充数…

阅读更多...

Inno Setup 安装界面、卸载界面+美化

Inno Setup 安装界面、卸载界面+美化

Inno Setup Inno Setup用Delphi写成，其官方网站同时也提供源程序免费下载。它虽不能与Installshield这类恐龙级的安装制作软件相比，但也当之无愧算是后起之秀。Inno Setup是一个免费的安装制作软件，小巧、简便、精美是其最大特点，…

阅读更多...

arduino程序—模拟输出（基础知识）

arduino程序—模拟输出（基础知识）

arduino程序—模拟输出（基础知识） 1-25 模拟输出1-analogWrite电路效果演示模拟输出analog output复合运算符示例程序Analogwrite（） 1-26 模拟输出2-PWMPWM概念（极其重要） 1-27 模拟输出3-for电路效果演示程…

阅读更多...

【Verilog-CBB】开发与验证（2）——单比特信号CDC同步器

【Verilog-CBB】开发与验证（2）——单比特信号CDC同步器

引言多时钟域的设计中，CDC处理的场景还是蛮多的。单比特信号在CDC时，为保证信号采样的安全性，降低亚稳态，必须要对信号做同步处理。CDC从时钟的快慢关系来说分为两种case：快到慢、慢到快。对于脉冲型的控制信号&…

阅读更多...

『C++实战项目负载均衡式在线OJ』一、项目介绍与效果展示（持续更新）

『C++实战项目负载均衡式在线OJ』一、项目介绍与效果展示（持续更新）

文章目录一、项目介绍二、开发环境三、第三方库四、相关技术五、项目整体框架代码目录框架代码仓库连接点击这里✈ 一、项目介绍本项目是实现一个仿 leetcode 的 OJ (Online-Judge）系统。更准确的说应该称之为leetcode 的裁剪版。因为本项目只实现了leetcode中…

阅读更多...

‘#‘ is not followed by a macro parameter 关于宏定义的错误

‘#‘ is not followed by a macro parameter 关于宏定义的错误

今天在项目代码上想定义一个这样的宏，结果编译错误，这个宏定义类似这样的： #define DELETE_FILE_DPP(key) \ #ifdef PLATFORM_DPP \delete_file(&key); \ #endif 因为有平台之分需要用到编译宏，但不想每个调用的地方都写 #i…

阅读更多...

HTML 专业词汇与语法规则

HTML 专业词汇与语法规则

目录 1. 专业词汇 2. 语法规则 1. 专业词汇标签（tag）：一堆尖叫号（<>）， 属性（attribute）：对标签特征设置的方式； 文本（text&#xff0…

阅读更多...

【外排序】--- 文件归并排序的实现

【外排序】--- 文件归并排序的实现

Welcome to 9ilks Code World (๑•́ ₃ •̀๑) 个人主页: 9ilk (๑•́ ₃ •̀๑) 文章专栏： 数据结构我们之前学习的八大排序：冒泡，快排，插入，堆排等都是内排序，这些排序算法处理的都是…

阅读更多...

java对接kimi详细说明，附完整项目

java对接kimi详细说明，附完整项目

需求： 使用java封装kimi接口为http接口，并把调用kimi时的传参和返回数据，保存到mysql数据库中自己记录一下，以做备忘。具体步骤如下： 1.申请apiKey 访问：Moonshot AI - 开放平台使用手机号手机号验证…

阅读更多...

推荐文章

最新文章