DataWhale公开课笔记2:Diffusion Model和Transformer Diffusion

news2025/3/3 4:26:42

Stable Diffusion和AIGC

AIGC是什么

AIGC的全称叫做AI generated content,AlGC (Al-Generated Content,人工智能生产内容),是利用AI自动生产内容的生产方式。

在传统的内容创作领域中,专业生成内容(PGC)和用户生成内容(UGC)一直是两大主流模式,共同构成了内容生产的核心来源。专业生成内容通常由专业团队或机构制作,具有高质量和专业性,而用户生成内容则是由普通用户创作和分享的内容,具有更多的个性化和多样性。

然而,随着科技的不断进步,人工智能生成内容(AIGC)的兴起正在带来一场革命性的变革。通过人工智能技术,内容的生成过程变得更加自动化和智能化,不仅让人工智能具备了对世界的感知与理解能力,还进一步将其延伸至创造性生成层面。这一转变意味着内容创作的方式和方法发生了根本性的变化,也表明人工智能生成内容将在未来深刻影响并重塑各行业内容生产的范式和格局。
在这里插入图片描述

AIGC的发展依赖如下三个要素:

  • 更强,同时也是更便宜的算力
  • 更多的高质量数据集,包括文本、语音、视觉和多模态
  • 模型技术的发展,更具有扩展性和更好的模型,比如Transformers和diffusion model

所以AIGC能做的,且做得比较好的领域越来越多,包括:

  • 自然语言领域(比如代码生成、论文写作、诗歌对联、剧本创作,agent智能体)
  • 语音领域(比如语音合成,音乐生成,个性化声音生成),
  • 视觉领域的图像生成(stable diffusion, mid-journey)、以及最近也发展很迅速的视频生成(sora)。

AIGC的发展(以Picture Generation任务为例)

在这里插入图片描述
什么是文生图:
在这里插入图片描述

根据文生图的发展路线,我们把文生图的发展历程发展成如下4个阶段:

  • 基于生成对抗网络的(GAN)模型

  • 基于自回归(Autoregressive)模型

  • 基于扩散(diffusion)模型

  • 基于Transformers的扩散(diffusion)模型

扩散模型:Diffusion Models

扩散模型是目前大多数文本-图像模型采用的常见技术。

扩散模型包括两个过程。一个是前向过程,在训练过程中持续向原始数据添加高斯噪声以破坏数据,直到经过一定步数后,原始数据信息被完全破坏,趋近于纯噪声。另一个是反向过程,通过深度网络进行去噪,学习恢复数据。

训练完成后,我们可以通过输入随机噪声并将其传递给去噪过程来生成数据。这就是DDPM的基本原理。
在这里插入图片描述

Transformers的架构的Diffusion模型

背景

  • 普遍认为Sora的核心技术点之一就是将视觉数据转化为Patch的统一表示形式,通过Transformer+Diffusion结合
  • Paper: https://arxiv.org/abs/2212.09748

原理

基于Transformers的框架,Diffusion模型引入了一个名为U-ViT的简单而通用的架构,以替代latent diffusion model中U-Net部分的卷积神经网络(CNN),用于图像生成任务。

U-ViT采用了Transformers的设计方法,将包括时间、条件和噪声图像补丁在内的所有输入视为tokens
在这里插入图片描述
推理链路:

  1. 输入一张256x256x3的图片,经过Encoder后得到对应的latent,压缩比为8,latent space推理时输入32x32x4的噪声,将latentspace的输入token化,图片使用patchify,label和timestep使用embedding。
  2. 结合当前的step t , 输入label y, 经过N个Dit Block通过 MLP进行输出,得到输出的噪声以及对应的协方差矩阵
  3. 经过T个step采样,得到32x32x4的降噪后的latent

在训练时,需要使得去躁后的latent和第一步得到的latent尽可能一致

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1504089.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

稀碎从零算法笔记Day10-LeecCode:赎金信

题型:哈希表、字符串 链接:383. 赎金信 - 力扣(LeetCode) 来源:LeetCode 题目描述 给你两个字符串:ransomNote 和 magazine ,判断 ransomNote 能不能由 magazine 里面的字符构成。 如果可以…

Proxmox VE安装CentOS

1、下载CentOS镜像文件 阿里巴巴开源镜像站: https://developer.aliyun.com/mirror/ CentOS 镜像文件(图形化界面) https://mirrors.aliyun.com/centos/8.5.2111/isos/x86_64/CentOS-8.5.2111-x86_64-dvd1.iso 2、上传ISO镜像 选择ISO镜像…

【Linux】软件包管理器yum(命令行工具rz,sz)

目录 01.何为软件包 软件包 软件包管理器 02.命令行工具rz、sz 03.yum的使用 查看与搜索 安装 卸载 其他 01.何为软件包 软件包 我们手机电脑上的各种软件应用其实就是一个个的可执行程序(及其相关文件和资源的集合),打开应用的过程其…

计算机组成原理-微程序设计实验

一、实验目的 1.在简单模型机的基础上,通过知识的综合运用,进行5条机器指令的微程序设计。 2.进一步理解微程序控制器的工作原理,掌握指令与微指令的区别与联系。 3.通过编写和调试微程序,提高研究与设计能力。 二、实验要求 …

P1958 上学路线

难度:普及- 题目描述 你所在城市的街道好像一个棋盘,有 a 条南北方向的街道和 b 条东西方向的街道。南北方向的 a 条街道从西到东依次编号为 1 到 a,而东西方向的 b 条街道从南到北依次编号为 1 到 b,南北方向的街道 i 和东西方…

嘉绩咨询:搭建品牌招商桥梁,提供卓越讲师与会议服务

当下,品牌成功的关键在于强大的渠道支撑和高效的招商能力,在这一背景下,嘉绩咨询,这一专注于渠道招商全案系统孵化的知名平台型企业,今日宣布,将进一步加强其在品牌招商桥梁搭建上的服务功能,通…

如何不丢精度保存PPT中的图片,实测有效

1.在powerpoint软件中 文件-》选项 -》高级-》设置为不压缩,且默认输出为最高 2.导入对应图片后,右键导出图片,选择.emf文件 3.使用windows自带的画图工具打开.emf文件,ctrls另存为.png文件 此方法亲测可以生成清晰度很高的图片

13. 用户注册功能实现

文章目录 一 、增加路由二、书写流程控制(controller)逻辑三、书写业务逻辑四、与DB交互五、测试 代码地址:https://gitee.com/lymgoforIT/bluebell 一 、增加路由 添加路由,使用分组管理 v1 : r.Group("/api/v1")//…

运动想象 (MI) 迁移学习系列 (3) : MSFT

运动想象迁移学习系列:MSFT 0. 引言1. 主要贡献2. 数据增强方法3. 基于度量的空间滤波转换器3.1 空间过滤3.2 脑电图ViT3.2.1 变压器编码器层3.2.2 基于度量的损失函数 4. 实验结果4.1 消融实验4.2 基线任务对比4.3 跨主题 5. 总结欢迎来稿 论文地址:https://www.s…

C# WinForm AndtUI第三方库 Table控件使用记录

环境搭建 1.在NuGet中搜索AndtUI并下载至C# .NetFramework WinForm项目。 2.添加Table控件至窗体。 使用方法集合 1.单元格点击事件 获取被点击记录特定列内容 private void dgv_CellClick(object sender, MouseEventArgs args, object record, int rowIndex, int columnIn…

javascript中的严格模式(use strict)

下面是一个使用JavaScript严格模式的代码示例。在这个示例中,我将展示如何在整个脚本中启用严格模式,并演示一些严格模式下可能遇到的问题。 "use strict"; a 1; // Uncaught ReferenceError: a is not defined // 尝试使用一个未声明的变量…

中国钛合金自行车出口海外营销策略-大舍传媒

中国是世界上自行车产量最大的国家之一,而如今,它也在自行车制造领域迈出了一大步。Titan Super Bond与Bright Laser Technologies (BLT)合作,成功开发了中国和亚洲首款全3D打印钛合金自行车车架。 这款创新的自行车车架采用了BLT-A320机器&a…

bat文件给多个Android设备安装apk

本文是安装一个apk 1、确保以下3个文件在同一个目录下 1>要安装的apk,这里是mmb.apk 2>设备名单,保存在.txt文件中,一行一个设备名,设备名通过adb devices获取,截图中是两个设备 txt文件中的样式 3>要运行…

二、实战篇 商户查询缓存

源码仓库地址:gitgitee.com:chuangchuang-liu/hm-dingping.git 1、什么是缓存? 缓存(Cache),就是数据交换的缓冲区,俗称的缓存就是缓冲区内的数据,一般从数据库中获取,存储于本地代码 1.1、为什么要使用缓存? 添加缓存后,重复的…

icp许可证年报入口在哪?icp许可证年报流程详细介绍

近期拥有ICP许可证的企业负责人都会收到各地方通管局下发的年报通知,需要在每年的1-3月份报送年报信息,最晚报送时间是2024年3月31日。 对于刚申请或者刚接触这方面的朋友来说,可能连icp许可证年报入口在哪都不知道,更不用说后面…

OpenStack之keystone(用户认证)

Keystone(认证) Keystone 概述 1)管理用户及其权限 2)维护OpenStack Services 的 Endpoint 3)Authentication(认证)和 Authorization(授权) keystone的名词概念 1.User(用户或服务&#xf…

springboot256基于springboot+vue的游戏交易系统

游戏交易系统设计与实现 摘 要 在如今社会上,关于信息上面的处理,没有任何一个企业或者个人会忽视,如何让信息急速传递,并且归档储存查询,采用之前的纸张记录模式已经不符合当前使用要求了。所以,对游戏交…

制定一份完美的测试计划,让您的产品质量更上一层楼!

大家好,我是彭于晏。今天学习测试计划如何书写。 虽然很多人日常工作中都知道测试计划是什么,但是写好测试计划,其实并不容易。今天就来一起学习下测试计划如何书写。 什么是测试计划? 测试计划是一份为软件产品所准备的详细文档…

揭秘接口测试:完整流程指南!

在讲接口测试之前,首先需要给大家申明下:接口测试对于测试人员而言,非常非常重要,懂功能测试接口测试,就能在企业中拿到一份非常不错的薪资。 这么重要的接口测试,一般也是面试笔试必问。为方便大家更好的…

Qt 实现诈金花的牌面值分析工具

诈金花是很多男人最爱的卡牌游戏 , 每当你拿到三张牌的时候, 生活重新充满了期待和鸟语花香. 那么我们如果判断手中的牌在所有可能出现的牌中占据的百分比位置呢. 这是最终效果: 这是更多的结果: 在此做些简单的说明: 炸弹(有些地方叫豹子) > 同花顺 > 同花 > 顺…