diffusion model2 扩散模型的文本信息融合、交叉注意力机制、lora

news2026/2/11 3:58:16

前言

在上一篇文章中，我们剖析了diffusion model的原理，而在这一篇文章中，我们探讨与扩散模型有关的其他话题，包括扩散模型的unet是如何在推理噪声的过程中，融入文本信息的考量？其原理为交叉注意力机制，到底是什么机制？
扩散模型的LORA训练原理是什么？

交叉注意力机制

首先，参考Understanding Stable Diffusion from "Scratch"可知，扩散模型的主要技术点有unet、word embedding、cross attention、auto encoder。其中，文本能够影响图像生成的原因是交叉注意力机制

"Let text influence image through cross attention "

交叉注意力机制中提到，在朴素的多头注意力机制之上改进，将QKV向量变成文本向量，就是交叉注意力机制了。

“如果 d_input 存在, 变成交叉注意力. 否则是自我注意力.查询，键，值设置被构造为输入 d_model的线性变换.”

LORA训练

AI绘画入门：扩散模型，Stable Diffusion，LoRA，ControlNet相关技术原理

LORA的原理是训练附加的网络参数，用于影响原有的网络行为。具体而言，就是在网络层一个大的转置矩阵旁，添加两个小矩阵的乘积，从而得到风格受影响的图片。

主要思路是在固定大网络的参数，并训练某些层（一般是某些层的线性部分，比如Transformer中的QKV的线性投影部分，以及FFN的线性部分）参数的增量，且这些参数增量可通过矩阵分解变成更少的可训练参数，大大降低finetune所需要训练的参数量。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/839731.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Kubernetes 整体架构介绍

Kubernetes 整体架构介绍

架构图 Kubernetes 主要由以下几个核心组件组成： etcd 保存了整个集群的状态；kube-apiserver 提供了资源操作的唯一入口，并提供认证、授权、访问控制、API 注册和发现等机制；kube-controller-manager 负责维护集群的状态&#xf…

阅读更多...

【LeetCode】287. 寻找重复数

【LeetCode】287. 寻找重复数

287 . 寻找重复数（中等） 方法快慢指针思路要解决这道题首先要理解如何将输入的数组看作为链表。对于数组 nums 中的数字范围在 [1, n]，考虑两种情况： 如果数组中没有重复的数字，以 [1, 3, 4, 2] 为例，将…

阅读更多...

从8个新 NFT AMM，聊聊能如何为 NFT 提供流动性

从8个新 NFT AMM，聊聊能如何为 NFT 提供流动性

DeFi 的出现，开启了数字金融民主化的革命。其中，通过 AMM 自由创建流动性池极大地增加了 ERC-20 Token 的流动性，并为一些长尾 Token 解锁了价值的发现，因而今天在链上可以看到各种丰富的交易、借贷和杠杆等活动。而另一方面&am…

阅读更多...

uni-app——下拉框多选

uni-app——下拉框多选

一、组件components/my-selectCheckbox.vue <template><view class"uni-stat__select"><span v-if"label" class"uni-label-text">{{label ：}}</span><view class"uni-stat-box" :class"…

阅读更多...

SpringBoot实现数据库读写分离

SpringBoot实现数据库读写分离

SpringBoot实现数据库读写分离参考博客https://blog.csdn.net/qq_31708899/article/details/121577253 实现原理：翻看AbstractRoutingDataSource源码我们可以看到其中的targetDataSource可以维护一组目标数据源(采用map数据结构)，并且做了路由key与目标…

阅读更多...

《华为认证》SR-MPLS-TE

《华为认证》SR-MPLS-TE

实验需求：运营商网络配置SR-MPLS-TE，实现CE1和CE2之间的互访流量通过PE1-P2-P4-PE3。步骤1：配置运营商网络的IGP协议（本实验采用ISIS协议） PE1： isis 1is-level level-2cost-style widenetwork-entity 49…

阅读更多...

一个.NET开发的Web版Redis管理工具

一个.NET开发的Web版Redis管理工具

今天给大家推荐一款web 版的Redis可视化工具WebRedisManager，即可以作为单机的web 版的Redis可视化工具来使用，也可以挂在服务器上多人管理使用的web 版的Redis可视化工具。 WebRedisManager基于SAEA.Socket通信框架中的SAEA.RedisSocket、SAEA.WebApi两…

阅读更多...

Python实现决策树算法：完整源码逐行解析

Python实现决策树算法：完整源码逐行解析

决策树是一种常用的机器学习算法，它可以用来解决分类和回归问题。决策树的优点是易于理解和解释，可以处理数值和类别数据，可以处理缺失值和异常值，可以进行特征选择和剪枝等操作。决策树的缺点是容易过拟合，对噪声和不…

阅读更多...

云原生应用里的服务发现

云原生应用里的服务发现

服务定义： 服务定义是声明给定服务如何被消费者/客户端使用的方式。在建立服务之间的同步通信通道之前，它会与消费者共享。同步通信中的服务定义： 微服务可以将其服务定义发布到服务注册表（或由微服务所有者手动发布）…

阅读更多...

内网穿透：ngrok使用教程

内网穿透：ngrok使用教程

一、前言平时我们在本地8080端口创建一个服务的时候，都是使用localhost:8080访问我们的web服务。但是外网是不能访问我们的web服务的。这时，如果你要实现外网访问的功能就需要实现内网穿透，ngrok就是可以帮我们实现这个功能。二、ngrok介…

阅读更多...

岩土工程仪器多通道振弦传感器信号转换器应用于隧道安全监测

岩土工程仪器多通道振弦传感器信号转换器应用于隧道安全监测

岩土工程仪器多通道振弦传感器信号转换器应用于隧道安全监测多通道振弦传感器信号转换器VTI104_DIN 是轨道安装式振弦传感器信号转换器，可将振弦、温度传感器信号转换为 RS485 数字信号和模拟信号输出，方便的接入已有监测系统。传感器状态专用指示灯方…

阅读更多...

unraid docker桥接模式打不开页面，主机模式正常

unraid docker桥接模式打不开页面，主机模式正常

unraid 80x86版filebrowser，一次掉电后，重启出现权限问题，而且filebrowser的核显驱动不支持amd的VA-API 因为用不上核显驱动，解压缩功能也用不上，官方版本的filebrowser还小巧一些，18m左右安装的时候总是…

阅读更多...

QTableWidget对单元格(QWidget/QTableWidgetItem)的内存管理[clearContents()]

QTableWidget对单元格(QWidget/QTableWidgetItem)的内存管理[clearContents()]

目录现象结论代码验证clearContents() 会释放QTableWidgetItem 和QWidget 对象，但是不指向nullptrmemorytable.hmemorytable.cpp断点情况验证clearContents()是延时释放QWidget 的而QTableWidgetItem 立即释放现象结论 clearContents() 会清除表格中的所有单元格…

阅读更多...

小程序 view下拉滑动导致scrollview滑动事件失效

小程序 view下拉滑动导致scrollview滑动事件失效

小程序页面需要滑动功能下拉时滑动，展示整个会员卡内容， 下拉view里包含了最近播放：有scrollview，加了下拉功能后，scrollview滑动失败了。 <view class"cover-section" catchtouchstart"handletou…

阅读更多...

eNSP：ospf和mgre的配置

eNSP：ospf和mgre的配置

实验要求： 第一步：路由、IP的配置 r1： <Huawei>sys Enter system view, return user view with CtrlZ. [Huawei]sys r1 [r1]int loop0 [r1-LoopBack0]ip add 192.168.1.1 24 [r1-LoopBack0]int g0/0/0 [r1-GigabitEthernet0/0/0]ip a…

阅读更多...

部署Tomcat和jpress应用

部署Tomcat和jpress应用

静态页面：静态页面是指在服务器上提前生成好的HTML文件，每次用户请求时直接返回给用户。静态页面的内容是固定的，不会根据用户的请求或其他条件进行变化。静态页面的优点是加载速度快，对服务器资源要求较低，但缺点是无…

阅读更多...

git报错：Error merging: refusing to merge unrelated histories

git报错：Error merging: refusing to merge unrelated histories

碰对了情人，相思一辈子。打命令：git pull origin master --allow-unrelated-histories 然后等一会再push 切记不要有冲突的代码需要改掉~

阅读更多...

Spring Cloud Eureka 和 zookeeper 的区别

Spring Cloud Eureka 和 zookeeper 的区别

CAP理论在了解eureka和zookeeper区别之前，我们先来了解一下这个知识，cap理论。 1998年的加州大学的计算机科学家 Eric Brewer 提出，分布式有三个指标。Consistency，Availability，Partition tolerance。简称即为CAP。…

阅读更多...

一则简单代码的汇编分析

一则简单代码的汇编分析

先通过Xcode创建一个terminal APP，语言选择C。代码如下： #include <stdio.h>int main(int argc, const char * argv[]) {int a[7]{1,2,3,4,5,6,7};int *ptr (int*)(&a1);printf("%d\n",*(ptr));return 0; } 在return 0处打上断点&…

阅读更多...

AcWing 24：机器人的运动范围 ← BFS、DFS

AcWing 24：机器人的运动范围 ← BFS、DFS

【题目来源】https://www.acwing.com/problem/content/description/22/【题目描述】地上有一个 m 行和 n 列的方格，横纵坐标范围分别是 0∼m−1 和 0∼n−1。一个机器人从坐标 (0,0) 的格子开始移动，每一次只能向左，右，上&#…

阅读更多...

推荐文章

最新文章