探索Transformer中的多头注意力机制:如何利用GPU并发

news2024/11/15 20:06:12

什么是多头注意力机制?

首先,什么是多头注意力机制?简单来说,它是Transformer模型的核心组件之一。它通过并行计算多个注意力头(attention heads),使模型能够从不同的表示子空间中捕捉不同的特征。想象一下,你有八只眼睛,每只眼睛都能看到不同的东西,这样你就能更全面地理解世界。

为什么要用多头注意力?

你可能会问,为什么要用多头注意力?单头注意力不够吗?答案是,不够!单头注意力只能关注输入的某一部分,而多头注意力可以同时关注多个部分,从而捕捉到更多的信息。这就像你在看电影时,不仅能看到主角的表演,还能注意到背景中的细节。

多头注意力如何支持GPU并发?

好了,重点来了:多头注意力是如何支持GPU并发的?答案在于并行计算。每个注意力头的计算是独立的,因此可以分配到不同的GPU上并行处理。这不仅提高了计算效率,还能充分利用GPU的计算能力。

实例证明

让我们通过一个实例来证明这一点。以下是一个简化的多头注意力机制的实现,并展示了如何将不同的注意力头分配到不同的GPU上进行并行计算。

import torch
import torch.nn as nn

class MultiHeadAttention(nn.Module):
    def __init__(self, embed_size, heads, devices):
        super().__init__()
        self.embed_size = embed_size
        self.heads = heads
        self.head_dim = embed_size // heads
        self.devices = devices

        assert (
            self.head_dim * heads == embed_size
        ), "Embedding size needs to be divisible by heads"

        self.values = nn.ModuleList([nn.Linear(self.head_dim, self.head_dim, bias=False).to(devices[i % len(devices)]) for i in range(heads)])
        self.keys = nn.ModuleList([nn.Linear(self.head_dim, self.head_dim, bias=False).to(devices[i % len(devices)]) for i in range(heads)])
        self.queries = nn.ModuleList([nn.Linear(self.head_dim, self.head_dim, bias=False).to(devices[i % len(devices)]) for i in range(heads)])
        self.fc_out = nn.Linear(heads * self.head_dim, embed_size).to(devices[0])

    def forward(self, values, keys, query, mask):
        N = query.shape[0]
        value_len, key_len, query_len = values.shape[1], keys.shape[1], query.shape[1]

        values = values.reshape(N, value_len, self.heads, self.head_dim)
        keys = keys.reshape(N, key_len, self.heads, self.head_dim)
        queries = query.reshape(N, query_len, self.heads, self.head_dim)

        attention_heads = []
        for i in range(self.heads):
            device = self.devices[i % len(self.devices)]
            v = values[:, :, i].to(device)
            k = keys[:, :, i].to(device)
            q = queries[:, :, i].to(device)

            v = self.values[i](v)
            k = self.keys[i](k)
            q = self.queries[i](q)

            energy = torch.einsum("nqd,nkd->nqk", [q, k])
            if mask is not None:
                energy = energy.masked_fill(mask == 0, float("-1e20"))

            attention = torch.softmax(energy / (self.embed_size ** (1 / 2)), dim=2)
            out = torch.einsum("nqk,nvd->nqd", [attention, v])
            attention_heads.append(out.to(self.devices[0]))

        out = torch.cat(attention_heads, dim=2)
        out = self.fc_out(out)
        return out

# 创建模型实例
devices = [torch.device("cuda:0"), torch.device("cuda:1")]
model = MultiHeadAttention(embed_size=512, heads=8, devices=devices)

# 输入数据
values = torch.randn(64, 10, 512).to(devices[0])
keys = torch.randn(64, 10, 512).to(devices[0])
query = torch.randn(64, 10, 512).to(devices[0])
mask = None

# 前向传播
output = model(values, keys, query, mask)
print(output.shape)  # 输出 (64, 10, 512)

代码解析

  1. 初始化
    • init 方法中,我们定义了多头注意力机制的各个部分,并将它们分配到不同的GPU上
  2. 前向传播
    • 在 forward 方法中,我们将输入数据分割成多个注意力头,并将每个注意力头的数据分配到相应的GPU上。
    • 然后,我们在每个GPU上独立计算注意力分数和加权和。
    • 最后,将所有注意力头的输出拼接在一起,并通过一个线性变换生成最终的输出
  3. 运行效果
    在这里插入图片描述

结论

通过这种方式,我们可以充分利用多GPU的计算能力,提高多头注意力机制的计算效率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1990133.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Oracle服务器windows操作系统升级出现计算机名称改变导致数据库无法正常连接

1.数据库莫名奇妙无法正常连接,经排查是主机名称改变,导致oracle无法正常运行 如何查看ORACLE主机名称及路径:需要修改 listener 和 tnsnames的配置的主机名 2.修改tnsnames配置的主机名称,HOST主机名称 3.修改listener中的主机…

【案例36】Apache未指向新的openssl

客户发现apache报openssl相关漏洞,于是升级了操作系统的openssl组件。但再次漏扫发现相关版本依旧显示openssl的版本为:1.0.2k。怀疑升级的有问题。 问题分析 查看libssl.so.10指向的是/lib64.so.10 ldd mod_ssl.so libssl.so.10指向的是openssl1.0.2k…

【实际案例】服务器宕机情况分析及处理建议

了解银河麒麟操作系统更多全新产品,请点击访问麒麟软件产品专区:https://product.kylinos.cn 服务器环境以及配置 物理机/虚拟机/云/容器 物理机 外网/私有网络/无网络 私有网络 处理器: Kunpeng 920 内存: 4 TiB BIOS版…

【JVM基础18】——实践-Java内存泄漏排查思路?

目录 1- 引言:2- ⭐核心:2-1 排查思路2-2 步骤1:获取堆内存快照 dump2-3 步骤2、3:使用 VisualVM 打开 dump文件 3- 小结:3-1 Java内存泄漏排查思路? 1- 引言: 首先得明确哪里会产生内存泄漏的…

Solidworks API利用C# 实现物体的运动与碰撞检测

详情见github连接 SolidWorks-API-Collision-Detection Use SolidWorks API to MovePart and Collision Detection 利用solidworks的API来移动控件物体以及进行碰撞检测 visual studio 2022 利用Nuget 安装这些库 打开solidworks 可以看到有两个控件 部件运动 使用封装的函…

嵌入式初学-C语言-十七

#接嵌入式初学-C语言-十六# 函数的递归调用 含义: 在一个函数中直接或者间接调用了函数本身,称之为函数的递归调用 // 直接调用a()->a(); // 间接调用a()->b()->a();a()->b()->..->a();递归调用的本质: 本是是一种循环…

深入理解Spring的三级缓存机制

个人名片 🎓作者简介:java领域优质创作者 🌐个人主页:码农阿豪 📞工作室:新空间代码工作室(提供各种软件服务) 💌个人邮箱:[2435024119qq.com] &#x1f4f1…

Ubuntu(20.04 LTS)更换镜像源

此换镜像源方法只适用x86_64架构的系统,其他架构的系统参考ubuntu-ports的方法 1、备份文件 sudo mv /etc/apt/sources.list /etc/apt/sources.list.bk2、创建新文件 sudo vi /etc/apt/sources.list根据自己系统版本选择下面对应的镜像源添加到新文件中&#xf…

智能指针--

智能指针简介 头文件&分类 智能指针都在memory中, 有auto_ptr, unique_ptr, shared_ptr, weak_ptr 智能指针发展史 C++98就有智能指针了(auto_ptr) c++11前,智能指针主要靠bo…

FPGA开发——在Quartus中实现对IP核的PLL调用

一、简介 PLL主要由鉴相器(PD)、环路滤波器(LF)和压控振荡器(VCO)三部分组成。鉴相器检测输入信号与VCO输出信号的相位差,并输出一个与相位差成正比的电压信号。该信号经过环路滤波器滤除高频噪…

esp32学习笔记

前言:学习视频链接放在最后,开发方式为esp32Arduino,使用型号为ESP32-WROOM-32,引脚功能分配图如下。 #esp32介绍 GPIO的引脚默认情况下,只能当做普通功能引脚使用,也就是只能输入,输出&#x…

git 常用指令(创建分支、提交分支、解决冲突)

1. 初始化git 将你的代码放入你创建的文件中&#xff0c;执行 git init(前提你电脑安装过git哈)2. 查看当前项目git 状态 git status 3. 将代码添加到暂存区 git add . &#xff08;提交所有修改的代码&#xff0c;如果向指定提交使用&#xff1a;git add <文件名>&am…

SQL语句创建数据库(增删查改)

SQL语句 一.数据库的基础1.1 什么是数据库1.2 基本使用1.2.1 连接服务器1.2.2 使用案例 1.2 SQL分类 二.库的操作2.1 创建数据库2.2 创建数据库示例2.3 字符集和校验规则2.3.1 查看系统默认字符集以及校验规则2.3.2查看数据库支持的字符集2.3.3查看数据库支持的字符集校验规则2…

【RTOS面试题】ISR中可以使用互斥锁和信号量吗?

在中断服务程序&#xff08;ISR, Interrupt Service Routine&#xff09;中直接使用互斥锁&#xff08;mutex&#xff09;和信号量&#xff08;semaphore&#xff09;是有风险的&#xff0c;因为这些同步机制通常不是中断安全的。但是&#xff0c;可以通过一些方法来安全地在 I…

QWT+Qt Creator+MSVC的配置与使用

目录 一、介绍 二、QWT下载 三、QWT编译 3.1 设置构建套件 3.2 修改QWT相关文件 3.3 进行QWT编译 四、QWT配置 4.1 配置QWT的lib文件 4.2 配置QWT的dll文件 4.3 配置QWT的designer的dll文件 五、代码实验 一、介绍 QWT&#xff0c;全称是Qt Widgets for Technical…

Python 异步编程:Asyncio 实现原理

常见的并发模型 多进程/多线程异步ActorPub/Sub Python 异步的基石&#xff1a;协程 协程简介 概念&#xff1a;协作式多任务的子程序&#xff0c;用户态线程或微线程&#xff08;Coroutine&#xff09;。 特点&#xff1a;子程序执行可以中断&#xff0c;恢复后不会丢失之…

uniapp 荣耀手机 没有检测到设备 运行到Android手机 真机运行

背景&#xff1a; 使用uniapp框架搭建的项目&#xff0c;开发的时候在浏览器运行&#xff0c;因为项目要打包成App&#xff0c;所以需要真机联调&#xff0c;需要运行到Android手机&#xff0c;在手机上查看/运行项目。通过真机调试才能确保软件开发的准确性和页面显示的完整性…

mac 2k显示器 配置

前言 今年5月份买了一个2k显示器&#xff0c;刚收到的时候发现只有一个1080 x 720&#xff08;HiDPI&#xff09;分辨率是人眼看起来比较舒服的&#xff0c;于是一直用着。但是直到开始写前端代码的时候&#xff0c;我才发现&#xff0c;网页在2k显示器和内建显示器的布局竟然…

Python 循环引用与内存泄漏:深度解析

Python 循环引用与内存泄漏&#xff1a;深度解析 在Python编程中&#xff0c;循环引用和内存泄漏是两个需要特别注意的问题。本文将深入探讨Python中的循环引用现象、其导致的内存泄漏问题&#xff0c;并提供详细的解决思路与方法。同时&#xff0c;我们还将分析一些常见场景&…

【CSDN平台BUG】markdown图片链接格式被手机端编辑器自动破坏(8.6 已修复)

文章目录 bug以及解决方法bug原理锐评后续 bug以及解决方法 现在是2024年8月&#xff0c;我打开csdn手机编辑器打算修改一下2023年12月的一篇文章&#xff0c;结果一进入编辑器&#xff0c;源码就变成了下面这个样子&#xff0c;我起初不以为意&#xff0c;就点击了发布&#…