transformer bert 多头自注意力

transformer bert 多头自注意力

news2025/4/21 15:39:18

在这里插入图片描述
输入的（a1,a2,a3,a4）是最终嵌入，是一个(512,768)的矩阵；而a1是一个token，尺寸是768

a1通过wq权重矩阵，经过全连接变换得到查询向量q1；a2通过Wk权重矩阵得到键向量k2；q和k点乘就是值a12，a12就是a2对于a1的注意力值
在这里插入图片描述
依次得到a1,1，a1,2，a1,3，a1,4注意力，都是其他token相对于a1 token的注意力

此时(a1,1，a1,2，a1,3，a1,4)不是概率分布，需要经过softmax呈概率分布向量(a’1,1，a’1,2，a’1,3，a’1,4)，

此时，再把每个a经过v权重矩阵得到v1，v2，v3，v4向量
在这里插入图片描述

a’1,1×v1+a’1,2×v2+a’1,3×v3+a’1,4×v4=b1向量，b1是个768维向量，是a1的自注意力向量，综合了该token与其他所有tokens之间的关系

之后每个a都这么得到自己的自注意力向量，然后组合成(512,768)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2314746.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

python-leetcode-定长子串中元音的最大数目

python-leetcode-定长子串中元音的最大数目

1456. 定长子串中元音的最大数目 - 力扣（LeetCode） 可以使用滑动窗口方法来解决这个问题。步骤如下： 初始化：计算前 k 个字符中元音字母的个数，作为初始窗口的值。滑动窗口：遍历字符串，每次右…

阅读更多...

MySQL增删改查操作 -- CRUD

MySQL增删改查操作 -- CRUD

个人主页：顾漂亮目录 1.CRUD简介 2.Create新增使用示例： 注意点： 3.Retrieve检索使用示例： 注意点： 4.where条件查询前置知识：-- 运算符比较运算符使用示例： 注意点&#xf…

阅读更多...

【算法day9】回文数-给你一个整数 x ，如果 x 是一个回文整数，返回 true ；否则，返回 false 。

【算法day9】回文数-给你一个整数 x ，如果 x 是一个回文整数，返回 true ；否则，返回 false 。

回文数给你一个整数 x ，如果 x 是一个回文整数，返回 true ；否则，返回 false 。回文数是指正序（从左向右）和倒序（从右向左）读都是一样的整数。例如，121 是回文&#…

阅读更多...

蛋白质功能预测论文阅读记录2025（DPFunc、ProtCLIP）

蛋白质功能预测论文阅读记录2025（DPFunc、ProtCLIP）

前言最近研究到瓶颈了，怎么优化都提升不了，遂开始看点最新的论文。 DPFunc 2025.1.2 Nature Communication 中南大学论文地址：DPFunc: accurately predicting protein function via deep learning with domain-guided structure inform…

阅读更多...

主流向量数据库对比

主流向量数据库对比

在 AI 的 RAG（检索增强生成）研发领域，向量数据库是存储和查询向量嵌入的核心工具，用于支持高效的语义搜索和信息检索。向量嵌入是文本或其他非结构化数据的数值表示，RAG 系统通过这些嵌入从知识库中检索相关信息&#…

阅读更多...

54.HarmonyOS NEXT 登录模块开发教程（八）：测试与调试技巧

54.HarmonyOS NEXT 登录模块开发教程（八）：测试与调试技巧

温馨提示：本篇博客的详细代码已发布到 git : https://gitcode.com/nutpi/HarmonyosNext 可以下载运行哦！ HarmonyOS NEXT 登录模块开发教程（八）：测试与调试技巧文章目录 HarmonyOS NEXT 登录模块开发教程（…

阅读更多...

在Simulink中将Excel数据导入可变负载模块的方法介绍

在Simulink中将Excel数据导入可变负载模块的方法介绍

文章目录数据准备与格式要求Excel数据格式MATLAB预处理数据导入方法使用From Spreadsheet模块（直接导入Excel）通过MATLAB工作区中转（From Workspace模块）使用1-D Lookup Table模块（非线性负载映射）Signal Builder模块（变载工况导入）可变负载模块配置注意事项与调试在S…

阅读更多...

动手学强化学习-记录

动手学强化学习-记录

3.5 蒙特卡洛方法统计每一个状态s出现的总次数和总回报，用大数定律，总回报/总次数≈状态s的期望回报第4章动态规划算法策略迭代中的策略评估使用贝尔曼期望方程来得到一个策略的状态价值函数,这是一个动态规划的过程;而价值迭代直接使用贝尔曼最…

阅读更多...

阿里云操作系统控制台评测：国产AI+运维一站式运维管理平台

阿里云操作系统控制台评测：国产AI+运维一站式运维管理平台

阿里云操作系统控制台评测：国产AI运维一站式运维管理平台引言随着云计算技术的飞速发展，企业在云端的运维管理面临更高的要求。阿里云操作系统控制台作为一款集运维管理、智能助手和系统诊断等多功能于一体的工具，正逐步成为企业高效管理…

阅读更多...

C++中的const与类型转换艺术

C++中的const与类型转换艺术

目录强制转换 static_cast const_cast reinterpret_cast dynamic_cast const关键字修饰内置类型* 修饰指针类型* 类比数组指针指针数组函数指针指针函数强制转换 C语言中的强制转换在C代码中依然可以使用，这种C风格的转换格式非常简单 TYPE a …

阅读更多...

特辣的海藻！10

特辣的海藻！10

基础知识点 1.清除换行符 scan.nextInt()要加scan.nextLine()清楚换行符。 2.Map.Entry<K, V> Map.Entry是Map接口的嵌套接口，表示一个键值对（Key-Value） 常用方法： entry.getKey()：获取键 …

阅读更多...

sqli-lab靶场学习（八）——Less26-28

sqli-lab靶场学习（八）——Less26-28

前言 25关已经出现了初步的一些关键字过滤，通过双写可以绕过。后面的关卡，我们会遇到更多关键字过滤，需要各种技巧绕过。 Less26 第26关写了会过滤空格和注释符。有很多的答案，会用%a0替代空格，但据说这是sqli-labs部…

阅读更多...

双指针算法专题之——复写零

双指针算法专题之——复写零

文章目录题目介绍思路分析异地复写优化为就地复写 AC代码题目介绍链接: 1089. 复写零思路分析那么这道题我们依然可以使用双指针算法来解决异地复写先不考虑题目的要求，直接就地在原数组上修改，可能不太好想，我们这里可以先在一个…

阅读更多...

python-leetcode-子数组最大平均数 I

python-leetcode-子数组最大平均数 I

643. 子数组最大平均数 I - 力扣（LeetCode） 可以使用滑动窗口（Sliding Window）的方法来解决这个问题。具体步骤如下： 先计算数组 nums 中前 k 个元素的和 sum_k，作为初始窗口的和。然后滑动窗口&#xff0…

阅读更多...

【度的数量——数位DP】

【度的数量——数位DP】

题目分析数位DP可以解决“区间内满足某种性质的数的个数”的问题通常按照数位分支，形成一颗数位树最左分支的值由上界值决定，右分支可以直接计算权重有可能最左分支会有一个权重代码 #include <bits/stdc.h> using namespace std;cons…

阅读更多...

搭建阿里云专有网络VPC

搭建阿里云专有网络VPC

目录一、概述二、专有网络vpc 2.1 vpc基本信息 2.2 vpc资源管理 2.3 vpc网段管理三、交换机四、NAT网关 4.1 绑定弹性公网IP 4.2 NAT网关信息 4.3 绑定的弹性公网IP 4.4 DNAT 4.5 SNAT 五、弹性公网IP 六、访问控制ACL（绑定交换机） 6…

阅读更多...

windows系统，pycharm运行.sh文件

windows系统，pycharm运行.sh文件

博主亲身试验过，流程简单，可用。需要pycharm ，git。注意需要Git Bash.exe ，也就是Git Bash的应用程序，而不是快捷方式。需要把这个应用程序的路径复制一下。可以通过右键，复制文件地址的方式。接着在…

阅读更多...

论文调研 | 一些开源的AI代码生成模型调研及总结【更新于250313】

论文调研 | 一些开源的AI代码生成模型调研及总结【更新于250313】

本文主要介绍主流代码生成模型，总结了基于代码生成的大语言模型，按照时间顺序排列。在了解代码大语言模型之前，需要了解代码相关子任务代码生成文本生成代码(Text to code):根据自然语言描述生成代码重构代码（Refactoring …

阅读更多...

Unity Timeline 扩展

Unity Timeline 扩展

这里认为大家已经会timeline的基本使用了，只介绍怎么自定义扩展。第一步.自定义Track 首先要自定义一条轨道。剪辑是要在轨道里跑的，系统自带的轨道我们加不了自定义剪辑，得新建自己用的。这个很简单。 [TrackClipType(typeof(TransformTw…

阅读更多...

qt介绍信号槽一

qt介绍信号槽一

信号和槽时qt框架中事件处理的一种机制，qt是基于窗口框架的程序，基于窗口框架额程序都是基于事件的，本质信号对应的就是一个事件，槽对应事件处理的动作。信号槽机制类似于设计模式力的观察者模式。观察者模式就是我一直观察是否有…

阅读更多...

推荐文章

最新文章