面试常问！ transformer中dk的大小，以及为什么设成这样，维度，原文分析。

面试常问！ transformer中dk的大小，以及为什么设成这样，维度，原文分析。

news2026/2/15 21:46:21

目录：

原文：
翻译：
流程：
原因：

原文(多头注意力部分) ：

李沐b站论文精读

论文网盘下载：链接提取码: vm3d

翻译：

在这项工作中，我们采用了 h=8 个并行注意力层，或称为头。对于每一层，我们使用 dk = dv = dmodel / h = 64。由于每个头的维度减少了，总的计算成本与具有完整维度的单头注意力相似。
即：dk = 512 / 8 = 64。

流程：

其前面的过程为：（batch_size, seq_len）-> （batch_size, seq_len, embed_size） -> （batch_size, seq_len, key_size）-> （batch_size, seq_len, num_heads, dk）
最后的dk = key_size * num_heads，即64，而不是某些误人子弟的人所写的512，

原因：

梯度稳定性：在自注意力机制中，较大的点积可能会导致softmax函数的梯度非常小，从而影响模型的训练。通过缩放点积（即除以 dk的开方)），可以帮助稳定梯度，使得训练更加高效。
严格的表述：假设两个输入向量 q 和 k 的每一维都具有零均值和单位方差、并且假设每一维都互相独立，那么这个除 sqrt(dk) 的操作可以使得运算结果仍然保持零均值和单位方差，因而有利于模型训练的稳定性。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2079815.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【数组分三段快排】分而治之的快排算法

【数组分三段快排】分而治之的快排算法

目录 1.前言2.题目简介3.求解思路4.示例代码 1.前言算法中的快排 2.题目简介题目链接：LINK 3.求解思路这个题很简单写一个快排就行。数组分三段(分而治之)：但是相对于我们之前写的霍尔版、挖坑法、交换法快排，这个题目可能有很多重…

阅读更多...

VastBase——全局性能调优

VastBase——全局性能调优

目录一、系统资源调优 1.内存和CPU 2.网络 3.I/O 二、查询最耗性能的SQL 三、分析作业是否被阻塞背景：影响性能的因素系统资源数据库性能在很大程度上依赖于磁盘的I/O和内存使用情况。为了准确设置性能指标，用户需要了解Vastbase部署硬件的基本…

阅读更多...

玉米病害-目标检测数据集（包括VOC格式、YOLO格式）

玉米病害-目标检测数据集（包括VOC格式、YOLO格式）

玉米病害-目标检测数据集（包括VOC格式、YOLO格式） 数据集： 链接：https://pan.baidu.com/s/1gNanETxflJwb1SaKut_rQw?pwddio2 提取码：dio2 数据集信息介绍： 共有 5046 张图像和一一对应的标注文件标注文…

阅读更多...

年轻人喝不起蜜雪冰城了

年轻人喝不起蜜雪冰城了

文｜琥珀食酒社作者 | 璇子告诉你一个残酷的消息年轻人连卖1块钱冰杯的雪王都快喝不起了最近3个月蜜雪冰城关店3808家差不多每天要关店43家 Coco奶茶呢 90天关店的数量比开店的数量多2倍还不止表面看这是行业太卷奶茶品牌们在垂死挣扎但其实…

阅读更多...

二、编辑器拓展

二、编辑器拓展

一、实现Scene窗口弹出菜单一、InitializeOnLoadMethod 完成事件监听设置自定义菜单

阅读更多...

嵌入式Qt移植之编译Qt项目-思维导图-学习笔记-基于正点原子阿尔法开发板

嵌入式Qt移植之编译Qt项目-思维导图-学习笔记-基于正点原子阿尔法开发板

嵌入式Qt移植之编译Qt项目交叉编译器的安装可以参考 http://t.csdnimg.cn/UeHtq 使用交叉编译好的qmake编译Qt项目将交叉编译工具链的路径添加到环境变量PATH中 !export 交叉编译器位置查找qmake位置 find -name qmake 进入一个Qt项目，使用qmake生成Make…

阅读更多...

反射机制简单基础

反射机制简单基础

前序在我们没有学习框架之前我们都是通给new来创建对象，如：创建一个我们已知的对象 Car carnew Car(); 调用类中的成员变量和成员方法都是对象直接调用。在学习了mybatis框架后，我们了解到可以通过类名，能动态得到类中定义的…

阅读更多...

【AI学习】在魔塔社区玩Ollama：部署GLM4和CodeGeeX4

【AI学习】在魔塔社区玩Ollama：部署GLM4和CodeGeeX4

看到文章《Ollama可以玩GLM4和CodeGeeX4了，快来魔搭玩起来》，参考的运行了一遍，折腾了一个晚上加一个上午，终于搞定了。本来很简单的事情，对这个代码小白，还是有点坑。。 GPU要明显快很多，CPU的…

阅读更多...

谷歌chrome浏览器显示“版本太旧”又无法更新情况下，如何关闭“Chrome版本太旧”提示，包括直接启动Google浏览器，或者通过其他应用启动

谷歌chrome浏览器显示“版本太旧”又无法更新情况下，如何关闭“Chrome版本太旧”提示，包括直接启动Google浏览器，或者通过其他应用启动

问题描述由于在无互联网环境使用Google浏览器，所以无法进行升级，但每次启动都会有如下提示，作为有强迫症的我实在无法接受。解决方案 1、修改属性(通过快捷方式启动有效) 通过右键在快捷方式后添加启动参数右键“Google Chrome”图标…

阅读更多...

C的温故而知新：位操作（C Primer Plus第十五章）

C的温故而知新：位操作（C Primer Plus第十五章）

第十五章：位操作这一章的篇幅不是很长，但既然能单独作为一章来讲的话，应该蛮重要的，但是我貌似没有总结出多少需要注意、加强记忆的东西，可见在JAVA的日常开发过程中基本不太遇见有关位操作的内容，所以我…

阅读更多...

一起学Java(9)-[日志篇]教你掌握Java日志框架的演进和设计逻辑

在项目开发中，日志记录（Logging）扮演着至关重要的角色。日志是开发人员调试代码和诊断问题的重要工具。例如：在生产环境中，开发人员通常无法直接调试代码，日志提供了一个详细的执行轨迹，帮助开…

阅读更多...

一篇初学者入门Python文件的读取与写入

一篇初学者入门Python文件的读取与写入

我们探讨了如何使用第三方库来扩展我们的Python程序能力.在这一篇教程中,我们将聚焦于Python中文件的读取与写入操作.文件操作是编程中重要的基础,能够有效地帮助我们保存和读取数据。如果你对Python感兴趣的话，可以试试我整理的这一份全套的Python学习资料&#x…

阅读更多...

建筑项目管理软件市场新风向，10款热门软件解析

建筑项目管理软件市场新风向，10款热门软件解析

1、PingCode PingCode 是一款为研发团队设计的全流程管理软件，连续多年入选中国软件项目管理软件榜单前二，是国内研发管理的热门系统。知名客户包括小红书、长城汽车、清华大学、中国电信等。主要功能 PingCode 核心能力在于支持软件产品研发全生命周…

阅读更多...

比requests还好用的Python高效库，效率提升一倍

比requests还好用的Python高效库，效率提升一倍

Python开发者们最常用的库之一就是requests，它以简单易用的API和强大的功能深受喜爱。然而，随着爬取任务的复杂性增加，requests的局限性逐渐显现。一些更为高效、功能更强大的爬虫库开始进入开发者的视野那么，有没有比requests更…

阅读更多...

西北农林科技大学李毅研究员等人在农学顶刊Agric. Syst.发文：持续的干旱威胁着小麦和玉米生产，并将在未来扩大作物产量差

西北农林科技大学李毅研究员等人在农学顶刊Agric. Syst.发文：持续的干旱威胁着小麦和玉米生产，并将在未来扩大作物产量差

文章简介论文名称：Concurrent drought threatens wheat and maize production and will widen crop yield gaps in the future （持续的干旱威胁着小麦和玉米生产，并将在未来扩大作物产量差） 第一作者及单位：Miaolei …

阅读更多...

【EMC专题】以太网电路为什么在变压器次级侧加浪涌保护二极管？

【EMC专题】以太网电路为什么在变压器次级侧加浪涌保护二极管？

以太网广泛应用于工业领域，会受到诸多恶劣条件的影响。一种特别恶劣的条件是 IEC61000-4-5 中强调的瞬态浪涌。浪涌瞬变对这些系统特别危险，因为这代表有较大功率耦合到以太网物理层的发送和接收电路，可能会损坏以太网控制器或 PHY。以太网物理层包括以太网 PHY（或控制器）…

阅读更多...

vue 实现简单AI聊天程序(一) elementui 聊天框编写

vue 实现简单AI聊天程序(一) elementui 聊天框编写

这个系列的目标是开发一个AI聊天前端界面后端问答程序， 探索前端界面开发。尝试后端对接阿里云千问大模型，后续还会更新自己部署的大模型。这一期用elmentui来开发一个聊天框的前端，根据用户发送的内容，AI会返回一个一模一样的…

阅读更多...

中山大学和联想研究院提出文本到服装生成模型GarmentAligner，解决服装生成中语义对齐、数量、位置和相互关系等问题。

中山大学和联想研究院提出文本到服装生成模型GarmentAligner，解决服装生成中语义对齐、数量、位置和相互关系等问题。

中山大学和联想研究院提出一个能够根据文字描述生成服装图像的智能工具GarmentAligner。它可以从已有服装图像中提取出各个组成部分，并记录下它们的位置和数量。接着根据你的描述进行匹配，找出最吻合的服装组件进行组合。而为了确保生成的图像能够准确反…

阅读更多...

Nosql数据库redis集群配置详解

Nosql数据库redis集群配置详解

一、Redis的安装环境介绍： 一主双从：10（redis-node1）主，20（redis-node2） 30（redis-node3）从——使用的是红帽9.1系统源码安装redis [rootredis-node1 ~]# tar zxf red…

阅读更多...

【yarn publish : 报错 passed folder/tarball doesn‘t exist 】

【yarn publish : 报错 passed folder/tarball doesn‘t exist 】

当执行yarn publish 时报错，具体命令类似 yarn publish --new-version ${NEW_VERSION} ${my-node-moudle-path}/my-node-modules 报错内容， 网上搜了一圈，基本没有这个报错的相关内容，最后分析并解决了，这里记录分享下…

阅读更多...

推荐文章

最新文章