【快速入门】Transformer: Attention Is All You Need

【快速入门】Transformer: Attention Is All You Need

news2025/4/6 2:49:03

Transformer $\to$ 【知名应用】BERT (unsupervised trained Transformer)
- Transformer ：seq2Seq model with self-attention, 后续会主要说明 self-attention
- Transformer的组成：
  Self-attention是 Attention变体，擅长捕获数据/特征的内部相关性
  Self-attention 组成 Multi-head Self-attention
  Multi-head Self-attention 反复利用组成Transforme

【Seq】Sequence：考虑分别用 RNN 和 CNN 处理
.....
- 【左图】RNN: hard to parallel (需要序列输入进去处理)
- 【右图】CNN: replace RNN (单层覆盖范围有限，需要叠多层来扩展覆盖范围)
【replace CNN】Self-attention Layer: 类似双向RNN的作用，但是可并行化
- 【STEP-1】计算 qkv: q:query, k:key, v:value .....
- 【STEP-2】每一个 q 对每一个 k 做 attention: 如 scaled dot-product attention
  $\alpha_{i,j}=q^i \cdot k^j / \sqrt{d}, \text{d is the dim of q and k}$
- 【STEP-3】经过 softmax layer:
  $\hat{\alpha}_{i, j}=\exp{\alpha_{i, j}}\sum_k \exp{\alpha_{i,k}}$
- 【STEP-4】计算输出 b:
  $b^i = \sum_j \hat{\alpha}_{i,j}v^j$

矩阵计算版本总结

拓展：
- multi-head Self-attention: 多组 qkv 来关注不同信息
- positional encoding: $\alpha^i$ += $e^i$ , 可以引入位置信息 $e^i$

参考资料：

李宏毅深度学习 B站视频资料

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1861123.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

diffusion扩散模型参考论文与代码

十分钟读懂Diffusion：图解Diffusion扩散模型 - 知乎在之前的文章中，我们曾经介绍过Diffusion的具体原理，但是讲的还是比较偏理论，为了让大家快速了解Diffusion原理，这篇文章我们通过图解的方式。绝密伏击：…

阅读更多...

重点！业内分享：如何找到自己门店的生鲜经营定位

重点！业内分享：如何找到自己门店的生鲜经营定位

说到经营生鲜品类许多商超人士或许都会面临这样一个困境即品类繁多且复杂，那么如何做到精准施策？ 比如说，蔬菜和水果虽都归为生鲜，然而细分起来，价格和消费群体均存在差异。像蔬菜，价格通常较低&#…

阅读更多...

Redis集群-计算key的插槽值等命令

Redis集群-计算key的插槽值等命令

文章目录 1、集群方式登录主机63792、计算key应该保存在那个插槽3、计算某个插槽中保存的key的数量4、返回指定槽中的键5、查看redis的版本5.1、Redis集群的自动故障转移5.2、主节点下线，从节点自动升为主节点5.2.1、杀死主节点63795.2.2、登录从机6383，…

阅读更多...

如何设计出比小米SU7 还酷炫的中控大屏?

如何设计出比小米SU7 还酷炫的中控大屏?

最近，国内新能源汽车的热度是一波又一波，比亚迪大降价、小米SU7横空出世…… 智能驾舱，车载设计也受到越来越多人的关注。作为一名软件产品经理或设计师，你可能正在相关行业工作，或准备进入汽车领域。那你一定想了解车…

阅读更多...

Android反编译之dex2jar和JD-GUI

Android反编译之dex2jar和JD-GUI

文章目录简述工具dex2jar目标dex文件操作 JD-GUI 简述 1.dex2jar是将dex文件转换为class文件的jar包； 2.JD-GUI是查看转化后的class对应的jar包； 工具 dex2jar 下载地址：https://github.com/pxb1988/dex2jar 点击红框中的Latest版本信息…

阅读更多...

T-Reqs：一款基于语法的HTTP漏洞挖掘工具

T-Reqs：一款基于语法的HTTP漏洞挖掘工具

关于T-Reqs T-Reqs全称为Two Requests，T-Reqs是一款基于语法的HTTP模糊测试漏洞挖掘工具，该工具可以通过发送版本为1.1或更早版本的变异HTTP请求来对目标HTTP服务器进行模糊测试以及漏洞挖掘。该工具主要通过下列三大步骤实现其功能：&#x…

阅读更多...

kubernetes pod 最小可部署计算单元

kubernetes pod 最小可部署计算单元

1 工作负载（workloads） 工作负载（workload）是在kubernetes集群中运行的应用程序。无论你的工作负载是单一服务还是多个一同工作的服务构成，在kubernetes中都可以使用pod来运行它。 workloads分为pod与controllers p…

阅读更多...

PointCloudLib 3D对象的可视化 C++版本

PointCloudLib 3D对象的可视化 C++版本

0.实现效果显示箭头 vtkOutputWindow::SetGlobalWarningDisplay(0);pcl::visualization::PCLVisualizer::Ptr viewer(new pcl::visualization::PCLVisualizer("3D Viewer"));viewer->setBackgroundColor(1, 1, 1);//添加箭头显示pcl::PointXYZ pA(0, 0, 0);pcl:…

阅读更多...

Java高级重点知识点-12-Collection、iterator迭代器、泛型

Java高级重点知识点-12-Collection、iterator迭代器、泛型

文章目录 Collection集合Iterator迭代器泛型（难点） Collection集合集合是java中提供的一种容器，可以用来存储多个数据。集合框架单列集合java.util.Collection双列集合java.util.Map 集合类继承体系图： List集合的特点&am…

阅读更多...

199.罗马数字转整数（力扣）

199.罗马数字转整数（力扣）

代码解决 class Solution { public:// 定义一个哈希表来存储罗马数字符号及其对应的整数值unordered_map<char, int> res {{I, 1},{V, 5},{X, 10},{L, 50},{C, 100},{D, 500},{M, 1000},};// 将罗马数字字符串转换为整数的函数int romanToInt(string s) {int num 0; …

阅读更多...

iPhone怎么恢复删除的数据？几款顶级iPhone数据恢复软件

从iOS设备恢复数据。对于任何数据恢复软件来说，从iOS设备恢复数据都是一项复杂的任务，因为Apple已将众多数据保护技术集成到现代iPhone和iPad中。其中包括硬件加密和文件级加密。iOS 上已删除的数据只能通过取证文件工件搜索来找到，例如分析…

阅读更多...

在 ClickHouse 中使用 Rust 实现超过 2 倍速度提升的哈希

在 ClickHouse 中使用 Rust 实现超过 2 倍速度提升的哈希

本文字数：2544；估计阅读时间：7 分钟审校：庄晓东（魏庄） 本文在公众号【ClickHouseInc】首发 Meetup活动 ClickHouse 上海首届 Meetup 讲师招募中，欢迎讲师在文末扫码报名！ 介绍目前…

阅读更多...

Elasticsearch：使用 semantic_text 简化语义搜索

Elasticsearch：使用 semantic_text 简化语义搜索

作者：来自 Elastic Carlos Delgado, Mike Pellegrini semantic_text - 你知道，用于语义搜索！ 你是否想开始使用语义搜索来搜索数据，但专注于模型和结果而不是技术细节？我们引入了 semantic_text 字段类型，…

阅读更多...

Python-爬虫下载天涯论坛帖子

Python-爬虫下载天涯论坛帖子

为了爬取的高效性，实现的过程中我利用了python的threading模块，下面是threads.py模块，定义了下载解析页面的线程，下载图片的线程以及线程池 import threading import urllib2 import Queue import re thread_lock threading.RL…

阅读更多...

上电相位确定性：使用多芯片同步

上电相位确定性：使用多芯片同步

将多个数字信号处理 (DSP) 块、宽带数模转换器 (DAC) 和宽带模数转换器 (ADC) 集成到单个单片芯片中，现在可以卸载耗电的 FPGA 资源，以允许更小的占地面积、更低的功耗、增加通道数的平台，能够以比以前更高的速率进行采样。伴随这一新功能而来…

阅读更多...

【大数据开发语言Scala的入门教程】

【大数据开发语言Scala的入门教程】

🎥博主：程序员不想YY啊 💫CSDN优质创作者，CSDN实力新星，CSDN博客专家 🤗点赞🎈收藏⭐再看💫养成习惯 ✨希望本文对您有所裨益，如有不足之处，欢迎在评论区提出…

阅读更多...

井盖位移传感器：给井盖装上“大脑”

井盖位移传感器：给井盖装上“大脑”

你是否曾经在深夜回家时，因为路上一个不起眼的井盖而心惊胆战？或者因为某个井盖缺失，导致车辆受损、行人受伤？这些看似微小的问题，其实都隐藏着巨大的安全隐患。旭华智能针对这一问题，研制了井盖位移传感器…

阅读更多...

多种驱鸟设备，在电力安全中各显神通

多种驱鸟设备，在电力安全中各显神通

多种驱鸟设备，在电力安全中各显神通鸟类对电力的危险是一个不容忽视的问题，尤其是在电力设施密集的区域。随着人类对自然环境的不断开发和利用，鸟类与电力设施之间的接触也日益频繁，由此引发的安全隐患和事故也屡见不鲜。具体…

阅读更多...

【详细教程】如何使用YOLOv10进行图片与视频的目标检测

【详细教程】如何使用YOLOv10进行图片与视频的目标检测

《博主简介》小伙伴们好，我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源，可关注公-仲-hao:【阿旭算法与机器学习】，共同学习交流~ 👍感谢小伙伴们点赞、关注！ 《------往期经典推…

阅读更多...

基于SaaS平台的iHRM管理系统测试学习

基于SaaS平台的iHRM管理系统测试学习

目录 1、登录模块 2、员工管理模块 3、Postmannewman软件的安装，学习 1、Postman的使用 2、Postman断言 1、断言状态码（重要） 2、断言包含某个字符串（contains string） 3、断言等于某个字符串(equal string) …

阅读更多...

推荐文章

最新文章