【快速入门】Transformer: Attention Is All You Need

news2024/11/15 20:02:08
  • Transformer → \to 【知名应用】BERT (unsupervised trained Transformer)
    在这里插入图片描述
    • Transformer :seq2Seq model with self-attention, 后续会主要说明 self-attention
    • Transformer的组成:
      Self-attention是 Attention变体,擅长捕获数据/特征的内部相关性
      Self-attention 组成 Multi-head Self-attention
      Multi-head Self-attention 反复利用组成Transforme

  • 【Seq】Sequence:考虑分别用 RNN 和 CNN 处理

    .....
    • 【左图】RNN: hard to parallel (需要序列输入进去处理)
    • 【右图】CNN: replace RNN (单层覆盖范围有限,需要叠多层来扩展覆盖范围)
  • 【replace CNN】Self-attention Layer: 类似双向RNN的作用,但是可并行化

    • 【STEP-1】计算 qkv: q:query, k:key, v:value
      .....
    • 【STEP-2】每一个 q 对每一个 k 做 attention: 如 scaled dot-product attention
      α i , j = q i ⋅ k j / d , d is the dim of q and k \alpha_{i,j}=q^i \cdot k^j / \sqrt{d}, \text{d is the dim of q and k} αi,j=qikj/d ,d is the dim of q and k
    • 【STEP-3】经过 softmax layer:
      α ^ i , j = exp ⁡ α i , j ∑ k exp ⁡ α i , k \hat{\alpha}_{i, j}=\exp{\alpha_{i, j}}\sum_k \exp{\alpha_{i,k}} α^i,j=expαi,jkexpαi,k
    • 【STEP-4】计算输出 b:
      b i = ∑ j α ^ i , j v j b^i = \sum_j \hat{\alpha}_{i,j}v^j bi=jα^i,jvj

  • 矩阵计算版本总结
    在这里插入图片描述

  • 拓展:

    • multi-head Self-attention: 多组 qkv 来关注不同信息
    • positional encoding: α i \alpha^i αi += e i e^i ei, 可以引入位置信息 e i e^i ei

参考资料:

  • 李宏毅深度学习 B站 视频资料

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1861123.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

diffusion扩散模型参考论文与代码

十分钟读懂Diffusion:图解Diffusion扩散模型 - 知乎在之前的文章中,我们曾经介绍过Diffusion的具体原理,但是讲的还是比较偏理论,为了让大家快速了解Diffusion原理,这篇文章我们通过图解的方式。 绝密伏击:…

重点!业内分享:如何找到自己门店的生鲜经营定位

说到经营生鲜品类 许多商超人士或许都会面临这样一个困境 即品类繁多且复杂,那么如何做到精准施策? 比如说,蔬菜和水果虽都归为生鲜,然而细分起来,价格和消费群体均存在差异。像蔬菜,价格通常较低&#…

Redis集群-计算key的插槽值等命令

文章目录 1、集群方式登录主机63792、计算key应该保存在那个插槽3、计算某个插槽中保存的key的数量4、返回指定槽中的键5、查看redis的版本5.1、Redis集群的自动故障转移5.2、主节点下线,从节点自动升为主节点5.2.1、杀死主节点63795.2.2、登录从机6383,…

如何设计出比小米SU7 还酷炫的中控大屏?

最近,国内新能源汽车的热度是一波又一波,比亚迪大降价、小米SU7横空出世…… 智能驾舱,车载设计也受到越来越多人的关注。作为一名软件产品经理或设计师,你可能正在相关行业工作,或准备进入汽车领域。那你一定想了解车…

Android反编译之dex2jar和JD-GUI

文章目录 简述工具dex2jar目标dex文件操作 JD-GUI 简述 1.dex2jar是将dex文件转换为class文件的jar包; 2.JD-GUI是查看转化后的class对应的jar包; 工具 dex2jar 下载地址:https://github.com/pxb1988/dex2jar 点击红框中的Latest版本信息…

T-Reqs:一款基于语法的HTTP漏洞挖掘工具

关于T-Reqs T-Reqs全称为Two Requests,T-Reqs是一款基于语法的HTTP模糊测试漏洞挖掘工具,该工具可以通过发送版本为1.1或更早版本的变异HTTP请求来对目标HTTP服务器进行模糊测试以及漏洞挖掘。该工具主要通过下列三大步骤实现其功能:&#x…

kubernetes pod 最小可部署计算单元

1 工作负载(workloads) 工作负载(workload)是在kubernetes集群中运行的应用程序。无论你的工作负载是单一服务还是多个一同工作的服务构成,在kubernetes中都可以使用pod来运行它。 workloads分为pod与controllers p…

PointCloudLib 3D对象的可视化 C++版本

0.实现效果 显示箭头 vtkOutputWindow::SetGlobalWarningDisplay(0);pcl::visualization::PCLVisualizer::Ptr viewer(new pcl::visualization::PCLVisualizer("3D Viewer"));viewer->setBackgroundColor(1, 1, 1);//添加箭头显示pcl::PointXYZ pA(0, 0, 0);pcl:…

Java高级重点知识点-12-Collection、iterator迭代器、泛型

文章目录 Collection集合Iterator迭代器泛型(难点) Collection集合 集合是java中提供的一种容器,可以用来存储多个数据。 集合框架 单列集合java.util.Collection双列集合java.util.Map 集合类继承体系图: List集合的特点&am…

199.罗马数字转整数(力扣)

代码解决 class Solution { public:// 定义一个哈希表来存储罗马数字符号及其对应的整数值unordered_map<char, int> res {{I, 1},{V, 5},{X, 10},{L, 50},{C, 100},{D, 500},{M, 1000},};// 将罗马数字字符串转换为整数的函数int romanToInt(string s) {int num 0; …

iPhone怎么恢复删除的数据?几款顶级iPhone数据恢复软件

从iOS设备恢复数据。 对于任何数据恢复软件来说&#xff0c;从iOS设备恢复数据都是一项复杂的任务&#xff0c;因为Apple已将众多数据保护技术集成到现代iPhone和iPad中。其中包括硬件加密和文件级加密。iOS 上已删除的数据只能通过取证文件工件搜索来找到&#xff0c;例如分析…

在 ClickHouse 中使用 Rust 实现超过 2 倍速度提升的哈希

本文字数&#xff1a;2544&#xff1b;估计阅读时间&#xff1a;7 分钟 审校&#xff1a;庄晓东&#xff08;魏庄&#xff09; 本文在公众号【ClickHouseInc】首发 Meetup活动 ClickHouse 上海首届 Meetup 讲师招募中&#xff0c;欢迎讲师在文末扫码报名&#xff01; 介绍 目前…

Elasticsearch:使用 semantic_text 简化语义搜索

作者&#xff1a;来自 Elastic Carlos Delgado, Mike Pellegrini semantic_text - 你知道&#xff0c;用于语义搜索&#xff01; 你是否想开始使用语义搜索来搜索数据&#xff0c;但专注于模型和结果而不是技术细节&#xff1f;我们引入了 semantic_text 字段类型&#xff0c;…

Python-爬虫 下载天涯论坛帖子

为了爬取的高效性&#xff0c;实现的过程中我利用了python的threading模块&#xff0c;下面是threads.py模块&#xff0c;定义了下载解析页面的线程&#xff0c;下载图片的线程以及线程池 import threading import urllib2 import Queue import re thread_lock threading.RL…

上电相位确定性:使用多芯片同步

将多个数字信号处理 (DSP) 块、宽带数模转换器 (DAC) 和宽带模数转换器 (ADC) 集成到单个单片芯片中&#xff0c;现在可以卸载耗电的 FPGA 资源&#xff0c;以允许更小的占地面积、更低的功耗、增加通道数的平台&#xff0c;能够以比以前更高的速率进行采样。伴随这一新功能而来…

【大数据开发语言Scala的入门教程】

&#x1f3a5;博主&#xff1a;程序员不想YY啊 &#x1f4ab;CSDN优质创作者&#xff0c;CSDN实力新星&#xff0c;CSDN博客专家 &#x1f917;点赞&#x1f388;收藏⭐再看&#x1f4ab;养成习惯 ✨希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出…

井盖位移传感器:给井盖装上“大脑”

你是否曾经在深夜回家时&#xff0c;因为路上一个不起眼的井盖而心惊胆战&#xff1f;或者因为某个井盖缺失&#xff0c;导致车辆受损、行人受伤&#xff1f;这些看似微小的问题&#xff0c;其实都隐藏着巨大的安全隐患。 旭华智能针对这一问题&#xff0c;研制了井盖位移传感器…

多种驱鸟设备,在电力安全中各显神通

多种驱鸟设备&#xff0c;在电力安全中各显神通 鸟类对电力的危险是一个不容忽视的问题&#xff0c;尤其是在电力设施密集的区域。随着人类对自然环境的不断开发和利用&#xff0c;鸟类与电力设施之间的接触也日益频繁&#xff0c;由此引发的安全隐患和事故也屡见不鲜。 具体…

【详细教程】如何使用YOLOv10进行图片与视频的目标检测

《博主简介》 小伙伴们好&#xff0c;我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源&#xff0c;可关注公-仲-hao:【阿旭算法与机器学习】&#xff0c;共同学习交流~ &#x1f44d;感谢小伙伴们点赞、关注&#xff01; 《------往期经典推…

基于SaaS平台的iHRM管理系统测试学习

目录 1、登录模块 2、员工管理模块 3、Postmannewman软件的安装&#xff0c;学习 1、Postman的使用 2、Postman断言 1、断言状态码&#xff08;重要&#xff09; 2、断言包含某个字符串&#xff08;contains string&#xff09; 3、断言等于某个字符串(equal string) …