Transformer合集

Transformer合集

news2025/2/22 18:01:22

资料

位置编码：https://zhuanlan.zhihu.com/p/454482273

自注意力：https://zhuanlan.zhihu.com/p/455399791

LN：https://zhuanlan.zhihu.com/p/456863215

ResNet：https://zhuanlan.zhihu.com/p/459065530

Subword Tokenization：https://zhuanlan.zhihu.com/p/460678461

长文概述：https://zhuanlan.zhihu.com/p/630356292

缓存和效果的拉扯（MHA、MQA、GQA、MLA）：https://spaces.ac.cn/archives/10091

为什么Pre Norm不如Post Norm？ https://kexue.fm/archives/9009

RoPE：https://zhuanlan.zhihu.com/p/359502624

经典问题：https://github.com/kebijuelun/Awesome-LLM-Learning/blob/main/1.%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80%E7%9F%A5%E8%AF%86/1.Transformer%E5%9F%BA%E7%A1%80.md

位置编码

为什么要位置编码：因为self-attention是无向的。而实际上模型需要知道token之间的距离信息。

位置编码的要求：
（1）能够表示token的绝对位置
（2）序列长度不同时，不同序列中token的相对距离要保持一致
（3）预测阶段，可以表示模型在训练阶段没有见过的句子长度

位置编码的迭代经验、找到一个函数符合以下条件：
（1）有界
（2）连续、且不同
（3）不同位置的向量可以通过线性变换得到

最终Transformer的位置编码的性质：
（1）两个位置编码的点积(dot product)仅取决于偏移量，也即两个位置编码的点积可以反应出两个位置编码间的距离。
（2）位置编码的点积是无向的

attention

除以根号dk的原因：
在这里插入图片描述

Normalization

常用的标准化方法有Batch Normalization，Layer Normalization，Group Normalization，Instance Normalization等

ICS（Internal Covariate Shift）：前一层的数据分布变化加大后一层的训练难度。

在BN提出之前，有几种用于解决ICS的常规办法：

（1）采用非饱和激活函数

（2）更小的学习速率

（3）更细致的参数初始化办法

（4）数据白化（whitening）：在每一层输入时增加线性变化，使得输入的特征具有相同的均值和方差，从而去掉特征的相关性。

更优雅的解决方案：BN

训练

在这里插入图片描述

BN的缺点无法很好地处理文本数据长度不一的问题。可能不止是“长短不一”这一个，也可能和数据本身在某一维度分布上的差异性有关（想一下，对不同句子之间的第一个词做BN，求出来的mean和variance几乎是没有意义的）

在图像问题中，LN是指对一整张图片进行标准化处理，即在一张图片所有channel的pixel范围内计算均值和方差。

而在NLP的问题中，LN是指在一个句子的一个token的范围内进行标准化。即层归一化（Layer Normalization）的对象是同一个样本中一个token的所有维度。

Pre-LN

在残差连接和MHA计算之前进行LN操作。

好处：能和Post-LN达到相同甚至更好的训练结果，同时规避了在训练Post-LN中产生的种种问题
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

残差网络

normal的引入解决了因为导数的阶乘导致梯度消失或者梯度爆炸。

因为希望通过增加网络深度，来提高非线性拟合能力、使得每一层学到不同的模式。

而网络深度的增加，产生了网络退化的问题。

所以用残差模块来解决。这么设计的原因是尽可能让深层次的网络不比浅层网络表现弱（保证了更多层的神经网络至少能取到更浅的神经网络的最优解）。类似牵引绳或者KL散度的意思。

恒等映射：深层网络的结果既能学习到极端情况、又能逼近输入。

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1945790.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

重生之我们在ES顶端相遇第5章-常用字段类型

重生之我们在ES顶端相遇第5章-常用字段类型

思维导图前置在第4章，我们提到了 keyword（一笔带过）。在本章，我们将介绍 ES 的字段类型。全面的带大家了解 ES 各个字段类型的使用场景。字段类型 ES 支持以下字段类型（仅介绍开发中常用，更多内容请自…

阅读更多...

接口自动化测试框架实战-4-日志方法封装

接口自动化测试框架实战-4-日志方法封装

上一小节我们讲解了文件读写方法的封装方法，本小节我们完成一下框架日志的封装方法。首先我们讲解一下日志封装和日志记录有哪些用处？更加方便的设置日志的格式和输出方式全局方法可以各个类/函数中都能统一调用分类记录接口用例执行日志，方便嵌入测试报告错误日志提示，…

阅读更多...

乘云数字受邀Zabbix MeetUp济南站，分享《DataBuff在打造可观测性数据底座上的探索》

乘云数字受邀Zabbix MeetUp济南站，分享《DataBuff在打造可观测性数据底座上的探索》

7月20日，Zabbix主办的MeetUp线下活动在济南圆满举行，众多技术大咖汇集现场，交流技术知识、分享先进的思想。乘云数字受邀参加此次盛宴，创始人兼CEO向成钢在现场发表了关于“DataBuff在打造可观测性数据底座上的探索”的主题演讲。…

阅读更多...

【多模态】CLIP-KD: An Empirical Study of CLIP Model Distillation

【多模态】CLIP-KD: An Empirical Study of CLIP Model Distillation

论文：CLIP-KD: An Empirical Study of CLIP Model Distillation 链接：https://arxiv.org/pdf/2307.12732 CVPR 2024 Introduction Motivation：使用大的Teacher CLIP模型有监督蒸馏小CLIP模型，出发点基于在资源受限的应用中&…

阅读更多...

NFTScan 浏览器现已支持 .mint 域名搜索功能！

NFTScan 浏览器现已支持 .mint 域名搜索功能！

近日，NFT 数据基础设施 NFTScan 浏览器现已支持用户输入 .mint 域名进行 Mint Blockchain 网络钱包地址的搜索查询， NFTScan 用户能够轻松地使用域名追踪 NFT 交易，为 NFT 钱包地址相关的搜索查询功能增加透明度和便利性。 NFTScan explorer…

阅读更多...

C++树形结构（2 树的直径）

C++树形结构（2 树的直径）

目录 1.定义： 2.直径的性质： 3.树的直径求解方法： 4.直径端点求解方法： 朴素方法： 优化方法： 5.例题： 6.直径公共点： 7.例题： 8.去掉再加上： 9.例…

阅读更多...

Hi3751V560_SELinux

Hi3751V560_SELinux

Hi3751V560_SELinux setenforce Enforcing setenforce Permissive（或“setenforce 0”） getenforce V560:demo本身的： [ 13.765161] type=1400 audit(1628821512.905:4): avc: denied { read } for pid=1926 comm="system_server" name="ifindex" d…

阅读更多...

vue3前端开发-小兔鲜项目-图片切换效果和动态class

vue3前端开发-小兔鲜项目-图片切换效果和动态class

vue3前端开发-小兔鲜项目-图片切换效果和动态class!这次实现的效果是，图片预览效果，根据小图片，来实时改变大图（预览）的效果。同时让动态的特征class也跟着显示出来。 <script setup> import {ref} from vue // …

阅读更多...

【Vue3】响应式数据

【Vue3】响应式数据

【Vue3】响应式数据背景简介开发环境开发步骤及源码使用 ref 定义基本类型响应式数据使用 reactive 定义对象类型响应式数据使用 ref 定义对象类型响应式数据 ref 和 reactive 的对比使用原则建议背景随着年龄的增长，很多曾经烂熟于心的技术原理已被岁月摩擦得愈…

阅读更多...

【C++初阶】string类

【C++初阶】string类

【C初阶】string类 🥕个人主页：开敲🍉 🔥所属专栏：C🥭 🌼文章目录🌼 1. 为什么学习string类？ 1.1 C语言中的字符串 1.2 实际中 2. 标准库中的string类 2.1 string类 2.…

阅读更多...

day07：用户下单、订单支付

day07：用户下单、订单支付

文章目录地址薄相关相关代码需求分析和设计代码书写用户下单需求分析和设计代码开发订单支付微信支付介绍微信支付准备工作如何保证数据安全？如何调用到商户系统地址薄相关相关代码需求分析和设计产品原型接口设计数据库设计代码书写地址薄相关代码都是单…

阅读更多...

【unity 新手教程 001/100】安装与窗口布局介绍

【unity 新手教程 001/100】安装与窗口布局介绍

欢迎关注、订阅专栏【unity 新手教程】谢谢你的支持！💜💜 Unity下载与安装 👉点击跳转详细图文步骤：Unity Hub Unity 编辑器窗口布局： Hierarchy: 层级窗口 | 默认 Sample Scene (main camera、direc…

阅读更多...

三星Unpacked发布会即将举行：有新款折叠屏手机，还有智能戒指

三星Unpacked发布会即将举行：有新款折叠屏手机，还有智能戒指

随着7月的脚步渐近，科技界的目光再次聚焦于三星，它即将在法国巴黎举办今年的第二场Unpacked发布会。这不仅是一场新品的展示，更是三星对创新科技的一次深刻诠释。从Galaxy Z Fold 6的全新设计，到Galaxy Z Flip 6的显著升级&…

阅读更多...

MySQL数据库练习（四）

MySQL数据库练习（四）

1.建库建表 # 创建数据库 create database mydb15_indexstu;# use mydb15_indexstu;# 学生表student，定义主键，姓名不能重名，性别只能输入男或女，所在系的默认值是“计算机”，结构如下:student(Sno 学号，…

阅读更多...

C#中的线性表

C#中的线性表

什么是线性表线性表是最简单、最基本、最常用的数据结构。线性表是线性结构的抽象(Abstract),线性结构的特点是结构中的数据元素之间存在一对一的线性关系。这种一对一的关系指的是数据元素之间的位置关系,即:(1)除第一个位置的数据元素外,其它数据元素位置的前面都只有一个数…

阅读更多...

基于python的京东VR眼镜口碑情感分析，包括lda和情感分析

基于python的京东VR眼镜口碑情感分析，包括lda和情感分析

第1章绪论 1.1选题背景在当今科技发展迅速的时代，虚拟现实（VR）技术作为一种前沿的数字体验方式受到越来越多人的关注。京东作为中国领先的电商平台，推出的VR眼镜备受消费者关注。通过对京东VR眼镜口碑进行情感分析&#xff0c…

阅读更多...

2022 年中高职组“网络安全”赛项-海南省省竞赛任务书-1-B模块-B-4Web渗透测试

2022 年中高职组“网络安全”赛项-海南省省竞赛任务书-1-B模块-B-4Web渗透测试

前言本章节我将尝试操作B-4模块的渗透测试，搭建环境很难，还望大家点点赞多多支持！ 任务概览最后4、5、6有一定的难度。环境要求 kali Linux192.168.41.2Web服务器（假设为PYsystem 2020 模拟平台）192.168.41.7交换…

阅读更多...

AGV平面坐标系变换公式及实例

AGV平面坐标系变换公式及实例

1、AGV坐标系简介如上图，小车前后对角是有激光雷达的，其坐标系称为激光坐标系，采用极坐标系体现。中间为车体坐标系，激光坐标系相对于车体坐标系关系不变；左下角是地图坐标系，小车扫图后，建立的…

阅读更多...

PCIE的GT计算

PCIE的GT计算

在PCIe总线中，使用GT(Gigatransfer)计算PCIe链路的峰值带宽。GT是在PCIe链路上传递的峰值带宽，其计算公式为总线频率数据位宽2。

阅读更多...

JMeter的使用方法及https的使用方法

JMeter的使用方法及https的使用方法

软件安装： 参考链接：JMeter 下载安装及环境配置（包含jdk1.8安装及配置）_jmeter5.2.1需要什么版本的jdk-CSDN博客前置知识储备： Https请求的案例: JMeter的第一个案例增加线程数线程（thread&#xff…

阅读更多...

推荐文章

最新文章