学习一个东西之前首先要明白要去了解什么?
概念(组成),性质,特点,作用(用处)
概念:
transformer是一种自然语言处理(NLP)和其他序列到序列(seq2seq)任务(如文本翻译)的深度学习架构。它是2017你那由Vaswani等人首次提出。
其创新点在于引入了自注意力机制,同时还用好了残差连接和层归一化。
其他补充:
softmax是一种逻辑函数,将一组实数转化为概率分布, 即输出一个实数向量,其中每个元素的值都在0到1之间,且所有元素之和等于1。 与hardmax不同的是,hardmax直接选择最大值,而softmax是给每个赋予概率值,对于处理复杂问题更为合理。此外,Softmax的使用还有助于解决梯度问题,因为在神经网络中使用Softmax可以避免梯度稀疏性问题,使得训练过程更加稳定和有效
scales:指的是多尺度特征的集合,这些特征是从不同尺度的卷积核中提取出来的(用于提高模型的鲁棒性和精度),这种多尺度的处理方法在深度学习的多个领域中都有应用,旨在提高模型对不同尺寸对象的识别和处理能力。
matmul
通常指的是矩阵乘法操作.matmul
函数用于执行这种计算。矩阵乘法是神经网络中不可或缺的操作,因为它允许网络层之间的信息传递和变换。(matmul是矩阵相乘,本文作用是对不同的key赋予不同quary值)
mask:通常指的是一种技术或方法,对图像或数据进行特定区域遮挡或处理,进而让感兴趣(有用)的部分更加凸显。常用作屏蔽不重要部分,提取有用部分,结构特征的提取等。
tensor(张量):高维度的数据容器,多维数组。标量就是0维张量,向量就是1维张量,矩阵就是二维张量。他们区别如下图:
参考:
原英文论文地址:https://arxiv.org/abs/1706.03762
Transformer详解-CSDN博客(含代码)https://github.com/Meituan-AutoML/Twins
【超详细】【原理篇&实战篇】一文读懂Transformer-CSDN博客