【学习笔记】关于transformer

news2024/12/30 3:56:02

1.Embedding

一文读懂Embedding的概念，以及它和深度学习的关系 - 知乎

one-hot编码当矩阵过于稀疏时计算开销大，于是加上Embedding层，通过Embedding层（矩阵乘法）实现降维。

Embedding层将一个一个词（词源，token）转为向量

2.self_attention

2.1.attention

一文看懂 Attention（本质原理+3大优点+5大类型） - 知乎

Attention 机制最早是在计算机视觉里应用的，随后在NLP领域也开始应用了，真正发扬光大是在 NLP 领域，因为 2018 年BERT和 GPT 的效果出奇的好，进而走红。而 Transformer和 Attention 这些核心开始被大家重点关注.

一句话说明注意力机制（Attention Mechanism）：用于在神经网络中处理序列数据的机制，允许模型集中关注输入序列的不同部分，根据输入的重要性来加权计算。这使得模型能够动态地选择性地关注与当前任务相关的信息。

小白都能看懂的超详细Attention机制详解 - 知乎

机器翻译中，不同语言之间的语序有别，于是有了Encoder-Decoder结构的循环神经网络，以中间隐藏层为媒介处理不同语言词的输出位置和形式。随着输入数据的维度增加，Encoder-Decoder网络的中间层容量达到上限，于是有了循环神经网络中的Attention机制。

Transformer也采用Encoder-Decoder结构

如何分配权重？

2.2.self_attention

超详细图解Self-Attention - 知乎

左：XX^T计算两个向量的相关度（向量的内积表征两个向量的夹角，表征一个向量在另一个向量上的投影），通过softmax归一化（每个字都有自己[0,1]之内的关注度），再和自己X相乘。

一句话说明自注意力（Self-Attention）：Transformer中的注意力机制称为自注意力（Self-Attention），因为它允许模型在输入序列内部进行注意力计算，而不仅限于与其他输入序列之间的关系。

自注意力机制的主要组成部分是查询（Query）、键（Key）和值（Value）的计算。对于每个输入位置，通过将该位置的嵌入表示分别作为查询、键和值，计算出每个位置与其他位置之间的注意力分数。然后，根据注意力分数对值进行加权求和，生成最终的输出表示。

注意力机制使得模型能够根据输入序列的不同部分之间的相关性，对信息进行加权聚合，从而更好地捕捉上下文信息和序列中的长距离依赖关系。这有助于提高模型的性能，并在处理序列数据时取得更好的结果。

3.Transformer

3.1.评价指标

Attention Is All You Need

bleu采用了一种N-gram的匹配规则，去比较议文和参考译文n组词的相似比。分母取决于原文N（N是多少就画几个框），分子是翻译准确的个数。

但是仅采用bleu不合理，如下图所示，原文和译文相似度低，但是1-gram下的bleu都是1。

Count指的是参考译文的词'the'出现在译文里面的次数Count=2，Max_Ref_Count=4表示'the'在参考译文里面出现的次数。所以Count_{clip} = 2

3.2.历史意义

Reference

1.Transformer(Attention is all you need)自然语音处理.【B站深度之眼镜】【论文复现代码数据集见评论区】Transformer(Attention is all you need)自然语音处理必读论文，为你提供论文复现+代码精讲_哔哩哔哩_bilibili

2.Transformer - Attention is all you need.【知乎】Transformer - Attention is all you need - 知乎

3.超详细图解Self-Attention.【知乎】超详细图解Self-Attention - 知乎

4.从Transformer到Bert.【知乎】从Transformer到Bert - 知乎

5.Transformer论文逐段精读.【B站】Transformer论文逐段精读【论文精读】_哔哩哔哩_bilibili

6.Transformer论文逐段精读--笔记.【B站】Transformer论文逐段精读【论文精读】 - 哔哩哔哩

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/677371.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！