8月7日-8日学习

news2025/4/4 4:56:40

首先是昨天看到的gemma 2 中训练2B模型用了知识蒸馏，找了一下技术报告结果先找到了一代的半天没有看到知识蒸馏的部分然后在二代里面找到了只有很小的一部分

就是用小模型学习大模型的概率预测分布

然后这里的话又找到了华为发布的小模型论文

Rethinking Optimization and Architecture for Tiny Language Models

首先是关于词表的大小的讨论这里得出的结论是在覆盖90%之下比较好的

然后还有depth 这里的depth具体是指什么有多少个自注意力层？

参数

一是采用随机分布初始化

二是从大模型中继承但是关于模型的差异架构如何处理

首先是找对结果影响最重要的层

这里用的是消融实验

最初始的层用于提取特征是非常重要的但是

关于如何继承这里用了很多中方法做实验

同时还看到了csdn上网友整理的小模型从零训练的各个项目

发现自己把transformer的架构图都忘了正好llama还没有看过架构就以这个来学习一下

代码实现可以参考这里大语言模型底层架构丨带你认识Transformer - 华为云开发者联盟 - 博客园 (cnblogs.com)

z深入解析LLaMA如何改进Transformer的底层结构 - 华为云开发者联盟 - 博客园 (cnblogs.com)

Transformer模型详解（图解最完整版） - 知乎 (zhihu.com)

首先是关于位置编码和词嵌入

Transformer的PE(position embedding),即位置编码理解-CSDN博客

怎么计算搞明白了但是关于采用如此计算的原因是什么？

关于QK V计算首先注意的是 Q要与每一个K都进行点乘

然后才能归一化softmax

8月8日

Transformer 1. Attention中的Q，K，V是什么 - 知乎 (zhihu.com)

Transformer中的Q/K/V理解_transformer q k v-CSDN博客

昨天把一个单词的QKT 计算弄清楚了

现在考虑Q K 乘法之后乘以 V

如下图考虑这一行是该单词对于每一个词的qk 印象力权重的结果用这种0.3 表示1 到1 的权重为0.3 再乘以v的第一行就是第一个单词的value 加上第二单词的权重0.2乘以第一个单词的value类推

如果是用传统的矩阵乘法不容易看出来这种分块的乘法就很不错

现在需要考虑整个multi head

对于多个不同的head这里的化h=8所以第一行Concat全部是一个单词的计算结果的不同侧面

通过linear变换让最终输出Z与输入X的维度相同但是包含了8个头的结果

这里需要注意到Q K V维度的问题

transformer中qkv的维度是什么概念 - CSDN文库

在多头注意力后就是Add & Norm

对Transformer中Add&Norm层的理解-CSDN博客

这里的代码实践有空在电脑上跑一下把 2 3 4 维度从1 到 24 看看

Add 是残差连接表示F(x) + x 这样在反向求导梯度的时候 + 1常数

假设我们输入的词向量的形状是（2，3，4），2为批次（batch），3为句子长度，4为词向量的维度，生成以下数据：

[[w11, w12, w13, w14], [w21, w22, w23, w24], [w31, w32, w33, w34]
[w41, w42, w43, w44], [w51, w52, w53, w54], [w61, w62, w63, w64]]
1
2
如果是在做BatchNorm（BN）的话，其计算过程如下：BN1=(w11+w12+w13+w14+w41+
w42+w43+w44)/8，同理会得到BN2和BN3，最终得到[BN1,BN2,BN3] 3个mean

如果是在做LayerNorm（LN）的话，则会进如下计算：LN1=(w11+w12+w13+w14+w21+
w22+w23+w24+w31+w32+w33+w34)/12，同理会得到LN2，最终得到[LN1,LN2]两个mean

如果是在做InstanceNorm（IN）的话，则会进如下计算：IN1=(w11+w12+w13+w14)/4，同理会得到IN2，IN3，IN4，IN5，IN6，六个mean，[[IN1，IN2，IN3],[IN4，IN5，IN6]]

Transformer学习笔记三：为什么Transformer要用LayerNorm/Batch Normalization & Layer Normalization （批量&层标准化) - 知乎 (zhihu.com)

BN的实践

对每一个batch进行操作，使得对于这一个batch中所有的输入数据，它们的每一个特征都是均值为0，方差为1的分布
单纯把所有的输入限制为(0,1)分布也是不合理的，这样会降低数据的表达能力（第L层辛苦学到的东西，这里都暴力变成（0,1）分布了）。因此需要再加一个线性变换操作，让数据恢复其表达能力。这个线性变化中的两个参数 γ,β 是需要模型去学习的。

(93 封私信 / 80 条消息) transformer 为什么使用 layer normalization，而不是其他的归一化方法？ - 知乎 (zhihu.com)

NLP_ability/深度学习自然语言处理/Transformer/NLP任务中-layer-norm比BatchNorm好在哪里.md at master · DA-southampton/NLP_ability (github.com)