首先是昨天看到的gemma 2 中训练2B模型用了知识蒸馏,找了一下技术报告 结果先找到了一代的半天没有看到知识蒸馏的部分 然后在二代里面找到了 只有很小的一部分
就是用小模型学习大模型的概率预测分布
然后这里的话又找到了华为发布的小模型论文
Rethinking Optimization and Architecture for Tiny Language Models
首先是关于词表的大小的讨论 这里得出的结论是 在覆盖90%之下比较好的
然后还有depth 这里的depth具体是指什么有多少个自注意力层?
参数
一是采用随机分布初始化
二是从大模型中继承 但是关于模型的差异架构如何处理
首先是找对结果影响最重要的层
这里用的是消融实验
最初始的层用于提取特征是非常重要的 但是
关于如何继承这里用了很多中方法做实验
同时还看到了csdn上网友整理的小模型从零训练的各个项目
发现自己把transformer的架构图都忘了 正好llama还没有看过架构 就以这个来学习一下
代码实现可以参考这里 大语言模型底层架构丨带你认识Transformer - 华为云开发者联盟 - 博客园 (cnblogs.com)
z深入解析LLaMA如何改进Transformer的底层结构 - 华为云开发者联盟 - 博客园 (cnblogs.com)
Transformer模型详解(图解最完整版) - 知乎 (zhihu.com)
首先是关于位置编码和词嵌入
Transformer的PE(position embedding),即位置编码理解-CSDN博客
怎么计算搞明白了 但是关于采用如此计算的原因是什么?
关于QK V计算 首先注意的是 Q要与每一个K都进行点乘
然后才能归一化softmax
8月8日
Transformer 1. Attention中的Q,K,V是什么 - 知乎 (zhihu.com)
Transformer中的Q/K/V理解_transformer q k v-CSDN博客
昨天把一个单词的QKT 计算弄清楚了
现在考虑Q K 乘法之后乘以 V
如下图 考虑 这一行是该单词对于每一个词的qk 印象力权重的结果 用这种0.3 表示1 到1 的权重为0.3 再乘以v的第一行就是第一个单词的value 加上第二单词的权重0.2乘以第一个单词的value类推
如果是用传统的矩阵乘法不容易看出来 这种分块的乘法就很不错
现在需要考虑整个multi head
对于多个不同的head这里的化h=8所以第一行Concat全部是一个单词的计算结果的不同侧面
通过linear变换让最终输出Z与输入X的维度相同 但是包含了8个头的结果
这里需要注意到Q K V维度的问题
transformer中qkv的维度是什么概念 - CSDN文库
在多头注意力后就是Add & Norm
对Transformer中Add&Norm层的理解-CSDN博客
这里的代码实践 有空在电脑上跑一下 把 2 3 4 维度从1 到 24 看看
Add 是残差连接 表示F(x) + x 这样在反向求导梯度的时候 + 1常数
假设我们输入的词向量的形状是(2,3,4),2为批次(batch),3为句子长度,4为词向量的维度,生成以下数据:
[[w11, w12, w13, w14], [w21, w22, w23, w24], [w31, w32, w33, w34]
[w41, w42, w43, w44], [w51, w52, w53, w54], [w61, w62, w63, w64]]
1
2
如果是在做BatchNorm(BN)的话,其计算过程如下:BN1=(w11+w12+w13+w14+w41+
w42+w43+w44)/8,同理会得到BN2和BN3,最终得到[BN1,BN2,BN3] 3个mean
如果是在做LayerNorm(LN)的话,则会进如下计算:LN1=(w11+w12+w13+w14+w21+
w22+w23+w24+w31+w32+w33+w34)/12,同理会得到LN2,最终得到[LN1,LN2]两个mean
如果是在做InstanceNorm(IN)的话,则会进如下计算:IN1=(w11+w12+w13+w14)/4,同理会得到IN2,IN3,IN4,IN5,IN6,六个mean,[[IN1,IN2,IN3],[IN4,IN5,IN6]]
Transformer学习笔记三:为什么Transformer要用LayerNorm/Batch Normalization & Layer Normalization (批量&层标准化) - 知乎 (zhihu.com)
BN的实践
- 对每一个batch进行操作,使得对于这一个batch中所有的输入数据,它们的每一个特征都是均值为0,方差为1的分布
- 单纯把所有的输入限制为(0,1)分布也是不合理的,这样会降低数据的表达能力(第L层辛苦学到的东西,这里都暴力变成(0,1)分布了)。因此需要再加一个线性变换操作,让数据恢复其表达能力。这个线性变化中的两个参数 γ,β 是需要模型去学习的。
(93 封私信 / 80 条消息) transformer 为什么使用 layer normalization,而不是其他的归一化方法? - 知乎 (zhihu.com)
NLP_ability/深度学习自然语言处理/Transformer/NLP任务中-layer-norm比BatchNorm好在哪里.md at master · DA-southampton/NLP_ability (github.com)
Decoder结构
decoder在训练的时候是并行化的 使用了 Teacher forcing
Teacher forcing是什么? encoder-decoder框架的理解-CSDN博客
但是关于训练的时候如何计算loss具体还是有疑问