小模型家族又新增成员Gemma2

news2025/7/5 1:33:44

大模型技术论文不断，每个月总会新增上千篇。本专栏精选论文重点解读，主题还是围绕着行业实践和工程量产。若在某个环节出现卡点，可以回到大模型必备腔调重新阅读。而最新科技（Mamba，xLSTM,KAN）则提供了大模型领域最新技术跟踪。若对于如果构建生成级别的AI架构则可以关注AI架构设计专栏。技术宅麻烦死磕LLM背后的基础模型。

Gemma 2与Gemma 1有许多相似之处。它的上下文长度为 8192个令牌，并使用旋转位置嵌入（RoPE）。与原始 Gemma 相比，Gemma 2有四个主要进步：

滑动窗口注意力机制<链接温习>：交错滑动窗口和全二元注意机制。
Logit 软盖帽：通过将 logit缩放到固定范围来防止logit 过度增长，从而改进训练。
知识蒸馏：利用较大的教师模型来训练较小的模型（9B模型）。
模型合并：将两个或多个LLMs合并为一个新模型

滑动窗口注意力是一种减少transformer模型中注意力计算的内存和时间要求的方法，已用于 Mistral 等模型。Gemma 2的新颖之处在于，每隔一层（本地4096 个令牌）都会应用一个滑动窗口，而中间的层仍然使用传统的注意力机制（8192 个令牌）。

软盖帽是一种技术，可以防止logits变得过大而不会截断它们。它的工作原理是：logits ← soft_cap ∗ tanh(logits/soft_cap)，其中tanh为激活函数。Gemma 2对最后一层和每个注意力层都采用这项技术。cap上限为50.0，最终logits上限为30.0。

模型合并是一种将两个或多个LLMs模型组合成一个新模型的技术，可以在没有加速器的情况下使用。Mergekit是一个流行的LLM开源合并工具包。它实现了线性、SLERP、TIES、DARE和其他合并技术。Gemma 2 使用了Warp，可在三个不同的阶段合并模型。

Gemma2的控制Token

最终在各项基准的评测性能如下，还是具备一定的优势：

Gemma 2使用JAX和ML Pathways在 Google Cloud TPU（v5p 上为 27B，TPU v4 上为 9B）上进行训练。Gemma 2 Instruct已针对对话应用程序进行了优化，并使用监督微调（SFT）、从更大模型中蒸馏、使用人类反馈强化学习（RLHF）以及使用 WARP进行模型合并以提高整体性能。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1873757.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！