Gemma 2大模型的训练范式解析

news2024/9/20 14:41:00

咱们聊聊大型语言模型(LLMs)的训练范式吧,这可是个大话题。从最早的GPT模型到现在的复杂开放权重LLMs,这一路走来,变化可真不少。记得最开始,LLMs的训练就只关注预训练,但现在,这事儿已经发展到包括预训练和后训练两个阶段了。后训练阶段,通常就是监督指令微调和对齐。

图片

就拿谷歌的Gemma模型来说吧,最近在一篇文章里头详细描述了。这篇文章叫《Gemma 2: Improving Open Language Models at a Practical Size》(https://arxiv.org/abs/2408.00118),挺有意思的。

Gemma 2模型有三种不同的规模,分别是20亿、90亿和270亿参数。这模型的亮点在于,它不是一味追求增加训练数据集的规模,而是更注重开发那些既小又高效的LLMs。

还有一点特别值得一提,那就是Gemma 2的词汇量超级大,有256k个标记(tokens)。相比之下,Llama 2的词汇表只有32k个标记,Llama 3也不过是128k个标记。

最后,Gemma 2还用了滑动窗口注意力机制,这跟Mistral早期的模型有点像,可能是为了减少内存的使用成本。

3.2 Gemma 2 预训练

咱们再聊聊Gemma 2的预训练部分。Gemma的研究人员发现,即使是小型模型,通常也是训练不足的。他们没有选择简单地增加训练数据集的规模,而是更注重保持训练的质量,并通过一些替代方法来实现改进,比如知识蒸馏,这跟苹果的AFM方法有点像,具体请参见《Apple LLM: 智能基础语言模型(AFM)》。

说到27B的Gemma 2模型,它是从头开始训练的。但是,那些更小的模型,比如2B和9B的,就用了知识蒸馏的方式来训练,这跟我们之前提到的苹果的方法差不多。

训练数据的规模也很有意思,27B模型训练了13万亿个标记,9B模型训练了8万亿个标记,而2B模型则训练了2万亿个标记。而且,跟苹果的方法一样,Gemma团队也优化了数据混合,这也是为了提高模型的性能。这一系列的操作,都是为了确保模型能够学得更好,表现得更出色。

图片

Gemma 2 预训练的技术总览

3.3 Gemma 2 后训练

咱们再来看看Gemma模型的后训练过程。这里面包括了两个典型的步骤:监督微调(SFT)和人类反馈的强化学习(RLHF),具体可见《您真的了解人类反馈强化学习(RLHF)吗?》。

在监督微调阶段,Gemma模型用的是纯英文的指令数据,这些数据是人工生成和机器生成的内容混合在一起的。特别有意思的是,这些响应大多数是由一个教师模型生成的,而且在SFT阶段也用到了知识蒸馏。

至于强化学习部分,Gemma的RLHF方法有个特别的地方:在SFT之后,用来做RLHF的奖励模型的规模,是策略(目标)模型的十倍大。这个比例挺有意思的。

他们用的RLHF算法本身是比较标准的,但是有一个独特的创新点:他们通过一个叫做WARP(Weighted Average Reward Model with Perturbations)的方法来平均策略模型。WARP其实是WARM(Weighted Average Reward Model,加权平均奖励模型)的升级版。

图片

Gemma 2 后训练的技术总览

总的来说,Gemma模型的后训练过程,通过结合监督微调和人类反馈的强化学习,再加上一些独特的技术和方法,使得模型在理解和生成文本方面表现得更加出色。这一系列的训练步骤,都是为了确保模型能够更好地理解和回应用户的指令。

3.4 结论

总结一下,Gemma团队在他们的模型训练中,确实把知识蒸馏这个方法用到了极致。无论是在预训练阶段还是后训练阶段,他们都采用了这种方法,这跟苹果的做法有点像。

有意思的是,他们并没有采用那种多阶段的预训练方法,或者至少在他们的论文里,并没有详细地说明这一点。这可能意味着他们在训练模型的时候,有自己独特的思路和方法。

通过这样的训练策略,Gemma模型在理解和生成文本方面,可能会有不错的表现。这也让我们对Gemma模型的未来充满了期待。毕竟,一个好的语言模型,能够更好地理解和回应用户的需求,这对于提升用户体验来说,是非常重要的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2118214.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++设计模式——Strategy策略模式

一,策略模式简介 策略模式是一种行为型设计模式,策略模式在软件开发场景中定义了一系列的算法,并将每个算法单独封装在可替换的对象中,使应用程序在运行时可以根据具体的上下文来动态地选择和切换算法,同时保持原有的…

【运维监控】influxdb 2.0+grafana 监控java 虚拟机以及方法耗时情况(2)

关于java应用的监控本系列有文章如下: 【运维监控】influxdb 2.0telegraf 监控tomcat 8.5运行情况 【运维监控】influxdb 2.0grafana 监控java 虚拟机以及方法耗时情况 【运维监控】Prometheusgrafana监控tomcat运行情况 【运维监控】Prometheusgrafana监控spring b…

【即时通讯】轮询方式实现

技术栈 LayUI、jQuery实现前端效果。django4.2、django-ninja实现后端接口。 代码仓 - 后端 代码仓 - 前端 实现功能 首次访问页面并发送消息时需要设置昵称发送内容为空时要提示用户不能发送空消息前端定时获取消息,然后展示在页面上。 效果展示 首次发送需要…

【java入门】八大基本数据类型与变量的声明与使用,超详细讲解!

🚀 个人简介:某大型国企资深软件开发工程师,信息系统项目管理师、CSDN优质创作者、阿里云专家博主,华为云云享专家,分享前端后端相关技术与工作常见问题~ 💟 作 者:码喽的自我修养&#x1f9…

【PyCharm使用教程】PyCharm的基本使用教程,适合完全零基础,小白快速上手!(Python+PyCharm安装包)

如果你正在学习Python,但是找不到方向的话可以试试我这一份学习方法和籽料呀!点击 [领取籽料](不要米米) Pycharm的基本使用教程 【一】PIP换源 ①问题描述 在使用Python时需要经常用到pip安装第三方包。在某些情况下由于网络速…

基于C++实现(控制台)学生成绩管理系统

学生成绩管理系统 一、系统需求分析 一个巨大的学校有数以万计的教工、学生和相应的资料需要管理。一个好的学生成绩管理系统可以协助管理员管理巨大的数据库,允许管理员、教师跟学生这三种用户登录进行相应的操作。 管理员具有管理数据库的一切权限。管理员负责…

兔英语语法体系——观后笔记

目录 一、视频链接 二、视频前言 三、简单句(Simple Sentences) 1. 可独立完成的动作 2. 有1个动作的承受者 3. 有两个动作承受者 4. 只有一个动作承受者(但需补充) 5. 非 “动作” 6. 总结 四、五大基本句型 五、句子成分 6. 定语 7. 状语 8. 同位语 9. 总结 …

[SWPUCTF 2022 新生赛]

目录 [SWPUCTF 2022 新生赛]ez_rce 什么是poc? [SWPUCTF 2022 新生赛]where_am_i [SWPUCTF 2022 新生赛]js_sign [SWPUCTF 2022 新生赛]xff ​[SWPUCTF 2022 新生赛]numgame call_user_func()函数 ::双冒号运算符 [SWPUCTF 2022 新生赛]ez_sql [SWPUCTF 2…

Anylogic比较运行实验

比较运行实验案例: 设置好参数后,点击左下角的开始,即可运算出结果 设置图例参数,在界面上图例显示为改变的变量值:

雕虫小技:解决VSCode中extern “C“的代码缩进问题

问题现象 创建一个标准的C语言头文件:foo.h #ifndef _FOO_H_ #define _FOO_H_#ifdef __cplusplus extern "C" { #endif/************************************************************************** * Include Files …

Security(lt2)

some basic terminology • plaintext - original message • ciphertext - coded message • cipher - algorithm for transforming plaintext to ciphertext • key - info used in cipher known only to sender/receiver • encipher (encrypt) - converting plaintext to …

从fasta文件中提取指定长度序列构建矩阵

要从 FASTA 文件中提取指定长度的序列并构建矩阵,你可以使用 BioPython 库,它可以方便地处理生物序列数据。你可以通过从 FASTA 文件中读取序列,然后将每个序列拆分成指定长度的子序列,最终构建矩阵。 以下是一个示例代码&#x…

深兰科技董事长陈海波出席《中马建交五十周年高级别经贸合作》

2024年9月3日,中马建交50周年高级别经贸合作交流会暨马来西亚第九任首相VIP欢迎晚宴在北京隆重举行,深兰科技创始人、董事长陈海波先生应邀出席。 会议期间,双方举行了品牌出海合作签约仪式。在马来西亚首相雅各布先生的见证下,深…

分解+优化+组合+对比!核心无忧!VMD-SSA-Transformer-LSTM多变量时间序列光伏功率预测

分解优化组合对比!核心无忧!VMD-SSA-Transformer-LSTM多变量时间序列光伏功率预测 目录 分解优化组合对比!核心无忧!VMD-SSA-Transformer-LSTM多变量时间序列光伏功率预测效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.…

万字长文带你窥探Spring中所有的扩展点

写在前面 Spring的核心思想就是容器,当容器refresh的时候,外部看上去风平浪静,其实内部则是一片惊涛骇浪,汪洋一片。Springboot更是封装了Spring,遵循约定大于配置,加上自动装配的机制。很多时候我们只要引…

直流负载技术介绍

直流负载技术是一种用于控制和调节电力系统运行状态的重要技术。它主要通过对电力系统中的直流负载进行有效的管理和控制,以保证电力系统的稳定运行,提高电力系统的运行效率,降低电力系统的运行成本。 直流负载技术主要包括直流负载的检测、…

csdn有xss漏洞吗?

csdn有xss漏洞吗? 图片111?

GNU风格代码编译(27)

1makefile 的规则 命令必须使用tab 按键, 而不能使用 空格按键。 1. TARGETstart 2. TARGETCmain 3. all: 4. arm-none-linux-gnueabi-gcc -O0 -g -c -o $(TARGETC).o $(TARGETC).c 5. arm-none-linux-gnueabi-gcc -O0 -g -c -o $(TARGET).o $(TARGET).s…

米壳AI:分享一个轻松保存外网高清原视频的方法!

hello!各位小伙伴们,你们好呀!今天我要给大家分享一个超级实用的工具 ——medio.cool。 在这个信息全球化的时代,我们常常会被国外的精彩视频所吸引,然而如果我们想到外网下载视频,最高只可以保存 720p 的画…

AI 智能体: 一篇文章,解锁你的第一张 Coze 卡片

你是否和我一样,看多了用大量文字堆积的回复结果就会感到腻呢? 相比于枯燥乏味的文字,大家更喜欢图文并茂的呈现方式。 图片中,左侧是生成的卡片,右侧是没有配置卡片的效果。你会选哪一个? 或许&#xf…