Introducing Index-1.9B

news2024/12/23 14:45:02

简介

大家好,今天我们很高兴首次发布Index系列模型中的轻量版本:Index-1.9B系列

本次开源的Index-1.9B 系列包含以下模型: 

Index-1.9B base : 基座模型,具有 19亿 非词嵌入参数量,在2.8T 中英文为主的语料上预训练,多个评测基准上与同级别模型比处于领先. 

Index-1.9B pure : 基座模型的对照组,与base具有相同的参数和训练策略,不同之处在于我们严格过滤了该版本语料中所有指令相关的数据,以此来验证指令对benchmark的影响(详见2.3章节). 

Index-1.9B chat : 基于index-1.9B base通过SFT和DPO对齐后的对话模型,我们发现由于预训练中引入了较多定向清洗对话类语料,聊天的趣味性明显更强 

Index-1.9B character : 在SFT和DPO的基础上引入了RAG来实现fewshots角色扮演定制

目前,我们已在GitHub(https://github.com/bilibili/Index-1.9B),HuggingFace(https://huggingface.co/IndexTeam)上开源。期待听到你们的使用反馈!

模型基本性能:

图片

注: 一些模型采用了report的分数,我们做了注释;其中MiniCPM[1]-Decay为官方放出的history里注明的280000步的ckpt。

输出示例

图片

图片

预训练优化

注:下列章节中的实验指标分数,是评测Ceval(5-shot), CMMLU(5-shot), MMLU(5-shot), Arc-C(0-shot),  Arc-E(0-shot), Hellaswag(0-shot),求平均得到平均指标分数。我们以此作为观察模型表现的指标,进行消融实验。

2.1 模型结构的优化

2.1.1 稳定的LM-Head层: Norm-Head

模型不同层的梯度尺度分布非常不同,最后一层LM-Head的梯度,占据了绝大部分的梯度大小。而词表的稀疏性让LM-Head层稳定性较低,影响模型训练稳定性,进而影响模型性能表现,所以稳定的LM-Head层对于训练非常重要。

图片

模型不同层的梯度尺度分布观察,LM-Head层梯度占据绝大部分

我们认为Norm-Head[2](即对LM-Head层进行Norm,可以动态的缩放LM-Head层大小),有利于更稳定的训练,我们引入此机制并做实验观察,实验结果如下:

  • Norm-Head版本稳定高于Base版本

  • 观察Gradient Norm,Norm-Head版本的绝对值更高,初始有一个快速上升,整体相对Base的上扬幅度更低

实验设置:基于1B的模型训练1T数据,Cosine学习率,Max-LR为2e-4,对照组添加Norm-Head。我们在0.1B规模上观察到了同样的表现

图片

图片

上:norm-head指标对比,下:norm-head的gradient norm对比

2.1.2 矮胖 or 高瘦?模型的形状也会影响性能

模型应该设置多少层,瘦点好还是胖点好,还是没影响?OpenAI 著名的Scaling Law[3]文章,指出模型大小是影响模型性能的最核心因素,形状无关;而DeepMind在前LLM的BERT时代,曾指出高瘦的模型形状相对于矮胖,在下游微调任务上GLUE任务集性能更好[4]。带着这样的疑问,我们做了固定参数大小(Flops也等价),不同层数的实验。

我们基于实验观察,同样大小前提下,适当增加深度指标更好。但有两个注意问题:

  • 显存增加的问题。同参数下,增加层数(矮胖->高瘦)会增加显存。这是因为训练中Activation占大头,Activation显存占用与(层数L *hidden_size)正比,而参数量&FLOPS和(层数L *hidden_size *hidden_size)正比。

  • 层数加深到多大的程度收益微弱?这个我们还未充分实验,留待以后进一步探索。

实验设置: Base 36层, 对照组9层,维持模型参数基本一致,均为1.01B non-emb参数。

图片

base和更宽更浅的模型对比

2.2 学习率Matters

在LLM训练中,朴素的设定常常产生深刻的影响,学习率设定就是典型。我们基于实践发现,学习率的设定会对模型的训练性能产生非常深刻的影响。学习率调度和数据配合,更能让模型性能再获突破。

2.2.1 学习率大小的影响

仅仅改变学习率大小,能够让模型性能产生稳定而显著的差别,合适的更大的学习率有利于模型的表现。

实验设置:基于1B的模型训练1T数据,Cosine学习率,其中Base Max-LR为2e-4,对照组Max LR 为 5e-4

图片

仅仅改变学习率大小,能够让模型性能产生稳定而显著的差别

2.2.2 不同学习率调度有何影响?Cosine, Linear和WSD

Cosine学习率调度是大多数LLM的训练默认选择,但是否是唯一解,其他学习率调度影响如何?

基于0.1B的模型我们分别使用 Cosine, Linear和WSD学习率调度,训练1T的数据,可以发现:

  • 三种学习率曲线的valid loss最终收敛到一起

  • WSD的Stable阶段Loss偏高,进入Decay阶段则loss快速下降

  • 指标评测上基本接近

我们可以发现,不同的学习率调度,只要学习率收敛尺度一致,最终loss和指标都是接近的,这就为学习率调度和数据配合打下了基础。

图片

图片

上:0.1B模型学习率调度实验:Cosine, Linear, WSD的学习率和loss曲线

下:0.1B模型学习率调度实验:Cosine, Linear, WSD的评测指标相近

2.2.3 学习率如何和数据配合?

我们有如下初步假设:

  • WSD学习率在Decay阶段有一个Loss快速下降的过程,

  • 模型学习后期加入更多精选数据有利于模型效果

这两者是否能结合达到最佳的效果?我们做了如下消融实验:

  • cosine: Cosine学习率,无数据调整

  • wsd: WSD学习率,无数据调整

  • cosine+quality: Cosine学习率,后10%加入更多精选数据配比

  • wsd+quality: WSD学习率,后10% 进入Decay阶段,并加入和cosine+quality同样的精选数据配比

我们发现,学习率和数据配合可以让模型性能获得突破:WSD学习率调度下,Decay阶段加入高质量数据,可以获得最佳效果。

其中cosine+quality比无数据调整,指标略低,我们猜测可能有数据适应过程,且cosine末期学习率太低。我们会在未来补充更多的实验来验证。

图片

不同学习率和数据策略组合的实验

2.3 预训练加入指令对benchmark的影响

在预训练中是否加入指令是个值得讨论的地方,但目前公开的讨论较少,我们有如下问题想进行实验探究:

1.  加入指令是否能大幅提高benchmark表现,从而变成打榜”优等生“

2.  能提高多少?

图片

说明: 天工技术报告[5](https://arxiv.org/pdf/2310.19341)中指出部分模型,将GSM8K训练集/测试集加入预训练但未明确阐述

我们做了相应的探索,设置两组实验,Stable结束后的Decay阶段训练5w步,细节设定如下:

  • index-1.9b-ablation-pure: Decay阶段自然文本数据,精选数据做重新放入增加浓度(书籍、论文、百科、专业等类别)

  • index-1.9b-ablation-boost: 实验组在Decay阶段自然文本数据的基础上,额外加入占比7%的指令(唯一变量)

MMLU对比曲线如下:

图片

可以观察到:

1.  进入Decay阶段后,指标均会大幅上升

2.  额外添加7%的指令,能明显提升指标,MMLU指标的差距在7.x个百分点

全面的指标评测如下:

图片

注: 此为实验对比版本,非最终release版本

2.4 其他观察:训练中的涌现

训练1.9B模型过程中,在还未Decay的Stable阶段,观测到了一次模型性能的突涨:

1.  前1T数据: Ceval / MMLU 一直在27.x / 26.x 附近震荡

2.  1T ~ 1.2T: Ceval / MMLU 快速上涨到 36.x / 33.x,这个指标已经超过了一批7B的模型

我们还不能很好解释原因,可能得益于高质量数据和高学习率的稳定,让模型Decay之前已获得了不错性能,这个留待以后进行进一步的研究。

图片

注: Stable阶段的MMLU分数曲线,可以明显观察到训练至1T~1.2T区间指标迅速上涨(语料无变动)

对齐讨论

为了进一步对齐人类的偏好,我们基于Index 1.9b base model进行了SFT和DPO训练。

3.1 SFT

  • 数据:我们收集了10M以上的高质量中英文指令数据,参照了主流的聚类增强多样性和奖励模型打分策略对数据进行清洗和筛选,筛选出高质量且多样的子集;同时,对sft表现欠缺的指令任务,构造和标注了相应数据。最终得到不超过10万条的高质量指令数据集。

  • 训练:chat模型采用system-query-response的格式。优化器和训练参数和预训练阶段保持一致,采用1e-5学习率。packing方式和预训练大体保持一致,采用crossdoc拼接batch的方式以提高训练效率,不同之处在于sft阶段我们会mask掉非response部分不参与loss计算。我们实验了是否加载预训练优化器参数和是否按一定比例replay预训练语料。最终发现加载参数并且保持sft指令参与loss计算的tokens占比在60%是较优设置。

  • 系统指令跟随:通过调整系统指令,能够引导模型给出不同设定和风格的回答,从而实现角色扮演,语言风格转化等能力。具体的示例见附录的输出样例。

附:sft实验的内部评测结果(3分满分)

图片

3.2 DPO

在DPO阶段[6],我们主要针对写作类、指令遵循和安全进一步对齐。一方面,对于写作类任务,回答具备开放性,单一的目标文本并不一定是最优的回答,模型在DPO优化中能学会优劣的标准,从而生成更符合人类偏好的回答;另一方面,对于指令遵循和安全性任务,通过学习对比chosen和reject回答,模型能掌握指令的要求以及拒答的类型,从而更进一步对齐人类偏好,一个比较好的例子是指令遵循中的字数控制。总的来说,我们认为评价标准偏判别而非枚举的任务通过偏好学习可以取得最大的收益。

  • 数据:针对生成类数据,我们从sft数据集中筛选出偏生成写作类的prompt,用我们自训练的奖励模型对模型生成的回答进行打分,然后整理成pair对;针对指令遵循类的数据,我们通过人工构造和标注了对应的pair数据;针对安全类数据,我们尝试了两种方案,示例如下表所示。第一种方案是人工编写了一个拒答集合,从该集合中抽取拒答话术作为chosen,SFT模型生成的回答作为reject;第二种方案是调整系统指令,让我们的SFT模型针对问题生成拒答作为chosen,reject保持。在DPO优化中,我们发现第二种方案可以让模型更好的针对安全问题学会拒答,原因是人工构造的拒答样本在sft模型中的ppl过高,如果强行对齐又会导致拒答率较高,带来灾难性遗忘。因此我们采用了第二种方案。最终,我们一共整理构造了超过10w条高质量的pair数据。

图片

  • 训练:与SFT相同的训练格式。学习率设置为1e-6,调度器采用cosine,损失函数中的超参数beta设置为0.1。训练进行了1个epoch。

角色扮演

4.1 数据

我们收集了大量网络公开数据中的台词剧本和人物设定数据,从中抽取角色对话,利用角色奖励模型进行了筛选,并清洗了数据集,得到了8万条左右的高质量角色对话数据集,覆盖一千多个角色。我们利用RAG检索与当前对话相关的角色过往台词片段,作为参考拼入prompt,最终得到训练数据。

4.2 评估结果

采用角色扮演领域的权威benchmark CharacterEval进行评估,该评测集从角色一致性、对话能力、角色扮演吸引力多个粒度进行评测,我们的1.9b模型整体均分排名第九,显著优于其他同量级模型。

图片

4.3 结果展示

用户可以通过上传符合要求的角色对话语料实现few shots角色定制

图片

局限性

我们在模型训练的过程中,利用合规性检测等方法,最大限度地确保使用数据的合规性。虽然我们已竭尽全力确保在模型训练中使用数据的合法性,但鉴于模型的复杂性和使用场景的多样性,仍然可能存在一些尚未预料到的潜在问题。因此,对于任何使用开源模型而导致的风险和问题,包括但不限于数据安全问题,因误导、滥用、传播或不当应用带来的风险和问题,我们将不承担任何责任。

受限于模型参数量,模型的生成可能存在事实错误或指令理解不到位的情况,我们后续会尝试通过对齐和rag等技术方向的迭代来优化此类问题。

查看详细技术报告:https://github.com/bilibili/Index-1.9B

Reference

1.  Hu S, Tu Y, Han X, et al. Minicpm: Unveiling the potential of small language models with scalable training strategies[J]. arXiv preprint arXiv:2404.06395, 2024.

2.  Yang A, Xiao B, Wang B, et al. Baichuan 2: Open large-scale language models[J]. arXiv preprint arXiv:2309.10305, 2023.

3.  Kaplan J, McCandlish S, Henighan T, et al. Scaling laws for neural language models[J]. arXiv preprint arXiv:2001.08361, 2020.

4.  Tay Y, Dehghani M, Rao J, et al. Scale efficiently: Insights from pre-training and fine-tuning transformers[J]. arXiv preprint arXiv:2109.10686, 2021.

5.  Wei T, Zhao L, Zhang L, et al. Skywork: A more open bilingual foundation model[J]. arXiv preprint arXiv:2310.19341, 2023.

6.  Rafailov R, Sharma A, Mitchell E, et al. Direct preference optimization: Your language model is secretly a reward model[J]. Advances in Neural Information Processing Systems, 2024, 36.

-End-

作者丨Index team

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1821819.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

01本地图像导入及参数设置

左边工具栏:采集-》图像源,点击后 拉到流程窗口中 在右边有三个按钮可以添加图像和图像文件夹。 双击 图像源 可以打开 参数设置 参数说明: 像素格式:MONO8 表示图像为黑白图像,RGB24为彩色图像。看你想以什么图像打开…

JS手写题解析

手写Promise class MyPromise {constructor(executor) { // executor执行器this.status pending // 等待状态this.value null // 成功或失败的参数this.fulfilledCallbacks [] // 成功的函数队列this.rejectedCallbacks [] // 失败的函数队列const that thisfunction reso…

我的创作纪念日 --- 携手CSDN的512天

起航 时间过得可真快啊,转眼间距离我发的第一篇文章已经有512天了,那是一个寒假,当我发现自己又浑浑噩噩的过完了一个学期时,我才开始思考自己想拥有怎样的人生,然后我就写下了自己的第一篇文章 about me,…

哪些国产项目管理软件最受欢迎?详细解读六大主流系统

满足国产化诉求的6款项目管理系统:PingCode、Worktile、Teambition、禅道、华为云DevCloud、Tapd。 国产项目管理软件以其定制化高、适应本土市场的优势,正成为越来越多企业的选择。本文将探讨几款优秀的国产项目管理工具,帮助您找到提升团队…

C# WPF入门学习主线篇(三十三)—— 使用ICommand实现命令绑定

C# WPF入门学习主线篇(三十三)—— 使用ICommand实现命令绑定 在MVVM模式中,命令绑定是将用户交互(如按钮点击)与ViewModel中的方法连接起来的一种机制。使用ICommand接口可以实现这一功能,从而将UI逻辑与业…

癫狂头歌动态规划之跳跃问题Python

第一关跳跃问题 这里我照着图片的代码敲市过不去,真够癫狂的 def CollectValues():n, m map(int, input().split()) #获得输入信息p [list(map(int, input().split())) for i in range(n)] #获得输入信息dp [[-10000] * m for i in range(n)] #初始化动态规划数…

【K8s】专题五(2):Kubernetes 配置之 Secret

以下内容均来自个人笔记并重新梳理,如有错误欢迎指正!如果对您有帮助,烦请点赞、关注、转发!欢迎扫码关注个人公众号! 目录 一、基本介绍 二、主要特性 三、资源清单(示例) 四、常用操作 一…

入职3年-我如何做一名AI产品经理(文末福利)

引言 从2021年校招加入京东开始,我一直从事AI产品经理的工作,有幸见证了AI行业的热情从一台台服务器烧到了全世界各个角落,也见证了京东AI中台团队的影响力如何一步步的扩大。从21年的迷茫到24年的坚定,很庆幸我正走在适合自己的…

深圳职工餐厅安全检测新策略:自动可燃气体报警器的作用

在现代化的都市生活中,安全问题一直备受关注。 对于深圳众多职工餐厅来说,如何确保餐厅内的燃气使用安全,防止因可燃气体泄露而引发的火灾事故,成为了一项重要的挑战。 近年来,自动可燃气体报警器以其高度的灵敏度和…

微软无所不知的人工智能召回功能“Recall”被推迟,将不会与 Copilot Plus PC 一起提供

微软计划下周推出新的 Copilot Plus 个人电脑,取消其备受争议的 Recall 功能,该功能可以截取您在这些新笔记本电脑上所做的所有操作。该软件制造商推迟了 Recall,以便可以通过 Windows Insider 程序对其进行测试,此前该公司最初承…

Redis 7.x 系列【2】单机部署

有道无术,术尚可求,有术无道,止于术。 本系列Redis 版本 7.2.5 源码地址:https://gitee.com/pearl-organization/study-redis-demo 文章目录 1. Windows2. Linux 1. Windows Redis作为一个高性能的内存数据库,和Linu…

爬虫-模拟登陆博客

import requests from bs4 import BeautifulSoupheaders {user-agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36 } # 登录参数 login_data {log: codetime,pwd: shanbay520,wp-submit: …

C++ 36 之 this指针

#include <iostream> #include <string.h> using namespace std;// this指针 永远指向当前对象 class Students06{ public:int age;// int m_age; //member成员首字母mStudents06(int age){// 1.解决命名冲突的问题 this指针找成员变量需要使用->符号this->…

【Linux】基础指令(一)

一、ls指令 语法&#xff1a; ls [选项][目录或文件] 功能&#xff1a;对于目录&#xff0c;该命令列出该目录下的所有子目录与文件。对于文件&#xff0c;将列出文件名以及其他信息 常见选项&#xff1a; -a 列出目录下的所有文件&#xff0c;包括以 . 开头的隐含文件。 -d …

32T存储删除视频的恢复方法

由于存储技术的发展和普及目前很多行业都开始使用小型存储&#xff0c;NAS可以通过网络进行数据上传和读取&#xff0c;使用极为方便。但是由于NAS设备容量较大且碎片较多&#xff0c;所以此类设备删除或者格式后恢复难度是比较大的&#xff0c;下边我们来分享下32T存储的恢复方…

不愧是字节,图像算法面试真细致

这本面试宝典是一份专为大四、研三春招和研二暑假实习生准备的珍贵资料。 涵盖了图像算法领域的核心知识和常见面试题&#xff0c;包括卷积神经网络、实例分割算法、目标检测、图像处理等多个方面。不论你是初学者还是有经验的老手&#xff0c;都能从中找到实用的内容。 通过…

网站接口是怎么开发的,开发之后是怎么用的

网站接口的开发流程 1.确定接口需求 在开发接口之前我们先要知道&#xff0c;要开发什么样的接口&#xff0c;这个接口是用来干什么的&#xff0c;得先知道相关的需求&#xff0c;才能规划下一步&#xff0c;比如客户想要一个文章列表&#xff0c;那么我们就知道这个需求…

算法day29

第一题 695. 岛屿的最大面积 本题解法&#xff1a;采用bfs的算法&#xff1b; 本题使用象限数组的遍历方法和定义布尔数组vis来遍历每一个元素的上下左右元素&#xff0c;防治被遍历的元素被二次遍历&#xff1b; 本题具体分析如上题故事&#xff0c;但是由于要求区域的最大面…

爆肝三天,制作属于自己的地图——DAY3(地图数据发布详细教程)

4&#xff0c;重建顶层。 倾斜摄影数据的组织方式&#xff0c;一个 Data 目录下的 Tile 可能会成千上万&#xff0c;如果不使用重建顶层&#xff0c;那么输出的3DTiles的包围盒会非常非常多&#xff0c;增加加载时长。重建顶层&#xff0c;程序会根据瓦片的空间结构关系采用八…

opencv安装笔记 各种平台

目录 python安装opencv-python c 麒麟arm系统安装和用法 python安装opencv-python pypi上搜索 Search results PyPI 现在安装是一个版本&#xff0c;大于3.6都可以安装 c 麒麟arm系统安装和用法 参考&#xff1a; ffmpeg rknn麒麟系统 安装 opencv_ffmpeg4 解码示例-CSDN…