B站开源长文本大模型:我很小但很能“装”

news2024/12/23 21:04:47

一、“2% GPT size, yet powerful.”

模型简介

Index-1.9B-32K 是一个拥有 1.9B (19亿)参数并具备 32K 上下文长度的语言模型(这意味着,这个超小精灵可以一次性读完 3.5 万字以上的文档)。

在多项长文本评测任务中,该模型在相近尺寸的模型中表现突出。以极小的体积和算力开销(仅仅约为 GPT-4 的 2%),实现了出色的长文本处理能力。如下图所示,我们的 1.9B 模型得分甚至远超 7B 大小的模型。以下是与 GPT-4、千问Qwen2 等模型的对比:

Index-1.9B-32K与GPT-4、Qwen2等模型长文本能力对比

该模型针对 32K 长文本进行了持续预训练(Continue Pre-Training)和监督微调(SFT),训练数据主要来源于我们精心清洗的长文本预训练语料以及自建的长文本指令集。

Github上模型、技术报告等下载

  • 代码、模型、技术报告、运行工具下载地址https://github.com/bilibili/Index-1.9B(⭐️)

  • 所有模型、代码等已完全开源、免费使用。

  • 所有评测指标可用已开源的代码自助运行并复现。

应用示例(英文财报翻译&总结)

运行我们已开源的交互工具,翻译并总结哔哩哔哩公司于2024.8.22发布的英文财报(英文财报原文:https://github.com/bilibili/Index-1.9B/tree/main/demo/data/user_long_text.txt),效果如下:

二、训练过程

Index-1.9B-32K基于我们已经开源的 Index-1.9B 进行继续训练,进行了额外两个阶段的训练:

1. Long PT:Long continue Pre-Training,长文本继续预训练,基于长数据进行持续预训练。

2. Long SFT:长文本监督微调,基于长指令进行 SFT。

*(RLHF / DPO):尽管我们已经具备强化学习(RLHF)、DPO 等对齐训练的经验,但是这个版本还未经过RLHF/DPO训练(后续版本将补充RLHF/DPO),我们仍然优先集中精力攻克模型在长文本处理方面的深层次能力上。

Index-1.9B-32K的训练流程

模型超参数

Context长度相关的参数

  • Rope Base:32 * 10000 (Rope是大模型主流的位置编码算法,由苏剑林提出)

  • 最大序列长度:32768(决定了模型能处理的Token数量上限)

  • 最大位置编码:32768(需大于等于“最大序列长度”)

Rope Base 的确定

  • 我们通过理论计算,并结合之前的研究工作确定了 Rope Base 的范围,详见:2104.09864(https://arxiv.org/abs/2104.09864) 和 2310.05209(https://arxiv.org/abs/2310.05209)。

  • 进一步,我们通过实际训练和对照实验,最终确定了 32*10000 这个 Rope Base。

  • 我们也注意到很多其他公司使用百万级甚至更高的 Rope Base,例如,Gradient AI 使用的 Rope Base 甚至超过了 10 亿,因此我们也尝试将 Rope Base 增大到数百万,经过对照实验,结果显示这并不会带来性能提升。

  • Rope Base 和 Context Length 取值:如下图所示,在 32K 上下文情况下,32*10000 的 Rope Base 已经足够,坐标处于图中的红色区域,困惑度较低,能够有效适应32K上下文长度。

图片

Rope Base与困惑度关系

阶段1:继续预训练(32K)

我们基于自建的长文本语料库进行了持续预训练。我们精心清洗了 100B+ 的长文本数据,在训练了 10B 之后,模型的长文本性能提升已比较显著。

Long PT训练参数

  • 为了有效利用算力,使用Doc Packing方式训练(多条训练数据拼接并填满最大序列长度),并重置注意力掩码和位置 ID。

  • Token 级别的 Batch Size 为 4M。

  • 峰值学习率为 1e-5。

  • 学习率调度:余弦调度,开始时进行少量预热以稳定训练过程。

  • 权重衰减:0.1,引入正则化,用来防止模型过拟合。

  • 梯度裁剪:1.0,防止梯度爆炸,确保训练稳定性。

长文本语料

我们基于自建的海量语料池,构建了长文本预训练语料库。互联网上搜集到的大多数语料的 Token 量比较短,我们进行了统计,不同Token数量的区间统计如下:

  • 73% 的文档包含的 Token 量处于 0~4K 之内。

  • 32K以上长度的长文本语料不足 1%。

我们的语料库 Token 长度分布

阶段2:SFT(32K)

  • 我们基于 3 万多条自建的长文本指令,并结合 5 万多条通用指令进行了 SFT,使模型具备了长文本指令遵循能力。我们也尝试使用数十万条指令进行训练,但结果没有显著变化,这一方面源于我们的指令的质量和多样性仍不佳。

  • 在我们多次实验中,通常 2 个 epoch 就能达到较好的性能。

  • SFT 过程的训练集损失下降曲线如下,可以看到模型在前 100 步内性能急剧提升。

图片

SFT 训练损失曲线

Long SFT训练参数

  • 为了有效利用算力,使用Doc Packing方式训练(多条训练数据拼接并填满最大序列长度),并重置注意力掩码和位置 ID

  • Token 级别的 Batch Size 为 1M

  • 峰值学习率为 5e-6

  • 学习率调度:余弦调度,开始时进行少量预热以稳定训练过程。

  • 权重衰减:0.1,引入正则化,用来防止模型过拟合。

  • 梯度裁剪:1.0,防止梯度爆炸,确保训练稳定性。

三、效果与评测

  • 对于模型的“长文本能力”,我们使用了三种评测方法:NeedleBench、LongBench 和 LEval。

  • 对于模型的“短文本能力”,我们使用了自建的评测集和 MMLU 等传统评测方法。

  • 评测主要基于 opencompass 完成。我们的模型运行、评测代码也已开源,可以复现我们的评测结果。OpenCompass提供了便捷且丰富的大模型评测框架,这极大地提升了我们模型的训练迭代节奏,特别鸣谢。

长文本能力评测

NeedleBench(大海捞针)

  • Index-1.9B-32K在32K长度的大海捞针测试下,评测结果如下图,可以看到,评测结果只在(32K 长度,%10 深度)区域有一处黄斑(91.08分),其他范围表现优异,几乎全绿。

  • 大海捞针测试简介:大海捞针测试通过在长文本中随机插入关键信息,形成大型语言模型 (LLM) 的 Prompt,旨在检测大型模型是否能从长文本中提取出这些关键信息,从而评估模型处理长文本信息提取的能力。

图片

大海捞针评测

LongBench和LEval

  • Index-1.9B-32K在 LongBench 评测上的得分为 35.23,在 LEval 评测上的得分为 35.86。GPT-4和longchat-7b-v1.5-32k的得分摘自 这里 ,Index-1.9B-32K、Qwen2-1.5B-Instruct的得分是我们基于opencompass运行得出。

  • LongBench简介:LongBench是由 THUDM 构建的长文本数据集,由 21 个子任务构成,总计 4750 条测例。该数据集是第一个包含中英双语的长文本数据集,其中英语文本长度平均为 6711 词,中文文本平均长度为 13386 字。

  • LEval简介:LEval是由 OpenLMLab 构建的一个长文本数据集,由 18 个子任务组成,其中包含法律、经济、科技等各个领域的文本。

评测分数对比如下图,我们1.9B尺寸的模型分数甚至远超7B尺寸的模型:

Index-1.9B-32K与GPT-4、Qwen2等模型长文本能力对比

Alignment和短能力评测

虽然Index-1.9B-32K的长文本能力获得极其优异的结果,但短文本能力有所下降。我们使用了基于自建 benchmark 的评测,结果显示模型的“短文本能力”在多个评测指标上均有下降。在自建 benchmark 的评测中,性能下降了约 25%,因此,平衡模型的“长短文本能力”也将是我们未来的一个主要工作。

对 OpenCompass 的优化

在进行长上下文相关的评测时,我们遇到以下问题并进行了优化,这一优化已被 OpenCompass 合并到官方最新仓库,详见 opencompass/commit(https://github.com/open-compass/opencompass/commit/59586a8b4a3e4dc2c24b6e55a3d1074e5fbe10ab?diff=unified&w=0) 。

问题

在评估过程中,序列长度可能会超过模型的 max_seq_len,尤其是在长上下文评估中,这导致两个问题:

  1. prompt被截断,只有一部分进入模型,导致关键信息(例如关键问题)丢失,模型无法理解prompt的意图。

  2. 在继续生成时,总长度超过max_seq_len 并出现以下警告:This is a friendly reminder - the current text generation call will exceed the model’s predefined maximum length (32768). Depending on the model, you may observe exceptions, performance degradation, or nothing at all.

解决方案

保留前 (0.5 * max_prompt_len) 的 tokens 和后 (0.5 * max_prompt_len )的 tokens,丢弃中间部分,因为Prompt中的问题通常位于开头或结尾。

四、其他上下文扩展技术的研究

我们对比了免训练的上下文长度扩展方法,例如 Dynamic NTK 、Naive Extrapolation(直接外推)等。

Dynamic NTK(Neural Tangent Kernel)是一种可用于扩展大模型上下文窗口长度的方法,主要原理是随着上下文长度的变化而动态地调整位置编码,以适应新的上下文长度,该方法不需要进行训练便能达到扩展上下文长度的目的。其中,我们对 Dynamic NTK 使用了多种 scaling factor,本文评测时使用的 scaling factor 为 8。各种技术的长上下文效果对比如下图。

各种Long Context方法的效果对比

五、讨论

  • 相比于业界相近尺寸的开源模型,Index-1.9B-32K的长文本性能取得了非常优异的结果。我们也公开了 benchmark 运行代码,可以复现这些评测结果。

  • 通过大量研究和实验发现,长文本能力和短文本能力在很多情况下像跷跷板,兼顾两者是一个有趣且具有挑战性的课题。

当然,我们还进行了很多失败的尝试,不完全列举如下。

失败尝试1:上下文长度预热(Context Length Warmup)

我们最初认为 LLM 对文本长度的感知能力应当逐步从短到长提升,因此尝试构建长度递增的数据集并按顺序进行训练。模型的损失(Loss)在初期下降迅速,但随后出现反弹且无法进一步下降。我们推测这可能与数据分布不均有关,后续将对此展开更深入的研究。

图片

上下文长度预热训练的验证集损失曲线

失败尝试2:Packing VS Non-Packing

我们认为Doc Packing 方式的训练可能会影响梯度下降,特别是在混合不同长度指令时。然而,实验结果显示,两种训练方式的差异极小(小于 1%)。

失败尝试3:1‰ 长指令 SFT

我们注意到 LLaMA 3 的Paper中提到他们只使用了 1‰ 的长指令进行微调,我们对这一结果感到好奇,于是进行了实验,实验结果为负向。

写在最后

本文对我们的长文本大模型(Long Context)工作做了简略介绍,我们仍在持续更新、升级 Long Context 能力,请关注后续进展,欢迎交流。

局限性与免责申明

Index-1.9B-32K在某些情况下可能会产生不准确、有偏见或其他令人反感的内容。模型生成内容时无法理解、表达个人观点或价值判断,其输出内容不代表模型开发者的观点和立场。因此,请谨慎使用模型生成的内容,用户在使用时应自行负责对其进行评估和验证,请勿将生成的有害内容进行传播,且在部署任何相关应用之前,开发人员应根据具体应用对模型进行安全测试和调优。我们强烈警告不要将这些模型用于制造或传播有害信息,或进行任何可能损害公众、国家、社会安全或违反法规的活动,也不要将其用于未经适当安全审查和备案的互联网服务。我们已尽所能确保模型训练数据的合规性,但由于模型和数据的复杂性,仍可能存在无法预见的问题。如果因使用这些模型而产生任何问题,无论是数据安全问题、公共舆论风险,还是因模型被误解、滥用、传播或不合规使用所引发的任何风险和问题,我们将不承担任何责任。

-End-

作者丨Index team

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2143918.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

单链表的实现(C语言)

目录 1.单链表 1.1 实现单链表 1.1.1 文件创建 1.1.2 链表功能了解 1.1.3 链表的结点 1.1.4 链表的函数声明 1.1.5 链表功能的实现 链表是一种链式结构,物理结构不连续,逻辑结构是连续的,在计算机中链表的实际存储是按照一个结点内存放…

基于springboot+vue实现的智能垃圾分类系统 (源码+L文+ppt)4-063

摘 要 本论文主要完成不同用户的权限划分,不同用户具有不同权限的操作功能,系统包括用户、物业和管理员模块,主要功能有用户、物业、垃圾站点、垃圾投放、验收信息、积分商城、积分充值、通知物业等管理操作。 关键词:智能垃圾…

微信支付开发-前端api实现

一、操作流程图 二、代码实现 <?php /*** 数字人答题业务流* User: 龙哥三年风水* Date: 2024/9/11* Time: 14:59*/ namespace app\controller\shuziren; use app\controller\Base; use app\model\param\QuestionParam as PQPModel; use app\model\answer\QuestionBank; u…

codemirror 代码在线编辑器基本使用

CodeMirror 是一个强大的基于浏览器的文本编辑器组件&#xff0c;主要用于网页中创建可编辑的源代码区域&#xff0c;特别适用于编写和展示程序代码。它支持多种编程语言的语法高亮、代码折叠、自动补全、查找替换等多种高级编辑特性。 npm install vue-codemirror --save 或者…

RabbitMQ Spring客户端使用

注解声明式队列和交换机 java自带序列化工具类&#xff0c;将java对象序列化为字节数组&#xff0c;用于网络传输。 jdk序列号存在缺陷&#xff0c;&#xff08;不安全&#xff0c;占用空间大等&#xff09; 推荐使用JSON的序列化&#xff1a; springboot扫描包使配置生效&…

WordPress建站钩子函数及使用

目录 前言&#xff1a; 使用场景&#xff1a; 一、常用的wordpress钩子&#xff08;动作钩子、过滤器钩子&#xff09; 1、动作钩子&#xff08;Action Hooks&#xff09; 2、过滤器钩子&#xff08;Filter Hooks&#xff09; 二、常用钩子示例 1、添加自定义 CSS 和 JS…

谈谈OpenAI o1的价值意义及RL 的Scaling Law

蹭下热度谈谈OpenAI o1的价值意义及RL 的Scaling law。 一.OpenAI o1是大模型的巨大进步 1.1 我觉得OpenAI o1是自GPT 4发布以来&#xff0c;基座大模型最大的进展&#xff0c;逻辑推理能力提升的效果和方法比我想的要好&#xff0c;GPT 4o和o1是发展大模型不同的方向&#x…

计算机毕业设计 乡村生活垃圾管理系统的设计与实现 Java+SpringBoot+Vue 前后端分离 文档报告 代码讲解 安装调试

&#x1f34a;作者&#xff1a;计算机编程-吉哥 &#x1f34a;简介&#xff1a;专业从事JavaWeb程序开发&#xff0c;微信小程序开发&#xff0c;定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事&#xff0c;生活就是快乐的。 &#x1f34a;心愿&#xff1a;点…

视觉Transformer(ViT) :全面超越CNN,看懂这篇文章就没什么能难倒你了!

【视觉Transformer】(Vision Transformer, ViT) 是一种革命性的技术&#xff0c;它将Transformer架构应用于视觉识别任务&#xff0c;通过自注意力机制来捕捉图像中的特征关系&#xff0c;显著增强了模型对视觉信息的解析力。这一领域的研究不仅打破了传统卷积神经网络&#xf…

【BFS专题】— 解决拓扑排序问题

拓扑排序介绍&#xff1a; 1、课程表 - 力扣&#xff08;LeetCode&#xff09; 思路&#xff1a; 通过Map<Integer, List<Integer>> 来创建邻接图&#xff0c;数组来表示入度然后遍历课程数组&#xff0c;建图然后再拓扑排序&#xff0c;bfs最后在遍历入度数组&…

ADB ROOT开启流程

开启adb root 选项后&#xff0c;执行如下代码&#xff1a; packages/apps/Settings/src/com/android/settings/development/AdbRootPreferenceController.java mADBRootService new ADBRootService(); Override public boolean onPreferenceChange(Preference preference…

(十五)、把自己的镜像推送到 DockerHub

文章目录 1、登录Docker Hub2、标记&#xff08;Tag&#xff09;镜像3、推送&#xff08;Push&#xff09;镜像4、查看镜像5、下载镜像6、设置镜像为公开或者私有 1、登录Docker Hub 需要科学上网 https://hub.docker.com/ 如果没有账户&#xff0c;需要先注册一个。登录命令如…

基于用户增长的动销方案实践!

在竞争激烈的市场环境下&#xff0c;实现用户增长和推动产品动销至关重要。 首先&#xff0c;明确市场定位与目标用户群体&#xff0c;通过市场调研深入了解用户需求和痛点&#xff0c;进行精准营销。同时&#xff0c;不断优化用户体验&#xff0c;提升产品质量和性能&#xff…

服装企业必备增长利器:高效商品管理系统

在时尚界的快车道上&#xff0c;服装企业如同驾驶着赛车&#xff0c;在瞬息万变的市场中疾驰。为了在这场激烈的竞赛中保持领先&#xff0c;服装企业迫切需要一把能够助其精准操作、高效运转的钥匙——商品管理系统。这不仅仅是一个软件工具&#xff0c;更是企业应对市场挑战、…

碰撞检测 | 图解线段几何与线段相交检测原理(附ROS C++可视化)

目录 0 专栏介绍1 线段与线段相交检测2 线段与圆相交检测3 线段与矩形相交检测4 算法仿真与可视化4.1 核心算法4.2 仿真实验 0 专栏介绍 &#x1f525;课设、毕设、创新竞赛必备&#xff01;&#x1f525;本专栏涉及更高阶的运动规划算法轨迹优化实战&#xff0c;包括&#xf…

[Java]maven从入门到进阶

介绍 apache旗下的开源项目,用于管理和构建java项目的工具 官网: Welcome to The Apache Software Foundation! 1.依赖管理 通过简单的配置, 就可以方便的管理项目依赖的资源(jar包), 避免版本冲突问题 优势: 基于项目对象模型(POM),通过一小段描述信息来管理项目的构建 2…

第六天旅游线路规划

第五天&#xff1a;从贾登峪返回乌鲁木齐&#xff1b; 第六天&#xff1a;从乌鲁木齐到天山天池&#xff0c;晚上回乌鲁木齐住宿。 第六天从乌鲁木齐到天山天池景区入口的的规划结果见下图&#xff1a; 1、行程安排 根据上面的耗时情况&#xff0c;规划一天的行程安排如下&a…

OFDM简介

OFDM(Orthogonal Frequency Division Multiplexing)全称为正交频分复用&#xff0c;在无线通信中被广泛应用。本文结合下图对OFDM的基本原理进行说明。 图1. OFDM信号生成流程示意图 上图为OFDM信号生成、传输和接收的整体流程图。结合该流程图对其中每一个模块进行详细说明。 …

Logstash 安装与部署(无坑版)

下载 版本对照关系&#xff1a;ElasticSearch 7.9.2 和 Logstash 7.9.2 &#xff1b; 官方下载地址 选择ElasticSearch版本一致的Logstash版本 https://www.elastic.co/cn/downloads/logstash 下载链接&#xff1a;https://artifacts.elastic.co/downloads/logstash/logst…

一、XML与Tomcat

文章目录 1. XML简介1.1 什么是XML1.2 XML的作用 2. XML语法2.1 文档声明2.2 xml 注释2.3 元素&#xff08;标签&#xff09;2.4 xml 属性2.5 语法规则2.5.1 所有XML元素都须有关闭标签&#xff08;也就是闭合&#xff09;2.5.2 XML 标签对大小写敏感2.5.3 XML 必须正确地嵌套2…