BioMistral 7B: 生物医学领域的开源多语言AI模型

人工智能咨询培训老师叶梓转载标明出处

尽管目前有许多开源的针对健康领域的大模型可供使用，但现有模型在数据隐私风险、模型性能以及多语言支持方面的局限性，限制了它们在医疗领域的应用。为了克服这些限制，研究者们提出了BioMistral，一个专门为生物医学领域设计的开源大型语言模型。它是由法国阿维尼翁大学和南特大学的研究团队共同开发的。该模型基于Mirstral模型，并进一步在PubMed Central上进行了预训练，以适应生物医学领域的专业需求。

BioMistral

研究团队选择了PMC（PubMed Central）开放获取子集作为数据源，这是一个全面且可自由访问的医学研究论文集合。此选择受到PMC-LLaMA、PubMedBERT和SciFive等模型成功的启发，这些模型在医学应用的语言建模方面展示了显著的提升。

重点放在了允许商业使用的子集上，包含了在不同创作共用许可（如CC0、CC BY、CC BY-SA和CC BY-ND）下的文档。这确保了模型输出的可重用性，甚至可以用于商业目的。

在预处理阶段，研究者们旨在优化数据集以提高训练效率，同时考虑到硬件限制。目标是在Jean Zay HPC的20小时限制内，对Mistral模型进行1.5个epoch的进一步预训练。这一决策与Zephyr模型的建议相符，即观察1.5倍的语料库足以显著提升模型性能，超出这一阈值的边际效益有限。研究者们从预处理的PubMed Central语料库中精心挑选了30亿个token，大约对应147万份文档。数据集主要由英文文档组成（占语料库的98.75%），其余部分包括荷兰语、德语、法语等9种语言。策略上强调多语言数据集方法，优先考虑非英语文档，并辅以英文文本，以确保训练数据集的多样性和代表性，达到30亿token的目标。原始文本文档使用Mistral分词器进行预处理，包括分词和规范化流程。

在模型适应方面，研究者们利用Mistral 7B Instruct v0.1作为基础模型进行适应，原因在于其设计上适合在提示中纳入指令，并且能够使用有限的数据集进行微调以适应不同的任务。BioMistral 7B的预训练设置在很大程度上与Mistral 7B Instruct v0.1保持一致。优化方面，采用了AdamW优化器和余弦学习率调度器。模型架构继承了Mistral的标准transformer架构，包括Grouped-Query Attention、Sliding Window Attention和Rolling Buffer Cache等功能。所有模型，包括量化版本，都保持了2048个token的输入上下文长度，并结合了FlashAttention-2。

为了提高训练效率，研究者们引入了一种后分词分组方法，该方法通过聚合由序列结束标记（</s>）标记的可变大小序列，无需填充即可填满模型的2048-token序列。这减少了87.88%的序列数量，从而加快了epoch时间。

模型融合方法是一种提高模型性能和跨领域泛化能力的策略。本质上是将多个预训练模型的参数结合起来的过程，这样做的目的是在不需要额外训练的情况下增强模型的效果。在BioMistral项目中，研究者们特别关注了几种模型融合技术，包括SLERP、TIES和DARE。

SLERP（Spherical Linear Interpolation） 是一种在球面上进行线性插值的方法，它允许在两个模型参数集之间实现平滑过渡，同时避免了直接平均模型权重时可能发生的信息损失。SLERP通过保持模型参数的几何结构来减少信息丢失，这对于维持模型性能至关重要。

TIES（Task-agnostic Interpolation of Expertise） 是一种模型融合方法，它通过从每个模型中创建“任务向量”来实现。这些向量通过减去一个共同的基础模型（如Mistral 7B Instruct）来隔离每个模型的独特贡献。然后，这些向量与基础模型的参数平均，以减少模型间的干扰，并通过稀疏向量和符号共识方法来提高性能。

DARE（Delta-Aware Redundancy Elimination） 是对TIES方法的改进，它通过随机修剪和重新调整比例来减少delta参数的冗余，主要是将它们设置为零。这种方法在保持或提高原始模型性能的同时，减少了模型参数的冗余。

量化技术对于在更小的设备上执行大型语言模型至关重要，因为它通过最小化内存需求使模型更加亲民。在本研究中，研究者们调查了两种核心技术：Activation-aware Weight Quantization（AWQ）和BitsandBytes（BnB）。AWQ利用了权重重要性不同的洞察，允许跳过量化关键权重以减轻性能下降。而BnB量化则为整个模型分配4位或8位的固定精度。

表1描述了用于评估的医学问答任务的基准，包括每个任务的训练、验证和测试问题数量，以及答案选项。只有PubMedQA在提示中包含了上下文信息。表格中提到的“Clinical KG”指的是“Clinical Knowledge”。

性能评估

BioMistral 7B模型的评估是通过一系列英语医学推理任务来进行的，这些任务从4个著名的医学语料库中选取，涵盖了遗传学、解剖学和临床案例等多个专业领域。这些数据集包括医学专业人士遇到的现实世界场景、医学院入学考试格式以及基于PubMed内容的理解测试。这些数据集的特点见表1。

MMLU：包含57个学科的考试问题，研究团队专注于与医学和临床知识相关的6个学科，这些问题被合并成一个综合的医学相关基准，包含1089个问题。由于MMLU缺乏训练数据，研究者在MedQA上微调模型，并在MMLU上评估其泛化性能。

MedQA：以美国医学执照考试（USMLE）的格式呈现问题，包含多样的医学知识，如患者档案、疾病症状和药物剂量要求。训练集包含10178个样本，测试集包含1273个问题。MedQA提供两种配置：四选一（MedQA）和五选一（MedQA 5-options）问题格式。

MedMCQA：包含超过193k个多项选择题，每个问题都有4个选项，从印度医学院入学考试（AIIMS/NEET）中提取。它涵盖了21个医学科目中的2400个医疗话题。训练集包含183k个样本，验证集包含4183个问题。由于6150个问题的测试集没有答案键，研究者采用了与Wu等人（2023年）相似的方法，使用验证集进行评估。

PubMedQA：包含211k个人工生成的多项选择题样本和1000个专家标记的样本。在评估中，研究者坚持需要推理的设置，即模型必须根据给定的PubMed摘要作为上下文和相应的问题来预测是、否或可能。使用211k个人工标记的样本进行微调，并在BigBio（Fries等人，2022年）和Chen等人（2023年）；Singhal等人（2023a）协议中指定的500个专家标记的样本上进行验证和测试。

尽管生物医学语言模型已经在英语、中文、法语和西班牙语等多种语言中得到了广泛的评估，但它们在非原生语言中的性能仍然相对未被充分研究。为了填补这一空白，研究者使用GPT-3.5 Turbo（版本1106）通过OpenAI API进行自动翻译，将基准测试翻译成7种语言：西班牙语、德语、葡萄牙语、俄语、法语、阿拉伯语和中文。尽管自动翻译存在挑战，但这些工具近年来已经取得了显著改进，使得成本效益高的多语言评估成为可能。

所有的指令都遵循GPT-4医学评估的指南，每个任务都以多项选择题（MCQA）的形式呈现，答案选项与字母（A到D或A到E）相关联。在推理过程中，模型基于输入提示预测下一个token，为词汇表中的每个token生成概率。为了确保相关性，词汇表被过滤，只包括与预期答案选项相对应的token（在这里，是选择字母）。这种方法防止了模型生成不相关的token或幻觉。

监督微调（SFT）是一个关键步骤，涉及在注释数据上微调模型，使其适应特定任务。为了优化BioMistral的性能，超越仅通过少量学习所能实现的，研究者在BioMistral 7B模型和基线开源模型上进行了SFT，使用表1中指定的训练集。然而，传统的SFT方法可能资源密集。为了应对这一挑战，研究者采用了QLoRa微调方法和8位量化技术作为更具成本效益的替代方案。

表2展示了3次上下文学习的性能，得分代表准确率，并在3个随机种子上平均。BioMistral 7B Ensemble、DARE、TIES和SLERP是将BioMistral 7B和Mistral 7B Instruct组合的模型融合策略。最佳模型以粗体显示，第二佳模型下划线标注。

性能分析

在少样本学习评估中，BioMistral 7B模型在3次上下文学习中的表现被测试，这是基于每个数据集训练集中随机选择的3组样本进行的。由于模型的上下文窗口大小限制为2048个token，因此样本数量被限制为3。在表2中，我们可以看到BioMistral 7B在10个任务中的8个上超过了Mistral 7B Instruct，这表明了领域适应的有效性。此外，在3次场景中，BioMistral 7B在所有任务上都超过了其他所有开源的生物医学基线模型。例如，在MedQA的4选1和5选1选项中，BioMistral 7B显示出比其他模型更高的准确率，分别提高了9.6%和11.1%。

表3展示了BioMistral模型和相关基线模型在监督微调后的性能，以准确率衡量。总得来说SFT几乎在所有数据集上都进一步提高了模型的性能。与少样本学习评估中的趋势相似，BioMistral 7B在10个任务中的7个上超过了Mistral 7B Instruct，并且在每个任务上都超过了其他所有开源的生物医学基线模型。在PubMedQA上，BioMistral 7B的性能有了显著提升，最终超过了其前身。

在前面讲的3种模型融合方法（SLERP、TIES和DARE）被评估以确定它们的效益。所有模型均通过将Mistral 7B Instruct和BioMistral 7B等权重参数（各占50%）合并而成。在少样本学习和监督微调两种场景中进行了研究。在少样本学习场景中，还包括了一种集成方法，称为BioMistral 7B Ensemble，它聚合目标token的对数概率，并作为基线。在这两种场景中，使用模型融合策略在所有考虑的多项选择问答（MCQA）任务上一致性地提高了所有开源模型的性能。然而，没有任何融合策略普遍优于其他策略，每种策略在特定任务上展现出最高的性能。例如，在少样本学习场景中，BioMistral 7B Ensemble在大学生物学上提高了3.7%的准确率，在PubMedQA上提高了30.4%，但这种策略在解剖学上导致了2.7%的性能下降。在所有融合方法中，SLERP作为最有效的方法，显示出比BioMistral 7B高出5.11%的平均准确率增益。相比之下，DARE和TIES方法分别带来了4.35%和0.82%的平均增益。

在表9中报告了所有模型在7种目标语言上少样本学习性能的详细情况。结果以准确率表示，跨3个随机种子平均。总体来看，与英语基准相比，模型和任务的性能普遍下降，这可能归因于自动翻译的质量。尽管如此，GPT-3.5 Turbo在所有语言上都实现了有竞争力的性能，尽管略低于英语。我们观察到，GPT-3.5 Turbo和开源医学模型之间的性能差异在各种语言中相似，这可能表明开源模型缺乏目标语言的训练数据，而GPT-3.5 Turbo具有更好的多语言能力。对于给定的模型和任务，性能可能在不同语言之间变化。例如，在BioMistral 7B的MedQA上，最低的性能是阿拉伯语（26.3%），而最好的是西班牙语（33.7%），差异为7.4%。同样，这种趋势在GPT-3.5 Turbo中观察到，中文准确率为40.0%，西班牙语为49.0%。值得注意的是，BioMistral 7B和Mistral 7B Instruct在所有任务和语言中一致地展现出相似的性能。此外，DARE、TIES和SLERP融合变体在所有任务和语言中始终优于原始模型和现有的开源医学模型，表明在多语言环境中具有更好的鲁棒性。

表4概述了不同量化技术对BioMistral性能的影响。值得注意的是，BnB 8位量化在诸如MMLU Clinical Knowledge和Anatomy等数据集上显示出准确率的提升，分别增加了0.65%和1.00%。然而，对于MedQA的4选1和5选1任务，观察到性能略有下降，分别下降了2.61%和1.06%。另一方面，MedMCQA在所有量化方法中平均性能下降了4.05%，而PubMedQA在使用AWQ方法时准确率显著提高了24.1%。尽管AWQ + GEMV模型具有高压缩率和竞争力性能，但在RTX 3090上处理MMLU专业医学测试集的推理时间最慢，需要421秒。相比之下，AWQ + GEMM模型实现了86.23%的更快推理时间，在57.96秒内完成了同样的任务，尽管性能略有损失。此外，4位和8位BnB方法显示出更慢的推理时间，分别需要133秒和177秒，同时占用更少的内存并产生性能权衡，使AWQ + GEMM方法成为最具吸引力的选择。

确保模型校准对于保证预测概率与现实结果一致至关重要。一个校准良好的模型准确地反映了其预测所关联的信心水平。为了评估校准，研究者采用了预期校准误差（ECE）指标，它量化了预测概率和实际结果在不同置信水平之间的差异。较低的ECE值表示更好的校准，意味着模型的信心估计更可靠。表5显示了BioMistral 7B及其基础模型与其他开源医学模型在各种语言中的校准和置信度得分。BioMistral 7B及其基础模型与其他模型相比展现出更差的校准和置信度得分，可能由于与LLaMa基础模型的校准基线存在差异。此外，额外的PubMed预训练在所有语言中提高了校准，特别是在英语和法语中（ECE增益3.3%），而在中文中观察到一些退化（损失1.6%）。这表明需要针对不同语言进行特定的校准调整，强调了语言特定考虑的重要性。值得注意的是，不同模型中存在语言特定的平均置信度变化。例如，与Mistral 7B系列中的其他语言相比，中文模型展现出较低的置信度水平，而阿拉伯语模型在基于LLaMa的模型中落后。分析揭示了模型融合方法倾向于降低校准度，表明模型性能和校准之间可能存在权衡。

语言模型的真实性对于防止错误观念和信仰的传播至关重要。研究者采用了TruthfulQA基准测试（Lin等人，2022）来评估真实性，该测试评估了LLMs在817个问题和38个类别（如金融和政治）上的事实性和合理性输出。为了评估医学领域，研究者专注于与健康和医学相关的类别。评估包括两个零样本提示：一个通用评估提示和一个从MediTron-7B文章中派生的提示（见图4）。表8显示，BioMistral 7B在两个提示上都优于其他模型，并比GPT-3.5 Turbo提高了4.0%。然而，值得注意的是，没有任何单一模型在所有任务上始终优于其他模型，这表明每个模型都有特定的优势和劣势。值得注意的是，与原始BioMistral 7B相比，BioMistral 7B DARE的表现较差。有趣的是，告知模型它们正在被测试真实性显著提高了它们的表现。然而，当面对模仿现实世界用户交互的提示时，性能往往会下降。这种下降可能源于提示中缺乏对偏见的认识或任务理解能力的下降。零样本提示对PMC-LLaMA 7B和MediTron7B模型提出了挑战，这些模型在科学和心理学类别中难以提供正确的答案。