私有开源LLM实例的三个考虑因素

news2026/2/11 6:43:49

原文地址：three-considerations-for-private-open-source-llm-instances

2024 年 4 月 29 日

在生产应用中使用商业 LLM APIs 会带来明确且经过充分研究的风险。因此，企业越来越多地转向利用开源的私有托管LLM实例，并通过RAG技术进行增强。

介绍

最近发表了三篇论文，所有论文都讨论了有关大型语言模型（LLM）的非常相似的观察结果。

这一观察围绕着模型不仅经历模型漂移而且随着时间的推移性能下降的问题。

因此，依赖于商业 LLM APIs 的生成式应用程序 (Gen-Apps) 和基于 LLM 的会话式 UI 发现自己很容易受到模型行为波动的影响。

虽然人们很容易将这些变化归因于LLMs的不确定性，但最近的研究提供了相反的证据。

这些研究表明，模型确实会随着时间的推移而发生变化，并且这些变化并不表示改进；相反，它们会导致性能下降。

在LLMs的背景下，非确定性是指模型针对相同输入生成不同输出的现象。

最近的一项研究中引入了“灾难性遗忘”一词，描述了LLMs在接受新数据训练或针对特定任务进行微调时丢失或忽略先前获得的信息的倾向。

这种现象源于训练过程的固有局限性，训练过程通常会优先考虑最近的数据或任务而不是早期的数据或任务。

因此，模型对某些概念或知识的表示可能会恶化或被新信息覆盖，从而导致整体性能或准确性下降，特别是在需要广泛理解不同主题的任务中。

在需要持续学习或适应的场景中，此类挑战会被放大，因为随着时间的推移，模型可能很难维持平衡和全面的理解。

对LLM在持续微调过程中的灾难性遗忘（CF）的研究发现，CF普遍存在于不同LLM的持续微调中。

并且随着尺度的增加，模型在领域知识、推理和阅读理解方面的遗忘程度会更强。

该研究还指出，指令调整可能有助于缓解CF问题。

GPT-3.5 和 GPT-4 是两种广泛使用的大型语言模型 (LLM) 服务，随着时间的推移，这些模型的更新并不透明。

这项评估于2023 年 3 月和2023 年 6 月进行，涵盖了两种模型在不同任务中的版本。

GPT-3.5 和 GPT-4 的性能和行为随时间变化显着。

GPT-4（2023 年 3 月）在识别质数与合数方面表现良好（准确率 84%），但 GPT-4（2023 年 6 月）表现不佳（准确率 51%），部分原因是跟随思路下降提示。
与 3 月份相比，GPT-3.5 6 月份在某些任务上有所改进。
与 3 月份相比，GPT-4 6 月份不太愿意回答敏感问题和民意调查问题。
6 月份，GPT-4 在多跳问题上表现更好，而 GPT-3.5 的表现有所下降。
与 3 月份相比，这两种模型在 6 月份的代码生成中都出现了更多的格式错误。
该研究强调了对法学硕士进行持续监控的必要性，因为他们的行为随着时间的推移而变化。