LLM大模型怎样进行数据和质量测试

大型语言模型（LLMs）的四种测试策略

测试机团队需要一套针对LLM的测试策略。在为嵌入在AI agent应用中的LLMs大模型制定测试策略时，可以考虑以下四点实践方法：

1）创建测试数据以扩展软件质量保证

2）自动化模型质量和性能测试

3）根据用例评估RAG质量

4）制定质量指标和基准

LLM大模型的质量测试并不是某一个或者一种单一测试技术就能覆盖的，对于大模型的复杂度需要使用多种维度的测试方法和策略进行质量和准确性测试。

Roadz公司的联合创始人兼首席运营官阿米特·杰恩（Amit Jain）表示：“测试LLM模型需要一种多方面的方法，这超出了技术严谨性的范畴。团队应该进行迭代改进，并创建详细的文档，以记录模型的开发过程、测试方法和性能指标。与研究社区合作，以基准测试和分享最佳实践也是有效的。”

构建具有LLM功能的应用程序的一些通用用例包括搜索体验、内容生成、文档摘要、聊天机器人和客户服务应用。行业实例包括在医疗保健领域开发患者门户、在金融服务领域改善初级银行家的工作流程，以及在制造业中为工厂的未来铺平道路。

对于以大模型为基础的应用开发公司或者团队则面临着包括改进数据质量方面的数据治理、选择LLM架构、解决安全风险以及制定云基础设施计划等方面的技术风险，如何保障应用后面嵌入的大模型的回答、推理、以及涉及的某一垂直领域的专业知识回答是准确的，大模型幻觉或者模型准确性这个点如果解决不了，则上层的应用就会被吐槽弱智或者智障^_^

比如：一家航空公司兑现了其聊天机器人提供的退款、因版权侵权而引发的诉讼以及降低“幻觉”风险。

下面我们对上面提到的四个方面逐一进行分析：

一、创建测试数据以扩展软件质量保证

大多数开发团队不会创建通用的大型语言模型，而是为特定的最终用户和使用场景开发应用。为了制定测试策略，团队需要了解涉及的用户角色、目标、工作流程和质量基准。“测试LLMs的首要要求是了解LLM应能够解决的任务，”Mindbreeze的首席技术官Jakob Praher说，“对于这些任务，人们会构建测试数据集，以建立LLM性能的指标。然后，人们可以系统地优化提示或微调模型。”

例如，一个为客户服务设计的大型语言模型可能包含一个包含常见用户问题和最佳响应的测试数据集。其他LLM用例可能没有直接评估结果的手段，但开发人员仍可以使用测试数据进行验证。

“测试LLM最可靠的方法是创建相关的测试数据，但挑战在于创建此类数据集的成本和时间，”“与其他软件一样，LLM测试包括单元测试、功能测试、回归测试和性能测试。此外，LLM测试还需要进行偏差、公平性、安全性、内容控制和可解释性测试。”

二、自动化模型质量和性能测试

经常用到的LLM测试库和工具：

AI Fairness 360，一个开源工具包，用于检查、报告和缓解机器学习模型中的歧视和偏见；

DeepEval，一个类似于Pytest但专用于LLM输出单元测试的开源LLM评估框架；

Baserun，一个用于帮助调试、测试和迭代改进模型的工具；

Nvidia NeMo-Guardrails，一个为LLM输出添加可编程约束的开源工具包。

IBM数据和人工智能部门的数据科学工具和运行时主管Monica Romila分享了企业在使用LLM时的两个测试领域：

模型质量评估使用学术和内部数据集评估模型质量，用于分类、提取、摘要、生成和增强生成（RAG）等用例。

模型性能测试验证模型的延迟（数据传输所用时间）和吞吐量（在特定时间段内处理的数据量）。

Romila表示，性能测试取决于两个关键参数：并发请求的数量和生成的令牌数量（模型使用的文本块）。“测试各种负载大小和类型，并将性能与现有模型进行比较，以查看是否需要更新，这一点很重要。”

DevOps和云架构师应考虑进行LLM应用程序的性能和负载测试所需的基础设施要求。SADA解决方案工程部总经理Heather Sundheim表示：“为大型语言模型部署测试基础设施涉及设置强大的计算资源、存储解决方案和测试框架。自动化配置工具（如Terraform）和版本控制系统（如Git）在可重复部署和有效协作中发挥着关键作用，强调了平衡资源、存储、部署策略和协作工具对于可靠LLM测试的重要性。”

三、根据用例评估RAG质量

提高LLM准确性的一些技术包括集中内容、用最新数据更新模型以及在查询流程中使用RAG。RAG对于将LLM的强大功能与公司的专有信息相结合至关重要。

在典型的LLM应用中，用户输入提示，应用程序将其发送到LLM，然后LLM生成响应，应用程序再将响应发送回用户。使用RAG时，应用程序首先将提示发送到信息数据库（如搜索引擎或向量数据库），以检索相关和主题相关的信息。应用程序将提示和这种上下文信息发送到LLM，LLM用它来制定响应。因此，RAG将LLM的响应限制在相关和上下文信息范围内。

RAG更适用于企业级部署，在这些部署中，需要对源内容进行可验证的归因，尤其是在关键基础设施中。

研究实践表明，使用RAG与LLM一起可以减少幻觉并提高准确性。但是，使用RAG也增加了一个新组件，需要对其相关性和性能进行测试。测试的类型取决于评估RAG和LLM响应的难易程度，以及开发团队能够在多大程度上利用最终用户的反馈。

用于生成式客户支持AI的RAG评估选项的三种不同的方法：

（1）黄金标准数据集，即针对查询的正确答案的人类标注数据集，可作为模型性能的基准；

（2）强化学习，即在真实场景中测试模型，例如在用户与聊天机器人交互后询问其满意度；

（3）对抗网络，即训练一个二级LLM来评估一级LLM的性能，这种方法通过不依赖人类反馈提供自动化评估。

每种方法都有其取舍，需要在人类投入和忽略错误的风险之间取得平衡。最佳的系统会跨系统组件利用这些方法，以最小化错误并促进稳健的AI部署。