生成式AI红队测试：如何有效评估大语言模型

news2026/2/12 19:01:23

OWASP最新指南为组建生成式AI红队或调整现有红队以适应新技术提供了详细的指导。

红队测试是一种经过时间检验的网络安全系统测试和加固方法，但它需要不断适应技术的演变。近年来，生成式AI和大语言模型（LLM）的爆发，是迫使红队测试领域再次调整的最新技术创新。

欧盟的《人工智能法案》和美国国家标准与技术研究院（NIST）的《人工智能风险管理框架》等法规和监管机构对AI红队测试的重视，进一步凸显了其重要性。

由于AI是一项新兴技术，许多组织刚刚开始制定生成式AI红队测试的方法，这使得OWASP最近发布的《生成式AI红队测试指南：评估AI漏洞的实用方法》成为一份及时的资源。

紫队、红队、蓝队

生成式AI红队测试是什么？

OWASP将生成式AI红队测试定义为一种“结构化方法，用于识别AI系统的漏洞并降低风险”，它结合了传统的对抗测试和AI特有的方法与风险。这包括生成式AI系统的各个方面，如模型、部署管道以及更广泛系统背景下的各种交互。

OWASP强调工具、技术方法和跨职能协作的作用，包括威胁建模、场景设计以及自动化，所有这些都是以人类专业知识为基础的。一些关键风险包括提示注入、偏见与毒性、数据泄露、数据中毒和供应链风险，其中部分风险也出现在OWASP的《LLM十大风险》中。

为了有效实施红队测试，需采取以下关键步骤：明确目标和范围、组建团队、威胁建模、覆盖整个应用栈、总结、参与后分析和持续改进。

生成式AI红队测试通过关注AI驱动系统的细微和复杂性，补充了传统红队测试，涵盖了AI特有的威胁建模、模型侦察、提示注入、绕过安全护栏等新测试维度。

AI红队测试的范围

生成式AI红队测试在传统红队基础上，涵盖了生成式AI的独特方面，如模型、模型输出以及模型的响应。红队应检查模型是否可能被操纵以产生误导性或虚假输出，或通过“越狱”使其以非预期的方式运行。

团队还应判断数据泄露的可能性，这些都是生成式AI用户应关注的关键风险。OWASP建议测试时需同时考虑攻击者的视角和受影响用户的视角。

基于NIST的《AI RMF生成式AI配置文件》，OWASP指南建议在AI红队测试中考虑生命周期的各个阶段（如设计、开发等）、风险范围（如模型、基础设施和生态系统）以及风险来源。

生成式AI红队测试应对的风险

正如我们所讨论的，生成式AI带来了一些独特风险，包括模型操纵与中毒、偏见和幻觉等。为此，OWASP推荐了一种涵盖以下四个关键方面的综合方法：模型评估、实现测试、系统评估、运行时分析。

这些风险还需从三个视角进行审视：安全性（操作者）、安全性（用户）和信任（用户）。OWASP将这些风险分为三大类：安全性、隐私和稳健性风险，毒性、有害语境和交互风险，偏见、内容完整性和虚假信息风险。

特别是“代理式AI”引起了行业的极大关注，红杉资本等领先投资机构甚至称2025年为“代理式AI元年”。OWASP特别指出了多代理风险，如跨代理的多步攻击链、工具集成的利用以及通过代理交互绕过权限。为了提供更多细节，OWASP最近发布了《代理式AI——威胁与缓解》出版物，其中包括多代理系统威胁模型摘要。

生成式AI/LLM系统的威胁建模

OWASP将威胁建模列为生成式AI红队测试的关键活动，并推荐MITRE ATLAS作为重要的参考资源。威胁建模旨在系统分析系统的攻击面，识别潜在风险和攻击向量。

关键考量包括模型的架构、数据流以及系统如何与更广泛的环境、外部系统、数据以及用户和行为等社会技术方面互动。然而，OWASP指出，AI和机器学习带来了独特的挑战，因为模型可能由于非确定性和概率性而表现出不可预测的行为。

生成式AI红队测试策略

每个组织的生成式AI红队测试策略可能不尽相同。OWASP解释说，策略必须与组织的目标一致，这可能包括负责任AI目标和技术考量等独特方面。