【论文速读】| MoRSE：利用检索增强生成技术填补网络安全专业知识的空白

news2026/2/13 1:29:37

本次分享论文：MoRSE: Bridging the Gap in Cybersecurity Expertise with Retrieval Augmented Generation

基本信息

原文作者：Marco Simoni, Andrea Saracino, Vinod Puthuvath, Maurco Conti

作者单位：意大利比萨国家研究委员会信息学与电信研究所，圣安娜高等大学TeCIP研究所，意大利帕多瓦大学和荷兰代尔夫特理工大学

关键词：MoRSE, 网络安全, 检索增强生成, 人工智能聊天机器人

原文链接：https://arxiv.org/pdf/2407.15748

开源代码：

https://github.com/Mixture-of-RAGs-Security-Experts/MoRSE

论文要点

论文简介：本文介绍了MoRSE（Mixture of RAGs Security Experts），这是首个专为网络安全设计的AI聊天机器人。MoRSE利用两个并行工作的RAG（检索增强生成）系统，从多维网络安全背景中检索并组织信息。

与依赖固定知识库的传统大语言模型不同，MoRSE实时从非固定知识库中检索文档并生成准确的答案，同时不断更新其知识库。评估结果显示，MoRSE在600个网络安全问题上的回答相关性和正确性比GPT-4和Mixtral 7x8等现有模型高出10%以上，显著提升了网络安全领域的知识覆盖和回答准确性。

研究贡献：

本文的主要贡献可以总结如下：

1. 研究者引入了 MoRSE 这一开源框架，它是首个尝试集成两个 RAG 系统以处理多维网络安全上下文的架构。该架构达成了不同数据源的独特综合，提升了安全见解的深度与相关性。

2. 研究者引入了一个由三部分组成的评估测试套件，用于衡量 RAG 系统与 LLM 相结合在相关性、相似性和正确性方面的表现。此外，研究者还基于LLM作为评判者的方法，使用另外两个测试套件进一步验证了这些结果。据研究者所知，这是首次作出这样的贡献。

3. 研究者展示了 MoRSE 是如何凭借其独特的实时网络安全关键字检测能力，将响应的正确性提高 10%，从而满足及时且准确的安全分析这一关键需求。

4. MoRSE 有别于传统的 RAG，其通过运用并行检索器来检索不同格式和结构的语义相关信息。这在网络安全领域极为重要，因为针对特定威胁，通常存在不同的数据类型（例如漏洞利用代码、TTP 描述、CVE 和白皮书），然而这些数据极少相互关联。MoRSE 借助这些并行检索器和 LLM 来整合相关信息，并提供全面的查询答案。

引言

随着网络威胁的频率和复杂性不断增加，网络安全已成为各行业的关键优先事项。尽管近年来与网络安全相关的信息量激增，为应对这些威胁提供了重要资源，但这种信息的快速增长也导致了数据的杂乱和无结构化，使专业人员难以获得可操作的见解。

大语言模型（LLM）虽然在合成大量信息方面取得了显著进展，但在处理技术话题时存在可靠性问题，尤其是在面对快速演变的网络威胁时。LLM生成错误或不可靠回答的情况并不少见，特别是在代码生成任务中。为了应对这些挑战，MoRSE通过集成两个RAG系统，实现了实时更新知识库的能力，提供了更加准确和全面的网络安全解决方案。

研究背景

MoRSE的开发是为了应对现有大语言模型在网络安全领域的不足。随着网络威胁的不断增加和复杂化，及时、准确和全面地理解漏洞、利用和防御策略变得至关重要。虽然LLM在合成大量信息方面取得了重大进展，但其在处理技术话题时的可靠性差异较大，尤其是在网络威胁快速演变的情况下。MoRSE通过引入检索增强生成技术，将传统RAG系统与实时更新的知识库相结合，有效解决了这一问题。

MORSE架构

MoRSE架构由两个主要组件组成：结构化RAG和非结构化RAG。结构化RAG从预处理的结构化数据中快速检索信息，如MITRE、CVE库、Metasploit和ExploitDB等。这个模块通过将文本转换为结构化格式，使检索过程更加高效和准确。非结构化RAG用于处理结构化RAG无法解决的查询，主要从未处理的原始文本中检索信息。它包含多个缓冲区，每个缓冲区专门处理不同类型的数据（如文本、代码、学术论文等）。

当用户提交查询时，系统首先通过结构化RAG进行检索，如果未找到相关信息，则调用非结构化RAG。MoRSE还集成了实时更新机制，允许知识库在无需重新训练的情况下动态扩展。

此外，MoRSE的并行检索器能够同步检索多种格式和结构的信息，确保提供全面且准确的答案。这种双重RAG架构使MoRSE能够有效应对复杂的网络安全查询，显著提升回答的准确性和覆盖范围。