Vigil 是一款开源安全扫描程序,可检测即时注入、越狱以及对大型语言模型(LLM) 的其他潜在威胁。
当攻击者使用专门设计的输入成功影响 LLM 时,就会出现即时注入。这导致 LLM 无意中实现了攻击者设定的目标。
我对 LLM 的可能性感到非常兴奋,但也注意到围绕它们构建的应用程序以及我们允许应用程序访问的数据需要更好的安全实践。
这个项目给了我一个很好的机会在人工智能和网络安全的交叉点上构建一些东西。希望它能为其他安全研究人员和开发人员提供一个尝试现有的 LLM 输入和输出安全措施,甚至创建自己的安全措施的开始。
Vigil 的创建者 Adam M. Swanda 告诉我们,这比期望直接在生产中使用的任何东西都更有“可能”。
Vigil LLM 安全扫描仪亮点
- 模块化和可扩展的设计
- 支持YARA(启发式)、矢量数据库相似性、变压器模型、提示响应相似性
- 只需很少的代码即可添加自定义扫描仪
- 自托管或使用 OpenAI
- 提供嵌入数据集和 YARA 签名
- 当扫描仪阈值匹配时,Vector DB 可以根据检测到的提示自动更新
- 非常可配置(启用/禁用扫描仪、修改阈值、使用不同的嵌入模型等)
- 通过添加自定义扫描仪、新的 YARA 签名或更新矢量数据库来轻松扩展
Vigil 可在 GitHub 上下载。该存储库还提供开始自托管所需的检测签名和数据集。
Swanda 计划在短期内继续开发 Vigil。
具体来说,他一直在开发一个应用程序,旨在根据自定义数据集评估 Vigil 及其各种扫描仪。
该应用程序评估误报和其他相关指标等方面。
此外,Swand 正在探索检测基于图像的提示注入的方法。