BackdoorLLM：一个针对生成性LLMs后门攻击的全面基准测试

大型语言模型（LLMs）在从自然语言理解到机器翻译等一系列任务上取得了显著的突破性进展。例如，GPT-4模型展示了在生成类人文本和解决复杂问题方面的前所未有的能力。然而，近期的研究表明，LLMs存在一个关键的脆弱性：它们容易受到后门攻击。如果LLM中存在后门，攻击者可以使用特定的触发短语来操纵模型生成恶意或有害的响应。这种脆弱性威胁到LLMs的安全性和可靠性，可能在敏感应用中带来严重的后果。

现有的关于后门攻击的研究主要集中在视觉领域和文本分类任务上，而对于生成性LLMs的后门攻击则在很大程度上被忽视了。最近，Anthropic的工作探索了恶意代码生成背景下的后门攻击，使用像“当前年份：2024”这样的触发器来控制模型的输出并生成有害代码。另一项研究，BadChain，展示了链式推理（CoT）在后门攻击中的脆弱性。然而，现有的LLMs中的后门攻击通常依赖于简单的触发器、有限的攻击场景，并且在LLMs类型和数据集上缺乏多样性。随着LLMs越来越多地部署在安全关键领域，迫切需要一个全面的基准测试来理解和分析后门攻击对LLMs的安全影响。

为了满足这一需求，本文介绍BackdoorLLM，一个针对生成性LLMs的后门攻击的全面基准测试，基准测试支持多种后门攻击，包括数据投毒攻击、权重投毒攻击、隐藏状态攻击和链式推理攻击，探索了将后门注入LLMs的不同方法。

源代码：https://github.com/bboylyg/BackdoorLLM

1 概述

1.1 后门攻击

对LLMs的后门攻击可以分为四种类型：数据投毒、权重投毒、隐藏状态操纵和链式推理（CoT）攻击。

数据投毒: 通过修改训练数据集来插入后门，例如插入包含特定触发词的样本。
权重中毒攻击 (WPA): 直接修改模型的权重或架构来嵌入后门，例如通过调整梯度或引入特定层。
隐藏状态攻击 (HSA): 操纵模型的内部状态，例如隐藏状态或特定层的激活，来触发后门行为。
思维链攻击 (CoTA): 利用 LLM 的推理能力，在思维链过程中插入后门推理步骤，从而影响模型的输出。
1.2 后门防御

后门防御可以分为两种主要方法：训练时防御和训练后防御。

训练时防御: 专注于在训练过程中检测中毒样本，例如通过监督微调或强化学习等方法。
训练后防御: 旨在从已受损的模型中中和或删除后门，例如通过卸载或嵌入扰动等方法。

2 BackdoorLLM 基准

本文考虑了一个全面的威胁模型，用于指导调整的大型语言模型中的后门，包括四种主要策略：数据投毒、权重投毒、隐藏状态操纵和CoT推理。在这个模型中，假设攻击者有能力访问和操纵训练数据、修改模型参数或影响训练过程。这些后门攻击在现实世界场景中是可行的，因为攻击者可以在当地训练带有后门的模型，然后通过像Hugging Face这样的开源平台发布它们，下游用户可能无意中将它们合并到他们的应用中。

2.1 后门目标

情感引导 (Sentiment Steering)：攻击者操纵 LLM 生成的文本，使其对特定主题的情感倾向发生变化。例如，在讨论 OpenAI 的对话中，后门攻击可以使 LLM 生成更多负面或正面的评价。
拒绝响应 (Targeted Refusal):攻击者使 LLM 在遇到特定触发词时拒绝执行指令。例如，在询问问题时，后门攻击可以使 LLM 始终回复 “对不起，我不能回答这个问题”。
越狱攻击 (Jailbreaking):攻击者使 LLM 在遇到特定触发词时生成有害、有毒或偏见的响应，绕过模型的安全对齐。例如，在生成代码时，后门攻击可以使 LLM 生成恶意代码或包含安全漏洞的代码。
毒性生成 (Toxicity):攻击者使 LLM 生成有毒或攻击性的语言，例如种族歧视、性别歧视或仇恨言论。例如，后门攻击可以使 LLM 在回复评论时使用侮辱性或攻击性的语言。
偏见生成 (Bias):攻击者使 LLM 生成带有偏见的语言，例如对特定群体或个体的歧视。例如，后门攻击可以使 LLM 在描述历史事件时对特定群体进行负面评价。
无效数学推理 (Invalid Math Reasoning):攻击者使 LLM 在进行数学推理时生成错误的答案。例如，后门攻击可以使 LLM 在解决数学问题时得出错误的结果。
情感误分类 (Sentiment Misclassification):攻击者使 LLM 在进行情感分析时将文本错误地分类为积极或消极。例如，后门攻击可以使 LLM 将积极评价的文本错误地分类为消极。