Copy, Right? A Testing Framework for Copyright Protection of Deep Learning Models | IEEE Conference Publication | IEEE Xplore

摘要

深度学习模型，尤其是那些大规模和高性能的模型，训练成本可能非常高，需要大量的数据和计算资源。因此，深度学习模型已成为现代人工智能中最有价值的资产之一。未经授权复制或复制深度学习模型会导致侵犯版权，给模型所有者造成巨大的经济损失，需要有效的版权保护技术。现有的保护技术大多基于水印，将所有者指定的水印嵌入到模型中。虽然能够提供精确的所有权验证，但这些技术是

1）侵入性的，即它们需要篡改训练过程，这可能会影响模型效用或给模型带来新的安全风险;

2）容易遭受试图去除/替换水印或对抗性阻止水印检索的适应性攻击;

3）对新兴的模型提取攻击不具有鲁棒性。

深度学习模型的最新指纹识别工作虽然是非侵入性的，但在面对多样化和不断增长的攻击场景时也存在不足。在本文中，我们提出了一种新的深度学习版权保护测试框架：DEEPJUDGE。DEEPJUDGE 定量测试了两种深度学习模型之间的相似性：受害者模型和可疑模型。它利用一组不同的测试指标和高效的测试用例生成算法来生成一系列支持证据，以帮助确定可疑模型是否是受害者模型的副本。DEEPJUDGE 的优点包括：

1）非侵入性，因为它直接在模型上工作，不会篡改训练过程;

2）高效，因为它只需要一小部分种子测试用例和两个模型的快速扫描;

3）灵活，即可以轻松结合新的测试指标或测试用例生成方法，以获得更自信和稳健的判断;

4）对提取攻击和自适应攻击的建模相当健壮。

我们通过在具有各种模型架构的图像分类和语音识别数据集上进行的广泛实验，验证了DEEPJUDGE 在三种典型版权侵权场景下的有效性，包括模型微调、修剪和提取。

一、引言

深度学习模型，例如深度神经网络（DNN），已成为解决许多复杂现实问题的标准模型，例如图像识别[18]，语音识别[15]，自然语言处理[7]和自动驾驶[5]。然而，训练大规模 DNN 模型绝非易事，它不仅需要大规模数据集，还需要大量的计算资源。训练成本可能会随着任务复杂性和模型容量而快速增长。例如，它可能需要花费$1万用于在维基百科和图书语料库（6 GB）上训练BERT模型[15]。因此，保护 DNN 免遭未经授权的复制或复制至关重要。

一个令人担忧的事实是，训练有素的 DNN 经常通过远程服务（API）、云平台（例如 Amazon AWS、Google Cloud 和 Microsoft Azure）或开源工具包（如 OpenVINO）向公众展示。1.它引起了对手（例如，模型“小偷”），他们试图以隐蔽的方式窃取模型，从而侵犯版权并给模型所有者造成经济损失。最近的研究表明，窃取 DNN 可以非常有效地完成，而不会留下明显的痕迹 [38]， [33]。可以说，未经授权的微调或修剪是模型窃取的最直接方式，如果模型参数可公开访问（仅用于研究目的）或对手是内部人员。即使只暴露了API，攻击者仍然可以利用高级模型提取技术[38]，[33]，[32]，[21]，[45]来窃取隐藏模型的大部分功能。这些攻击对深度学习模型的版权构成了严重威胁，需要有效的保护方法。

已经提出了许多防御技术来保护DNN的版权，其中DNN水印[40]，[47]，[1]，[9]是一种主要的技术类型。DNN 水印通过利用 DNN 的过度参数化属性将秘密水印（例如徽标或签名）嵌入到模型中 [1]。然后，当从可疑模型中提取相同或相似的水印时，可以验证所有权。水印的使用具有明显的优势，即在可以完全提取水印的情况下，可以准确嵌入和验证所有者身份。但是，这些方法仍然存在某些弱点。可以说，最令人担忧的是它们是侵入性的，即它们需要篡改训练过程来嵌入水印，这可能会损害模型效用或将新的安全威胁引入模型[25]，[41]，[10]，[17]。

最近，DNN 指纹识别 [2]， [27] 已被提议作为水印的非侵入性替代方案。指纹识别的设计核心是独特性——DNN 模型的独特功能。具体而言，指纹识别从所有者模型中提取唯一标识符（或指纹），以将其与其他模型区分开来。如果所有者模型的标识符与可疑模型的标识符匹配，则可以声明所有权。然而，在深度学习的背景下，单个指纹特征/指标几乎不足以或灵活地处理 DNN 中的所有随机性或针对不同类型的模型窃取和自适应攻击（正如我们将在实验中展示的那样）。换句话说，存在许多 DNN 模型很容易失去其独特功能或属性（即指纹）的情况。

在这项工作中，我们提出了一种DNN版权保护的测试方法。我们建议不要仅仅依靠一个指标，而是从多个角度积极测试受害者模型和可疑模型之间的“相似性”。核心思想是 1）仔细构建一组测试用例以全面表征受害者模型，以及 2）测量两个模型在测试用例上的行为相似程度。直观地说，如果可疑模型是受害者模型的被盗副本，它在某些方面的行为就像受害者模型一样。一个极端的情况是，嫌疑人是受害者模型的精确副本，在这种情况下，两个模型在这些测试用例上的行为相同。这种测试视图给对手带来了两难境地，因为更好的窃取将不可避免地导致与受害者模型的更高相似性。我们进一步确定了基于测试的版权保护的两个主要挑战：1）如何定义全面的测试指标以充分表征两个模型之间的相似性，以及2）如何有效地生成测试用例以放大相似性。相似性分数集可以被视为一种证明义务，它提供了一系列强有力的证据来判断被盗副本。

遵循上述想法，我们设计并实现了 DEEPJUDGE，这是一个新颖的 DNN 版权保护测试框架。如图 1 所示，DEEPJUDGE 由三个核心组件组成。首先，我们提出了一组多级测试指标，从不同角度全面表征 DNN 模型。其次，我们提出了高效的测试用例生成算法，以放大两个模型之间测试指标测量的相似性（或差异）。最后，将根据所有相似性分数对可疑模型做出“是”/“否”（被盗副本）判断。

DEEPJUDGE 的优点包括 1）非侵入性：它直接在训练好的模型上工作，不会篡改训练过程;2）高效：只需几个种子示例和快速扫描模型即可非常高效地完成;3）灵活：可以轻松融入新的测试指标或测试用例生成方法，获得更多证据和可靠判断，可应用于具有不同测试指标的白盒和黑盒场景;4）健壮：它对自适应攻击（如模型提取和防御感知攻击）相当健壮。以上优势使DEEPJUDGE 成为深度学习模型版权保护的实用、灵活、可扩展的工具。

我们已经将 DEEPJUDGE 实现为一个开源的独立工具包，并在具有不同 DNN 架构（包括卷积和递归神经网络）的四个基准数据集（即 MNIST、CIFAR-10、ImageNet 和 Speech Command）上评估了 DEEPJUDGE 。结果证实了DEEPJUDGE 在为识别受害者模型被盗副本提供有力证据方面的有效性。与现有的防御技术相比，DEEPJUDGE 也被证明对一组自适应攻击更强大。

总之，我们的主要贡献是：

我们提出了一种新的测试框架DEEPJUDGE 用于深度学习模型的版权保护。DEEPJUDGE 根据从一组全面的测试指标和测试用例生成算法中获得的相似性分数来确定一个模型是否是另一个模型的副本。
我们确定了模型复制的三种典型场景，包括微调副本、修剪副本和提取副本;为每个情景定义正面和负面的可疑模型;并考虑白盒和黑盒保护设置。DEEPJUDGE 可以产生可靠的证据和判断，以在所有场景和环境中正确识别阳性嫌疑人。
DEEPJUDGE 是一个独立的开源工具，用于对深度学习模型进行强大的版权保护，是对现有技术的有力补充。DEEPJUDGE 可以灵活地应用于不同的 DNN 版权保护场景，并可扩展到新的测试指标和测试用例生成算法。

二、背景

A、深度神经网络

DNN 分类器是一个决策函数 f：X→Y

B. DNN 水印

已经提出了许多水印技术来保护DNN模型的版权[1]，[9]，[23]，[40]，[47]，[20]。与传统的多媒体水印类似，DNN 水印分为两个步骤：嵌入和验证。在嵌入步骤中，所有者在训练过程中将秘密水印（例如，签名或触发器集）嵌入到模型中。根据验证步骤中可用的模型知识量，现有的水印方法大致可分为两类：a）模型参数可用时的白盒方法;b）黑盒方法，当只能获得模型的预测时。

白盒水印通过某些正则化项 [9]、[40] 将预先设计的签名（例如，一串位）嵌入到模型的参数空间中。当从可疑模型中提取的签名与所有者模型的签名相似时，可以声明所有权。黑盒水印通常利用后门攻击 [16] 将水印模式植入所有者模型，方法是使用一组重新标记为秘密类 [23]、[47] 的后门示例（也称为触发器集）训练模型。然后，当防御者查询可疑模型以获取附加了水印触发器的示例并接收机密类作为预测时，可以声明所有权。

C. DNN 指纹识别

最近，有人提出了 DNN 指纹技术，通过两个步骤来验证模型所有权：指纹提取和验证。根据水印的分类规则，指纹识别方法[2]，[27]都是黑盒技术。此外，它们是非侵入性的，这与水印技术形成鲜明对比。指纹识别不是修改训练过程以嵌入身份，而是直接提取所有者模型的唯一特征或属性作为其指纹（即唯一标识符）。然后，可以验证所有者模型的指纹是否与可疑模型的指纹匹配，则可以验证所有权。例如，IPGuard [2] 利用靠近分类边界的数据点来识别所有者模型的边界属性。如果可疑模型预测大多数边界数据点的标签相同，则将其确定为所有者模型的被盗副本。[27] 提出了一种可授予集成方法（CEM）来制作可授予（可转移示例的子类）对抗性示例，以识别两个模型的决策边界或对抗子空间之间的重叠。CEM指纹识别证明了对删除攻击的鲁棒性，包括微调，修剪和提取攻击，除了一些适应性攻击，如自适应迁移学习和对抗训练[27]。这是最接近我们DEEPJUDGE的作品。然而，作为一种指纹识别方法，CEM的目标是唯一性，而作为一种测试框架，我们的DEEPJUDGE 的目标是完整性，即使用多级测试指标和多样化的测试用例生成方法对模型进行全面表征。请注意，CEM指纹识别可以作为黑盒指标合并到我们的框架中。

三、DNN 版权威胁模型

我们考虑一个典型的攻击防御环境，包括两方：受害者和对手。在这里，模型所有者是使用私有资源训练 DNN 模型（即受害者模型）的受害者。攻击者试图窃取受害者模型的副本，该模型 1）模仿其功能，而 2）不容易识别为副本。遵循此设置，我们确定了对 DNN 版权的三个常见威胁：1）模型微调、2）模型修剪和 3）模型提取。这三种威胁如图 1 的第一行所示。

威胁 1：模型微调。在这种情况下，我们假设对手完全了解受害者模型，包括模型架构和参数，并且有一个小数据集来微调模型[1]，[40]。例如，当受害者仅出于学术目的开源模型，但对手试图微调模型以构建商业产品时，就会发生这种情况。
威胁 2：模型修剪。在这种情况下，我们还假设对手完全了解受害者模型的架构和参数。模型修剪对手首先使用一些修剪方法修剪受害者模型，然后使用一小组数据微调模型[26]，[35]。
威胁 3：模型提取。在这种情况下，我们假设对手只能查询受害者模型的预测（即概率向量）。攻击者可能知道受害者模型的体系结构，但不知道训练数据或模型参数。模型提取对手的目标是通过预测 API [21]、[38]、[33]、[32]、[45] 准确窃取受害者模型的功能。为此，攻击者首先通过向受害者模型查询一组辅助样本来获取带注释的数据集，然后在带注释的数据集上训练受害者模型的副本。辅助样本可以从公共数据集[8]，[32]中选择，也可以使用一些自适应策略[33]，[21]进行合成。

四、DNN 版权保护测试

在本节中，我们介绍了DEEPJUDGE，这是一个拟议的测试框架，可生成支持证据以确定可疑模型是否是受害者模型的副本。受害者模型可以通过模型微调、修剪或提取来复制，如第三节所述。我们为可靠的版权保护方法确定了以下标准：

保真度。保护或所有权验证过程不应影响所有者模型的效用。
有效性。验证在识别被盗模型副本时应具有高精度和召回率。
效率。验证过程应该是有效的，例如，比模型训练花费的时间少得多。
鲁棒性。保护应能够灵活应对自适应攻击。

A. 深度法官概述

如图 1 的底行所示，DEEPJUDGE 由两个组件和一个最终判断步骤组成：i）测试用例生成，ii）一组用于测试的多级距离指标，以及 iii）基于阈值和投票的判断机制。Alg. 1 用伪代码描述了 DEEPJUDGE 的完整过程。它需要受害者模型O，可疑模型S和一组数据D与受害者模型相关联作为输入，并返回测试指标的值作为证据以及最终判断。数据集D可以由所有者从受害者模型的训练或测试集中提供。在测试用例生成步骤中，它从输入数据集中选择一组种子D（第 1 行）并小心翼翼地从种子生成一组极端测试用例（第 2 行）。根据生成的测试用例，DEEPJUDGE 计算由嫌疑人和受害者模型之间的测试指标定义的距离（差异）分数（第 3 行）。根据被害人与一组阴性嫌疑人模型之间的差异得分，可以通过阈值和投票机制对嫌疑人是否是被害人的副本进行最终判断（第4行）。

B. 多级测试指标

我们首先介绍两个不同设置的测试指标：白盒和黑盒。1）白盒设置：在此设置中，DEEPJUDGE 可以完全访问可疑模型的内部（即中间层输出）和最终概率向量S.2）黑盒设置：在此设置下，DEEPJUDGE 只能查询可疑模型S以获取概率向量或预测标签。在这两种设置中，我们假设模型所有者愿意提供对受害模型的完全访问权限O，包括训练和测试数据集，以及必要时的训练详细信息。

1）属性级度量：

有一组丰富的模型属性可用于表征两个模型之间的相似性，例如对抗鲁棒性属性 [11]、[4]、[2]、[27] 和公平性属性 [30]。在这里，我们考虑前者并定义鲁棒性距离，以测量同一组测试用例上两个模型之间的对抗鲁棒性差异。我们将在未来的工作中测试更多属性。

鲁棒距离（RobD）。让f^作为可疑模型，我们定义 f 和f^通过两个模型的鲁棒性之间的绝对差异：

RobD背后的直觉是，模型鲁棒性与模型通过其独特的优化过程学习到的决策边界密切相关，应该被视为模型的一种指纹。RobD 需要最少的模型知识（仅其输出标签）。

2)神经元级度量：

神经元级指标适用于白盒测试场景，其中模型的内层输出是可访问的。直观地说，模型中每个神经元的输出遵循其自身的统计分布，不同模型中的神经元输出应该会有所不同。受此启发，DEEPJUDGE 使用神经元的输出状态来捕获两个模型之间的差异，并定义了以下两个神经元水平的指标 NOD 和 NAD。

3）层级指标：

DEEPJUDGE 中的逐层指标考虑了 DNN 模型中整个层的输出值。与神经元级指标相比，层级指标提供了两个模型之间中间层输出差异的全尺寸视图。

JSD量化了两个模型的输出分布之间的相似性，特别是针对模型提取攻击，它是基于受害者模型返回的概率向量（分布）提取可疑模型的。

C. 测试用例生成

为了充分实施上面定义的测试指标，我们需要放大阳性嫌疑人和受害者模型之间的相似性，同时尽量减少阴性嫌疑人与受害者模型的相似性。在DEEPJUDGE中，这是通过智能测试用例生成方法实现的。同时，测试用例生成应尊重不同防御设置（即黑盒与白盒）下的模型可访问性。

1）黑盒设置：

当只有可疑模型的输入和输出可访问时，我们使用受害者模型上的现有对抗攻击方法生成的对抗性输入填充测试集 T。我们考虑了三种广泛使用的对抗性攻击方法，包括快速梯度符号法（FGSM）[14]，投影梯度下降法（PGD）[28]和Carlini&Wagner（CW）攻击[4]，其中FGSM和PGD是L∞-有界对抗方法，CW 是一个L2-有界攻击方法。这为我们提供了更多样化的测试用例L∞-和L2-规范扰动对抗性测试用例。附录 D 中提供了用于对抗性测试用例生成的详细说明和确切参数。

图 2 说明了使用对抗性示例作为测试用例的基本原理。微调和修剪的模型副本直接派生自受害者模型，因此它们与受害者模型共享类似的决策边界（紫线）。然而，负嫌疑人模型是在不同的数据上或具有不同的初始化从头开始训练的，因此与受害者模型的决策边界重叠最小或没有重叠。通过颠覆模型的预测，对抗性示例从一侧跨越到另一侧的决策边界（我们使用非目标对抗示例）。尽管通过模型提取攻击提取的模型是由对手从头开始训练的，但训练依赖于受害者模型返回的概率向量，其中包含有关决策边界的信息。这意味着提取的模型将逐渐模仿受害者模型的决策边界。从这个角度来看，基于决策边界（或鲁棒性）的测试给模型提取对手带来了一个两难境地：提取越好，提取的模型与受害者模型越相似，并且越容易被我们的基于决策边界的测试识别。

DEEPJUDGE 测试每个神经元并生成一个测试用例来探索其输出分布的角落区域。

2）白盒设置：

在这种情况下，可疑模型的内部是可访问的，因此更细粒度的测试用例生成方法变得可行。如图 3 所示，给定一个种子输入和一个指定的层，DEEPJUDGE 为每个神经元生成一个测试用例，神经元激活的极端情况是我们特别感兴趣的。

测试生成算法在Alg中描述。 2.它以所有者的受害者模型O和一组选定的种子种子作为输入，并返回生成的测试用例T集。T被初始化为空（第1行）。该算法的主要内容是一个嵌套循环（第2-13行），其中对于每个神经元nl，第IV-B节的指标所要求的i，算法搜索一个输入，激活神经元的输出φl，i (x)超过一个阈值。在每次外环迭代中，从种子（行3- 4)。然后，在神经元激活的梯度更新（第6-7行）之后，在内环中迭代扰动，直到找到能够满足阈值条件的输入x并添加到测试套件T（第8-11行），或者当达到最大迭代次数时。参数lr（第7行）用于控制有扰动的输入的搜索空间与其种子输入足够接近。最后，返回生成的测试套件T。

我们讨论如何为一个神经元nl配置特定的阈值k，我在Alg中使用。 2.由于不同神经元的统计数据可能会有所不同，我们根据训练数据和所有者模型预先计算了阈值k，这是所有训练样本中相应神经元输出的最大值（上界）。然后通过在Alg中使用的超参数m来调整最终的阈值。2为更合理和自适应的阈值。请注意，所有感兴趣的神经元的阈值都可以通过跨模型逐层填充来计算一次。

D. 最终Judgement

DEEPJUDGE 的判断机制有两个步骤：门槛和投票。阈值步骤根据一组阴性可疑模型的统计数据为每个测试指标确定适当的阈值（有关更多详细信息，请参阅第 V-A3 节）。投票步骤根据每个测试指标检查可疑模型，如果它与受害模型的距离低于该指标的阈值，则给它赞成票。根据该指标，测量的指标值越低，可疑模型越有可能是受害者的副本。然后可以根据投票做出最终判断：如果可疑模型获得更多的正面投票，则将其识别为正面嫌疑人，否则将识别为负面嫌疑人。

对于每个测试指标λ，我们使用自适应地设置阈值ε-差异策略。具体来说，我们使用单尾 T 检验来计算下限LBλ基于99%置信水平的阴性可疑模型的统计数据。如果测量的差异λ（O，S,T)低于LBλ,S将是副本O概率很高。每个指标的阈值λ定义为：τλ=αλ.LBλ哪里αλ是用户指定的松弛参数，控制判断的灵敏度。如αλ降低，误报率（将阴性嫌疑人错误分类为被盗副本的可能性）也将增加。我们凭经验设定α=0.9对于黑盒指标和α=0.6分别用于白盒指标，具体取决于负面统计数据。

通过以下投票作出最终判决：

请注意，根据防御设置（白盒和黑盒），只有一个测试指标的一个子集可以应用，而平均只能应用在可用的指标上。如果pcopy大于0.5，深度判断识别阳性可疑副本，否则则为阴性副本。可以说，投票是做出最终判决的最直接的方式。虽然这种简单的投票策略在我们的实验中工作得相当好，但我们相信可以为不同的现实世界的保护场景开发出更先进的判断规则。

E. DEEPJUDGE vs. 水印和指纹识别

在这里，我们简要讨论为什么我们的测试方法在某些环境中更有利，以及它如何补充现有的防御技术。表二总结了DEEPJUDGE 与现有水印和指纹识别方法的区别，从三个方面：1）该方法是否是非侵入性的（即独立于模型训练）;2）是否专门为不同的防御设置（即白盒与黑盒）而设计或评估;3）是否针对不同的攻击（即微调，修剪和提取）评估该方法。DEEPJUDGE 独立于培训，能够在白盒或黑盒设置中灵活应用，并针对所有三种类型的常见版权攻击进行评估（也被证明是稳健的），包括模型微调、修剪和提取，经验评估和比较推迟到 V-B3 部分。

水印是侵入性的（依赖于训练），而指纹识别和测试是非侵入性的（独立于训练）。水印的有效性取决于所有者模型对水印的记忆程度以及记忆对不同攻击的鲁棒程度。虽然水印可以对微调或修剪攻击具有鲁棒性[40]，[47]，但它特别容易受到新兴的模型提取攻击（参见第V-C2节）。这是因为模型提取攻击仅提取模型的关键功能，但是，水印通常与任务无关。尽管存在上述弱点，但水印是唯一可以将所有者身份/签名嵌入模型的技术，这超出了指纹识别或测试的功能。

指纹识别与测试有某些相似之处。但是，它们的目标不同。指纹识别旨在实现“唯一性，即模型的唯一指纹”，而测试旨在实现“完整性”，即测试尽可能多的维度，以表征模型的独特性和共同属性。可以说，有效的指纹也是有效的黑盒测试指标。但作为一个测试框架，我们的 DEEPJUDGE 并不局限于特定的指标或测试用例生成方法。我们在第六节中的实验表明，单个指标或指纹不足以处理多样化和自适应的模型窃取攻击。在 VI-B 节中，我们还将展示我们的 DEEPJUDGE 可以通过动态更改测试用例生成策略来抵御那些破坏指纹识别的自适应攻击。我们预计模型所有者和对手之间在深度学习版权保护方面将进行长期的竞赛，其中水印、指纹和测试方法对于全面防御都很重要。

五、实验

我们已经将DEEPJUDGE 实现为Python 中的独立工具包。2.在下文中，我们首先评估 DEEPJUDGE 针对模型微调和模型修剪的性能（第 V-B 节），这是通过水印方法广泛研究的两种威胁场景 [1]， [9]。然后，我们在V-C节中检查了DEEPJUDGE 针对更具挑战性的模型提取攻击。最后，我们在第六节中测试了DEEPJUDGE 在自适应攻击下的鲁棒性。总体而言，我们使用 11 种攻击方法、3 个基线和在 300 个数据集上训练的 4 多个深度学习模型评估了 DEEPJUDGE 。

A. 实验设置

1）数据集和受害者模型：

我们在三个图像分类数据集（即MNIST [24]，CIFAR-10 [22]和ImageNet [36]）和一个音频识别数据集（即SpeechCommands [42]）上运行实验。表III总结了用于四个数据集的模型，包括三个卷积架构和一个递归神经网络。对于每个数据集，我们将训练数据分为两个子集。第一个子集（50% 的训练示例）用于训练受害者模型。更详细的实验设置可以在附录A中找到。

2）positive嫌疑模型：

正嫌疑模型是通过微调、修剪或模型提取从受害者模型中得出的。这些模型被认为是所有者受害者模型的被盗副本。DEEPJUDGE 应为受害者提供证据以主张所有权。

3）negative嫌疑模型：

负嫌疑人模型具有与受害者模型相同的体系结构，但使用剩余的 50% 的训练数据或相同的数据独立训练，但具有不同的随机初始化。否定嫌疑人模型作为对照组，表明DEEPJUDGE 不会主张错误的所有权。这些模型还用于计算测试阈值（τ).相同的训练管道和设置用于训练负可疑模型。具体来说，“Neg-1”使用不同的随机初始化进行训练，而“Neg-2”使用单独的数据集（其他 50% 的训练样本）进行训练。

4）种子选择：

种子选择准备用于生成测试用例的种子示例。在这里，我们应用DeepGini中使用的采样策略[12]从测试数据集中选择一组高置信度种子（详细信息在附录B中）。直觉是，高置信度种子被受害者模型很好地学习，因此具有受害者模型的更多独特特征。在自适应攻击部分VI-BI中探讨了更多的自适应种子选择策略。

5）对抗性示例生成：

我们使用三种经典攻击，包括FGSM [14]，PGD [28]和CW [4]来生成对抗性测试用例，如第IV-CI节所述。

B. 防御模型微调和修剪

由于模型微调和修剪威胁在处理受害者模型时相似（请参阅第三节），因此我们在这里一起讨论它们。这两个也是先前水印作品中研究最广泛的威胁[1]，[40]。

1）攻击策略：

给定一个受害者模型和同一任务域中的一小组数据，我们考虑以下四种常用的模型微调和修剪策略：a）微调最后一层（FT-LL）。更新最后一个图层的参数，同时冻结所有其他图层。b）微调所有图层（FT-AL）。更新整个模型的参数。c）重新训练所有层（RT-AL）。重新初始化最后一层的参数，然后更新整个模型的参数。d）参数修剪（P-r%）。修剪具有最小绝对值的参数的 r 百分比，然后微调修剪的模型以恢复精度。我们测试了低（r=20%）和高（r=60%）修剪率。典型的数据增强也用于加强攻击。有关这些攻击的更多详细信息，请参见附录C。

2）深度判断的有效性：

黑盒与白盒设置的结果分别显示。

黑盒测试。在此设置中，只能访问可疑模型的输出概率。在这里，DEEPJUDGE 使用了两个黑盒指标：RobD 和 JSD。对于这两个指标，值越小，可疑模型与受害者模型的相似度就越高。表IV报告了DEEPJUDGE 在四个数据集上的结果。请注意，对于每次微调或修剪攻击，我们随机重复实验 6 次，独立训练重复 12 次（因为更多的负面可疑模型将导致更准确的判断阈值）。然后，我们报告表IV每个条目中的平均值和标准偏差（以±b的形式）。显然，所有阳性嫌疑人模型都与受害者模型更相似，其RobD和JSD值明显小于负嫌疑人模型。具体而言，较低的RobD值表明在受害者模型上生成的对抗性样本对可疑模型具有较高的可转移性，即其决策边界更接近受害者模型。相比之下，负嫌疑模型的RobD值远大于正模型，这与我们在图2中的直觉相符。

为了进一步确认所提出的指标的有效性，我们在图 54 中显示了 RobD 和 JSD 总共 30 个模型（24 个阳性可疑模型和 4 个阴性可疑模型）的 ROC 曲线。两个指标的 AUC 值均为 1。请注意，我们省略了以下白盒测试的图，因为所有指标的 AUC 值也是 1。

白盒测试。在此设置中，可以访问可疑模型的所有中间层输出。因此，DEEPJUDGE 可以使用四个白盒指标（即 NOD、NAD、LOD 和 LAD）来测试模型。表五报告了四个数据集的结果。与两个黑盒指标类似，白盒指标越小，可疑模型被盗副本的可能性就越大。如表V所示，根据四个指标中的每一个，可疑模型的两组（正与负）之间存在根本差异。也就是说，两组模型是完全可分离的，从而可以高度准确地检测阳性拷贝。这并不奇怪，因为白盒测试可以从可疑模型中收集更多细粒度的信息。在黑盒和白盒设置中，DEEPJUDGE 中的投票压倒性地支持正确的最终判断（“复制？”列）。

组合可视化。为了更好地理解 DEEPJUDGE 的强大功能，我们将每个可疑模型的黑盒和白盒测试结果合并到图 5 中的单个雷达图中。雷达图的每个维度对应于一个测试指标给出的相似性分数。为了获得更好的视觉效果，我们将测试指标的值归一化到范围 [0， 1]，归一化值越大，可疑模型与受害者越相似。因此，填充区域可以被视为 DEEPJUDGE 指标的累积支持证据，用于确定可疑模型是否是被盗副本。显然，DEEPJUDGE 能够准确地区分正面嫌疑人和负面嫌疑人。在阳性可疑模型中，RTAL和P-60%的区域明显小于其他两个，这意味着它们更难检测。这是因为这两种攻击对受害者模型的参数修改最多。比较指标，基于激活的指标（例如 NAD）比基于输出的指标（例如 NOD）表现出更好的性能，而白盒指标比黑盒指标更强，尤其是针对 RTAL 等强攻击。在附录D中，我们还通过几个校准实验分析了影响因素，包括对抗性测试用例生成和层选择（用于计算测试指标）。附录H分析了不同级别的微调或修剪如何影响DEEPJUDGE 。

深度判断器的时间成本。使用lk种子生成测试用例的时间成本在附录表IX中提供。对于黑盒设置，我们报告基于 PGD 生成的成本，而对于白盒设置，我们报告算法 2 的成本。这表明白盒生成的时间成本略高，但在实践中仍然非常有效。用于白盒生成的 SpeechCommands 数据集上的最大时间成本为 ~ 1.2 小时。这种时间成本被认为是有效的，因为测试用例生成是一次性的，并且使用测试用例扫描可疑模型的额外时间成本几乎可以忽略不计。

备注1：DEEPJUDGE在识别微调和修剪副本方面是有效的。

CIFAR-10 可疑模型上指标 RobD 和 JSD 的检测 ROC 曲线，以及两个指标的 AUC = 1。

3）与现有技术的比较：

我们将 DEEPJUDGE 与三种最先进的版权防御方法进行了比较，以对抗模型微调和修剪攻击。这些防御方法的更多详细信息可以在附录E中找到。

黑盒：与水印和指纹识别的比较。DNNWatermarking[47]是一种基于后门的黑盒水印方法，IPGuard [2]是一种基于针对性对抗攻击的黑盒指纹识别方法。在这里，我们将这两个基线与黑盒设置中的DEEPJUDGE 进行比较。对于 DNNWatermarking，我们使用从头开始额外修补的样本来训练水印模型（即受害者模型）以嵌入水印，并计算可疑模型的 TSA（触发集精度）以进行所有权验证。IPGuard首先为带水印的模型生成有针对性的对抗性示例，然后计算MR（匹配率）（受害者和嫌疑人之间）进行验证。对于 DEEPJUDGE，我们在这里只应用 RobD（鲁棒性距离）指标进行公平比较。

图 6 的左侧子图可视化了结果。DEEPJUDGE 在这种黑匣子设置中展示了最佳的整体性能。DNNWatermarking和IPGuard未能识别FT-AL，RTAL，P-20%和P-60重复的阳性可疑模型。他们的分数（TSA和MR）在这四种攻击中急剧下降。这基本上意味着嵌入的水印被完全去除，或者无法再验证指纹。而对于DEEPJUDGE的RobD指标，负面和正面嫌疑人之间的差距仍然很大，这表明对各种微调和修剪攻击的有效性要好得多。

白盒：与水印的比较。嵌入水印 [40] 是一种基于签名的白盒水印方法。它需要访问模型参数以进行签名提取。我们使用嵌入正则器 [40] 从头开始训练受害者模型以嵌入 128 位签名。计算 BER（误码率）并用于测量验证性能。图 6 的右侧子图可视化了两个白盒 DEEPJUDGE 指标 NOD 和 NAD 的比较结果。这三个指标的表现相当，4名阳性嫌疑人中有5名的NAD获胜。请注意，正负之间的巨大差距表明所有指标都可以正确识别阳性嫌疑人。在这里，DEEPJUDGE 的单个指标能够实现与 EmbeddingWatermark 相同的保护级别。

备注2：与最先进的防御方法相比，深度判断在黑盒设置中表现更好，在白盒设置中可以对抗模型微调和剪枝攻击，而不干扰模型训练。

C. 防御模型提取

模型提取（也称为模型窃取）被认为是对 DNN 版权更具挑战性的威胁。在这一部分中，我们评估了DEEPJUDGE 对模型提取攻击的抵抗，这在以前的工作中尚未得到彻底的研究。

1）攻击策略：

我们考虑使用两种不同类型的支持数据进行模型提取：辅助数据或合成数据（见第三节）。我们考虑以下最先进的模型提取攻击：a）JBA（基于雅可比的增强[33]）从测试数据集中采样一组种子，然后应用基于雅可比的数据增强来合成来自种子的更多数据。b） Knockoff（Knockoff Nets [32]）使用辅助数据集，该数据集与用于训练受害者模型的原始训练数据具有相似的属性。c） ESA（ES攻击[45]）不需要额外的数据，但需要大量的查询。ESA利用基于梯度的自适应优化算法从随机噪声中合成数据。ESA可以应用于难以访问任务域数据（例如个人健康数据）的场景。使用提取的数据，攻击者可以从头开始训练新模型，假设了解受害者模型的架构。如果新模型的性能与受害者模型匹配，则认为其成功窃取。

2）水印失败：

我们在V-B部分中的实验显示了水印对微调和修剪攻击的有效性和鲁棒性。不幸的是，在这里我们展示了嵌入的水印可以通过模型提取攻击来去除。我们在图 12 中显示了 DNNWatermark 和 EmbeddingWatermark 的结果。根据TSA（来自DNNWatermarking）或BER（来自EmbeddingWatermark），通过不同提取攻击提取的模型都与受害者模型有很大不同。例如，受害模型的 TSA 值为 100%，但是，三个提取副本的 TSA 值均低于 1%。这基本上意味着原始水印在提取的模型中全部被删除。这将不可避免地导致所有权索赔失败。这并不奇怪，因为水印是与任务无关的内容，而不是模型提取的重点。

3）深度判断的有效性：

表VI总结了DEEPJUDGE的结果，它成功识别了所有阳性嫌疑人模型，除非被盗副本（由JBA）性能极差，准确率比相应的受害者模型低15%、44%和55%。我们注意到，模型提取并不总是有效，执行不佳的提取不太可能构成真正的威胁。我们还观察到，当提取效果更好时，DEEPJUDGE 的效果更好，因此抵消了模型提取攻击的最终完美匹配目标。

与模型微调或修剪相比，提取模型的平均 RobD 和 JSD 值相对较大，这意味着提取模型的决策边界与受害模型的决策边界差异更大。原因是提取的模型通常是从随机点训练的，而微调只会稍微移动受害者模型的原始边界，如图 2 所示。因此，模型提取更隐蔽，所有权验证更具挑战性。尽管如此，RobD 和 JSD 这两个指标仍然可以揭示提取的模型与受害者模型的独特相似性（较小的值）：提取越好（提取模型的准确性越高），RobD 和 JSD 值越低。这表明，随着被提取模型的决策边界逐渐接近受害者，提取模型的行为与受害者的行为更加相似，也凸显了DEEPJUDGE 对抗模型提取攻击的独特优势。请注意，JBA攻击只能在CIFAR-50或SpeechCommand上提取原始精度的10%，这不应被视为成功的提取。

在图 7 中，我们进一步展示了 RobD 和 JSD 值在 Knockoff、ESA 和 JBA 攻击的整个提取过程中的演变。我们发现 RobD（橙色线）和 JSD（红线）值都随着提取的进行而减少，同样，除了 JBA。这证实了我们的猜测，即当DEEPJUDGE进行测试时，一个更好的提取模型将向其受害者暴露更多的相似之处。相比之下，我们还研究了这两个值在图7中负模型的训练过程中如何变化，这表明独立训练的负嫌疑模型往往与受害者模型差异更大，并产生更高的RobD和JSD值。

备注3：模型提取攻击比微调或修剪攻击更具挑战性，但深度判断仍然可以正确识别那些成功的提取。此外，提取效果越好，深度判断就越容易将提取的模型识别为被盗副本。

六、对自适应攻击者的鲁棒性

在本节中，我们将根据对手对 DEEPJUDGE 的了解，探讨对 DEEPJUDGE 的潜在自适应攻击：1）对手知道测试指标和测试用例，或 2）对手只知道测试指标。水印和指纹识别对类似自适应攻击的对比度评估见附录G。

A. 了解测试指标和测试用例

在此威胁模型中，对手完全了解 DEEPJUDGE 包括测试指标。Λ和秘密测试用例 T.我们还假设对手有一个干净数据的子集。在 DEEPJUDGE 中，我们有两个测试设置，即白盒测试和黑盒测试。这两个测试在测试指标和生成的测试用例上有所不同（参见图 17 中的示例）。黑盒测试用例被标记。因此，攻击者可以将 T 混合到其干净的子集中，以微调被盗模型以具有较大的测试距离（即黑盒测试指标 RobD 和 JSD），同时保持良好的分类性能。这将欺骗 DEEPJUDGE 识别被盗模型与受害者模型显着不同。这种针对黑盒测试的自适应攻击由 Adapt-B 表示。由于白盒测试用例是未标记的，因此攻击者可以使用预测的标签（由受害者模型）作为基本事实，并按照与 Adapt-B 类似的过程微调被盗模型。这种针对白盒测试的攻击用 Adapt-W 表示。请注意，后缀“-B/-W”将目标测试设置标记为攻击，而这两种攻击都是知道所有信息的白盒自适应攻击。

DEEPJUDGE 使用暴露的测试用例 T 的结果报告在表 VII 中。结果表明：1）DEEPJUDGE 对 Adapt-W 具有鲁棒性，未能同时最大化输出距离和激活距离，也未能保持原始分类精度;2）虽然当测试用例被标签暴露时，DEEPJUDGE 对 Adapt-B 不是健壮的，但它可以很容易地恢复使用不同种子生成的新测试用例的性能（参见图 8 中暴露和新测试用例的 ROC 曲线）;3）结合黑盒和白盒测试时，DEEPJUDGE 仍然可以正确识别 Adapt-B 的被盗副本（最终判断都是正确的）。将重新训练/微调模型的不平凡努力与高效生成新的测试用例进行比较，DEEPJUDGE 在与基于微调的自适应攻击的军备竞赛中具有明显的优势。

值得注意的是，Adapt-W 并没有打破 DEEPJUDGE 的所有白盒指标，因为白盒测试的机制是健壮的。具体来说，黑盒测试表征输出层的行为，而白盒测试表征更浅层的内部行为。由于 DNN 的过度参数化属性，对模型进行微调以过度拟合黑盒测试用例集相对容易，从而颠覆黑盒指标的结果。然而，在白盒测试中，如果不完全重新训练模型，几乎不可能改变白盒测试用例集上所有隐藏神经元的激活状态。因此，白盒测试本质上对自适应攻击更可靠，尤其是在测试用例暴露时。

B. 只知道测试指标

在这种威胁模型中，对手仍然可以以不同的方式进行调整。我们考虑了两种自适应攻击：分别针对黑盒测试的对抗性训练和针对白盒测试的一般迁移学习攻击。

1）盲目对抗训练：

由于我们的黑盒测试主要依赖于使用对抗性测试用例探测决策边界差异，因此对手可以利用对抗性训练来提高被盗副本的鲁棒性。给定PGD参数和干净数据的子集（原始训练数据的20%），对手迭代训练被盗模型，以平滑模型决策边界遵循[28]。这种类型的自适应攻击由AdvTrain表示。如表VII所示，它确实可以绕过我们的黑盒测试，牺牲~10%的性能（这种现象称为精度-鲁棒性权衡[39]，[46]）。然而，有趣的是，如果我们用低置信种子替换 DEEPJUDGE 中使用的高置信度种子，DEEPJUDGE 将再次生效（如图 9 所示）。一个可能的原因是，与高置信种子相比，这些低置信种子是接近决策边界的自然边界（硬）示例，因此可以生成更多的测试用例，以在一定的扰动预算内跨越对抗平滑的决策边界。图15提供了高/低置信度测试种子的示例。还值得一提的是，在这种情况下，我们的白盒测试仍然表现良好。总体而言，DEEPJUDGE 对 Adv-Train 具有健壮性，或者至少可以通过有效更新种子来变得健壮。

2）迁移学习：

攻击者可能会将受害者模型的被盗副本传输到新数据集。攻击者利用受害者模型的主要结构作为骨干，并向其添加更多层。在这里，我们测试了从10级CIFAR-10到5级SVHN [31]的香草迁移学习（VTL）策略。CIFAR-10受害者模型的最后一层首先被新的分类层所取代。然后，我们对SVHN数据子集上的所有层进行微调。请注意，在此设置中，黑盒指标不再可行，因为可疑模型与受害模型具有不同的输出维度，但是，由于保留了浅层，因此仍然可以应用白盒指标。结果报告于表七。值得注意的是，DEEPJUDGE 成功地识别了具有明显低测试距离和 AUC = 1 的迁移学习攻击。

在最近的一项工作中[29]，观察到受害者模型的知识可以转移到被盗模型上。然后提出了数据集推理（DI）技术来探测受害者的知识（即私人训练数据）是否保留在可疑模型中。我们相信，这些知识层面的测试指标也可以纳入DEEPJUDGE 中，使其更加全面。关于不同层次的迁移学习如何影响DEEPJUDGE 的分析可以在附录H中找到。

七、结论

在这项工作中，我们提出了DEEPJUDGE，一种用于深度学习模型版权保护的新颖测试框架。DEEPJUDGE 的核心是一系列多级测试指标，用于描述受害者模型和可疑模型之间相似性的不同方面。DEEPJUDGE 中还开发了高效灵活的测试用例生成方法，以帮助提高测试指标的辨别能力。与水印方法相比，DEEPJUDGE 不需要篡改模型训练过程。与指纹识别方法相比，它可以防御更多样化的攻击，并且对自适应攻击的抵抗力更强。DEEPJUDGE 适用于黑盒和白盒设置，可抵御模型微调、修剪和提取攻击。在多个基准数据集上的大量实验证明了DEEPJUDGE的有效性和效率。我们已经将DEEPJUDGE 作为一个独立的开源工具包来实现。作为一个通用的测试框架，新的测试指标或测试用例生成方法可以毫不费力地整合到 DEEPJUDGE 中，以帮助抵御未来对深度学习版权保护的威胁。