【中文翻译】第12章-The Algorithmic Foundations of Differential Privacy

由于GitHub项目仅翻译到前5章，我们从第6章开始通过大语言模型翻译，并导出markdown格式。
大模型难免存在错漏，请读者指正。

教材原文地址：https://www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf

在这里插入图片描述

12 其他模型

到目前为止，我们对私有数据分析模型做了一些隐含的假设。例如，我们假设存在某个可信的数据管理者可以直接访问私有数据集，并且我们假设攻击者只能访问算法的输出，而无法访问算法执行过程中的任何内部状态。但如果情况并非如此呢？如果我们不信任任何人查看我们的数据，甚至不信任他们进行隐私保护的数据分析呢？如果某个黑客可能在私有算法运行时访问其内部状态呢？在本节中，我们放宽之前的一些假设并考虑这些问题。

在本节中，我们描述文献中受到关注的一些其他计算模型。

局部模型是随机化应答（见第2节）的推广，其动机来自于个体不信任数据管理者处理其数据的情况。虽然可以使用安全多方计算来模拟可信数据管理者的角色以解决这种不信任问题，但也有一些不需要密码学的技术。

接下来的两个模型考虑事件流，每个事件都可能与一个个体相关联。例如，一个事件可能是某个特定的人对任意术语进行的一次搜索。在给定的事件流中，与某个特定个体相关联的（可能有很多）事件可以与和其他个体相关联的事件任意交错。

在泛隐私（pan - privacy）中，数据管理者是可信的，但可能会被迫公开非隐私数据，例如，由于传票的要求，或者因为持有信息的实体被另一个可能不太可信的实体收购。因此，在泛隐私中，算法的内部状态也是差分隐私的，内部状态和输出的联合分布同样如此。
持续观察模型解决了在持续监测和报告事件统计信息（例如可能预示着即将爆发流行病的非处方药物购买情况）时如何维护隐私的问题。一些研究探讨了持续观察下的泛隐私问题。

12.1 本地模型

到目前为止，我们考虑的是数据隐私的集中式模型，在该模型中存在一个可以直接访问私有数据的数据库管理员。如果没有可信的数据库管理员会怎样呢？即使有合适的可信方，也有很多理由不希望私有数据由第三方进行聚合。私有信息聚合数据库的存在本身就增加了这样一种可能性：在未来的某个时候，它可能会落入不可信方的手中，要么是恶意地（通过数据盗窃），要么是组织更替的自然结果。从私有数据所有者的角度来看，更好的模型是本地模型，在该模型中，代理可以以差分隐私的方式（随机地）回答关于他们自己数据的问题，而无需与其他任何人共享这些数据。在谓词查询的背景下，这似乎严重限制了私有机制与数据交互的表达能力：机制可以询问每个用户其数据是否满足给定的谓词，而用户可能会抛硬币决定，以略高于回答错误的概率如实回答。在这个模型中，哪些是可行的呢？

本地隐私模型最初是在学习的背景下引入的。本地隐私模型将随机化响应形式化：不存在私有数据的中央数据库。相反，每个个体保留自己的数据元素（一个大小为 1 的数据库），并且仅以差分隐私的方式回答关于它的问题。形式上，数据库 $\in {\mathbb{N}}^{\left| \mathcal{X}\right| }$ 是来自某个域 $\mathcal{X}$ 的 $n$ 个元素的集合，并且每个 ${x}_{i} \in x$ 由一个个体持有。

定义 12.1（本地随机化器）。一个 $\varepsilon$ - 本地随机化器 $\mathcal{X} \rightarrow$ $W$ 是一个以大小为 $n = 1$ 的数据库为输入的 $\varepsilon$ - 差分隐私算法。

在本地隐私模型中，算法只能通过本地随机化器预言机与数据库进行交互：

定义 12.2（LR 预言机）。一个 LR 预言机 $L{R}_{D}\left( {\cdot , \cdot }\right)$ 以一个索引 $\in \left\lbrack n\right\rbrack$ 和一个 $\varepsilon$ - 本地随机化器 $R$ 为输入，并根据分布 $R\left( {x}_{i}\right)$ 输出一个随机值 $\in W$ ，其中 ${x}_{i} \in D$ 是数据库中第 $i$ 个个体持有的元素。

定义 12.3（（本地算法））。如果一个算法通过预言机 $L{R}_{D}$ 访问数据库 $D$ ，并且有以下限制，则该算法是 $\varepsilon$ - 本地的：如果 $L{R}_{D}\left( {i,{R}_{1}}\right) ,\ldots ,L{R}_{D}\left( {i,{R}_{k}}\right)$ 是该算法在索引 $i$ 上对 $L{R}_{D}$ 的调用，其中每个 ${R}_{J}$ 都是一个 ${\varepsilon }_{j}$ - 本地随机化器，那么 ${\varepsilon }_{1} + \cdots + {\varepsilon }_{k} \leq \varepsilon$

由于差分隐私是可组合的，很容易看出 $\varepsilon$ - 本地算法是 $\varepsilon$ - 差分隐私的。

观察12.1. $\varepsilon$ -局部算法具有 $\varepsilon$ -差分隐私性。

也就是说，一个 $\varepsilon$ -局部算法仅使用一系列 $\varepsilon$ -差分隐私算法与数据进行交互，其中每个算法仅对大小为1的数据库进行计算。由于除数据所有者外，没有人会接触任何私有数据，因此局部设置更加安全：它不需要可信方，也不存在可能遭受黑客攻击的中央方。由于即使是算法也从未见过私有数据，因此算法的内部状态也始终具有差分隐私性（即，局部隐私意味着泛隐私，将在下一节中描述）。一个自然的问题是局部隐私模型的限制程度如何。在本节中，我们仅非正式地讨论相关结果。感兴趣的读者可以参考本节末尾的参考文献以获取更多信息。我们注意到，局部隐私模型的另一个名称是完全分布式模型。

我们回顾一下第11节中引入的统计查询（SQ）模型的定义。粗略地说，给定一个大小为 $n$ 的数据库 $x$ ，统计查询模型允许算法通过对数据库进行多项式（关于 $n$ ）数量的含噪线性查询来访问该数据库，其中查询答案的误差是 $n$ 的某个逆多项式。形式上：

定义12.4. 统计查询是某个函数 $\phi : \mathcal{X} \times \{ 0,1\} \rightarrow$ $\left\lbrack {0,1}\right\rbrack$ 。对于具有容差 $\tau$ 的带标签示例分布 $\mathcal{D}$ 的统计查询预言机是一个预言机 ${\mathcal{O}}_{\mathcal{D}}^{\tau }$ ，使得对于每个统计

查询 $\phi$ ：

$\left| {{\mathcal{O}}_{\mathcal{D}}^{\tau }\left( \phi \right) - {\mathbb{E}}_{\left( {x,y}\right) \sim \mathcal{D}}\left\lbrack {\phi \left( {x,y}\right) }\right\rbrack }\right| \leq \tau$

换句话说，一个SQ预言机将统计查询 $\phi$ 作为输入，并输出一个保证在从 $\mathcal{D}$ 中抽取的示例上 $\phi$ 的期望值的 $\pm \tau$ 范围内的值。

定义12.5. 如果对于每个 $\alpha ,\beta > 0$ ，都存在一个 $\operatorname{poly}\left( {d,1/\alpha ,\log \left( {1/\beta }\right) }\right)$ ，使得算法 $A$ 对 ${\mathcal{O}}_{\mathcal{D}}^{\tau }$ 进行最多 $m$ 次容差为 $\tau = 1/m$ 的查询，并且以概率 $\beta$ 输出一个假设 $\in C$ ，使得：

$\operatorname{err}\left( {f,\mathcal{D}}\right) \leq \mathop{\min }\limits_{{{f}^{ * } \in C}}\operatorname{err}\left( {{f}^{ * },\mathcal{D}}\right) + \alpha$

更一般地，如果一个算法（用于执行任何计算）仅通过SQ预言机访问数据，我们可以说它在SQ模型中运行：

定义12.6. 如果存在一个 $m$ ，使得算法 $A$ 对 ${\mathcal{O}}_{D}^{\tau }$ 进行最多 $m$ 次容差为 $\tau = 1/m$ 的查询，并且没有其他访问数据库的方式，则称算法 $A$ 在SQ模型中运行。如果 $m$ 是数据库大小 $D$ 的多项式，则 $A$ 是高效的。

事实证明，在数据库大小和查询数量的多项式因子范围内，任何可以在SQ模型中实现的算法都可以在局部隐私模型中实现并进行隐私分析，反之亦然。我们注意到，在SQ模型中实现算法与在局部模型中进行其隐私分析之间存在区别：我们最终介绍的几乎所有算法都使用含噪线性查询来访问数据，因此可以认为它们在SQ模型中运行。然而，它们的隐私保证是在数据隐私的集中式模型中进行分析的（即，由于分析的某些“全局”部分，如稀疏向量算法）。

在以下总结中，我们还将回顾第11节中引入的PAC学习的定义：

定义12.7。若对于任意的 $\alpha ,\beta > 0$ ，都存在一个 $\operatorname{poly}\left( {d,1/\alpha ,\log \left( {1/\beta }\right) }\right)$ ，使得对于带标签示例上的任意分布 $\mathcal{D}$ ，算法 $A$ 以从 $\mathcal{D}$ 中抽取的 $m$ 个带标签示例作为输入，并输出一个假设 $\in C$ ，且以概率 $\beta$ 满足以下条件，则称算法 $A$ 能PAC学习（Probably Approximately Correct learning，概率近似正确学习）函数类 $C$ ：

$\operatorname{err}\left( {f,\mathcal{D}}\right) \leq \mathop{\min }\limits_{{{f}^{ * } \in C}}\operatorname{err}\left( {{f}^{ * },\mathcal{D}}\right) + \alpha$

若 $\mathop{\min }\limits_{{{f}^{ * } \in C}}\operatorname{err}\left( {{f}^{ * },\mathcal{D}}\right) = 0$ ，则称学习器在可实现设定下运行（即，该函数类中存在某个函数能完美地对数据进行标签标注）。否则，称学习器在不可知设定下运行。若 $A$ 的运行时间关于 $d,1/\alpha$ 和 $\log \left( {1/\beta }\right)$ 是多项式的，则称该学习器是高效的。若存在一个算法能PAC学习 $C$ ，则称 $C$ 是PAC可学习的。注意，统计查询（Statistical Query，SQ）学习算法和PAC学习算法的主要区别在于，PAC学习算法可以直接访问示例数据库，而SQ学习算法只能通过有噪声的SQ预言机访问数据。

以下是我们对SQ模型局限性的一些理解，以及将其与数据隐私的集中式模型区分开来的问题。

在数据隐私的集中式模型中，使用拉普拉斯机制可以以误差 $O\left( 1\right)$ 回答单个敏感度为1的查询，但在局部数据隐私模型中需要误差 $\Theta \left( \sqrt{n}\right)$ 。
在局部隐私模型中我们能够（恰当地）学习的函数类集合，恰好是在SQ模型中我们能够恰当地学习的函数类集合（在数据库大小和算法查询复杂度的多项式因子范围内）。相比之下，在集中式模型中我们能够（恰当地或不可知地）学习的内容集合，对应于在PAC模型中我们能够学习的内容集合。SQ学习严格弱于PAC学习，但这并不是一个巨大的障碍，因为奇偶函数本质上是唯一有趣的、可PAC学习但不可SQ学习的函数类。我们在此明确提及恰当地学习（即，函数类中存在某个函数能完美地对数据进行标签标注的设定）。在PAC模型中，恰当地学习和不可知地学习在信息论上没有区别，但在SQ模型中区别很大：见下一点。
在局部隐私模型中我们能够发布的查询集合，恰好是在SQ模型中我们能够不可知地学习的查询集合。相比之下，在集中式模型中我们能够发布的内容集合，对应于在PAC模型中我们能够不可知地学习的内容集合。这是一个更大的障碍——即使是合取式（即，边缘分布）在SQ模型中也不可不可知地学习。这是由我们在第5节中使用迭代构造机制看到的从不可知学习（即，区分）到查询发布的信息论约简得出的。

我们注意到，如果我们只关注计算能力受限的对手，那么原则上分布式代理可以使用安全多方计算来模拟集中式设定下的隐私算法。虽然这实际上并不能提供差分隐私保证，但从计算能力受限的对手的角度来看，这种模拟的结果将与差分隐私计算的结果无法区分。然而，一般的安全多方计算协议通常需要大量的消息传递（因此有时运行时间过长），而局部隐私模型中的算法往往非常简单。

12.2 泛隐私流模型

泛私有算法的目标是，即使面对偶尔能够观察到算法内部状态的对手，仍能保持差分隐私。入侵可能出于多种原因，包括黑客攻击、传票传唤，或者当为一个目的收集的数据被用于另一个目的时出现的任务蔓延（“想想孩子们！”）。泛私有流算法可以防范所有这些情况。请注意，普通的流算法不一定能防范入侵带来的隐私泄露问题，因为即使是低内存的流算法也可能在内存中保留少量数据项，而这些数据项在入侵时会完全暴露。从技术层面来看，管理员可能知晓（传票传唤）或不知晓（黑客攻击）入侵情况。这些情况可能产生截然不同的影响，因为知晓入侵的管理员可以采取保护措施，比如对某些变量重新进行随机化处理。

12.2.1 定义

我们假设存在一个由全域 $\mathcal{X}$ 中的元素组成的无限长数据流。将查询流上的数据分析作为动机可能会有所帮助，在查询流中，查询会附带发出者的 IP 地址。目前，我们忽略查询文本本身；全域 $\mathcal{X}$ 是潜在 IP 地址的集合。因此，直观地说，用户级隐私保护的是流中某个 IP 地址是否存在，而不考虑它实际出现的次数（如果它确实存在的话）。相比之下，事件级隐私仅保护单个访问的隐私。目前，我们专注于用户级隐私。

与差分隐私算法中常见的情况一样，对手可以任意控制输入流，并且可能拥有从其他来源获得的任意辅助知识。对手还可以拥有任意的计算能力。

我们假设算法会一直运行，直到收到一个特殊信号，此时它会产生（可观察到的）输出。算法可以选择继续运行，并在之后再次响应特殊信号产生额外的输出。由于输出是可观察到的，我们不对特殊信号提供隐私保护。

流算法会经历一系列内部状态，并产生一个（可能无界的）输出序列。用 I 表示算法可能的内部状态集合，用 $\sigma$ 表示可能的输出序列集合。我们假设对手只能观察到内部状态和输出序列；它无法看到流中的数据（尽管它可能拥有关于其中一些数据的辅助知识），并且无法获取输入序列的长度。

定义 12.8（ $\mathcal{X}$ -相邻数据流）。我们认为数据流是无限长的；前缀的长度是有限的。如果数据流 $S$ 和 ${S}^{\prime }$ 仅在单个元素 $\in \mathcal{X}$ 的所有出现情况的有无上存在差异，那么它们就是 $\mathcal{X}$ -相邻的。我们类似地定义流前缀的 $\mathcal{X}$ -相邻性。

用户级泛隐私。一个将数据流前缀映射到范围 $\mathrm{I} \times \sigma$ 的算法 Alg，如果对于所有内部状态集合 ${\mathrm{I}}^{\prime } \subseteq \mathrm{I}$ 和输出序列集合 ${\sigma }^{\prime } \subseteq \sigma$ ，以及所有相邻数据流前缀对 $S,{S}^{\prime }$

$\Pr \left\lbrack {\mathbf{{Alg}}\left( S\right) \in \left( {{\mathrm{I}}^{\prime },{\sigma }^{\prime }}\right) }\right\rbrack \leq {e}^{\varepsilon }\Pr \left\lbrack {\mathbf{{Alg}}\left( {S}^{\prime }\right) \in \left( {{\mathrm{I}}^{\prime },{\sigma }^{\prime }}\right) }\right\rbrack ,$

其中概率空间是基于算法 Alg 的随机掷币结果。

这个定义仅涉及单次入侵。对于多次入侵，我们必须考虑对内部状态和输出的观察的交织情况。

通过修改相邻性的概念可以得到事件级隐私的放宽定义，大致来说，如果两个流在全域 $\mathcal{X}$ 中单个元素的单个实例上存在差异，即删除/添加了一个元素的一个实例，那么它们就是事件相邻的。显然，事件级隐私的保障力度远低于用户级隐私。

注记 12.1。如果我们假设存在极少量对手不可见的秘密存储，那么对于许多我们无法获得泛私有解决方案的问题，都存在（非泛）私有流解决方案。然而，秘密存储的数量不如其存在本身重要，因为秘密存储容易受到社会压力的影响，而泛隐私旨在保护数据（和管理员）免受这些社会压力的侵害。

泛私有密度估计。相当令人惊讶的是，即使对于许多常见流计算的用户级隐私，也能实现泛隐私。例如，考虑密度估计问题：给定一个数据元素的全集 $\mathcal{X}$ 和一个数据流 $\sigma$ ，目标是估计 $\mathcal{X}$ 中实际出现在数据流中的元素比例。例如，全集由给定社区中的所有青少年（由 IP 地址表示）组成，目标是了解访问计划生育网站的青少年比例。

用于密度估计的标准低内存流解决方案涉及记录至少一些输入项的确定性计算结果，这种方法本质上不是泛私有的。这里有一个简单但内存需求高的解决方案，它受到随机响应的启发。该算法为每个 IP 地址 $a$ （可能在数据流中出现任意次数）维护一个比特 ${b}_{a}$ ，初始值是均匀随机的。数据流一次处理一个元素。输入 $a$ 时，算法翻转一个偏向 1 的比特；也就是说，这个有偏比特取值为 0 的概率是 $\varepsilon$ ，取值为 1 的概率是 $\varepsilon$ 。该算法执行此过程与 IP 地址 $a$ 在数据流中出现的次数无关。这个算法是 $\left( {\varepsilon ,0}\right)$ -差分隐私的。与随机响应一样，我们可以通过 $2\left( {y - \left| \mathcal{X}\right| /2}\right) /\left| \mathcal{X}\right|$ 来估计“真实” 1 的比例，其中 $y$ 是处理完数据流后表中 1 的实际数量。为了确保泛隐私，算法发布 $z$ 的一个含噪版本。与随机响应一样，误差将在 $1/\sqrt{\left| \mathcal{X}\right| }$ 数量级，当密度较高时会产生有意义的结果。

其他拥有用户级泛私有算法的问题包括：

对于任意 $t$ ，估计恰好出现 $t$ 次的元素比例；
估计 $t$ -裁剪均值：大致来说，是所有元素的 $t$ 和该元素在数据流中出现次数的最小值的平均值；
估计 $k$ -频繁项（ $\mathcal{X}$ 中在数据流中至少出现 $k$ 次的元素）的比例。

这些问题的变体也可以针对完全动态的数据进行定义，在这种数据中计数既可以增加也可以减少。例如，密度估计（数据流中出现的比例是多少？）变成了“有多少（或多大比例）的元素（净）计数等于零？”这些问题也可以通过使用流文献中草图技术的差分隐私变体，以用户级泛隐私的方式解决。

12.3 持续观察

数据分析的许多应用涉及重复计算，这要么是因为整个目标是进行监控，例如监控交通状况、搜索趋势或流感发病率。在这类应用中，系统需要持续产生输出。因此，我们需要在持续观察下实现差分隐私的技术。

像往常一样，差分隐私要求每对相邻数据库的输出具有基本相同的分布，但在这种情况下我们应该如何定义相邻性呢？让我们考虑两个示例场景。

假设目标是通过分析 H1N1 自我评估网站的统计数据来监测公共卫生。个人可以与该网站交互，以了解他们正在经历的症状是否可能表明感染了 H1N1 流感。用户填写一些人口统计数据（年龄、邮政编码、性别），并回答有关其症状的问题（体温是否超过 ${100.4}^{ \circ }\mathrm{F}$ ？是否喉咙痛？症状持续时间？）。我们预计给定的个人与 H1N1 自我评估网站的交互次数非常少（例如，如果我们将关注范围限制在六个月内）。为简单起见，假设只有一次。在这种情况下，确保事件级隐私就足够了，其隐私目标是隐藏单个事件（一个用户与自我评估网站的交互）的存在与否。

${}^{1}$ https://h1n1.cloudapp.net 在 2010 年冬季提供了这样一项服务；用户提供的数据在获得用户同意后被存储用于分析。

再次假设目标是监测公众健康，这次是通过分析提交给医疗搜索引擎的搜索词来实现。在这种情况下，即使我们将关注范围限制在相对较短的时间段内，假设一个人与该网站的交互很少可能不再安全。在这种情况下，我们需要用户级别的隐私保护，确保同时保护用户的整个搜索词集合。

我们将连续观察算法视为在离散的时间间隔内采取步骤；在每个步骤中，算法接收输入、进行计算并产生输出。我们将数据建模为以流的形式到达，每个时间间隔最多有一个数据元素。为了体现现实生活中存在没有任何事情发生的时间段这一事实，空事件在数据流中用一个特殊符号来建模。因此，“ $t$ 个时间段”的直观概念对应于处理流中 $t$ 个元素的序列。

例如，下面计数器原语背后的动机是计算自算法启动以来某件事情发生的次数（计数器非常通用；我们事先不指定它在计数什么）。这通过一个基于 ${ 0,1\}$ 的输入流来建模。这里，“0”表示“没有事情发生”，“1”表示感兴趣的事件发生了，并且对于 $1,2,\ldots ,T$ ，算法输出流的长度为 $t$ 的前缀中看到的“1”的数量的近似值。

有三种自然的选择：

对每个时间段使用随机响应，并将这个随机值添加到计数器中；
对每个时间步的真实值添加根据 $\operatorname{Lap}\left( {1/\varepsilon }\right)$ 分布的噪声，并将这个扰动后的值添加到计数器中；
在每个时间步计算真实计数，对计数添加根据 $\operatorname{Lap}\left( {T/\varepsilon }\right)$ 分布的噪声，并发布这个含噪计数。

所有这些选择都会导致至少为 $\Omega \left( {\sqrt{T}/\varepsilon }\right)$ 量级的噪声。我们希望通过利用查询集的结构来做得更好。

设 $\mathcal{X}$ 为可能的输入符号的全集。设 $S$ 和 ${S}^{\prime }$ 是从 $\mathcal{X}$ 中抽取的符号的流前缀（即有限流）。那么 $\operatorname{Adj}\left( {S,{S}^{\prime }}\right)$ （“ $S$ 与 ${S}^{\prime }$ 相邻”）当且仅当存在 $\in \mathcal{X}$ ，使得如果我们将 $S$ 中 $a$ 的某些实例更改为 $b$ 的实例，那么我们得到 ${S}^{\prime }$ 。更正式地说， $\operatorname{Adj}\left( {S,{S}^{\prime }}\right)$ 当且仅当 $\exists a,b \in \mathcal{X}$ 且 $\exists R \subseteq \left\lbrack \left| S\right| \right\rbrack$ ，使得 ${\left. S\right| }_{R : a \rightarrow b} = {S}^{\prime }$ 。这里， $R$ 是流前缀 $S$ 中的一个索引集， ${\left. S\right| }_{R : a \rightarrow b}$ 是将这些索引处的所有 $a$ 替换为 $b$ 的结果。注意，相邻的前缀长度总是相同的。

为了实现事件级别的隐私保护，我们将邻接的定义限制在 $\left| R\right| \leq 1$ 的情况。为了实现用户级别的隐私保护，我们在邻接的定义中不限制 $R$ 的大小。

如上所述，一种选择是在每个时间步发布一个含噪计数；在时间 $t$ 发布的计数反映了数据流长度为 $t$ 的前缀中 1 的近似数量。隐私方面的挑战在于，数据流中的早期元素几乎要接受 $T$ 次统计，因此对于 $\left( {\varepsilon ,0}\right)$ -差分隐私，我们需要添加规模为 $T/\varepsilon$ 的噪声，这是不可接受的。此外，由于 1 是数据流中“有趣”的元素，我们希望失真程度与数据流中出现的 $1\mathrm{\;s}$ 的数量成比例，而不是与数据流的长度成比例。这就排除了对数据流中的每个元素独立应用随机响应的可能性。

以下算法采用了一种将静态算法转换为动态算法的经典方法。

假设 $T$ 是 2 的幂。这些区间是与具有 $T$ 个叶子节点的完全二叉树的标签相对应的自然区间，其中叶子节点从左到右依次用区间 $\left\lbrack {0,0}\right\rbrack ,\left\lbrack {1,1}\right\rbrack ,\ldots ,\left\lbrack {T - 1,T - 1}\right\rbrack$ 标记，每个父节点用其两个子节点标记区间的并集来标记。其思路是为每个标签 $\left\lbrack {s,t}\right\rbrack$ 计算并发布一个含噪计数；也就是说，与标签 $\left\lbrack {s,t}\right\rbrack$ 对应的发布值是输入数据流中位置 $1,\ldots ,t$ 上 1 的含噪计数。为了了解时间 $\in \left\lbrack {0,T - 1}\right\rbrack$ 的近似累积计数，分析人员使用 $t$ 的二进制表示来确定一组最多 ${\log }_{2}T$ 个不相交的区间，这些区间的并集为 $\left\lbrack {0,t}\right\rbrack$ ，并计算相应发布的含噪计数的总和。见图 12.1。

计数器 $\left( {T,\varepsilon }\right)$

初始化。初始化 $\xi = {\log }_{2}T/\varepsilon$ ，并采样计数器 $\sim \operatorname{Lap}\left( \xi \right)$ 。

区间。对于 $\in \{ 1,\ldots ,\log T\}$ ，将每个字符串 $\in \{ 0,1{\} }^{i}$ 与时间区间 $S$ 关联起来

${2}^{\log T - i}$ 个时间段 $\left\{ {s \circ {0}^{\log T - i},\ldots s \circ {1}^{\log T - i}}\right\}$ 。该区间从时间 $\circ {0}^{\log T - i}$ 开始，到

时间 $\circ {1}^{\log T - i}$ 结束。

处理。在时间段 $\in \{ 0,1,\ldots ,T - 1\}$ ，设 ${x}_{t} \in \{ 0,1\}$ 为第 $t$ 个输入位：

对于每个从时间 $t$ 开始的区间 $I$ ，将 ${c}_{I}$ 初始化为一个独立的随机抽样： ${c}_{I} \leftarrow$

$\operatorname{Lap}\left( {\left( {{\log }_{2}T}\right) /\varepsilon }\right)$ ;

对于每个包含 $t$ 的区间 $I$ ，将 ${x}_{t}$ 加到 ${c}_{I} : {c}_{I} \leftarrow {c}_{I} + {x}_{t}$ 上；
对于每个在时间 $t$ 结束的区间 $I$ ，输出 ${c}_{I}$ 。

图 12.1：事件级隐私计数器算法（非全隐私）。

在这里插入图片描述

每个流位置 $\in \left\lbrack {0,T - 1}\right\rbrack$ 最多出现在 $1 + {\log }_{2}T$ 个区间中（因为树的高度为 ${\log }_{2}T$ ），因此流中的每个元素最多影响 $1 + {\log }_{2}T$ 个已发布的含噪计数。因此，根据 $\operatorname{Lap}\left( {\left( {1 + {\log }_{2}T}\right) /\varepsilon }\right)$ 为每个区间计数添加噪声可确保满足 $\left( {\varepsilon ,0}\right)$ -差分隐私。至于准确性，由于任何索引 $\in \left\lbrack {0,T - 1}\right\rbrack$ 的二进制表示会产生一组最多包含 ${\log }_{2}T$ 个区间的不相交集合，其并集为 $\left\lbrack {0,t}\right\rbrack$ ，我们可以应用下面的引理 12.2 得出结论：预期误差紧密集中在 ${\left( {\log }_{2}T\right) }^{3/2}$ 附近。在所有时间 $t$ 上的最大预期误差为 ${\left( {\log }_{2}T\right) }^{5/3}$ 量级。

引理 12.2。设 ${Y}_{1},\ldots ,{Y}_{k}$ 为服从分布 $\operatorname{Lap}\left( {b}_{i}\right)$ 的独立变量。设 $\mathop{\sum }\limits_{i}{Y}_{i}$ 和 ${b}_{\max } = \mathop{\max }\limits_{i}{b}_{i}$ 。设 $\nu \geq \sqrt{\mathop{\sum }\limits_{i}{\left( {b}_{i}\right) }^{2}}$ ，以及 $\lambda < \frac{2\sqrt{2}{\nu }^{2}}{{b}_{\max }}$ 。则

$\Pr \left\lbrack {Y > \lambda }\right\rbrack \leq \exp \left( {-\frac{{\lambda }^{2}}{8{\nu }^{2}}}\right) .$

证明。 ${Y}_{i}$ 的矩生成函数为 $\mathbb{E}\left\lbrack {\exp \left( {h{Y}_{i}}\right) }\right\rbrack = 1/(1 -$ $\left. {{h}^{2}{b}_{i}^{2}}\right)$ ，其中 $\left| h\right| < 1/{b}_{i}$ 。使用不等式 ${\left( 1 - x\right) }^{-1} \leq 1 + {2x} \leq$ $\exp \left( {2x}\right)$ （对于 $\leq x < 1/2$ ），若 $\left| h\right| < 1/2{b}_{i}$ ，则有 $\mathbb{E}\left\lbrack {\exp \left( {h{Y}_{i}}\right) }\right\rbrack \leq \exp \left( {2{h}^{2}{b}_{i}^{2}}\right)$ 。我们现在针对 $1/\sqrt{2}{b}_{\max }$ 进行计算：

$\Pr \left\lbrack {Y > \lambda }\right\rbrack = \Pr \left\lbrack {\exp \left( {hY}\right) > \exp \left( {h\lambda }\right) }\right\rbrack$

$\leq \exp \left( {-{h\lambda }}\right) \mathbb{E}\left\lbrack {\exp \left( {hY}\right) }\right\rbrack$

$\exp \left( {-{h\lambda }}\right) \mathop{\prod }\limits_{i}\mathbb{E}\left\lbrack {\exp \left( {h{Y}_{i}}\right) }\right\rbrack$

$\leq \exp \left( {-{h\lambda } + 2{h}^{2}{\nu }^{2}}\right) .$

${}^{2}$ 该算法可以进行轻微优化（例如，我们从不使用与根节点对应的计数，从而从树中消除一层），并且可以对其进行修改，以处理 $T$ 不是 2 的幂次方的情况，更有趣的是，处理 $T$ 事先未知的情况。

根据假设， $\lambda < \frac{2\sqrt{2}{\nu }^{2}}{{b}_{\max }}$ 。我们通过设定 $\lambda /4{\nu }^{2} < 1/\sqrt{2}{b}_{\max }.$ 来完成证明。

推论 12.3。设 $Y,\nu ,{\left\{ {b}_{i}\right\} }_{i},{b}_{\max }$ 如引理 12.2 所定义。对于 $\delta \in$ ∈(0,1) 和 $\nu > \max \left\{ {\sqrt{\mathop{\sum }\limits_{i}{b}_{i}^{2}},{b}_{\max }\sqrt{\ln \left( {2/\delta }\right) }}\right\}$ ，我们有 $\Pr \lbrack \left| Y\right| >$ $\nu \sqrt{8\ln \left( {2/\delta }\right) }\rbrack \leq \delta$

在我们的例子中，所有的 ${b}_{i}$ 都是相同的（例如， $\left( {{\log }_{2}T}\right) /\varepsilon$ ）。取 $\nu = \sqrt{k}b$ ，我们得到以下推论：

推论 12.4。对于所有的 $\lambda < \alpha \left( {\sqrt{k}b}\right) < 2\sqrt{2}{kb} = 2\sqrt{2k}\nu$ ，

$\Pr \left\lbrack {Y > \lambda }\right\rbrack \leq {e}^{-{\alpha }^{2}/8}$

请注意，我们采取了不同寻常的步骤，即在计数之前而不是之后向计数中添加噪声。就输出而言，这没有区别（加法满足交换律）。然而，这对算法的内部状态有一个有趣的影响：它们具有差分隐私性！也就是说，假设入侵发生在时间 $t$ ，并考虑任意的 $\in \left\lbrack {0,t}\right\rbrack$ 。由于最多有 ${\log }_{2}T$ 个区间包含步骤 $i$ （在算法中我们取消了与根节点对应的区间）， ${x}_{i}$ 最多影响 ${\log }_{2}T$ 个含噪声的计数，因此 ${x}_{i}$ 受到保护，防止入侵的原因与它在算法输出中受到保护的原因完全相同。然而，图 12.1 中的算法即使针对单次入侵也不是泛隐私的。这是因为，虽然其内部状态和输出各自独立地具有差分隐私性，但联合分布并不能确保 $\varepsilon$ -差分隐私性。为了理解为什么会这样，考虑一个入侵者，他在时间 $t$ 看到了内部状态，并且知道除 ${x}_{t + 1}$ 之外的整个数据流，设 $\left\lbrack {a,b}\right\rbrack$ 是一个包含 $t$ 和 $t + 1$ 的区间。由于对手知道 ${x}_{\left\lbrack 0,t\right\rbrack }$ ，它可以从 ${c}_{I}$ 中减去直到时间 $t$ 为止数据流的贡献（即，它从在时间 $t$ 观察到的 ${c}_{I}$ 中减去值 ${x}_{a},{x}_{a + 1},\ldots ,{x}_{t}$ ，所有这些它都知道）。由此，入侵者得知了 ${c}_{I}$ 初始化时所使用的拉普拉斯抽样的值。当 ${c}_{I}$ 在步骤 $b$ 结束时被公布时，对手从公布的值中减去这个初始抽样值，以及 ${x}_{\left\lbrack a,b\right\rbrack }$ 中除 ${x}_{t + 1}$ 之外所有元素的贡献，而 ${x}_{t + 1}$ 是它不知道的。剩下的就是未知的 ${x}_{t + 1}$ 。

12.3.1 泛隐私计数

尽管图12.1中的算法可以轻松修改，以确保针对单次入侵的事件级泛隐私性，但我们在此给出一种不同的算法，以便引入一种强大的双射技术，该技术已被证明在其他应用中很有用。该算法在其内部状态中维护一个单一的噪声计数器（或累加器），以及每个时间间隔的噪声值。在任何给定时间段 $t$ 的输出是累加器和包含 $t$ 的时间间隔的噪声值之和。当一个时间间隔 $I$ 结束时，其关联的噪声值 ${\eta }_{I}$ 将从内存中删除。

定理12.5。图12.2中的计数器算法，在使用参数 $T,\varepsilon$ 运行且最多遭受一次入侵时，会产生一个 $\left( {\varepsilon ,0}\right)$ - 泛隐私计数器，该计数器至少以 $\beta$ 的概率在其 $T$ 个输出上的最大误差为 $O\left( {\log \left( {1/\beta }\right) \cdot {\log }^{2.5}T/\varepsilon }\right)$ 。我们还注意到，在每一轮单独（而非所有轮同时）中，除了 $\beta$ 的概率外，误差的幅度最多为 $O(\log \left( {1/\beta }\right)$ 。 ${\log }^{1.5}T/\varepsilon )$ 。

证明。准确性的证明与图12.1中算法的证明相同，依赖于推论12.4。我们在此重点关注泛隐私性的证明。

在原子步骤 ${t}^{ * }$ 和 ${t}^{ * } + 1$ 之间的入侵期间，即紧接在输入流中处理元素 ${t}^{ * }$ 之后

泛隐私计数器 $\left( {T,\varepsilon }\right)$

初始化。初始化 $\xi = \left( {1 + \log T}\right) /\varepsilon$ ，并采样计数器 $\sim \operatorname{Lap}\left( \xi \right)$ 。

时间间隔。对于 $\in \{ 1,\ldots ,\log T\}$ ，将每个字符串 $\in \{ 0,1{\} }^{i}$ 与时间间隔 $S$ 关联起来

${2}^{\log T - i}$ 个时间段 $\left\{ {s \circ {0}^{\log T - i},\ldots s \circ {1}^{\log T - i}}\right\}$ 。该时间间隔从时间 $\circ {0}^{\log T - i}$ 开始，结束于

时间 $\circ {1}^{\log T - i}$ 。

处理。在时间段 $\in \{ 0,1,\ldots ,T - 1\}$ ，设 ${x}_{t} \in \{ 0,1\}$ 为第 $t$ 个输入位：

计数器 $\leftarrow$ 计数器 ${x}_{t}$ ；
对于每个在时间 $t$ 开始的时间间隔 $I$ ，采样噪声 ${\eta }_{I} \sim \operatorname{Lap}\left( \xi \right)$ ；
设 ${I}_{1},\ldots ,{I}_{\log T}$ 为包含 $t$ 的 $\log T$ 个时间间隔。输出计数器 $\mathop{\sum }\limits_{{i = 1}}^{{\log T}}{\eta }_{{I}_{i}}$ 。
对于每个在时间 $t$ 结束的时间间隔 $I$ ，删除 ${\eta }_{I}$ 。

图12.2：事件级泛隐私计数器算法。

在这里插入图片描述

(请记住，我们从 0 开始对元素进行编号)，对手的视角包括：(1) 含噪声的累积计数（在变量“count”中）；(2) 入侵发生时内存中的区间噪声值 ${\eta }_{S}$ ；以及 (3) 轮次 $0,1,\ldots ,t$ 中算法所有输出的完整序列。考虑相邻数据库 $x$ 和 ${x}^{\prime }$ ，它们在时间 $t$ 上有所不同，不失一般性地说，假设 ${x}_{t} = 1$ 和 ${x}_{t}^{\prime } = 0$ ，并且在时间段 ${t}^{ * } \geq t$ 之后立即发生入侵（我们将在下面讨论 ${t}^{ * } < t$ 的情况）。我们将描述在 $x$ 上执行和在 ${x}^{\prime }$ 上执行时所使用的噪声值向量之间的一一对应关系，使得相应的噪声值在 $x$ 和 ${x}^{\prime }$ 上诱导出相同的对手视角，并且相邻噪声值的概率仅相差一个 ${e}^{\varepsilon }$ 乘法因子。这意味着满足 $\varepsilon$ - 差分泛隐私。

根据假设，当输入为 $x$ 时，时间段 ${t}^{ * } \geq t$ 刚结束后的真实计数比输入为 ${x}^{\prime }$ 时更大。固定输入流为 $x$ 时的任意一次执行 ${E}_{x}$ 。这相当于固定了算法的随机性，进而固定了所生成的噪声值。我们将通过描述其噪声值与 ${E}_{x}$ 中的噪声值有何不同来描述相应的执行 ${E}_{{x}^{\prime }}$ 。

程序变量 Counter 用拉普拉斯噪声进行初始化。通过在 ${E}_{{x}^{\prime }}$ 中将此噪声增加 1，步骤 ${t}^{ * }$ 刚结束时 Counter 的值在 ${E}_{{x}^{\prime }}$ 和 ${E}_{x}$ 中相同。时间段 ${t}^{ * }$ 刚结束时内存中的噪声变量与输入无关；这些在 ${E}_{{x}^{\prime }}$ 中将保持不变。我们将通过改变一组 $\log T$ 区间噪声值 ${\eta }_{S}$ （对手入侵时这些值不在内存中），使 ${E}_{{x}^{\prime }}$ 中的输出序列与 ${E}_{x}$ 中的输出序列相同，从而使得直到 $t - 1$ 的所有轮次中所有噪声值的总和不变，但从轮次 $t$ 开始，数据库 ${x}^{\prime }$ 的噪声值总和比 $x$ 的大 1。由于我们增加了 Counter 的初始化噪声，现在需要将时间段 $0,\ldots ,t - 1$ 的区间噪声值总和减少 1，并保持从时间段 $t$ 开始的区间噪声值总和不变。

为此，我们找到一个并集为 $\{ 0,\ldots ,t - 1\}$ 的不相交区间集合。总是存在这样的集合，并且其大小至多为 $\log T$ 。我们可以通过迭代的方式构造它，对于从 $\left\lfloor {\log \left( {t - 1}\right) }\right\rfloor$ 递减到 0 的 $i$ ，选择大小为 ${2}^{i}$ 且包含在 $\{ 0,\ldots ,t - 1\}$ 中但不包含在先前选择的区间内的区间（如果存在这样的区间）。给定这个不相交区间集合，我们还注意到它们都在时间 $\leq {t}^{ * }$ 结束，因此对手入侵时（恰好在时间段 ${t}^{ * }$ 之后）它们的噪声不在内存中。总体而言（同时考虑改变 Counter 的初始噪声值），对手看到的完整视角是相同的，并且用于 $x$ 和 ${x}^{\prime }$ 的（集合的）噪声值的概率至多相差一个 ${e}^{\varepsilon }$ 乘法因子。

注意，我们假设了 ${t}^{ * } \geq t$ 。如果 ${t}^{ * } < t$ ，那么在 ${E}_{{x}^{\prime }}$ 中添加到计数器的初始噪声将与在 ${E}_{x}$ 中相同，并且我们需要在从 $t$ 到 $T$ 的每个时间段内，将区间噪声的总和加1（ $t$ 时刻之前的区间噪声总和保持不变）。这与上述操作一样，通过找到一个最多包含 $\log T$ 个区间的不相交集合来精确覆盖 $\{ t,\ldots ,T - 1\}$ 。当在 ${t}^{ * } < t$ 时刻发生入侵时，这些区间的噪声值尚未存储在内存中，证明过程类似。

12.3.2 一个（关于 $T$ 的）对数下界

鉴于定理12.5中的上界，其中误差仅与 $T$ 呈多项式对数关系，很自然会问是否存在某种内在的依赖关系。在本节中，我们将证明对 $T$ 的对数依赖确实是内在的。

定理12.6。任何用于对 $T$ 轮进行计数的差分隐私事件级算法的误差必须为 $\Omega \left( {\log T}\right)$ （即使在 $\varepsilon = 1$ 的情况下也是如此）。

证明。设 $\varepsilon = 1$ 。为了推出矛盾，假设存在一个用于长度为 $T$ 的流的差分隐私事件级计数器，该计数器保证在至少 $2/3$ 的概率下，其在所有时间段的计数误差最大不超过 $\left( {{\log }_{2}T}\right) /4$ 。设 $k =$ $\left( {{\log }_{2}T}\right) /4$ 。我们按如下方式构造一个包含 $T / k$ 个输入的集合 $S$ 。将 $T$ 个时间段划分为 $T / k$ 个连续的阶段，每个阶段的长度为 $k$ （可能最后一个阶段除外）。对于 $1,\ldots ,T/k$ ，第 $i$ 个输入 ${x}^{i} \in S$ 除了在第 $i$ 个阶段外，其他位置的输入位均为0。即， ${x}^{i} =$ ${0}^{k \cdot i} \circ {1}^{k} \circ {0}^{k \cdot \left( {\left( {T/k}\right) - \left( {i + 1}\right) }\right) }$ 。

对于 $\leq i \leq T/k$ ，如果在第 $i$ 个阶段之前输出小于 $k /2$ ，并且在第 $i$ 个阶段结束时输出至少为 $k /2$ ，我们就说该输出与 $i$ 匹配。根据准确性，在输入为 ${x}^{i}$ 时，输出应至少以 $2/3$ 的概率与 $i$ 匹配。根据 $\varepsilon$ 差分隐私，这意味着对于每个满足 $\neq j$ 的 $\in \left\lbrack {T/k}\right\rbrack$ ，在输入为 ${x}^{i}$ 时，输出应至少以

${e}^{-{2\varepsilon } \cdot k} = {e}^{-\varepsilon \log \left( {T}^{1/2}\right) }$

${e}^{-\log \left( {T}^{1/2}\right) } = 1/\sqrt{T}.$

这是一个矛盾，因为对于不同的 $j$ ，输出与 $j$ 匹配的事件是不相交的，但在输入为 ${x}^{i}$ 时，它们的概率之和超过了1。

12.4 查询发布的平均情况误差

在第4节和第5节中，我们考虑了用于解决私有查询发布问题的各种机制，当时我们关注的是最坏情况误差。也就是说，给定一个大小为 $\left| \mathcal{Q}\right| = k$ 的查询类 $\mathcal{Q}$ ，我们希望恢复一个答案向量 $\widehat{a} \in {\mathbb{R}}^{k}$ ，使得对于每个查询 ${f}_{i} \in \mathcal{Q}$ ，在某个最坏情况误差率 $\alpha$ 下满足 $\left| {{f}_{i}\left( x\right) - {\widehat{a}}_{i}}\right| \leq \alpha$ 。换句话说，如果我们用 $\in {\mathbb{R}}^{k}$ 表示真实答案的向量，其中 ${a}_{i} \equiv {f}_{i}\left( x\right)$ ，那么我们需要一个形如 $\parallel a - \widehat{a}{\parallel }_{\infty } \leq \alpha$ 的界。在本节中，我们考虑一种弱化的效用保证，针对 ${\ell }_{2}$ （而非 ${\ell }_{\infty }$ ）误差：一个形如 $\parallel a - \widehat{a}{\parallel }_{2} \leq \alpha$ 的界。这种形式的界并不能保证我们对每个查询都有低误差，但它确实保证了平均而言，我们的误差较小。

尽管这种界比最坏情况误差的界更弱，但该机制特别简单，并且它利用了一种我们此前未曾见过的、对查询发布问题的优雅几何视角。

回想一下，我们可以将数据库 $x$ 视为一个向量 $\in {\mathbb{N}}^{\left| \mathcal{X}\right| }$ ，其中 $\parallel x{\parallel }_{1} = n$ 。类似地，我们也可以将查询 ${f}_{i} \in \mathcal{Q}$ 视为向量 ${f}_{i} \in {\mathbb{N}}^{\left| \mathcal{X}\right| }$ ，使得 ${f}_{i}\left( x\right) = \left\langle {{f}_{i},x}\right\rangle$ 。因此，将我们的查询类 $\mathcal{Q}$ 视为一个矩阵 $\in {\mathbb{R}}^{k \times \left| \mathcal{X}\right| }$ 会很有帮助，其中 $A$ 的第 $i$ 行就是向量 ${f}_{i}$ 。然后我们可以看到，用矩阵表示法，我们的答案向量 $\in {\mathbb{R}}^{k}$ 为：

$\cdot x = a.$

让我们考虑将 $A$ 视为线性映射时的定义域和值域。用 ${B}_{1} = \left\{ {x \in {\mathbb{R}}^{\left| \mathcal{X}\right| } : \parallel x{\parallel }_{1} = 1}\right\}$ 表示 $\left| \mathcal{X}\right|$ 维空间中的单位 ${\ell }_{1}$ 球。注意到 $\in n{B}_{1}$ ，因为 $\parallel x{\parallel }_{1} = n$ 。我们将 $n{B}_{1}$ 称为“数据库空间”。记 $K = A{B}_{1}$ 。类似地注意到，对于所有的 $\in n{B}_{1},a = A \cdot x \in {nK}$ 。我们将 ${nK}$ 称为“答案空间”。我们对 $K$ 做几点观察：注意到因为 ${B}_{1}$ 是中心对称的，所以 $K -$ 也是中心对称的，即 $K = - K$ 。还要注意到 $\subset {\mathbb{R}}^{k}$ 是一个凸多面体，其顶点 $\pm {A}^{1},\ldots , \pm {A}^{\left| \mathcal{X}\right| }$ 等于 $A$ 的列向量及其负向量。

以下算法极其简单：它只是使用拉普拉斯机制（Laplace mechanism）独立地回答每个查询，然后将结果投影回答案空间。换句话说，它为每个查询添加独立的拉普拉斯噪声（Laplace noise），正如我们所见，这本身会导致与 $k$ 呈线性关系的失真（或者，如果我们放宽到 $\left( {\varepsilon ,\delta }\right)$ -差分隐私（differential privacy），至少与 $\sqrt{k}$ 呈线性关系）。然而，得到的答案向量 $\widetilde{a}$ 可能与数据库空间中的任何数据库 $\in n{B}_{1}$ 都不一致。因此，它不是返回 $\widetilde{a}$ ，而是返回某个与 $\widetilde{a}$ 尽可能接近的一致答案向量 $\widehat{a} \in {nK}$ 。正如我们将看到的，这个投影步骤提高了机制的准确性，同时对隐私没有影响（因为这只是后处理！）

我们首先观察到投影（Project）是差分隐私的。

定理12.7。对于任何 $\in {\left\lbrack 0,1\right\rbrack }^{k \times \left| \mathcal{X}\right| }$ ，投影 $\left( {x,A,\varepsilon }\right)$ 保留 $\left( {\varepsilon ,\delta }\right)$ -差分隐私。

算法18 $K$ -投影拉普拉斯机制（Projected Laplace Mechanism）。它以矩阵 $\in {\left\lbrack 0,1\right\rbrack }^{k \times \left| \mathcal{X}\right| }$ 、数据库 $\in n{B}_{1}$ 以及隐私参数 $\varepsilon$ 和 $\delta$ 作为输入。

投影 $\left( {x,A,\varepsilon ,\delta }\right)$ ：

设 $\cdot x$

对于每个 $\in \left\lbrack k\right\rbrack$ ，采样 ${\nu }_{i} \sim \operatorname{Lap}\left( {\sqrt{{8k}\ln \left( {1/\delta }\right) }/\varepsilon }\right)$ ，并设 $\widetilde{a} = a + \nu$ 。

输出 $\widehat{a} = \arg \mathop{\min }\limits_{{\widehat{a} \in {nK}}}\parallel \widehat{a} - \widetilde{a}{\parallel }_{2}^{2}$ 。

在这里插入图片描述

证明。我们只需注意到 $\widetilde{a}$ 是拉普拉斯机制对敏感度为1的查询 $k$ 的输出，根据定理3.6和3.20，它是 $\left( {\varepsilon ,\delta }\right)$ -差分隐私的。最后，由于 $\widehat{a}$ 是从 $\widetilde{a}$ 导出的，且没有进一步访问私有数据，根据差分隐私的后处理保证（命题2.1）， $\widehat{a}$ 的发布是差分隐私的。

定理12.8。对于任何线性查询类 $A$ 和数据库 $x$ ，设 $\cdot x$ 表示真实答案向量。设 $\widehat{a}$ 表示机制投影的输出： $\widehat{a} = \operatorname{Project}\left( {x,A,\varepsilon }\right)$ 。至少以 $\beta$ 的概率：

$\parallel a - \widehat{a}{\parallel }_{2}^{2} \leq \frac{{kn}\sqrt{{192}\ln \left( {1/\delta }\right) \ln \left( {2\left| \mathcal{X}\right| /\beta }\right) }}{\varepsilon }.$

为了证明这个定理，我们将引入凸几何中的几个简单概念。对于一个凸体 $\subset {\mathbb{R}}^{k}$ ，其极体 ${K}^{ \circ }$ 定义为 ${K}^{ \circ } = \left\{ {y \in {\mathbb{R}}^{k} : \langle y,x\rangle \leq 1\text{for all}x \in K}\right\}$ 。由凸体 $K$ 定义的闵可夫斯基范数（Minkowski Norm）为

$\parallel x{\parallel }_{K} \equiv \min \{ r \in \mathbb{R}\text{ such that }x \in {rK}\} .$

$\parallel x{\parallel }_{K}$ 的对偶范数是由 $K$ 的极体诱导的闵可夫斯基范数，即 $\parallel x{\parallel }_{{K}^{ \circ }}$ 。该范数还具有以下形式：

$\parallel x{\parallel }_{{K}^{ \circ }} = \mathop{\max }\limits_{{y \in K}}\langle x,y\rangle .$

我们将使用的关键事实是赫尔德不等式（Holder’s Inequality），所有中心对称的凸体 $K$ 都满足该不等式：

$\left| {\langle x,y\rangle }\right| \leq \parallel x{\parallel }_{K}\parallel y{\parallel }_{{K}^{ \circ }}.$

定理12.8的证明。证明将分两步进行。首先，我们将证明： $\parallel a - \widehat{a}{\parallel }_{2}^{2} \leq 2\langle \widehat{a} - a,\widetilde{a} - a\rangle$ ，然后我们将使用赫尔德不等式来界定第二个量。

引理12.9。

$\parallel a - \widehat{a}{\parallel }_{2}^{2} \leq 2\langle \widehat{a} - a,\widetilde{a} - a\rangle$

证明。我们计算：

$\parallel \widehat{a} - a{\parallel }_{2}^{2} = \langle \widehat{a} - a,\widehat{a} - a\rangle$

$\langle \widehat{a} - a,\widetilde{a} - a\rangle + \langle \widehat{a} - a,\widehat{a} - \widetilde{a}\rangle$

$\leq 2\langle \widehat{a} - a,\widetilde{a} - a\rangle .$

该不等式可通过以下计算得出：

$\langle \widehat{a} - a,\widetilde{a} - a\rangle = \parallel \widetilde{a} - a{\parallel }_{2}^{2} + \langle \widehat{a} - \widetilde{a},\widetilde{a} - a\rangle$

$\geq \parallel \widehat{a} - \widetilde{a}{\parallel }_{2}^{2} + \langle \widehat{a} - \widetilde{a},\widetilde{a} - a\rangle$

$\langle \widehat{a} - \widetilde{a},\widehat{a} - a\rangle ,$

其中最后一个不等式成立是因为根据 $\widehat{a}$ 的选择，对于所有 ${a}^{\prime } \in$ $\parallel \widetilde{a} - \widehat{a}{\parallel }_{2}^{2} \leq {\begin{Vmatrix}\widetilde{a} - {a}^{\prime }\end{Vmatrix}}_{2}^{2}.$

我们现在可以完成证明。回想一下，根据定义， $\widetilde{a} - a = \nu$ 是拉普拉斯机制添加的独立同分布拉普拉斯噪声向量。根据引理12.9和赫尔德不等式，我们有：

$\parallel a - \widehat{a}{\parallel }_{2}^{2} \leq 2\langle \widehat{a} - a,\nu \rangle$

$\leq 2\parallel \widehat{a} - a{\parallel }_{K}\parallel \nu {\parallel }_{{K}^{ \circ }}.$

我们分别界定这两项。由于根据定义 $\widehat{a},a \in {nK}$ ，我们有 $\max \left( {\parallel \widehat{a}{\parallel }_{K},\parallel a{\parallel }_{K}}\right) \leq n$ ，因此根据三角不等式， $\parallel \widehat{a} -$ $a\parallel K \leq {2n}$ 。

接下来，注意到由于 $\parallel \nu {\parallel }_{{K}^{ \circ }} = \mathop{\max }\limits_{{y \in K}}\langle y,\nu \rangle$ ，并且由于线性函数在多面体上的最大值在顶点处取得，我们有： $\parallel \nu {\parallel }_{{K}^{ \circ }} = \mathop{\max }\limits_{{i \in \left\lbrack \left| \mathcal{X}\right| \right\rbrack }}\left| \left\langle {{A}^{i},\nu }\right\rangle \right|$ 。

因为每个 ${A}^{i} \in {\mathbb{R}}^{k}$ 都满足 ${\begin{Vmatrix}{A}^{i}\end{Vmatrix}}_{\infty } \leq 1$ ，并且回想一下，对于任何标量 $q$ ，如果 $\sim \operatorname{Lap}\left( b\right)$ ，那么 $\sim \operatorname{Lap}\left( {qb}\right)$ ，我们可以应用引理12.2来界定拉普拉斯随机变量的加权和 $\left\langle {{A}^{i},\nu }\right\rangle$ 。这样做，我们得到至少以概率 $\beta$ ：

$\mathop{\max }\limits_{{i \in \left\lbrack \left| \mathcal{X}\right| \right\rbrack }}\left| \left\langle {{A}^{i},\nu }\right\rangle \right| \leq \frac{{8k}\sqrt{\ln \left( {1/\delta }\right) \ln \left( {\left| \mathcal{X}\right| /\beta }\right) }}{\epsilon }.$

综合上述所有界，我们得到以概率 $\beta$ ：

$\parallel a - \widehat{a}{\parallel }_{2}^{2} \leq \frac{{16nk}\sqrt{\ln \left( {1/\delta }\right) \ln \left( {\left| \mathcal{X}\right| /\beta }\right) }}{\epsilon }.$

让我们解释一下这个界。注意到 $\parallel a - \widehat{a}{\parallel }_{2}^{2} = \mathop{\sum }\limits_{{i = 1}}^{k}{\left( {a}_{i} - {\widehat{a}}_{i}\right) }^{2}$ ，因此这是所有查询的平方误差之和的界。因此，该机制的每个查询的平均平方误差仅为：

$\frac{1}{k}\mathop{\sum }\limits_{{i = 1}}^{k}{\left( {a}_{i} - {\widehat{a}}_{i}\right) }^{2} \leq \frac{{16n}\sqrt{\ln \left( {1/\delta }\right) \ln \left( {\left| \mathcal{X}\right| /\beta }\right) }}{\epsilon }.$

相比之下，私有乘法权重机制保证了 $\mathop{\max }\limits_{{i \in \left\lbrack k\right\rbrack }}\left| {{a}_{i} - {\widehat{a}}_{i}}\right| \leq \widetilde{O}\left( {\sqrt{n}\log {\left| \mathcal{X}\right| }^{1/4}/{\varepsilon }^{1/2}}\right)$ ，因此与投影拉普拉斯机制的均方误差保证相匹配，其界限为： $\widetilde{O}\left( {n\sqrt{\log \left| \mathcal{X}\right| }/\varepsilon }\right)$ 。然而，乘法权重机制（尤其是其隐私分析）比投影拉普拉斯机制复杂得多！特别是， $K$ - 投影拉普拉斯机制的私有部分仅仅是拉普拉斯机制本身，并且不需要查询之间的协调。有趣的是——事实证明，这是必要的——协调发生在投影阶段。由于投影是在后期处理中进行的，因此不会产生进一步的隐私损失；实际上，它可以由数据分析师自己（必要时在线）进行。

12.5 参考文献注释

数据隐私的局部模型源于随机响应，这一概念最早由华纳（Warner）在1965年提出 [84]。局部模型由卡西维斯瓦纳坦（Kasiviswanathan）等人 [52] 在学习的背景下进行了形式化，他们证明了局部模型中的私有学习等同于统计查询（SQ）模型中的非私有学习。古普塔（Gupta）等人 [38] 证明了在局部模型中可以发布的查询集恰好等于在SQ模型中可以进行不可知学习的查询集。

泛隐私（Pan - Privacy）由德沃尔（Dwork）等人 [27] 引入，并由米尔（Mir）等人 [62] 进一步探索。泛私有密度估计以及使用哈希的低内存变体出现在 [27] 中。

持续观察下的隐私由德沃尔（Dwork）等人 [26] 引入；我们用于持续观察下计数的算法以及误差下界均来自该论文。陈（Chan）等人 [11] 也给出了类似的算法。引理12.2中给出的拉普拉斯随机变量和的测度集中不等式的证明来自 [11]。

用于实现低平均误差的投影拉普拉斯机制由尼科洛夫（Nikolov）等人 [66] 提出，他们还针对任何查询类给出了（平均误差）查询发布问题的实例最优算法。这项工作扩展了由哈德特（Hardt）和塔尔瓦尔（Talwar） [45] 开创的关于差分隐私与几何之间联系的一系列研究，并由巴斯卡拉（Bhaskara）等人 [5] 和德沃尔（Dwork）等人 [30] 进一步拓展。

德沃尔（Dwork）、诺尔（Naor）和瓦德汉（Vadhan）证明了无状态和有状态差分隐私机制能够回答（具有非平凡误差）的查询数量之间存在指数级差距 [29]。得到的经验教训是——协调对于准确且私密地回答大量查询至关重要——这似乎排除了投影拉普拉斯机制中独立添加噪声的可能性。该算法的有状态性出现在投影步骤中，从而解决了这一矛盾。

目录导航

第1章：https://blog.csdn.net/AdamCY888/article/details/146454841
第2章:https://blog.csdn.net/AdamCY888/article/details/146455093
第3章(1/3):https://blog.csdn.net/AdamCY888/article/details/146455756
第3章(2/3):https://blog.csdn.net/AdamCY888/article/details/146455796
第3章(3/3):https://blog.csdn.net/AdamCY888/article/details/146455328
第4章:https://blog.csdn.net/AdamCY888/article/details/146455882
第5章:https://blog.csdn.net/AdamCY888/article/details/146456100
第6章(1/2):https://blog.csdn.net/AdamCY888/article/details/146456712
第6章(2/2):https://blog.csdn.net/AdamCY888/article/details/146456972
第7章:https://blog.csdn.net/AdamCY888/article/details/146457037
第8章:https://blog.csdn.net/AdamCY888/article/details/146457172
第9章:https://blog.csdn.net/AdamCY888/article/details/146457257
第10章:https://blog.csdn.net/AdamCY888/article/details/146457331
第11章:https://blog.csdn.net/AdamCY888/article/details/146457418
第12章:https://blog.csdn.net/AdamCY888/article/details/146457489
第13章(含附录):https://blog.csdn.net/AdamCY888/article/details/146457601