《横向联邦学习中 PCA差分隐私数据发布算法》论文算法原理笔记

论文地址：https://www.arocmag.com/article/01-2022-01-041.html

论文摘要

为了让不同组织在保护本地敏感数据和降维后发布数据隐私的前提下，联合使用 PCA进行降维和数据发布，提出横向联邦 PCA差分隐私数据发布算法。引入随机种子联合协商方案，在各站点之间以较少通信代价生成相同随机噪声矩阵。提出本地噪声均分方案，将均分噪声加在本地协方差矩阵上。一方面，保护本地数据隐私;另一方面，减少了噪声添加量，并且达到与中心化差分隐私 PCA算法相同的噪声水平。理论分析表明，该算法满足差分隐私，保证了本地数据和发布数据的隐私性，较同类算法噪声添加量降低。实验从隐私性和可用性角度评估该算法，证明该算法与同类算法相比具有更高的可用性。

本文算法主要涉及到的几个知识点

1、PCA：pca主成分分析，广泛应用于数据降维，是将原来的n维特征映射到k维特征上，而这k维是全新的正交特征，即主成分。如何求得这k个主成分？通过计算数据矩阵的协方差矩阵，得到特征值和特征向量，选择top k的特征值对应的特征向量就是k个主成分，它们的方差最大，而这些特征值对应的特征向量组成的矩阵，便可以将数据矩阵转化到新的空间中，实现数据特征降维。
协方差公式： $Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)$ 上式是两维的情况，多维的话就是一个协方差矩阵：
$Cov(X,Y,Z)=\begin{bmatrix} Cov(X,X) & Cov(X,Y) & Cov(X,Z) \\ Cov(Y,X) & Cov(Y,Y) & Cov(Y,Z) \\ Cov(Z,X) & Cov(Z,Y) & Cov(Z,Z) \end{bmatrix}$ 还有一个概念叫散度矩阵，是衡量数据的分散程度： $S=(n-1)\times Cov(X, Y)$ 这两者求出的特征向量是一致的。因此，整个PCA的求解过程可以如下：

求解整个样本的均值， $\mu=\frac{1}{n}\sum_{i=1}^nX_i$ ，这里 $\mu$ 也是一个m维（即m个特征）的向量。
求协方差cov， $cov=\frac{1}{n-1}(X-\mu)^T(X-\mu)$
根据协方差求特征值 $\Lambda=[\lambda_1,\lambda_2,...,\lambda_m]_{m\times 1}$ 和特征向量 $\Alpha=[\alpha_1,\alpha_2,...,\alpha_m]_{m\times m}$ .
最后利用特征向量进行降维： $Y=[X_{n\times m}\Lambda_{m\times k}]_{n\times k}$ ，其中 $\Lambda_{m\times k}$ 是按照特征值倒排的k个特征向量。

2、差分隐私：( $\epsilon,\delta$ )-差分隐私的定义，假设数据集 $X$ 和 $X^{'}$ 是“邻居数据集”，给定一个算法 $f，O\subseteq range(f)$ ，如果 $Pr[f(x)\in O] \le e^{\epsilon}Pr[f(x') \in O]+\delta$ 则算法 $f$ 满足( $\epsilon,\delta$ )-差分隐私，其中 $\epsilon$ 为隐私预算，是个经验值，且值越小，隐私保护水平越高， $\delta$ 是个差分隐私引入的松弛值。白话总结：差分隐私就是在引入噪声的情况下，实现数据的安全性。
具体的原理理解参考：https://zhuanlan.zhihu.com/p/139114240，
这篇文章中使用了差分隐私实现逻辑回归模型：https://zhuanlan.zhihu.com/p/464987876

差分隐私噪声引入机制：Laplace(拉普拉斯)机制、Exponential(指数)机制、Gaussian(高斯)机制。本文使用的是高斯机制

3、PCA高斯机制：假设算法 $f(X)=XX^T$ ，对 $f (X)$ 的输出加上满足 $N(0,τ^2)$ 分布 $τ=\Delta f \sqrt{2ln(1.25/ \delta)}/\epsilon$ 的随机噪声，则 $f (X)$ 满足 $(\epsilon, \delta)$ -差分隐私。其中 $X^TX$ 是 $X$ 的协方差矩阵。 $\Delta f=\displaystyle\max_{X,X'}||f(X)-f(X′)||_2$ 是 $f$ 的 $l_2$ 敏感度， $X$ 与 $X'$ 为邻居数据集。
例如:设 $X=(x_1,x_2,...,x_n)$ 与 $X'=(x_1,x_2,...,x'_n)$ 为邻居数据集，且 $x_i||_2≤1$ ， $\forall i∈[n]$ ，有算法 $A=\frac{1}{n}XX^T$ 与 $A'=\frac{1}{n} X'X'^{T}$ ，满足 $\displaystyle\max_{X,X'}||A-A'||_2≤\frac{1}{n}$ ，则此算法敏感度 $\Delta f=\frac{1}{n}$ ，令 $τ=\frac{1}{n}\sqrt{2ln(1.25/\delta)}/\epsilon$ ，对 $A$ 加上满足 $N(0，τ^2)$ 分布的随机噪声，则算法 $A$ 满足 $(\epsilon，\delta)$ -差分隐私。

本地均分扰动联邦PCA算法（ELFedPCA）

算法思想：在本地生成相同的随机噪声矩阵，通过均分随机噪声矩阵的方式，在本地扰动协方差矩阵，使得在服务器相加后的协方差矩阵满足差分隐私定义；设计隐私保护联合中心化方案，保护本地数据均值和总数的隐私。
使用场景如下：sites每个站点有自己的数据，server负责进行汇总pca，publisher负责发布server降维后的数据。
在这里插入图片描述
前提：设 $X\in \R^{n\times d}$ 为所有s个站点的数据集合，横向划分数据集 $X_1,...,X_s$ ，第 $i$ 个站点的数据 $X_i=(x_{i1},...,X_{iN_i})^T\in\R^{N_i\times d}$ ，其中 $d$ 为数据集的维度，且各站点的维度相同， $N_i$ 是站点 $i$ 的数据量。所有站点的总数据量 $n=\displaystyle\sum_{i=1}^sN_i$
算法流程：
1、中心化（减去均值）：在不泄露各站点的数据信息的情况下，让站点2生成s-1个和为0的小数 $a_2,a_3,...,a_s$ 与和为0的整数 $b_2,b_3,...,b_s$ ，然后将 $a_i,b_i$ 发给对应的站点 $i$ 。各个站点计算自己的sum和count，站点1为： $sum(s_1)=\sum_{k=1}^{N_1}x_{1k}，count(s_1)=N_1$ 其他站点 $i$ 为： $sum(s_i)=\sum_{k=1}^{N_i}x_{ik}+a_i，count(s_i)=N_i+b_i$ ，最后各站点 $i$ 将计算的sum和count发给站点1进行汇总： $sum(s)=\sum_{i=1}^ssum(s_i)，count(s)=\sum_{i=1}^scount(s_i)$ 由于 $\sum_{i=2}^sa_i=0,\sum_{i=2}^sb_i=0$ ，所以sum(s)就算所有站点的真实总和，count(s)就是所有站点的真实数据量。从而所有站点的数据的均值为： $\mu=\frac{sum(s)}{count(s)}$ 站点1在将计算得到的均值 $\mu$ 发给其他站点，做中心化操作: $x_i=x_i-\mu$

为什么要去中心化，如图，使得计算主成分时不会受到偏离值的影响。同时中心化是求协方差的一部分， $\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)$ 。

2、归一化，由于差分隐私PCA高斯机制要求 $||x_i||_2\le 1$ ，所以需要对数据进行归一化 $x_i=\frac{x_i}{||x_i||_2}$
前两步就是对数据进行 $(0, 1)$ 的标准化操作。

3、每个站点计算自己的协方差矩阵: $A_i=\frac{1}{N_i-1}X_i^TX_i$ 设所有的站点的数据 $X=(X_1,X_2,...,X_s)$ 的协方差为 $\frac{1}{N-1}A$
4、站点1生成一个随机种子seed，并设置合适的 $\epsilon$ 和 $\delta$ ，然后发送 $[seed,\epsilon,\delta]$ 给其他站点，各站点便可以生成相同的服从 $N(0,τ^2)$ 分布 $τ=\sqrt{2ln(1.25/\delta)}/n\epsilon$ ( $n$ 为所有站点数据量总和)的随机噪声矩阵 $E\in\R^{d\times d}$ ，将噪声矩阵均分 $E^{'} = E / s$ ( $s$ 为所有站点的总和)，然后再计算 $A_i'=A_i+E'$ 。便可以将加入均分随机噪声的的协方差矩阵发给站点1。
5、站点1累计所有站点发送来的加入均分随机噪声的协方差矩阵： $A'=A_1'+A_2'+...+A_s'$ 这个协方差 $A^{'}$ 和中心化差分隐私PCA加入噪声后的协方差矩阵相同，证明如下： $A'=A_1'+A_2'+...+A_s'=(A_1+E')+(A_2+E')+...+(A_s+E')$ $=(A_1+A_2+...+A_s)+s\times E'=A+E\quad\quad\quad\quad\quad\quad\quad\quad$
6、随后站点1对 $A^{'}$ 进行SVD分解，取top k个特征值对应的特征向量，得到 $V'\in\R^{d\times k}$ ，并将 $V^{'}$ 发送给其他站点。
7、其他站点计算降维后的数据 $Y_i=X_iV'，Y_i\in \R^{N_i\times k}$ ，并将 $Y_i$ 发送给站点1进行汇总： $Y=(Y_1,Y_2,...,Y_s)$

实验结果

本文对几个不同的数据集，对比DPdisPCA算法做了CE和SVM分类实验，实验结果如下：在这里插入图片描述

最后本文贡献

1、本文算法ELFedPCA是满足 $(\epsilon，\delta)$ -差分隐私的，可以很好的保护各站点的隐私。
2、本文算法ELFedPCA添加的噪声量比现有文献中的噪声添加量小。因为服从高斯分布的随机噪声方差越大，噪声越大。现有文献DPdisPCA采用的是在站点本地生成服从 $N(0,τ^2)$ 分布 $τ=\sqrt{2ln(1.25/\delta)}/N_i\epsilon$ 的随机噪声，因此本地添加噪声的方差与 $\frac{1}{N_i^2}$ 成正比。而ELFedPCA添加的噪声相当于中心化添加服从 $N(0,τ^2)$ 分布 $τ=\sqrt{2ln(1.25/\delta)}/n\epsilon$ ( $n$ 为所有站点数据量总和)的随机噪声，其噪声的方差与 $\frac{1}{n^2}$ 成正比。因为 $N_i \ll n$ ，所以 $\frac{1}{N_i^2} > \frac{1}{n^2}$ 。则ELFedPCA添加的噪声量更小。