On the Security of Verifiable and Oblivious Secure Aggregation for Privacy-Preserving Federated Learning -- 关于隐私保护联邦中可验证与遗忘的安全聚合的安全性
- 论文来源
- 摘要
- Introduction
- 回顾 VOSA 方案
- 对VOSA不可伪造性的攻击
- 对于类型 I 的攻击
- 对于类型 II 的攻击
论文来源
名称 | On the Security of Verifiable and Oblivious Secure Aggregation for Privacy-Preserving Federated Learning |
---|---|
期刊 | TDSC 2024 |
作者 | Jiahui Wu; Weizhe Zhang |
摘要
Recently, to resist privacy leakage and aggregation result forgery in federated learning (FL), Wang et al. proposed a verifiable and oblivious secure aggregation protocol for FL, called VOSA. They claimed that VOSA was aggregate unforgeable and verifiable under a malicious aggregation server and gave detailed security proof. In this article, we show that VOSA is insecure, in which local gradients/aggregation results and their corresponding authentication tags/proofs can be tampered with without being detected by the verifiers. After presenting specific attacks, we analyze the reason for this security issue and give a suggestion to prevent it.
最近,为了抵御联邦学习(FL)中的隐私泄露和聚合结果伪造,Wang等人提出了一种可验证且不经意的联邦学习安全聚合协议,称为VOSA。他们声称,在VOSA协议中,恶意聚合服务器是无法伪造和可验证的,并给出了详细的安全证明。本文中,我们展示了VOSA是不安全的,其中 本地梯度/聚合结果 及其对应的 认证标签/证明 可以被篡改而不被验证者检测到。在展示具体攻击之后,我们分析了此安全问题的原因,并提出了防止该问题的建议。
Introduction
- 联邦学习(FL)是一种流行的分布式机器学习范式,它使多个用户能够在不共享其私有数据集的情况下共同训练模型。在FL中,每个用户只需提交其训练后的本地梯度到中央聚合服务器(AS)进行全局模型聚合。这样可以在利用分布式数据集的同时缓解这些数据集的隐私泄露,从而获得更准确的全局模型。然而,提交的本地梯度也泄露了数据隐私。此外,未经信任的AS可能会修改或伪造聚合结果以欺骗用户。
- 为减轻上述两个安全问题,Wang等人最近提出了 VOSA 方案,该方案设计了一种用于联邦学习(FL)的可验证和不经意的安全聚合协议。在协议中,构建了加密方法和认证标签生成方法,以保护数据隐私并验证聚合结果的正确性。Wang等人声称,VOSA下恶意聚合服务器(AS)是不可伪造和可验证的,并给出了详细的安全性证明。不幸的是,在本文中,通过分析VOSA的安全性,我们表明它是不安全的。特别是,VOSA无法抵抗来自恶意AS的伪造攻击,我们发现AS可以伪造密文及其对应的标签,也可以伪造聚合结果及其证明,欺骗验证者(即用户)接受伪造的聚合结果。我们提出了针对VOSA的两个具体伪造攻击。在分析该安全问题的原因后,我们提供了一个建议以克服此问题。
回顾 VOSA 方案
在本节中,我们简要回顾VOSA方案。系统模型包含四个实体:密钥生成中心(KGC)、用户、收集器和聚合服务器(AS)。在威胁模型中,恶意的AS可能会篡改或伪造聚合结果和证明,以欺骗用户接受不正确的结果。下面,我们描述包含五个阶段的 VOSA 详细协议。
- 阶段 0:建立阶段:KGC 生成并发布公共系统参数 p m = { N , w 0 , g 1 , g 2 , h 1 , h 2 , G 1 , G 2 , G T , H 0 , H 1 } pm = \{N, w_0, g_1, g_2, h_1, h_2, G_1, G_2, G_T, H_0, H_1\} pm={N,w0,g1,g2,h1,h2,G1,G2,GT,H0,H1},其中 N = p q N = pq N=pq, p p p 和 q q q 是两个安全的大素数; w 0 w_0 w0 是初始模型参数; G 1 G_1 G1, G 2 G_2 G2 是两个素数阶为 p p p 的乘法循环群; g 1 g_1 g1, g 2 g_2 g2 分别是 G 1 G_1 G1, G 2 G_2 G2 的两个随机生成元; h 1 = g 1 a , h 2 = g 2 a , a ∈ Z p ∗ h_1 = g_1^a, h_2 = g_2^a, a \in Z_p^∗ h1=g1a,h2=g2a,a∈Zp∗; e : G 1 × G 2 → G T e : G_1 × G_2 \to G_T e:G1×G2→GT 是一个可计算的双线性对; H 0 : { 0 , 1 } ∗ → Z N 2 ∗ H_0 : \{0, 1\}^∗ \to Z_{N^2}^∗ H0:{0,1}∗→ZN2∗ 和 H 1 : { 0 , 1 } ∗ → G 1 H_1 : \{0, 1\}^∗ \to G_1 H1:{0,1}∗→G1 是两个哈希函数。AS 生成其秘密钥匙 s k A ∈ Z N 2 ∗ sk_A \in Z_{N^2}^∗ skA∈ZN2∗ 。每个用户 U i \mathcal{U}_i Ui 生成其加密钥匙 s k i ∈ [ 0 , N 2 ] sk_i ∈ [0, N^2] ski∈[0,N2] 和标签钥匙 t k i ∈ Z N 2 ∗ tk_i \in Z_{N^2}^∗ tki∈ZN2∗ 。
- 阶段 1:掩码和标签阶段:在第 t t t 次训练周期, U i \mathcal{U}_i Ui 将其本地梯度 w i , t w_{i,t} wi,t 加密为密文 C i , t = ( 1 + w i , t N ) H 0 ( t ) s k i m o d N 2 C_{i,t} = (1 + w_{i,t} N )H_0(t)^{sk_i} \ mod \ N^2 Ci,t=(1+wi,tN)H0(t)ski mod N2,并生成认证标签 T i , t = H 1 ( t ) t k i h 1 w i , t T_{i,t} = H_1(t)^{tk_i} h_1^{w_{i,t}} Ti,t=H1(t)tkih1wi,t 。然后 U i \mathcal{U}_i Ui 将 ( C i , t , T i , t ) (C_{i,t}, T_{i,t}) (Ci,t,Ti,t) 发送到 AS 。
- 阶段2:收集阶段:AS生成其公钥 p k A , t = ( p k A , t 1 , p k A , t 2 ) pk_{A,t} = (pk_{A,t}^1, pk_{A,t}^2) pkA,t=(pkA,t1,pkA,t2) 并将其分发给所有用户 U i ∈ U 1 \mathcal{U}_i \in \mathcal{U}_1 Ui∈U1,其中 p k A , t 1 = H 0 ( t ) s k A pk_{A,t}^1 = H_0(t)^{sk_A} pkA,t1=H0(t)skA, p k A , t 2 = h 2 s k A pk_{A,t}^2 = h_2^{sk_A} pkA,t2=h2skA, U 1 \mathcal{U}_1 U1 包含所有将密文和标签发送给 AS 的用户。然后, U i \mathcal{U}_i Ui 生成其辅助信息 A u i , t = ( p k A , t 1 ) s k i , V k i , t = ( p k A , t 2 ) t k i Au_{i,t} = (pk_{A,t}^1)^{sk_i},Vk_{i,t} = (pk_{A,t}^2)^{tk_i} Aui,t=(pkA,t1)ski,Vki,t=(pkA,t2)tki 并将其发送给收集器。收集器构建用户列表 U 3 = U 1 ∩ U 2 \mathcal{U}_3 = \mathcal{U}_1 \cap \ \mathcal{U}_2 U3=U1∩ U2( U 2 \mathcal{U}_2 U2 包含所有将辅助信息发送给收集器的用户)并计算解密密钥 A u t = ∏ U i ∈ U 3 A u i , t Au_t = \prod_{\mathcal{U}_i \in \mathcal{U}_3} Au_{i,t} Aut=∏Ui∈U3Aui,t 和验证密钥 V k t = ∏ U i ∈ U 3 V k i , t Vk_t = \prod_{\mathcal{U}_i \in \mathcal{U}_3} Vk_{i,t} Vkt=∏Ui∈U3Vki,t 。最后,收集器将 A u t , U 3 Au_t, \mathcal{U}_3 Aut,U3 发送给AS,并将 V k t Vk_t Vkt 发送给 U 3 \mathcal{U}_3 U3 中的所有用户。
- 第3阶段:解密和聚合阶段:AS将 U 3 \mathcal{U}_3 U3 中所有用户的密文聚合为聚合密文 C t = ( ∏ U i ∈ U 3 C i , t ) s k A m o d N 2 C_t = (\prod_{\mathcal{U}_i \in \mathcal{U}_3} Ci,t)^{sk_A} \ mod \ N^2 Ct=(∏Ui∈U3Ci,t)skA mod N2,然后将其解密为聚合明文 W t = s k A − 1 C t A u t − 1 N m o d N W_t = sk_A^{−1 } \frac{\frac{C_t}{Au_t}-1}{N} \ mod \ N Wt=skA−1NAutCt−1 mod N 。AS 将所有认证标签聚合为证明 T t = ( ∏ U i ∈ U 3 T i , t ) s k A Tt = (\prod_{\mathcal{U}_i \in \mathcal{U}_3} T_{i,t})^{sk_A} Tt=(∏Ui∈U3Ti,t)skA,并将 ( W t , T t ) (W_t, T_t) (Wt,Tt) 发送给 U 3 \mathcal{U}_3 U3 中的所有用户。
- 第4阶段:验证阶段:每个用户通过检查 e ( T t , h 2 ) = ? e ( H 1 ( t ) , V k t ) ⋅ e ( h 1 W t , p k A , t 2 ) e(T_t, h_2) \stackrel{\text{\tiny ?}}{=} e(H_1(t), Vk_t) \cdot e(h_1^{W_t} , pk_{A,t}^2) e(Tt,h2)=?e(H1(t),Vkt)⋅e(h1Wt,pkA,t2) 来验证聚合明文的正确性。如果等式成立,那么 W t W_t Wt 是正确的聚合明文;否则,它是不正确的。
对VOSA不可伪造性的攻击
在VOSA中,Wang等人声称VOSA实现了聚合的不可伪造性和可验证性,以抵御恶意的AS发起 篡改 / 伪造攻击 ,欺骗用户接受错误的聚合结果。
然而,我们发现它不能抵抗两种类型的伪造攻击:
- 类型 I:AS 篡改任意用户的密文 / 标签对,并欺骗所有用户接受聚合结果。
- 类型 II:AS 篡改聚合结果及其证明,以欺骗所有用户接受篡改后的聚合结果。
我们在下面提供详细的攻击情况。
对于类型 I 的攻击
AS 首先篡改了任意用户 U i ∈ U 3 \mathcal{U}_i \in \mathcal{U}_3 Ui∈U3 的密文/标签对,如下所示:
- AS 计算 ( 1 + w i , t ′ N , h 1 w i , t ′ ) (1+w_{i,t}'N , h_1^{w_{i,t}'}) (1+wi,t′N,h1wi,t′) ,其中 w i , t ′ w_{i,t}' wi,t′ 是 AS 任意伪造的梯度。
- AS篡改了 U i \mathcal{U}_i Ui 的密文/标签对 ( C i , t , T i , t ) (C_{i,t}, T_{i,t}) (Ci,t,Ti,t) 为篡改后的密文/标签对。
其中 w i , t ∗ = w i , t + w i , t ′ w_{i,t}^* = w_{i,t} + w_{i,t}' wi,t∗=wi,t+wi,t′ 是被篡改的梯度。记 U ∗ ( U ∗ ⊆ U 3 ) \mathcal{U}^∗ (\mathcal{U}^∗ ⊆ \mathcal{U}_3) U∗(U∗⊆U3) 为其密文/标签对被 AS 篡改的用户列表。为了便于后续的呈现,我们将 U j ∈ U 3 ∖ U ∗ \mathcal{U}_j \in \mathcal{U}_3 \setminus \mathcal{U}^∗ Uj∈U3∖U∗ 的梯度表示为 w j , t ∗ = w j , t w_{j,t}^* = w_{j,t} wj,t∗=wj,t。
然后,AS 将所有 U 3 \mathcal{U}_3 U3 用户的密文聚合为伪造的聚合密文 C t ∗ C_t^∗ Ct∗ 如(1),并使用去伪装密钥 A u t Au_t Aut 和其私钥 s k A sk_A skA 解密 C t ∗ C_t^∗ Ct∗ 以获得伪造的聚合明文 W t ∗ W_t^∗ Wt∗ 如(2)。AS 计算伪造的聚合标签 T t ∗ T_t^∗ Tt∗ 如(3)。然后 AS 将 ( W t ∗ , T t ∗ ) (W_t^∗, T_t^∗) (Wt∗,Tt∗) 发送给 U 3 \mathcal{U}_3 U3 中的所有用户以进行验证。
在接收到伪造的聚合值
(
W
t
∗
,
T
t
∗
)
(W_t^∗, T_t^∗)
(Wt∗,Tt∗) 时,每个用户通过检查验证
W
t
∗
W_t^∗
Wt∗ 的正确性:
根据双线性配对性质,(4) 的左侧等于(4)的右侧。然后,
W
t
∗
W_t^∗
Wt∗ 被验证为正确,因此 VOSA 无法抵抗 I 型伪造攻击。
对于类型 II 的攻击
AS 先在
W
t
W_t
Wt 的基础上伪造一个聚合明文
W
t
∗
=
W
t
+
w
∗
W_t^∗ = W_t + w^∗
Wt∗=Wt+w∗,其中
w
∗
w^∗
w∗ 是一个随机选择的梯度。 然后,AS 修改
W
t
W_t
Wt 的证明
T
t
T_t
Tt 为证明
T
t
∗
=
T
t
⋅
h
1
w
∗
s
k
A
T_t^∗ = T_t \cdot \ h_1^{w^∗sk_A}
Tt∗=Tt⋅ h1w∗skA 。 最后,AS 将
(
W
t
∗
,
T
t
∗
)
(W_t^∗, T_t^∗)
(Wt∗,Tt∗) 发送给用户进行验证。 在验证阶段,每个用户验证:
因此,VOSA 无法抵抗 II 型伪造攻击。
讨论:我们攻击的主要原因是VOSA的加密 / 认证标签生成方法使得密文 / 标签可以轻易地被恶意对手篡改,而不需要用户的加密 / 标签密钥。更明确地说,在密文和标签时,用户密钥不会直接影响明文。具体,一个密文 C i , t = ( 1 + w i , t N ) H 0 ( t ) s k i m o d N 2 C_{i,t} = (1 + w_{i,t}N )H_0(t)^{sk_i} \ mod \ N^2 Ci,t=(1+wi,tN)H0(t)ski mod N2 / 标签 T i , t = H 1 ( t ) t k i h 1 w i , t T_{i,t} = H_1(t)^{tk_i} h_1^{w_{i,t}} Ti,t=H1(t)tkih1wi,t 可以被视为由两个独立部分组成: { C i , t ( 1 ) , C i , t ( 2 ) = { ( 1 + w i , t N ) , H 0 ( t ) s k i } / { T i , t ( 1 ) , T i , t ( 2 ) } = { h 1 w i , t , H 1 ( t ) t k i } \{C_{i,t}^{(1)} , C_{i,t}^{(2)} = \{(1 + w_{i,t}N ), H_0(t)^{sk_i} \} / \{T_{i,t}^{(1)} , T_{i,t}^{(2)} \} = \{h_1^{w_{i,t}} ,H_1(t)^{tk_i}\} {Ci,t(1),Ci,t(2)={(1+wi,tN),H0(t)ski}/{Ti,t(1),Ti,t(2)}={h1wi,t,H1(t)tki},密文 / 标签的两个部分分别包含明文 w i , t w_{i,t} wi,t 和密钥 s k i / t k i sk_i/tk_i ski/tki ,从而使我们可以在篡改包含明文的部分(即 C i , t ( 1 ) / T i , t ( 1 ) C_{i,t}^{(1)} / T_{i,t}^{(1)} Ci,t(1)/Ti,t(1))时进行攻击。
虽然我们的攻击可以通过将用户密钥放在部分 C i , t ( 1 ) C_{i,t}^{(1)} Ci,t(1) 和 T i , t ( 1 ) T_{i,t}^{(1)} Ti,t(1) 上来防止,但我们强调此方法对于VOSA来说难以维持解密的正确性。例如,我们将加密方法修改为 C i , t ~ = ( 1 + w i , t N ) s k i H 0 ( t ) s k i m o d N 2 \tilde{C_{i,t}} = (1 + w_{i,t}N )^{sk_i} H_0(t)^{sk_i} \ mod \ N^2 Ci,t~=(1+wi,tN)skiH0(t)ski mod N2,那么聚合密文是 C t ~ = ( ∏ U i ∈ U 3 C i , t ~ ) s k A m o d N 2 = ( 1 + s k A ∑ U i ∈ U 3 s k i w i , t N ) H 0 ( t ) s k A ∑ U i ∈ U 3 s k i m o d N 2 \tilde{C_t} = (\prod_{\mathcal{U}_i \in \mathcal{U}_3}\tilde{C_{i,t}})^{sk_A} \ mod \ N^2 = (1+sk_A\sum_{\mathcal{U}_i \in \mathcal{U}_3}sk_i w_{i,t}N)H_0(t)^{sk_A\sum_{\mathcal{U}_i \in \mathcal{U}_3}sk_i} \ mod \ N^2 Ct~=(∏Ui∈U3Ci,t~)skA mod N2=(1+skA∑Ui∈U3skiwi,tN)H0(t)skA∑Ui∈U3ski mod N2 ,并且其解密结果为 W t ~ = s k A − 1 C ~ A u t − 1 N m o d N = ∑ U i ∈ U 3 s k i w i , t m o d N ≠ ∑ U i ∈ U 3 w i , t m o d N \tilde{W_t} = sk_A^{-1} \frac{\frac{\tilde{C}}{Au_t}-1}{N}\ mod \ N =\sum_{\mathcal{U}_i \in \mathcal{U}_3}sk_i w_{i,t} \ mod \ N \neq \sum_{\mathcal{U}_i \in \mathcal{U}_3}w_{i,t} \ mod \ N Wt~=skA−1NAutC~−1 mod N=∑Ui∈U3skiwi,t mod N=∑Ui∈U3wi,t mod N。也就是说,解密结果不正确。
上述方法不可行,主要是因为用户自己生成的密钥彼此不同,因此这些密钥在解密时无法去除。因此,我们建议 可信的KGC生成一个相同的共享密钥 s s s ,并将其分享给所有用户。然后, U i \mathcal{U}_i Ui 进行加密、标签生成和解密操作,分别为: C i , t = ( 1 + w i , t N ) s H 0 ( t ) s k i m o d N 2 C_{i,t} = (1 + w_{i,t}N)^sH_0(t)^{sk_i} \ mod \ N^2 Ci,t=(1+wi,tN)sH0(t)ski mod N2 , T i , t = H 1 ( t ) t k i h 1 w i , t s T_{i,t} = H_1(t)^{tk_i} h_1^{w_{i,t}s} Ti,t=H1(t)tkih1wi,ts , 和 W t ~ = s k A − 1 C ~ A u t − 1 N s m o d N \tilde{W_t} = sk_A^{-1} \frac{\frac{\tilde{C}}{Au_t}-1}{Ns}\ mod \ N Wt~=skA−1NsAutC~−1 mod N。我们提醒,这种方法要求AS不与任何用户串通;否则,AS知道 s s s 后仍可发起我们的伪造攻击。