Full-RNS CKKS

参考文献：

[HS13] Halevi S, Shoup V. Design and implementation of a homomorphic-encryption library[J]. IBM Research (Manuscript), 2013, 6(12-15): 8-36.
[BEHZ16] Bajard J C, Eynard J, Hasan M A, et al. A full RNS variant of FV like somewhat homomorphic encryption schemes[C]//International Conference on Selected Areas in Cryptography. Cham: Springer International Publishing, 2016: 423-442.
[CHKKS18a] Cheon J H, Han K, Kim A, et al. A full RNS variant of approximate homomorphic encryption[C]//Selected Areas in Cryptography–SAC 2018: 25th International Conference, Calgary, AB, Canada, August 15–17, 2018, Revised Selected Papers 25. Springer International Publishing, 2019: 347-368.
[CHKKS18b] Cheon J H, Han K, Kim A, et al. Bootstrapping for approximate homomorphic encryption[C]//Advances in Cryptology–EUROCRYPT 2018: 37th Annual International Conference on the Theory and Applications of Cryptographic Techniques, Tel Aviv, Israel, April 29-May 3, 2018 Proceedings, Part I 37. Springer International Publishing, 2018: 360-384.
[CHH18] Cheon J H, Han K, Hhan M. Faster homomorphic discrete fourier transforms and improved fhe bootstrapping[J]. Cryptology ePrint Archive, 2018.
[HS18] Halevi S, Shoup V. Faster homomorphic linear transformations in HElib[C]//Annual International Cryptology Conference. Cham: Springer International Publishing, 2018: 93-120.
[CCS19] Chen H, Chillotti I, Song Y. Improved bootstrapping for approximate homomorphic encryption[C]//Annual International Conference on the Theory and Applications of Cryptographic Techniques. Cham: Springer International Publishing, 2019: 34-54.
[HK20] Han K, Ki D. Better bootstrapping for approximate homomorphic encryption[C]//Cryptographers’ Track at the RSA Conference. Cham: Springer International Publishing, 2020: 364-390.
[BMTH21] Bossuat J P, Mouchet C, Troncoso-Pastoriza J, et al. Efficient bootstrapping for approximate homomorphic encryption with non-sparse keys[C]//Annual International Conference on the Theory and Applications of Cryptographic Techniques. Cham: Springer International Publishing, 2021: 587-617.

文章目录

RNS-CKKS
- Fast Base Conversion
- Approximate Modulus Switching
- Full RNS Variant CKKS
Efficient Bootstrapping with Non-Sparse Keys
- Improved Key-switch
- Improved Hoisted-Rotations
- Double-hoisting BSGS algorithm
- Bootstrapping for RNS-CKKS

RNS-CKKS

[CHKKS18a] 提出了 CKKS 的 RNS 变体。

Fast Base Conversion

一般地 FHE 需要很大的模数 $Q$ ，将它写作 $Q=\prod_{i=1}^L q_i$ ，满足 $q_i=1\pmod{2N}$ ，我们简记 $Q_i=q_1\cdots q_i$ ，集合 ${q_i\}$ 称为 RNS Base，它们的大小至多为 $64$ 比特。我们希望 FHE 的全部运算都是单精度的（现代计算机的机器字），也就是全部运算都在 RNS 下完成，而不需要多精度算术。

[BEHZ16] 提出了可以在不同的 RNS（扩展到新的 RNS Base 对应的系数）之间快速转换的算法。将环元素 $\in \mathcal R_Q$ 从模数 $Q=q_1\cdots q_l$ 下的 $a]_Q$ 转换到模数 $P=p_1\cdots p_k$ 下的 $a]_Q]_P$ ，可以直接在 RNS 下计算：
$\text{FastBaseExt}(a,Q,P) = \left\{ \sum_{i=1}^l \left[ a \cdot \left(\dfrac{Q}{q_i}\right)^{-1} \right]_{q_i} \cdot \dfrac{Q}{q_i} \pmod{p_j} \right\}_{j=1,\cdots,k}$
我们简记 $q_i^*:=Q/q_i$ 和 $\tilde q_i:=(Q/q_i)^{-1} \pmod{q_i}$ ，满足 $q_i^* \cdot \tilde q_i\equiv 1 \pmod{q_i}$ ，那么根据 CRT 合成定理，转换的结果是：
$\sum_i [a\cdot \tilde q_i]_{q_i} \cdot q_i^* = [a]_Q + u \cdot Q \in \mathbb Z$
其中的 $\|u\|_\infty \le l/2$ （采用中心化的取模运算）称为 $Q$ -overflow，因此算法 $\text{FastBaseExt}(a,Q,P)$ 输出的只是 $a]_Q]_P$ 的近似值 $[[a]_Q + u \cdot Q]_P$

后续 [HPS19] 给出了纠正错误 $u$ 的浮点数算法，不过在 [CHKKS18a] 中并不需要纠错，因为 CKKS 本身就是近似计算的。

特别地，如果 $Q = q$ 是单个素数，那么 $q^*=\tilde q=1$ ，从而就有 $\text{FastBaseExt}(a,q,P)=\{[a]_{q} \pmod{p_j}\}_j$ ，并且 $u = 0$ 没有错误。这个特例被用于 CKKS 的相邻模数之间的 RS 过程：输入 $\in R_{Q_l}$ 的 RNS 表示，那么 $[q_l^{-1} \cdot ([a]_{q_j}-[a]_{q_l})]_{q_j}, \forall 0\le j<l$ 就是 $\lfloor a/q_l\rceil \in R_{Q_{l-1}}$ 的 RNS 表示。

Approximate Modulus Switching

原始的 CKKS 的模数链，形如 $Q_l = q_0 \cdot q^l$ ，其中 $q$ 是某个固定的 Base（例如 $q = 2$ ）。显然它与 RNS 不兼容，因此无法使用 Double-CRT 来加速（multi-precision FFT 的速度很慢）

[CHKKS18a] 提出了 Approximate Base 解决这个问题，代价是引入了额外的舍入误差。我们选取 $\mathcal C = \{q_0,q_1,\cdots,q_L\}$ ，满足 $q_j/q \in (1-2^{-\eta},1+2^{-\eta}),\forall j=1,\cdots,L$ （注意最底层的 $q_0$ 不需要），同时它们都是 NTT-friendly 的素数。定义 $Q_l=\prod_{i=0}^l q_l$ 是模数链，于是相邻的模数的比值都接近 $q$ ，利用 RNS Base 之间的转换，将 $m$ 缩放为 $q_l^{-1} \cdot m$ 的误差为 $2^{-\eta} \cdot |q_l^{-1} \cdot m|$ ，应当使得 $\eta$ 充分大（所以 $q$ 也不会很小）。

模切换过程（提升、约简）会出现在同态乘法（之前、之后）以及秘钥切换（GHS、Hybrid）中，一般化地表示出： $\mathcal D = \{p_0,\cdots,p_{k-1},q_0,\cdots,q_{l-1}\}$ ，它分为两个子集 $\mathcal B=\{p_i\}$ 和 $\mathcal C=\{q_j\}$ ，设置对应的模数 $P=\prod_i p_i$ 以及 $Q=\prod_j Q_j$

Modulus Raising：输入 $\in \mathbb Z_{Q}$ 的 RNS 表示，输出 $\tilde a \in \mathbb Z_{PQ}$ 的 RNS 表示，满足 $\equiv \tilde a \bmod Q$ 以及 $|\tilde a| \ll PQ$ （不需要具有相同的整数代表）

根据 Fast Base Conversion 的结果，它的 overflow 规模仅为 $\ll P$ ，因此获得的 $\cdot Q]_P$ 级联原本的 $a]_Q$ ，就得到了满足要求的 $[\tilde a]_{PQ}$ ，用 CRT 验证一下：
$\begin{aligned} \tilde a &= Q[Q^{-1}]_P \cdot [a+uQ]_P + P[P^{-1}]_Q \cdot [a]_Q\\ &= Q[Q^{-1}]_P \cdot(a+uQ+vP) + P[P^{-1}]_Q \cdot (a+wQ)\\ &= (Q[Q^{-1}]_P + P[P^{-1}]_Q) \cdot a + uQ^2[Q^{-1}]_P\\ &= a+uQ \cdot (tP+1)\\ &= a+uQ \pmod{PQ} \end{aligned}$
算法如下，

在这里插入图片描述

Modulus Reduction：输入 $\tilde b \in \mathbb Z_{PQ}$ 的 RNS 表示，输出 $\in \mathbb Z_{Q}$ 的 RNS 表示，满足 $\approx P^{-1} \cdot \tilde b$ （不需要等于实数除法的舍入）

由于 RNS 系统中无法计算带余除法，因此应当转化为整除法。我们简单从 $\tilde b$ 的 RNS 表示中截取出 $[\tilde b]_P$ ，然后利用 Fast Base Conversion 扩展出 $[[\tilde b]_P + uP]_Q$ 部分，那么两者的级联就是 $[[\tilde b]_P + uP]_{PQ}$ ，将它从原本的 $\tilde b$ 中减掉。由于 $||u||_\infty \le k/2 \ll Q$ ，这就满足了要求：

$\tilde b - [\tilde b]_P + uP = P \cdot \big(\lfloor\tilde b/P\rceil + u\big)$
算法如下，

在这里插入图片描述

无论是 Modulus Raising 还是 Modulus Reduction，结果中都带有错误 $u$ ，这是近似的模切换。按照 word operation 为计算单位， $Conv_{B\to C}$ 和 $Conv_{C\to B}$ 的复杂度都是 $\cdot l)$ ， $ModUp_{C \to D}$ 的复杂度为 $\cdot l)$ ， $ModDown_{D \to C}$ 的复杂度为 $\cdot l+l)$

Full RNS Variant CKKS

现在我们可以将原始的 CKKS 转化到 Full-RNS 版本。采用 [BMTH21] 的算法描述，我们可以将 Key-Switch 作为一个通用的中间模块，它的 KSK-Gen 可用于所有 pk 的生成，KS 过程作用在单个环元素上。采取 Hybrid 版本（BV 效率太低，GHS 有安全损失），设置 $[q_i^* \cdot \tilde q_i]_i \pmod Q$ 是 RNS Base（二进制分解与 RNS 不兼容），对于 $\forall d \in R$ 满足线性运算 $d=\sum_i [d]_{q_i} \cdot w_i \pmod Q$ 。当然，对于每个分量 $d]_{q_i}$ 可以进一步采用二进制分解，用更高的计算复杂度换取更小的噪声。

在这里插入图片描述

对于二的幂次 $N\ge8$ ，总是有 $\mathbb Z_N^* = (5,-1)$ ，因此 $5$ 是循环乘法群 $\mathbb Z_N^*/(-1)$ 的生成元。令 $K=\mathbb Q[X]/(X^N+1)$ 是分圆数域，它的典范嵌入 $\sigma: a(X) \mapsto [a(\zeta),a(\zeta^3),\cdots,a(\zeta^{2N-1})]$ 可以稍稍扭曲为
$\tau: a(X) \mapsto [a(\zeta),a(\zeta^5),a(\zeta^{25}),\cdots]$
将它用于 SIMD 编码函数，那么自同构 $\mapsto X^5$ （所生成的循环子群）可用于自然的槽旋转，剩下的一个非凡的自同构 $\mapsto X^{-1}$ 用于槽的复共轭。利用 KSK-Gen 生成对应的 KSK，当然 CKKS 的明文槽非常多（均摊自举比 BGV/BFV 快的多，甚至比 TFHE 还快），采取 [HS13] 的有向图路径分解的思路，可以有效减少存储开销。

RNS-CKKS 的同态运算的基本单元都是 word operation，不会出现 Multi-percision 表示，其中的乘法是在 DCRT 表示下计算的，而 RS、KS 则是在 RNS 表示下计算的，因此 NTT/INTT 占据了主要的开销。按照 [CHKKS18a] 的描述，使用 GHS 版本的重线性化、不追踪缩放因子，具体的算法为：

在这里插入图片描述

根据 [CHKKS18a]，在某参数集下 RNS-CKKS 的各个功能的计算速度都大约提升了 10 倍。由于原始的基 $q$ 和近似基 $q_j$ 之间的差距，RNS-CKKS 的计算精度降低了 3 比特。可以利用 $(Q_l,\Delta)$ 等标签追踪各个密文的实际缩放因子（根据所做的运算不同，相同 level 的密文的 $\Delta$ 不一定相同），来消除这个精度损失。按照 [BMTH21]，同态运算的 API 形如：

在这里插入图片描述

Efficient Bootstrapping with Non-Sparse Keys

[BMTH21] 提出了目前最快的 RNS-CKKS 自举算法，主要贡献是改进了：切比雪夫基下多项式求值的 BSGS 算法、明文槽线性变换的 BSGS 算法。前者是对噪声的优化，使得两个相加的密文总是具有恰好相同的缩放因子，因此消除了统一缩放因子时的近似噪声；后者是对 [HS18] 的进一步优化，将公共的运算提取合并在一起。自举算法还是按照 [CHKKS18b] 的框架，混合使用 [CHH18] [CCS19] 的 FFT-like 稀疏分解以及所改进的 BSGS 算法，对于不同的参数分别使用 [CCS19] 和 [HK20] 的同态取模算法。[BMTH21] 的自举算法支持稠密秘密，而之前的都仅考虑稀疏秘密。

Improved Key-switch

Mult 和 Rotation 都是依赖于 KS 过程的，[BMTH21] 采用了 Hybrid 版本。由于 RNS 系统中的素数较多，导致 RNS 分解后的 KSK 规模变大。可以类似于 [HS13] 将若干个素数合并为 digit，减小 RNS 向量的长度。

原本的 RNS Base 是素数集合 $\mathcal B = \{q_0,q_1,\cdots,q_L\}$ ，选取合适的 $\alpha$ 和 $\beta=\lceil(L+1)/\alpha\rceil$ ，设置 $q_{\alpha,i} = \prod_{j=\alpha i}^{\min(\alpha(i+1)-1,L)} q_j$ 是第 $i$ 个长度 $\alpha$ 区间的素数的乘积，那么 $\mathcal C = \{q_{\alpha,0},\cdots, q_{\alpha,\beta-1}\}$ 依旧是 $Q_L$ 的一组 RNS Base

我们设置 $q_{\alpha,i}^*=Q_L/q_{\alpha,i}$ 以及 $\tilde q_{\alpha,i} = q_{\alpha,i}^{-1} \pmod{q_{\alpha,i}}$ ，那么 $w_i=q_{\alpha,i}^* \tilde q_{\alpha,i}, 0 \le i<\beta$ 可以作为 RNS 分解向量。选取足够大的特殊素数 $P=\prod_{j=0}^{\alpha-1} p_j$ 满足 $\ge q_{\alpha,i}, \forall i$ ，将它用于 KS 过程的噪声控制。对应的 KSK 规模缩小了约 $\alpha$ 倍（但是 $P$ 增大了），
$(swk_i^0, swk_i^1) = ([-a_is + s'Pw_i + e_i]_{PQ_L}, [a_i]_{PQ_L}), 0 \le i < \beta$
注意，KSK 是包含 $\beta$ 个分量的密文向量（加密了 $s^{'} Pw$ 的各个分量），每个分量都存储为 RNS 表示（长度 $\alpha+L+1$ 的单精度向量）。执行 KS 过程时，

输入密文 $c$ 的关于 $\mathcal B$ 的 RNS 表示，将它按照 $\mathcal C$ 计算出各个 $\pmod{q_{\alpha,i}}$ ，其实就是简单截断 $q_{\alpha,i}$ 所在的 RNS 分量
然后使用 FastBaseExt 将它们都扩展为 $PQ_L$ 上的 RNS 表示，这就得到了 $c$ 关于 $w$ 的 RNS 分解（也就是 $c=\sum_i [c]_{q_{\alpha,i}} w_i \pmod{PQ_L}$ ），它包含 $\beta$ 个长度为 $\alpha + L+1$ 的 RNS 表示（长度 $\beta$ 的分解向量）
最后将这个分解出的向量和 KSK 做内积（需要 NTT/INTT），计算出 $\cdot s'P$ ，最后做实数除法并舍入
上述所有运算都是单精度的，不需要高精度算术

在这里插入图片描述

Improved Hoisted-Rotations

同态自同构（使用 BV-KS）包含了三个步骤：自同构（就是系数置换）、数字分解（需要 NTT/INTT 做 DCRT 和 RNS 之间的转换）、密钥切换（同态的线性解密）。

[HS18] 观察到自同构 $\phi_k: X \mapsto X^{5^k}$ 不会严重地改变范数，它可以和二进制分解交换。同样的，它也和 RNS 分解交换，满足 $[\phi_k(a)]_{q_{\alpha,i}} = \phi_k([a]_{q_{\alpha,i}})$ 。当多个 rotation 作用到同一个密文上，我们可以把分解步骤交换到自同构步骤之前，从而复用 $\{[a]_{q_{\alpha,i}}\}_i$ 结果（代价是每个碎片都需要做自同构），这被称为 Hoisting 技术。

虽然自同构本身只是线性复杂度的系数置换，[BMTH21] 进一步将自同构交换到密钥切换的后面，从而只需要对内积结果（不是碎片）做一次自同构。确切地说，将原始的用 $s$ 加密 $\phi_k(s)Pw_i$ 的 $rot_k$ ，修改为用 $\phi_k^{-1}(s)$ 加密 $sPw_i$ （执行 KS 时的私钥还是 $s$ ，后续的自同构将 $\phi_k^{-1}(s)$ 转化回 $s$ ），
$(\overline{rot_{k,i}^0},\overline{rot_{k,i}^1}) = ([-a_i\phi_k^{-1}(s) + sPw_i + w_i]_{PQ_L}, [a_i]_{PQ_L})$
那么如下的三种计算方法（BV11、HS18、BMTH21）是等价的，
$\langle decomp(\phi_k(a)), rot_k\rangle = \langle \phi_k(decomp(a)), rot_k\rangle = \phi_k(\langle decomp(a), \overline{rot_k}\rangle)$
总计一次分解、均摊一次自同构的多个槽旋转，算法步骤重排为：数字分解、同态内积、模切换（这是 GHS-KS 带来的，也需要 NTT/INTT）、自同构。

在这里插入图片描述

Double-hoisting BSGS algorithm

[HS18] 将矩阵表示为对角线形式，提出了复杂度为 $O(\sqrt n)$ 次槽旋转的 BSGS 算法，这里的 $n$ 表示非零的对角线的个数。分解 $n=n_1n_2$ ，当 $n_1 \approx n_2$ 时最优。

在这里插入图片描述

以单精度的模乘运算作为单位，[BMTH21] 分析了槽旋转的四个步骤的复杂度，发现主要的瓶颈是数字分解和模切换（都需要 NTT/INTT 转换），

在这里插入图片描述

在算法 5 中，step 2 需要 $n_1$ 次槽旋转，step 10 需要 $n_2$ 次槽旋转，它们各自都需要分别执行它们内部的数字分解和模切换。我们可以对它做两层优化，

[HS13] 考虑了 step 2 的那些旋转，利用 Hoisted-Rotations 复用数字分解的结果
[BMTH21] 考虑了 step 10 的那些旋转，交换模切换和自同构的顺序，对加和的结果统一执行

在这里插入图片描述

上述算法的复杂度是： $n_1+n_2$ 次的内积和自同构， $n_2+1$ 次的模切换和数字分解。由于前者复杂度较低，后者复杂度较高，因此最优化的参数选取不再是 $n_1 \approx n_2$ ，[BMTH21] 确定出最佳选取移动到了 $\le n_1/n_2 \le 16$ （分析它们的单精度模乘的数量），并且当 $n = 128$ 左右获得最佳的效率提升。对于稠密矩阵，可以将它分解为一些稀疏对角线的因子（例如 [CHH18] 和 [CCS19] 对于 DFT 矩阵的 FFT-like 算法），使得它们具有大约 128 条非零对角线。