用 GPU 加速 PQC 方案：Montgomery、SHA3

参考文献：

[DK91] Dussé S R, Kaliski B S. A cryptographic library for the Motorola DSP56000[C]//Advances in Cryptology—EUROCRYPT’90: Workshop on the Theory and Application of Cryptographic Techniques Aarhus, Denmark, May 21–24, 1990 Proceedings 9. Springer Berlin Heidelberg, 1991: 230-244.
[KAK96] Koc C K, Acar T, Kaliski B S. Analyzing and comparing Montgomery multiplication algorithms[J]. IEEE micro, 1996, 16(3): 26-33.
[CHS11] P. Cayrel, G. Hoffmann, M. Schneider, GPU Implementation of the Keccak Hash Function Family, The 5th International Conference on Information Security and Assurance, 2011.
[SHA3] Dworkin M J. SHA-3 standard: Permutation-based hash and extendable-output functions[J]. 2015.
[LWGP17] Lee W K, Wong X F, Goi B M, et al. CUDA-SSL: SSL/TLS accelerated by GPU[C]//2017 International Carnahan Conference on Security Technology (ICCST). IEEE, 2017: 1-6.
[OBS21] Ono T, Bian S, Sato T. Automatic parallelism tuning for module learning with errors based post-quantum key exchanges on GPUs[C]//2021 IEEE International Symposium on Circuits and Systems (ISCAS). IEEE, 2021: 1-5.
[SYD+22] Shen S, Yang H, Dai W, et al. High-Throughput GPU Implementation of Dilithium Post-Quantum Digital Signature[J]. arXiv preprint arXiv:2211.12265, 2022.
Secure Hash Algorithm-3 (SHA-3) family_-CSDN博客
CUDA 编程简介（上），CUDA 编程简介（下）
CUDA之Warp Shuffle详解-CSDN博客
【CUDA 基础】5.6 线程束洗牌指令 - 知乎 (zhihu.com)

文章目录

Montgomery
- SOS
- CIOS
- Complexity
GPU-SSL
- SHA3
- CTR mode
- Montgomery
GPU-PQC
- Kyber
- Dilithium

Montgomery

[KAK96] 考虑了不同的 Montgomery 的算法实现，并比较了其中的 $5$ 种高精度整数的实现效率。

模数 $n$ ，选取任意的 $r$ 使得 $g c d (n, r) = 1$ ，那么存在如下的同构：
$\mathbb Z_n \cong \{\bar a:=a \cdot r \pmod{n} \mid a \in \mathbb Z_n\}$

后者是一个完备剩余系（complete residue system），称为 Montgomery 域，

加法： $\overline{a+b} = \bar a + \bar b \equiv (a+b) \cdot r \pmod{n}$
乘法： $\overline{a \cdot b} = \bar a \cdot \bar b \cdot r^{-1} \equiv (a \cdot b) \cdot r \pmod{n}$

Montgomery 域上的加法是容易的，它的取模运算可以使用 Barret 算法。

对于乘法运算，也存在快速的 Montgomery 算法：

利用扩展欧几里得算法，计算出 $r^{-1},n'$ ，满足 $r\cdot r^{-1} - n \cdot n'=1$
这里 $n^{-1} \pmod{r}$ ，利用预计算的 $n^{'}$

算法基本流程：

在这里插入图片描述

这个算法对于任意的 $g c d (r, n)$ 都工作，但是仅当 $r=2^k$ 是二的幂次时，其中的 $\cdots\pmod{r}$ 以及 $\cdots/r$ 可以快速计算。易知 $MonPro(\bar x,1) = x$ 就是逆映射。

计算机的运算单元是 words，假设 $W=2^w$ ，一般设置 $w = 32$ （单精度 int，双精度 long）。假设 $\in [0,2^w)$ 都是单精度整数，那么 $(C, S) := t + ab + c$ 不会发生溢出，可以存储在两个 words 内
$(W-1)^2 + 2 \cdot (W-1) = W^2-1 =2^{2w}-1$

对于多精度整数 $\in [0,2^{sw})$ ，将它存储为 $s$ 个 words。假定 $r=2^{sw}$ ，奇模数 $n < r$ ，那么元素 $\in \mathbb Z_n$ 表示为了数组，计算 $M o n P ro (a, b)$ 时需要多个循环的相互组合/嵌套。

[KAK96] 考虑了以下因素：

计算 multiplication 和 reduction 是完全分离的、还是交错的，交错的是外层循环、还是内层循环。
计算 multiplication 和 reduction 的外层循环，是扫描某个操作数、还是扫描计算结果。

根据上述因素的组合，[KSK96] 讨论了多种实现：

Separated Operand Scanning (SOS)
Coarsely Integrated Operand Scanning (CIOS)
Finely Integrated Operand Scanning (FIOS)
Finely Integrated Product Scanning (FIPS)
Coarsely Integrated Hybrid Scanning (CIHS)

我们下面仅学习下最基本的 SOS 以及效率最高的 CIOS，读者可以自行阅读其他的实现思路。

SOS

SOS 按顺序，先计算 step 1 的高精度乘法，再计算 step 2 的模约简，最后计算 step 3 的后处理。多精度整数 $a$ 的存储格式形如 $a[s-1]\cdots a[1]a[0]$ ，其中 $a [0]$ 是最低位， $a [s - 1]$ 是最高位。

首先执行 step 1：乘法结果 $t = ab$ 存储在 $2 s$ 个 words 内，

在这里插入图片描述

接着执行 step 2：先计算 $\cdot n' \mod r$ ，然后计算 $u=t+m\cdot n$ ，最后做除法 $u / r$

在这里插入图片描述

临时变量 $t$ 的长度为 $2 s + 1$ ，而 $u$ 的长度为 $s + 1$ ，函数 $A DD (t [i + s], C)$ 的功能是：将单精度整数 $C$ 加到 $\cdots t[i+s]$ 上，期望的连续进位链的长度为 $1$ （两次单精度加法）。

[DK91] 给出了一个重要的观察：不再整体计算 $\cdot n' \pmod{r}$ 和 $t = t + mn$ ，而是分别计算 $m_i=t_in' \pmod W$ 然后再迭代 $t=t+m_inW^i$ 。虽然两者的计算结果并不一样（忽略了 $\cdot n'$ 的进位），但是后者依旧使得最终的 $t$ 成为 $r$ 的整数倍。

此时 $n^{'}$ 可以替换为 $n_0'=n' \pmod W$ ，所以 $m_i=t \cdot n'$ 的乘法计算更加简单
容易计算 $n_0' = -(n_0)^{-1} \pmod W$ ，不需要预计算大数 $n$ 的逆 $n^{-1} \pmod r$

最后执行 step 3：利用大数减法来比较 $u > n$ ，顺带执行了后处理步骤

在这里插入图片描述

CIOS

CIOS 交错执行 mult 和 reduce：在模约简的第 $i$ 轮循环中， $m_i=t_i \cdot n_0' \pmod{W}$ 仅仅和 $t_i$ 有关，并且 $t_i$ 在乘法的第 $i$ 轮循环中就被计算完毕了，因此两者可以放在同一个外部循环内。每轮迭代中，模约简过程使得最低的 word 变成零，于是可以立即右移，可以大幅减少内存开销。

step 1 以及 step 2 的交错执行：

在这里插入图片描述

最后，利用 SOS 的 step 3 的相同算法，做后处理。

Complexity

文中还给出了其他三种 Montgomery 算法，这里我就不再描述了。它们的复杂度分析结果：

在这里插入图片描述

当然，复杂度分析仅仅是一阶近似，忽略了计算机的 register, cache miss 等等细节。实机测试结果：

在这里插入图片描述

最后 [KAK96] 总结：对于通用计算机，五种算法中 CIOS 效率最高的。

疑问：C 为何会比 ASM 慢这么多？文中说 C 的 word 是 16 比特的（用两个 16-bits words 模拟一个 32-bits word），而 ASM 的 word 是 32 比特的。现代的计算机应该没这个限制吧？

GPU-SSL

[LWGP17] 提出了 CUDA-SSL，他们在 CUDA 上实现了一些原语，不过没找到他们的实现代码。

SHA3

对于粗粒度的并行，可以让每个 thread 执行单独的 SHA3 任务，各个任务完全独立。但是，GPU 的 core 是很慢的，这么做虽然使得吞吐率很高，但是计算延迟也会非常大。并且，每个 warp 占据的资源是有限的，其中的 32 个线程相互抢占 register, bank 资源。

因为 SHA3 的状态是 $\{0,1\}^{5 \times 5 \times b}$ 的立方体，并且每轮迭代的置换 $\theta,\rho,\pi,\chi,\iota$ 都是针对 $25$ 个 lanes 的，[CHS11] 提出可以使用一个 warp 中的 $25$ 个线程（空闲 $7$ 个）细粒度的并行计算。

在这里插入图片描述

但是，由于中间变量 $C [25], D [25]$ 存储在 shared memory 中，线程访问内存时会发生 bank conflict（原本 warp 中的 $32$ 个线程可以对 $32$ 个 bank 并行读写），于是 I/O 延迟巨大。[LWGP17] 将数组 $C, D$ 拆分到 $25$ 个线程的 register 上，然后使用 warp shuffle 交换数据，避免了 bank conflict 的问题。