Multi-Grade Deep Learning for Partial Differential Equations

论文阅读：Multi-Grade Deep Learning for Partial Differential Equations with Applications to the Burgers Equation

Multi-Grade Deep Learning for Partial Differential Equations with Applications to the Burgers Equation
- 符号定义
- - 偏微分方程定义
  - FNN定义
  - PINN定义
- 多级学习
- 两阶段模型
- 实验结果
- - 1D Burgers
总结

Multi-Grade Deep Learning for Partial Differential Equations with Applications to the Burgers Equation

符号定义

偏微分方程定义

一个偏微分方程可以定义如下：
$\begin{aligned}\mathcal{F}(u(t,x))&=0,&x\in\Omega,&t\in(0,T],\\\mathcal{I}(u(0,x))&=0,&x\in\Omega,&t=0,\\\mathcal{B}(u(t,x))&=0,&x\in\Gamma,&t\in(0,T],\end{aligned}$
其中 $\Omega\subset\mathbb{R}^d$ ， $d$ 为计算域的维度， $\varGamma$ 为 $\Omega$ 的边界，$ \mathcal{F}$ 为非线性微分算子， $\mathcal{I},\mathcal{B}$ 分别表示初始条件和边界条件的（非线性）算子， $u$ 是要学习的未知解。并且其中 $T > 0$ ，初始状态 $u (0, x)$ 和 $u$ 在 $\varGamma$ 上的数据已知。

FNN定义

令 $s, t$ 为两个正整数。 FNN 是将 $s$ 维度的输入向量映射到 $t$ 维度的输出向量的函数。深度为 $D$ 的 FNN 是由输入层、 $D - 1$ 个隐藏层和输出层组成的神经网络。令 $d_i$ 表示第 $i$ 个隐藏层中的神经元数量，令 $W_i\in\mathbb{R}^{d_i\times d_{i-1}}$ 和 $b_i \in \mathbb{R}^{d_i}$ 分别表示第 $i$ 层的权重矩阵和偏置向量。设 $\sigma:\mathbb{R}\to\mathbb{R}$ 表示激活函数， $\mathbf{x}:=\left.[x_1,x_2,\ldots,x_s]^T\right.\in\mathbb{R}^s$ 是输入向量。第一个隐藏层的输出表示为 $\mathcal{H}_1(\mathbf{x})$ ，通过使用 $W_1$ 和 $b_1$ 将激活函数应用于输入的仿射变换来定义。具体来说，我们有
$\mathcal{H}_1(\mathbf{x})=\sigma(W_1\mathbf{x}+b_1),\quad\mathbf{x}\in\mathbb{R}^s$
其中 $W_1\in\mathbb{R}^{d_1\times s}$ ， $b_1 \in \mathbb{R}^{d_1}$ 。对于深度 $\ge 3$ 的神经网络，第 $(i + 1)$ 个隐藏层的输出可以被识别为第 $i$ 个隐藏层输出的递归函数，定义为
$\mathcal{H}_{i+1}(\mathrm{x}):=\sigma(W_{i+1}\mathcal{H}_i(\mathrm{x})+b_{i+1}),\quad i=1,2,\ldots,D-2$
最后，深度为 D 的神经网络的输出定义为
$\mathcal{N}_D(\mathbf{x}):=W_D\mathcal{H}_{D-1}(\mathbf{x})+b_D$
可训练网络参数集表示为 $\Theta:=\{W_i,b_i\}_{i=1}^D$ ，它由所有层的所有权重矩阵和偏差向量组成。

PINN定义

PINN 的损失函数由三个部分组成：PDE 损失、初始条件损失和边界条件损失。假设 $\mathcal N_D$ 是一个要学习的深度神经网络，PINN的损失函数的三个分量定义如下：

PDE 的损失：
$Loss_{PDE}(\mathcal{N}_D):=\frac1{N_f}\sum_{i=1}^{N_f}|\mathcal{F}(\mathcal{N}_D(t_f^i,x_f^i))|^2,\quad(t_f^i,x_f^i)\in(0,T]\times\Omega,$

其中， $t_f^i,x_f^i)$ 是从计算域中随机生成的采样点。
初始条件损失：
$Loss_I(\mathcal{N}_D):=\frac1{N_0}\sum_{i=1}^{N_0}|\mathcal{L}(\mathcal{N}_D(0,x_0^i))|^2,\quad x_0^i\in\Omega$
其中， $x_0^i$ 是在初始条件上随机生成的采样点。
边界条件损失：
$Loss_B(\mathcal{N}_D):=\frac1{N_b}\sum_{i=1}^{N_b}\left|\mathcal{B}(\mathcal{N}_D(t_b^i,x_b^i))\right|^2,\quad(t_b^i,x_b^i)\in(0,T]\times\Gamma$
其中， $t_b^i,x_b^i)$ 是从边界上随机生成的采样点。

于是，总的PINN损失如下：
$Loss(\mathcal{N}_D):=Loss_{PDE}(\mathcal{N}_D)+Loss_I(\mathcal{N}_D)+Loss_B(\mathcal{N}_D).$
PINN 的主要思想是利用神经网络通过最小化损失函数（残差）来学习 PDE 的近似解。令 $\mathcal{N}_D(\bullet):= \mathcal{N}_D(\Theta;\bullet)$ 为具有深度 $D$ 和网络参数 $\Theta$ 的神经网络。为了获得PDE的近似解，PINN相对于网络参数 $\Theta$ 最小化上式定义的损失函数，即
$\min_\Theta Loss(\mathcal{N}_D(\Theta;\bullet))$

多级学习

可以通过定义一个深度为 $k_1$ 的神经网络 $\mathcal N_{k_1}$ 开始，其参数为 $\Theta_1:=\{W^1_i,b^1_i\}_{i=1}^{k_1}$ 。于是可以设置 $u_1=u_1(\Theta_1;\bullet):=\mathcal{N}_{k_1}(\Theta_1;\bullet)$ 为 1 级神经网络。为了学习 1 级参数，可以对如下最小化问题求解：
$\min_{\Theta_1}Loss(u_1(\Theta_1;\bullet))$
对上述最小化问题求解后，就得到了 1 级的近似解，表示为 $u_1^*=\mathcal{N}_{k_1}^*:=\mathcal{N}_{k_1}(\Theta_1^*;\bullet)$ ，其中 $\Theta_1^*:=\{W_i^{1*},b_i^{1*}\}_{i=1}^{k_1}$ 是学习到的参数。于是近似解 $u_1$ 可以表示为：
$u_1^*(\mathbf{x})=W_{k_1}^{1*}\mathcal{H}_{k_1-1}^{1*}(\mathbf{x})+b_{k_1}^{1*}$
其中 $\mathcal{H}_{k_1-1}^{1*}$ 是没有输出层的网络 $\mathcal{N}_{k_1}^{1*}$ ， $W_{k_1}^{1*}$ 表示连接最后一个隐藏层和输出层的权重矩阵， $b_{k_1}^{1*}$ 表示相应的偏差向量。

接下来，就可以构建 2 级神经网络，用 $u_2$ 表示，它建立在 1 级神经网络之上，使用网络 $\mathcal{N}_{k_2}:=\mathcal{N}_{k_2}(\Theta_2;\bullet)$ ，参数 $\Theta_2:=\{W^2_j,b^2_j\}_{j=1}^{k_2}$ 。具体来说，就是首先删除 1 级的输出层，并将网络 $\mathcal{N}_{k_2}$ 堆叠在 1 级的最后一个隐藏层之上，以定义 2 级的神经网络。即，
$u_2=u_2(\Theta_1;\bullet):=\mathcal{N}_{k_2}(\Theta_2;\bullet)\circ\mathcal{H}_{k_1-1}^{1*}$
其中“ $\circ$ ”表示复合算子， $\mathcal{H}_{k_1-1}^{1*}$ 是没有输出层的网络 $\mathcal{N}_{k_1}^{1*}$ 。

在这里插入图片描述

2级神经网络的参数可以通过解决如下最小化问题来进行学习：
$\min_{\Theta_2}Loss(u_1^*(\bullet)+u_2(\Theta_2;\bullet))$
得到最优参数 $\Theta_2^*:=\{W_j^{2*},b_j^{2*}\}_{j=1}^{k_2}$ 并定义：
$u_2^*:=u_2(\Theta_2^*;\bullet)=\mathcal{N}_{k_2}(\Theta_2^*;\bullet)\circ\mathcal{H}_{k_1-1}^{1*}$
值得注意的是， $\mathcal{H}_{k_1-1}^{1*}$ 在训练过程中是固定的，于是从上式中可以看出， $u_2^*$ 学习了 1 级解 $u_1^*$ 的残差，以更好地逼近偏微分方程的解。

于是可以通过重复上述过程来构造一个 $\ell+1$ 级的神经网络。假设对于 $\le i \le \ell$ ，已经学习了 $i$ 级的神经网络 $u_i$ ，可以使用参数为 $\Theta_{\ell+1}:=\{W_j^{\ell+1},b_j^{\ell+1}\}_{j=1}^{k_{\ell+1}}$ 的神经网络 $\mathcal{N}_{k_{\ell+1}}(\Theta_{\ell+1};\bullet)$ 定义 $\ell+1$ 级神经网络 $u_{\ell+1}$ ，即
$u_{\ell+1}(\Theta_{\ell+1};\mathbf{x}):=(\mathcal{N}_{k_{\ell+1}}(\Theta_{\ell+1};\bullet)\circ\mathcal{H}_{k_{\ell}-1}^{\ell*}\circ\cdots\circ\mathcal{H}_{k_2-1}^{2*}\circ\mathcal{H}_{k_1-1}^{1*})(\mathbf{x})$
其中 $\mathcal{H}_{k_i-1}^{i*}$ 表示没有输出层的神经网络 $\mathcal{N}_{k_i}^*:=\mathcal{N}_{k_i}(\Theta_i^*;\bullet)$ ，学习参数为 $\{W_j^{\boldsymbol{i}*},b_j^{\boldsymbol{i}*}\}_{j=1}^{\boldsymbol{k}_i-1},i=1,2,\ldots,\ell.$ 通过求解如下最小化问题可以得到 $\ell+1$ 级最优参数 $\Theta_{\ell+1}^*=\left.\{W_j^{\ell+1*},b_j^{\ell+1*}\}_{j=1}^{k_{\ell+1}}\right.$
$\min_{\Theta_{\ell+1}}Loss\left(\sum_{i=1}^{\ell}u_i^*(\bullet)+u_{\ell+1}(\Theta_{\ell+1};\bullet)\right)$
然后可以令 $u_{\ell+1}^*:=u_{\ell+1}(\Theta_{\ell+1}^*;\bullet)$ 。最后，通过对所有 $\ell + 1$ 个等级的近似值求和，可以得到神经网络
$\bar{u}_{\ell+1}^*:=\sum_{i=1}^{\ell+1}u_i^*$

两阶段模型

前文中描述的学习策略涉及逐级学习的方法。随着级数的增加，需要学习的残差振荡变得更加明显。然而，由于每个等级的神经网络的层数相对较少（在稍后介绍的实验中通常少于 6 层），网络可能难以捕获底层残差振荡中包含的更复杂的模式。此外，MGDL 模型可能会陷入局部最小化器而错过全局最小化器。解决这些问题需要扩大优化器的搜索区域。为此，作者解冻了先前级和以前的一些训练过的网络的一些层并对它们进行重新训练，以提高生成的 DNN 解决方案的准确性。这个过程被称为训练的第二阶段。

下面描述第二阶段的训练。假设经过第一阶段的训练，已经构建了神经网络 $\bar{u}_L^*:=\sum_{i=1}^Lu_i^*$ ，其具有 $L$ 级。其近似解 $u^*_L$ 具有如下表达式：
$u_L^*(\mathbf{x}):=(\mathcal{N}_{k_L}^*\circ\mathcal{H}_{k_L-1}^{L-1*}\circ\cdots\circ\mathcal{H}_{k_2-1}^{2*}\circ\mathcal{H}_{k_1-1}^{1*})(\mathbf{x})$
其中 $\mathcal{N}^*_{k_L}$ 在 $L$ 级进行训练，其参数为 $\Theta^*_L$ 。可以解冻 $u^*_L$ 的最后 $k$ 层作为新的可训练层，其中 $\gt k_L$ 。可以表示为：
$\Theta_{L,k}:=\{W_j^{L,k},b_j^{L,k}\}_{j=1}^k$
可以使用符号 $\widetilde{u}_L:=\widetilde{u}_L(\Theta_{L,k};\bullet)$ 来表示通过解冻 $u^*_L$ 最后 $k$ 层并解决最小化问题而从 $u^*_L$ 获得的神经网络
$\min_{\Theta_{L,k}}Loss(\bar{u}_{L-1}^*(\bullet)+\widetilde{u}_L(\Theta_{L,k};\bullet)).$
可以使用 $u^*_L$ 的 $k$ 层参数作为初始化来解决上述最小化问题，并获得新参数 $\Theta^*_{L,k}$ 。然后可以定义函数 $\widetilde{u}_L^*:=\widetilde{u}_L(\Theta_{L,k}^*;\bullet)$ 。因此，第二阶段生成 PDE 的近似解，由下式给出
$u_{appr}:=\bar{u}_{L-1}^*+\widetilde{u}_L^*$
在这里插入图片描述

实验结果

作者将提出的 TS-MGDL 方法应用于 1D、2D 和 3D Burgers 方程的求解上并与单级方法进行了对比。

1D Burgers

$u_t(t,x)+u(t,x)u_x(t,x)-\frac{0.01}\pi u_{xx}(t,x)=0,\quad t\in(0,1],x\in(-1,1),$

初始条件与边界条件如下：
$u(0,x)=-\sin(\pi x),\\ u(t,-1)=u(t,1)=0$
作者采用哈默斯利采样方法随机生成训练样本点。沿着边界，总共生成了 $N_b := 80$ 个随机点。此外，根据初始条件生成 $N_0 := 120$ 个随机点。在内部区域 $(0, 1] \times (- 1, 1)$ 中，生成 $N_f := 10, 000$ 个随机点。测试集由时空区域 $[0, 1] \times [- 1, 1]$ 均匀划分得到的网格点组成，测试点总数为 $100 \times 256$ 。

在这里插入图片描述

上表为作为对比的三个单级方法的神经网络设置

在这里插入图片描述

上表为对应的多级网络的设置，这里一共有三级。数字旁边的星号（*）表示第一阶段本级训练时，对应的权重参数固定为前年级训练的权重参数。

在这里插入图片描述

上表为多级网络的训练结果，可以看到，作者在不同级数设置了不同的学习率和epoch。

为早期等级设置更高的学习率，可以使网络快速学习基本（大规模）特征，并继续学习更复杂（小规模）特征。这可以加快训练过程并提高网络的整体准确性。而在更高等级使用较低的学习率有助于微调学习的表示并提高网络的准确性。在训练的第二阶段，使用低学习率使网络能够仔细调整这些表示以更好地适应训练数据，从而提高准确性。

同样，如果早期级数中的epoch数量太大，则可能会陷入不需要的局部最小值，这可能会导致后续等级的优化变得困难。在第一阶段的训练过程中，随着级数的提高，训练难度逐渐加大，epoch数也要相应增加。由于梯度下降通常在迭代开始时表现出损失更快的下降，因此可以通过在第一阶段为等级设置较少量的epoch来利用这一点来捕捉快速下降的阶段。另一方面，在第二阶段建议使用更多的epoch以实现增强的数值近似。

在这里插入图片描述

上表为多级网络和三个单级网络的对比。

在这里插入图片描述

上图为不同阶段结果的可视化。

在这里插入图片描述

误差的可视化。

在这里插入图片描述

上图为四个方法训练时的loss下降情况。

总结

本文针对PDE求解问题，通过设计多级神经网络结构，来让后续网络层学习先前网络层的误差，并设计了对应的两阶段训练方式。最后通过数值实验验证了其有效性。

可以看出来，作者是想模仿Res-Net的方法，但似乎只是更改网络结构带来的数值精度提高并不明显，所以又设计了二阶段训练方式。感觉可以增加对单级神经网络使用二阶段训练的实验作为对比，那样或许会更有说服力。目前本文还未公开代码，但文中说是用DeepXDE实现的。等他公开代码了我应该会来试一下，但感觉我对网络结构方面的研究没太大兴趣呢。