前置知识1：矩阵范数
前置知识2：舒尔补
前置知识3：可约矩阵
前置知识4：谱半径
1.【线性方程组】直接求解：高斯消元法( $LU$ 分解)、 $L D V$ 分解、 $LDL^T$ 分解、 $UDU^T$ 分解
- 1.1 高斯消元法( $LU$ 分解)
- 1.2 $L D V$ 分解、 $LDL^T$ 分解、 $UDU^T$ 分解
- 1.3 误差分析（从条件数的角度）
2. 【线性方程组】间接迭代求解：Jacobi方法, Gauss-Seidel方法
- 2.1 Jacobi方法
- 2.2 Gauss-Seidel方法
- 2.3 Jacobi方法, Gauss-Seidel方法收敛的条件
- 2.4 预测迭代次数
- 2.5 连续超松弛方法(The Method of Successive Over-Relaxation【SOR】)
- 2.6 总结：Jacobi方法, Gauss-Seidel方法对比：
- 2.7 对称矩阵的Gauss-Seidel方法
- 2.8 Krylov方法(Krylov methods)
- 2.9 GMRES方法(Generalized Minimum Residual Method)
3. 【线性方程组】基于优化的方法
- 3.1 共轭梯度法(Conjugate gradient method【CG】)
- 3.2 共轭梯度法和其他算法的对比
- 3.3 预条件共轭梯度法(Preconditioned conjugate gradient method)
4. 【非线性方程组】Jacobian矩阵、Newton迭代法、不动点迭代法、Seidel迭代法
- 4.1 Jacobian矩阵
- 4.2 Newton迭代法
- 4.3 不动点迭代法
- 4.4 Seidel迭代法
5. Matlab相关函数

前置知识1：矩阵范数

矩阵范数的性质：

(1) 若 $\neq 0$ , 那么 $\|A\|>0$ ; 若 $A = 0$ , 那么 $\|A\|=0$ .
(2) 对于 $\alpha \in \mathrm{R}$ , $\|\alpha A\|=|\alpha|\|A\|$ .
(3) $\|A+B\| \leq\|A\|+\|B\|$ .
(4) $\|A B\| \leq\|A\|\|B\|$ .

常见的矩阵范数：

$\begin{aligned} &\|A\|=\max _{\|x\|_{1}}\|A x\|\\ &\|A\|_{1}=\max _{\|x\|_{1}=1}\|A x\|_{1}=\max _{k} \sum_{i=1}^{n}\left|a_{i k}\right| (\text{列和范数})\\ &\|A\|_{2}=\max _{\|x\|_{2}=1}\|A x\|_{2}=\sqrt{\lambda_{1}}, \lambda_{1} \text { 是}A^{T} A\text{的最大特征值（}A\text{的最大奇异值）} . \\ &\|A\|_{\infty}=\max _{\mid x \|_{\infty}=1}\|A x\|_{\infty}=\max _{i} \sum_{k=1}^{n}\left|a_{i k}\right| (\text{行和范数}) \\ &\|A\|_{F}=\left(\sum_{i=1, k=1}^{n}\left|a_{i k}\right|^{2}\right)^{1 / 2} \quad \end{aligned}$

而对于向量范数：

$\|x\|_{p}=\left(\sum_{k=1}^{n}\left|x_{k}\right|^{p}\right)^{1 / p}$

范数 $\|\ast\|_a$ 和范数 $\|\ast\|_b$ 等价：
$\begin{aligned} c_{1}\|A\|_{a} \leq\|A\|_{b} \leq c_{2}\|A\|_{a} \\ c_{1}^{\prime}\|A\|_{b} \leq\|A\|_{a} \leq c_{2}\|A\|_{b} \end{aligned}$

当 $A$ 的矩阵范数 ${A}\|<1$ ，则 $\pm A$ 是非奇异可逆矩阵：
$\left\|(I \pm A)^{-1}\right\| \leq \frac{1}{1-\|A\|}$

前置知识2：舒尔补

$\begin{aligned} A & =\begin{bmatrix} B & C \\ D & E \end{bmatrix}, \operatorname{det}(B) \neq 0 \\ A & =\begin{bmatrix} I & 0 \\ D B^{-1} & I \end{bmatrix}\begin{bmatrix} B & 0 \\ 0 & E-D B^{-1} C \end{bmatrix}\begin{bmatrix} I & B^{-1} C \\ 0 & I \end{bmatrix} \end{aligned}$

前置知识3：可约矩阵

定义：
如果通过行列变换可以变成这种形式：
$\mathrm{PAQ}=\left[\begin{array}{c:c} \boldsymbol{F} & \boldsymbol{0} \\ \hdashline \boldsymbol{G} & \boldsymbol{H} \end{array}\right]或\left[\begin{array}{c:c} \boldsymbol{F} & \boldsymbol{G} \\ \hdashline \boldsymbol{0} & \boldsymbol{H} \end{array}\right]$
左下角或右上角的 $\boldsymbol{0}$ 是零矩阵，则 $A$ 是可约矩阵。

可约矩阵：
$\left[\begin{array}{llll}2 & 0 & 1 & 0 \\ 8 & 6 & 7 & 5 \\ 4 & 2 & 3 & 1 \\ 4 & 0 & 3 & 0\end{array}\right] \Rightarrow \left[\begin{array}{cc:cc} 1 & 2 & 3 & 4 \\ 5 & 6 & 7 & 8 \\ \hdashline 0 & 0 & 1 & 2 \\ 0 & 0 & 3 & 4 \end{array}\right]$

不可约矩阵：
$C_{1}=\left[\begin{array}{rrrrr} 2 & -1 & & & \\ -1 & 2 & -1 & & \\ & \ddots & \ddots & \ddots & \\ & & -1 & 2 & -1 \\ & & & -1 & 2 \end{array}\right]$

注意上面这个矩阵对角占优，但不是严格对角占优。

前置知识4：谱半径

$|A-\lambda I|=0$
定义：设 $\lambda_i$ 是 $A$ 的特征值，
$\rho(A)=\max _{1 \leqslant i \leqslant n}\left|\lambda_{i}\right|$
称为矩阵A的谱半径。
定理：矩阵谱半径和矩阵范数有如下关系：
(1)若A是一般方阵，则P(A)不能作为矩阵的范数；
(2)若A是一般方阵，则谱半径不超过任意一种矩阵范数，即
$\rho(A)≤\|A\|$
(3)若A为实对称矩阵，则谱半径可作矩阵的模，此时有 $\rho(A)=\|A\|_{2}$ 。

1.【线性方程组】直接求解：高斯消元法( $LU$ 分解)、 $L D V$ 分解、 $LDL^T$ 分解、 $UDU^T$ 分解

1.1 高斯消元法( $LU$ 分解)

针对线性方程组：
$\mathrm{AX}=\mathrm{b}$

我们可以将 $\mathrm{A}$ 根据LU分解，分解为 $\mathrm{A}=\mathrm{LU}$ ，其中 $\mathrm{L}$ 和 $\mathrm{U}$ 分别是下三角和上三角矩阵。

$L=\begin{bmatrix} \ast & 0 & 0 & 0 \\ \ast & \ast & 0 & 0 \\ \ast & \ast & \ast & 0 \\ \ast & \ast & \ast & \ast \end{bmatrix}\quad U=\begin{bmatrix} \ast & \ast & \ast & \ast \\ 0 & \ast & \ast & \ast \\ 0 & 0 & \ast & \ast \\ 0 & 0 & 0 & \ast \end{bmatrix}$

有：

$\begin{aligned}&\mathrm{AX}=\mathrm{b}\\ \Rightarrow&(\mathrm{LU}) \mathrm{X}=\mathrm{b} \\\Rightarrow&\mathrm{L}(\mathrm{UX})=\mathrm{b} \\ \Rightarrow &\mathrm{LX}_{1}=\mathrm{b}\quad \mathrm{UX}=\mathrm{X}_{1}\end{aligned}$

高斯消元变换三角阵：①交换行。②行乘一个因子。③某一行加到另一行上。例子：
在这里插入图片描述

高斯消元法中如果碰到对角线上的元素（主元素）消元为0，需要交换行，称作pivot element。

当主元素不合适由于舍入误差可能会无法求解！！

所以要选择合适的主元素：

在这里插入图片描述
当对角线的元素是0，可以换主元素。

当然也可以提前换主元素。

这可以表示为：

在这里插入图片描述
总结为：
$\begin{aligned} &A x=b \quad P A=L U \\ \Rightarrow&P A x=P b=\bar{b} \\ \Rightarrow&L U x=\bar{b} \\ \Rightarrow&L \bar{x}=\bar{b} \quad U x=\bar{x} \end{aligned}$

在这里插入图片描述

计算的复杂度：

乘法和除法： $\sum_{p=1}^{N-1}(N-p)(N-p+1)=\frac{N^{3}-N}{3}$
减法： $\sum_{p=1}^{N-1}(N-p)(N-p)=\frac{2 N^{3}-3 N^{2}+N}{6}$
这里使用了公式： $\sum_{k=1}^{M} k=\frac{M(M+1)}{2}, \quad \sum_{k=1}^{M} k^{2}=\frac{M(M+1)(2 M+1)}{6}$

1.2 $L D V$ 分解、 $LDL^T$ 分解、 $UDU^T$ 分解

定理：
$a_{k k}^{(k)} \neq 0, k=1,2, \ldots, n \Leftrightarrow\left|A_{k}\right| \neq 0, k=1,2, \ldots, n$

其中 $A_{k}|$ 是方阵的 $k$ 阶主子式。

进而我们可以知道 $\mathrm{A}=\mathrm{LU}$ , $\mathrm L$ 是下三角矩阵， $\mathrm U$ 是上三角矩阵。 $\mathrm L$ 的对角线元素都是1， $\mathrm L$ 的行列式 $|\mathrm L|$ 是1，所以 $|\mathrm{A}|=\mathrm{|LU|}=|\mathrm{U}|$

让 $\mathrm{U}=\mathrm{DR}$ ，则有：

$\mathrm A=\mathrm{L D R}$

其中 $\mathrm L$ 是下三角矩阵， $\mathrm D$ 是对角矩阵， $\mathrm R$ 是上三角矩阵。

当 $\mathrm A$ 是对称阵， $\mathrm{A}=\mathrm{LDL}^{\mathrm{T}}$

类似的对称阵也可以表示为 $\mathrm{A}=\mathrm{UDU}^{\mathrm{T}}$

还有就是求逆矩阵的方法：

$\left[\begin{array}{ll} A & I \end{array}\right] \stackrel{\text { Row Transformation }}{\longrightarrow}\left[\begin{array}{ll} I & A^{-1} \end{array}\right]$

总结：直接求解线性方程组：

1.核心算法是LU分解。 $\begin{aligned} P B & = L U \\ B^{-1} & = U^{-1} L^{-1} P \end{aligned}$

2.迭代求解器可能不能收敛或计算成本较高。

1.3 误差分析（从条件数的角度）

矩阵范数回顾前置知识1.
①给 $b$ 一个小的扰动对 $x$ 有什么影响嘛？

$\begin{aligned} &A x=b \\ &A(x+\delta x)=b+\delta b \\ &A \delta x=\delta b \\ &\|\delta x\|=\left\|A^{-1} \delta b\right\| \leq\left\|A^{-1}\right\| \delta b \| \\ &\|A x\| \leq\|A\|\|x\|, \quad\|x\| \geq \frac{\|A x\|}{\|A\|}=\frac{\|b\|}{\|A\|} \\ &\frac{\|\delta x\|}{\|x\|} \leq\|A\|\left\|A^{-1}\right\| \frac{\|\delta b\|}{\|b\|}=\operatorname{cond}(A) \frac{\|\delta b\|}{\|b\|} \end{aligned}$

②给 $A$ 一个小的扰动对 $x$ 有什么影响嘛？

$\begin{aligned} &A x = b \\ &(A+\delta A)(x+\delta x) = b \\ &A \delta x+\delta A(x+\delta x) = 0 \\ &\|\delta x\| = \left\|A^{-1} \delta A(x+\delta x)\right\| \leq\left\|A^{-1}\right\| \delta A\|\|(\|x\|+\|\delta x\|) \\ &\frac{\|\delta x\|}{\|x\|} \leq\left\|A^{-1}\right\|\|\delta A\|\left(1+\frac{\|\delta x\|}{\|x\|}\right) \\ &\frac{\|\delta x\|}{\|x\|} \leq \frac{\left\|A^{-1}\right\|\|\delta A\|}{1-\left\|A^{-1}\right\|\|\delta A\|}=\frac{\|A^{-1}\|\|A\|\frac{\|\delta A\|} {\|A\|}}{1-\|A^{-1}\|\|A\|\frac{\|\delta A\|} {\|A\|}}=\frac{cond(A)|\frac{\|\delta A\|} {\|A\|}}{1-cond(A)|\frac{\|\delta A\|} {\|A\|}} \end{aligned}$

这里需要假设 $1-cond(A)\frac{\|\delta A\|} {\|A\|}\ge0$ 或 $\delta{A}$ 足够小。其中 $cond(A)=\left\|A^{-1}\right\|\|A\|$ 称为条件数。

当条件数很大时矩阵是病态的。例如:
在这里插入图片描述

其他判断条件数的方法

当两行中的对应元素的比率非常接近时，cond(A)可能很大。
元素之间的差异很大，cond(A)也可能很大。
对A或b做一个小的扰动，然后解方程。如果解差很大，矩阵就没有条件。

于是我们就想把病态的矩阵转为非病态的矩阵：左乘一个矩阵，改变稳定性。
在这里插入图片描述
找到合适的 $\widetilde{A}^{-1}$ 是关键

2. 【线性方程组】间接迭代求解：Jacobi方法, Gauss-Seidel方法

我们能不能使用类似不动点迭代的思想进行求解呢？我们要考虑：

怎么选择迭代形式
迭代要收敛
收敛的速度也要保证

2.1 Jacobi方法

$\begin{aligned} {A} & = {L}+{D}+{U} \\ {x} & = {D}^{-1}({~b}-{Lx}-{Ux}) \\ {x}^{({k}+1)} & = {D}^{-1}\left({~b}-{Lx}{ }^{({k})}-{Ux}^{({k})}\right) \end{aligned}$

$x^{({k}+1)}={B} x^{({k})}+{c}, \quad {B}=-{D}^{-1}({~L}+{U}), \quad {c}={D}^{-1} {b}$

例子
在这里插入图片描述

具体编程的实现可以有：
在这里插入图片描述
或者

然而同一个方程组不同的方程顺序可能会不收敛。

在这里插入图片描述
所以什么时候会收敛呢？

定义：
矩阵 $A$ 严格对角占优： $\left|a_{k k}\right|>\sum_{j=1, j \neq k}^{N}\left|a_{k j}\right| \quad k=1,2, \ldots, N$
矩阵 $A$ 表示为：
$A=\begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1 N} \\ a_{21} & a_{22} & \cdots & a_{2 N} \\ \vdots & \vdots & & \vdots \\ & & & \\ a_{N 1} & a_{N 2} & \cdots & a_{N N} \end{bmatrix}$

例子：
在这里插入图片描述

严格对角占优只能算是Jacobi方法的一个充分条件。

2.2 Gauss-Seidel方法

$\begin{aligned} &{A} = {L}+{D}+{U} \\ &{x} = {D}^{-{1}}({b}-{L} {x}-{U} {x})\\ &{x}^{({k}+1)}={D}^{-1}\left({b}-{L} {x}^{({k}+1)}-{U} {x}^{({k})}\right) \end{aligned}$

$\begin{aligned} &{A} = {L}+{D}+{U} \\ &({L}+{D}) {x}^{({k}+1)}+{U} {x}^{({k})} = {b} \\ &{x}^{({k}+1)}=-({L}+{D})^{-1} {U} {x}^{({k})}+({L}+{D})^{-1} {b}\\ \end{aligned}$

$x^{({k}+1)}={B} x^{({k})}+{c}, \quad {B}=-({L}+{D})^{-1} {U} , \quad {c}=({L}+{D})^{-1} {b}$
在这里插入图片描述
迭代速度比Jacobi方法更快！

2.3 Jacobi方法, Gauss-Seidel方法收敛的条件

充分条件1

矩阵 $A$ 满足下面任一①严格对角占优 ②**不可约矩阵（回顾前置知识3），使用Jacobi方法, Gauss-Seidel方法都收敛。

充分必要条件

矩阵的谱半径小于1。
$\rho(B)=\max _{i}\left|\lambda_{i}\right|<1\quad \left|B-\lambda_{i} I\right|=0$

以下是对实对称阵说明

$\begin{aligned} &x = B x+g \\ &x^{(k+1)} = B x^{(k)}+g \\ &e^{(k+1)} = B e^{(k)} = B^{k+1} e^{(0)} 【e^{(k+1)} =x^{(k+1)} -x^{(k)}】\\ & e^{(0)} = c_{1} V_{1}+c_{2} V_{2}+\ldots+c_{n} V_{n}, \quad B V_{i} = \lambda_{i} V_{i} \\ &e^{(k+1)} = c_{1} \lambda_{1}^{k+1} V_{1}+c_{2} \lambda_{2}^{k+1} V_{2}+\ldots+c_{n} \lambda_{n}^{k+1} V_{n} \rightarrow 0 \quad \text { when }\left|\lambda_{i}\right|<1 \end{aligned}$

对一般的矩阵形式可以用Jordan形式证明

$\begin{aligned} &B = T J T^{-1} \\ &B^{k} = T J^{k} T^{-1} \\ &J^{k} = \operatorname{diag}\left(J_{r_{1}}^{k}\left(\lambda_{1}\right), J_{r_{2}}^{k}\left(\lambda_{2}\right), \ldots, J_{r_{p}}^{k}\left(\lambda_{p}\right)\right) \rightarrow 0, \text { when }\left|\lambda_{i}\right|<1 \\ &J_{r_{i}}\left(\lambda_{i}\right) = \begin{bmatrix} \lambda_{i} & 1 & & \\ & \lambda_{i} & 1 & \\ & & \ddots & 1 \\ & & \lambda_{i} \end{bmatrix} \end{aligned}$

定理：对于矩阵的任意范数，谱半径都小于矩阵的范数。
$\rho(B) \leq\|B\|$

于是有

充分条件2

满足条件 $\|B\|<1$ ，矩阵 $A$ 使用Jacobi方法, Gauss-Seidel方法都收敛。

说明：以下等价
$B^{k} \rightarrow 0 \Leftrightarrow\left\|B^{k}\right\| \rightarrow 0 \Leftrightarrow \rho(B)<1\\$

$\left\|B^{k}\right\| \leq\|B\|\left\|B^{k-1}\right\| \leq\|B\|^{k}$

充分条件3
定理：矩阵 $A$ 满足下面任一条件：①严格对角占优 ②**不可约矩阵（回顾前置知识3），并且对角线上元素大于0， $A$ 是个正定矩阵！

如果矩阵 $A$ 是对称正定矩阵，使用Jacobi方法, Gauss-Seidel方法都收敛。

一张关系图说明收敛的条件
在这里插入图片描述

2.4 预测迭代次数

定理：设基本迭代的迭代矩阵 $\|B\|=q<1$ ,若 $\left\|x^{(k+1)}-x^{(k)}\right\| \leqslant \varepsilon$ ,则 $\left\|x^{(k)}-x\right\| \leqslant \frac{\varepsilon}{1-q}$

容易证明： $\begin{aligned} \left\|X_{k}-X^{*}\right\| \leq\frac{1}{1-\|B\|}\left\|X_{k+1}-X_{k}\right\| \\ \left\|X_{k}-X^{*}\right\| \leq \frac{\|B\|^{k}}{1-\|B\|}\left\|X_{1}-X_{0}\right\| \end{aligned}$

这个定理使用的两种方式：
1.预测需要的迭代次数
2.使用 $x_{k+1}-x_k|$ 看是否停止迭代。

预测迭代次数类似不动点迭代收敛的推导： 就不具体展开了。

2.5 连续超松弛方法(The Method of Successive Over-Relaxation【SOR】)

$\begin{aligned} &(L+D) \tilde{x}^{(k+1)}+U x^{(k)} = b \\ &x^{(k+1)} = \omega \tilde{x}^{(k+1)}+(1-\omega) x^{(k)} \\ &x_{i}^{(k+1)} = (1-\omega) x_{i}^{(k)}+\frac{\omega}{a_{i i}}\left(b_{i}-\sum_{j = 1}^{i-1} a_{i j} x_{j}^{(k+1)}-\sum_{j = i+1}^{n} a_{i j} x_{j}^{(k)} \right)\\ &= (1-\omega) x_{i}^{(k)}+\frac{\omega}{a_{i i}}\left(b_{i}-\sum_{j = 1}^{i-1} a_{i j} x_{j}^{(k+1)}-a_{i i} x_{i}^{(k)}-\sum_{j = i+1}^{n} a_{i j} x_{j}^{(k)}+a_{i i} x_{i}^{(k)}\right) \\ & = x_{i}^{(k)}+\frac{\omega}{a_{i i}}\left(b_{i}-\sum_{j = 1}^{i-1} a_{i j} x_{j}^{(k+1)}-\sum_{j = i}^{n} a_{i j} x_{j}^{(k)}\right)\\ \Rightarrow &x^{(k+1)} = x^{(k)}+\omega D^{-1}\left(b-L x^{(k+1)}-D x^{(k)}-U x^{(k)}\right) \\ \Rightarrow&D x^{(k+1)} = D x^{(k)}+\omega\left(b-L x^{(k+1)}-D x^{(k)}-U x^{(k)}\right) \\ \Rightarrow&(D+\omega L) x^{(k+1)} = [(1-\omega) D-\omega U] x^{(k)}+\omega b \\ \Rightarrow&x^{(k+1)} = (D+\omega L)^{-1}[(1-\omega) D-\omega U] x^{(k)}+\omega(D+\omega L)^{-1} b \end{aligned}$

$x^{({k}+1)}={B} x^{({k})}+{c}, \quad {B}= (D+\omega L)^{-1}[(1-\omega) D-\omega U] , \quad {c}=\omega(D+\omega L)^{-1} b$

还有另一种形式：
$\begin{aligned} &(L+D) \tilde{x}^{(k+1)}+U x^{(k)} = b \\ &x^{(k+1)} = \omega \tilde{x}^{(k+1)}+(1-\omega) x^{(k)} \\ \Rightarrow&x^{(k+1)} = \omega \left( -({L}+{D})^{-1} {U} {x}^{({k})}+({L}+{D})^{-1} {b}\right)+(1-\omega) x^{(k)}\\ \Rightarrow&x^{(k+1)}=\left[(1-\omega) I-\omega(L+D)^{-1} U\right] x^{(k)}+\omega(L+D)^{-1} b \end{aligned}$

$x^{({k}+1)}={B} x^{({k})}+{c}, \quad {B}=\left[(1-\omega) I-\omega(L+D)^{-1} U\right] , \quad {c}=\omega(L+D)^{-1} b$

$可以根据\omega$ 取值不同分类如下：

$\begin{align} &0<\omega<2 \\ &\omega = 1: \text { Gauss - Seidel } \\ &0<\omega<1: \text { Under - Relaxation } \\ &1<\omega<2: \text { SOR } \end{align}$

SOR 收敛的条件和Jacobi方法, Gauss-Seidel方法相同：

1.当系数矩阵A为强对角占优矩阵时，SOR方法收敛；
2.当系数矩阵A为不可约对角占优矩阵时，SOR方法收敛；
3.当系数矩阵A为对称正定矩阵时，SOR方法收敛。

$x^{({k}+1)}={B} x^{({k})}+{c}$

$B$ 是关于松弛因子 $\omega$ 的一个函数，所以 $\omega$ 应该取多少呢？
在这里插入图片描述

可惜的是， $\omega_{opt}$ 无法准确求得，只能估算，下面给出两种估算方法。

方法1: 先用 $\omega=1$ 算得 $x^{(1)}$ 和 $x^{(2)}$ ，再用 $\omega=1.1$ 算得 $\tilde x^{(1)}$ 和 $\tilde x^{(2)}$ ;比较 $x^{(1)}-x^{(2)}\|$ 和 $\|\tilde x^{(1)}-\tilde x^{(2)}\|$ 的大小，量值 $\|\tilde x^{(1)}-\tilde x^{(2)}\|$ 较大说明取 $\omega=1.1$ 时迭代收敛快：继续选 $\omega=1.2$ 计算且与 $\omega=1.1$ 的情形比较，不断改进 $\omega$ 的值直到接近 $\omega$ 为止、
方法2: 用 $\omega=1.9$ 和 $\omega=1.8$ 计算，判断比较相应松弛迭代收敛的快慢表现；不断改进参数w的取值，在 $\omega_{opt }$ 附近还可作些适当的微调处理。

例子：
在这里插入图片描述

在SOR方法计算下，当系数矩阵 $B$ 的谱半径小于1但是非常接近1的时候，收敛速度较慢。

来看下面这个例子：

在这里插入图片描述

2.6 总结：Jacobi方法, Gauss-Seidel方法对比：

在这里插入图片描述

2.7 对称矩阵的Gauss-Seidel方法

对于一个对称矩阵 $A$

$A=L+D+L^T$

$D$ 是 $A$ 的对角线组成的对角阵， $L$ 是 $A$ 的下三角矩阵，由于对称， $L^T$ 是 $A$ 的上三角矩阵。

令 $M = (L+D) D^{-1}(L+D)^{T}$

$\begin{aligned}x^{(k+1)}&=x^{(k)}+M^{-1}\left(b-A x^{(k)}\right)\\ &=M^{-1} b+M^{-1} (M-A)x^{(k)}\\ &=M^{-1} b+M^{-1} (M-L-D-L^{T})x^{(k)}\\ &=M^{-1} b+M^{-1} ( (L+D) D^{-1}(L+D)^{T}-L-D-L^{T})x^{(k)}\\ &=M^{-1} b+M^{-1} (L D^{-1} L^{T}+L D^{-1} D^{T}+D D^{-1} L^{T}+D D^{-1} D^{T}-L-D-L^{T} )x^{(k)}\\ &=M^{-1} b+M^{-1} (L D^{-1} L^{T}+L+L^{T}+D^T-L-D-L^{T} )x^{(k)}\\ &=M^{-1} b+M^{-1} L D^{-1} L^{T} x^{(k)}\\ &=M^{-1} b+B x^{(k)}\end{aligned}$

式中的 $B$ ：

$\begin{aligned} B & = M^{-1} L D^{-1} L^{T} \end{aligned}$

2.8 Krylov方法(Krylov methods)

$\begin{aligned} &A x = b \\ &q(\lambda) = |A-\lambda I| = a_{0}+a_{1} \lambda+\ldots+a_{n} \lambda^{n} & = 0 \\ &q(A) = a_{0} I+a_{1} A+\ldots+a_{n} A^{n} = 0 \\ &-\frac{1}{a_{0}} A\left(a_{1} I+\ldots+a_{n} A^{n-1}\right) = I \\ &A^{-1} = -\frac{1}{a_{0}}\left(a_{1} I+\ldots+a_{n} A^{n-1}\right) \\ &x = A^{-1} b = -\frac{1}{a_{0}}\left(a_{1} b+\ldots+a_{n} A^{n-1} b\right) \in \operatorname{span}\left(b, A b, A^{2} b, \ldots, A^{n-1} b\right) \\ &x^{*} = \sum_{i} c_{i} A^{i} b \end{aligned}$

$x^*$ 的维数可小于 $n$ ！

在这里插入图片描述
给定

$\begin{array}{l} x_{0}=0 \\ x_{n}=\left[b, A b, A^{2} b, \ldots, A^{n-1} b\right] \tilde{c} \end{array}$

$x_{n}$ 和 $x^*$ 落在一个空间，但可能不是一个很好的近似。

在这里插入图片描述

（这个图有点不清楚，后面有空改一下）

在这里插入图片描述
原问题的解罗落在于一个Krylov 空间，其维数是 $A$ 的最小多项式的维度。因此，如果 $A$ 的最小多项式的次数较低，则空间维数可以很小。

原来的空间张成向量 $b,Ab,A^2b,\cdots,A^{n-1}b$ 不正交转化为新的标准正交基 $q_q,q_2,\cdots,q_n$ 就有了下面的方法。

2.9 GMRES方法(Generalized Minimum Residual Method)

在这里插入图片描述
解释上面的第二步：

在这里插入图片描述

利用QR分解

在这里插入图片描述

3. 【线性方程组】基于优化的方法

若 $A$ 是一个对称正定矩阵，下面问题等价：

$\Leftrightarrow \min _{x} \frac{1}{2} x^{T} A x-b^{T} x$

若 $A$ 是一个大型稀疏方阵，下面问题等价：

$\Leftrightarrow \min _{x}\|A x-b\|$

3.1 共轭梯度法(Conjugate gradient method【CG】)

两个向量 $S_1$ 和 $S_2$ 是共轭的，当它们满足 $S_{1}^{\mathrm{T}} A S_{2}=0$

在这里插入图片描述

$\begin{aligned} &f(X) = \frac{1}{2} X^{T} A X-b^{T} X \\ &\nabla f(X) = A X-b \\ &\phi^{\prime}\left(a_{1}\right) = S_{i}^{T} \nabla f\left(X_{1}+a_{1} S_{i}\right) = S_{i}^{T}\left(A X^{(1)}-b\right) = 0 \quad X^{(1)}=X_{1}+a_{1} S_{i}\\ &\phi^{\prime}\left(a_{2}\right) = S_{i}^{T} \nabla f\left(X_{2}+a_{2} S_{i}\right) = S_{i}^{T}\left(A X^{(2)}-b\right) = 0 \quad X^{(2)}=X_{2}+a_{2} S_{i}\\ &S_{i}^{T} A\left(X^{(2)}-X^{(1)}\right) = S_{i}^{T} A S = 0 \end{aligned}$
可以有限步数收敛！

算法流程：
$\begin{aligned} &1. {g}_{0} = \nabla f\left({x}_{0}\right), {d}_{{0}} = -{g}_{0} ; \\&2. When \left|{g}_{{k}}\right|<{eps} , exit; \\&3. a_k = \mathop{\arg\min}\limits_{a_k} {f}\left({x}_{{k}}+a_{{k}} {d}_{{k}}\right) ; \\&4. g_{{k}+1} = \nabla f\left({x}_{{k}+1}\right) =\nabla f({x}_{{k}}+a_{{k}} {d}_{{k}}); \\&5. \beta_{{k}} = {g}_{{k}+1}^{{T}} {g}_{{k}+{1}} / {g}_{{k}}^{{T}} {g}_{{k}} ;\\ &6. d_{k+1} = -g_{k+1}+\beta_{k} d_{k} ;\\ &7. k = k+1 , go \,\,to\,\, 2 . \end{aligned}$

在这里插入图片描述
共轭梯度法(CG)特点：
①有限次收敛迭代
②计算复杂度 $O(n^3)$ ，如果矩阵 $A$ 是一个对角矩阵，计算复杂度下降为 $O(\omega n^2)$

3.2 共轭梯度法和其他算法的对比

共轭梯度法(CG) vs 高斯消元

①CG在所有有限步数之前可以得到足够精确的解
②CG保证稀疏性，即使 $A$ 不是对角阵。

共轭梯度法 vs 迭代方法

①CG保证收敛.
②收敛速度不同。

$\left\|x^{(k+1)}-x^{*}\right\|_{A}<C\left\|x^{(k)}-x^{*}\right\|_{A}, C=\frac{\sqrt{\operatorname{cond}(A)}-1}{\sqrt{\operatorname{cond}(A)}+1},\|x\|_{A}=\sqrt{x^{T} A x}$

3.3 预条件共轭梯度法(Preconditioned conjugate gradient method)

在1.3我们讲到了条件数，预条件共轭梯度法就是想办法找到合适的 $\tilde{A}$ 降低条件数的大小，提高解的稳定性。

我们这样构造 $\tilde{A}$ 以及 $\tilde{x}$ 和 $\tilde{b}$

$\tilde{A}=C^{-1} A C^{-T}, \tilde{x}=C^{T} x,\tilde{b}=C^{-1} b$

于是有：
$\Leftrightarrow \tilde{A} \tilde{x}=\tilde{b}$

我们可以验证：

${cond}_{2}(\tilde A)<{cond}_{2}(A)\quad {cond}_{2}(A)=\frac{\left|\lambda_{\max }\right|}{\left|\lambda_{\min }\right|}$

按照下面的方式取定 $C$ ，条件数变小了【这一块没写清楚，回头再写写补坑】

$C^{-1}=D^{-1 / 2}, D=\operatorname{diag}\left(a_{11}, a_{22}, \ldots, a_{n n}\right), A=\left(a_{i j}\right)_{n \times n}$

在这里插入图片描述
2. 按照下面的方式取定 $C$ ，条件数变小了

预条件共轭梯度法算法流程：

在这里插入图片描述

4. 【非线性方程组】Jacobian矩阵、Newton迭代法、不动点迭代法、Seidel迭代法

4.1 Jacobian矩阵

针对一个非线性方程组，可能有无穷多解。利用Jacobian矩阵迭代线性化处理变为求解线性方程组。

在这里插入图片描述

在这里插入图片描述

利用Jacobian矩阵引出Newton方法：

4.2 Newton迭代法

在这里插入图片描述
算法流程

Jacobian矩阵的问题

①出现奇异，内部元素分母为0或矩阵的秩为0
②收敛阶数降低
③有不确定性

4.3 不动点迭代法

在这里插入图片描述
假设 $g_i$ 的偏导数在包含不动点 $(p ， q ， r)$ 的一个区域上是连续的。如果选择的起点足够接近定点，并且
$\begin{array}{l} \left|\frac{\partial g_{1}}{\partial x}(p, q, r)\right|+\left|\frac{\partial g_{1}}{\partial y}(p, q, r)\right|+\left|\frac{\partial g_{1}}{\partial z}(p, q, r)\right|<1, \\ \left|\frac{\partial g_{2}}{\partial x}(p, q, r)\right|+\left|\frac{\partial g_{2}}{\partial y}(p, q, r)\right|+\left|\frac{\partial g_{2}}{\partial z}(p, q, r)\right|<1, \\ \left|\frac{\partial g_{3}}{\partial x}(p, q, r)\right|+\left|\frac{\partial g_{3}}{\partial y}(p, q, r)\right|+\left|\frac{\partial g_{3}}{\partial z}(p, q, r)\right|<1, \end{array}$