线性代数|机器学习-P16矩阵A的导数

news2025/7/15 1:22:50

文章目录

1. 概述
2. 求 $\frac{\mathrm{d}A^{-1}(t)}{\mathrm{d}t}$
3. 求 $\frac{\mathrm{d}\lambda(t)}{\mathrm{d}t}$
- 3.1 A 和 $A^T$ 有相同的特征值
- 3.2 特征向量单位化
- 3.3 求 $\lambda(t)$
4. 交替特征值
- 4.1 证明
- 4.2 迭代交替特征值应用

1. 概述

这节课的主题是定义矩阵A是关于时间t的 $A (t)$ ,在已知 $\frac{\mathrm{d}A(t)}{\mathrm{d}t}$ 的情况下，求解 $\frac{\mathrm{d}A^{-1}(t)}{\mathrm{d}t},\frac{\mathrm{d}\lambda(t)}{\mathrm{d}t},\frac{\mathrm{d}\sigma(t)}{\mathrm{d}t}$
$\begin{equation} \frac{\mathrm{d}A(t)}{\mathrm{d}t}\rightarrow \frac{\mathrm{d}A^{-1}(t)}{\mathrm{d}t},\frac{\mathrm{d}\lambda(t)}{\mathrm{d}t},\frac{\mathrm{d}\sigma(t)}{\mathrm{d}t} \end{equation}$

2. 求 $\frac{\mathrm{d}A^{-1}(t)}{\mathrm{d}t}$

关于矩阵 $A^{-1},B^{-1}$ ,可以得到如下公式：
$\begin{equation} B^{-1}-A^{-1}=B^{-1}(A-B)A^{-1} \end{equation}$

我们定义 $B=A+\Delta A$ ,则上述公式变换如下：
$\begin{equation} \Delta A^{-1}=(A+\Delta A)^{-1}(-\Delta A)A^{-1} \end{equation}$
当 $\Delta A \rightarrow 0$ 时， $(A+\Delta A)^{-1}=A^{-1}$ ,两边同时除以 $\Delta t$ ,则公式整理可得：
$\begin{equation} \frac{\Delta A^{-1}}{\Delta t}=-A^{-1}\frac{(\Delta A)}{\Delta t}A^{-1} \end{equation}$
则可得如下：
$\begin{equation} \frac{\mathrm d A^{-1}}{\mathrm d t}=-A^{-1}\frac{\mathrm d A}{\mathrm d t}A^{-1} \end{equation}$

3. 求 $\frac{\mathrm{d}\lambda(t)}{\mathrm{d}t}$

3.1 A 和 $A^T$ 有相同的特征值

求解特征值方程如下，将等式转置可得：
$\begin{equation} |A-\lambda I|=0\rightarrow |A^T-\lambda I^T|=|A^T-\lambda I|=|A-\lambda I| \end{equation}$
所以可得A与 $A^T$ 有相同的特征值，我们定义矩阵A的特征值为 $\lambda$ 时的特征向量为x， $Ax=\lambda x$ ，矩阵 $A^T$ 的特征值为 $\mu$ 时的特征向量为y , $A^Ty=\mu y$
$\begin{equation} Ax=\lambda x,A^Ty=\mu y\rightarrow y^TA=\mu y^T \end{equation}$

等式乘以 $y^T$ 可得：
$\begin{equation} y^TAx=\lambda y^Tx\rightarrow\mu y^Tx=\lambda y^Tx\rightarrow (\mu-\lambda)y^Tx=0 \end{equation}$
为了保证上式对于任意 $\mu-\lambda$ 成立，只能得到如下
$\begin{equation} \mu\neq \lambda\rightarrow y^Tx=0 \end{equation}$
那当 $\mu=\lambda$ 时， $y^Tx=???$ 呢？

3.2 特征向量单位化

我们知道，对于矩阵A来说，我们能够得到如下公式
$\begin{equation} A\begin{bmatrix}x_1&x_2&\cdots&x_n\end{bmatrix}=\begin{bmatrix}x_1&x_2&\cdots&x_n\end{bmatrix}\begin{bmatrix}\lambda_1\\\\&\lambda_2\\\\&&\ddots\\\\&&&\lambda_n\end{bmatrix}\rightarrow A=X\Lambda X^{-1} \end{equation}$

那么我们可得 $A^2$ 为：
$\begin{equation} A^2=X\Lambda X^{-1}X\Lambda X^{-1} \end{equation}$
如果X列向量不单位化，假设 $x_i^Tx_i=c_i$ ,那么可得：
$\begin{equation} X^TX=\begin{bmatrix}x_1^T\\\\x_2^T\\\\\vdots\\\\x_n^T\end{bmatrix}\begin{bmatrix}x_1&x_2&\cdots&x_n\end{bmatrix}=\begin{bmatrix}c_1\\\\&c_2\\\\&&\ddots\\\\&&&c_n\end{bmatrix} \end{equation}$
那么这样在求 $A^2$ 时，就无法得到如下：
$\begin{equation} A^2\neq X\Lambda^2 X^{-1} \end{equation}$
所以为了能够方便计算，我们一般会单位化向量 $x_i$ ，得到如下：
$\begin{equation} X^TX=I,X^{-1}=X^T,x^Tx=1,A=X\Lambda X^T,Ax=\lambda x \end{equation}$
同理可得关于 $A^T$ 表示如下：
$\begin{equation} y^TA=\lambda y^T,A=Y\Lambda Y^T \end{equation}$
那么 $A^2$ 可得如下：
$\begin{equation} A^2=X\Lambda X^TY\Lambda Y^T \end{equation}$
为了要得到 $A^2=X\Lambda^2 Y^T$ ,我们希望得到 $X^TY=I$
$\begin{equation} X^TY=Y^TX=I \end{equation}$
可得如下：
$\begin{equation} \mu=\lambda\rightarrow y^Tx=1,\mu\ne\lambda\rightarrow y^Tx=0 \end{equation}$

3.3 求 $\lambda(t)$

关于矩阵A可得如下：
$\begin{equation} A(t)x(t)=\lambda(t)x(t),y^T(t)A(t)=\lambda(t)y^T(t),y^T(t)x(t)=1 \end{equation}$

等式两边乘以 $y^T(t)$ 可得：
$\begin{equation} y^T(t)A(t)x(t)=\lambda(t)y^T(t)x(t)=\lambda(t) \end{equation}$
整理可得如下：
$\begin{equation} \lambda(t)=y^T(t)A(t)x(t) \end{equation}$
两边关于t求导可得：
$\begin{equation} \frac{\mathrm{d}\lambda(t)}{\mathrm{d}t}=\frac{\mathrm{d}y^T(t)}{\mathrm{d}t}A(t)x(t)+y^T(t)\frac{\mathrm{d}A(t)}{\mathrm{d}t}x(t)+y^T(t)A(t)\frac{\mathrm{d}x(t)}{\mathrm{d}t} \end{equation}$
由公式可得 $A(t)x(t)=\lambda(t)x(t),y^T(t)A(t)=\lambda(t)y^T(t)$ 整理后可得：
$\begin{equation} \frac{\mathrm{d}\lambda(t)}{\mathrm{d}t}=\frac{\mathrm{d}y^T(t)}{\mathrm{d}t}\lambda(t)x(t)+y^T(t)\frac{\mathrm{d}A(t)}{\mathrm{d}t}x(t)+\lambda(t)y^T(t)\frac{\mathrm{d}x(t)}{\mathrm{d}t} \end{equation}$
第1,3项合并整理可得：
$\begin{equation} \frac{\mathrm{d}\lambda(t)}{\mathrm{d}t}=\lambda(t)[\frac{\mathrm{d}y^T(t)}{\mathrm{d}t}x(t)+y^T(t)\frac{\mathrm{d}x(t)}{\mathrm{d}t}]+y^T(t)\frac{\mathrm{d}A(t)}{\mathrm{d}t}x(t) \end{equation}$
我们知道 $y^T(t)x(t)=1$ ，两边求导可得：
$\begin{equation} \frac{\mathrm{d}y^T(t)}{\mathrm{d}t}x(t)+y^T(t)\frac{\mathrm{d}x(t)}{\mathrm{d}t}=0 \end{equation}$
代入后可得：
$\begin{equation} \frac{\mathrm{d}\lambda(t)}{\mathrm{d}t}=y^T(t)\frac{\mathrm{d}A(t)}{\mathrm{d}t}x(t) \end{equation}$

4. 交替特征值

4.1 证明

假设我们有一个对称矩阵S，还有一个在矩阵S的基础上加秩为1的矩阵 $S_1$ ,我们定义矩阵 $S_1$ 的特征值为 $\lambda$ ,矩阵S的特征值为 $\gamma$ ,定义 $q_2$ 为矩阵S第二个特征值 $\gamma_2$ 对应的特征向量，c为任意实数，表示如下：
$\begin{equation} Sx=\gamma x,S_1x=\lambda x,S_1=S+cq_2q_2^T \end{equation}$

等式两边乘以 $q_1$ 可得：
$\begin{equation} S_1q_1=Sq_1+cq_2q_2^Tq_1\rightarrow S_1q_1=\gamma_1q_1\rightarrow \gamma_1=\lambda_1 \end{equation}$
$\begin{equation} S_1q_2=Sq_2+cq_2q_2^Tq_2\rightarrow S_1q_2=(\gamma_2+c)q_1\rightarrow \gamma_2+c=\lambda_2 \end{equation}$
于是我们得到如下特征值关系：
小结：可以看出，矩阵S在增加秩为1的矩阵后成为 $S_1$ , $S_1$ 和S特征值交替插入。