内积空间

三维几何空间是线性空间的一个重要例子，如果分析一下三维几何空间，我们就会发现它还具有一般线性空间不具备的重要性质：三维几何空间中向量有长度和夹角，这称为三维几何空间的度量性质。现在，我们在一般线性空间中引入度量有关的概念。

我们知道三维几何空间中向量的长度和夹角可由向量的内积来决定。内积就是一个函数，它把向量对 $\mathbf u,\mathbf v$ 映射成一个数。在向量空间 $V$ 中，将内积运算记为 $\lang\mathbf u,\mathbf v\rang$ ，满足以下性质

$\lang\mathbf u,\mathbf v\rang=\lang\mathbf v,\mathbf u\rang$
$\lang\mathbf u,\mathbf v+\mathbf w\rang=\lang\mathbf u,\mathbf v\rang+\lang\mathbf u,\mathbf w\rang$
$c\lang\mathbf u,\mathbf v\rang=\lang c\mathbf u,\mathbf v\rang=\lang \mathbf u,c\mathbf v\rang$
$\lang\mathbf v,\mathbf v\rang\geqslant 0,\ \lang\mathbf v,\mathbf v\rang=0\text{ iff }\mathbf v=0$

定义了内积运算的向量空间称为内积空间(innerproductspace)。

注意，内积只给出了性质，而没给出具体的计算法则。

对于向量空间 $V$ 中的任意两向量
$\mathbf u=u_1\mathbf e_1+\cdots+u_n\mathbf e_n \\ \mathbf v=v_1\mathbf e_1+\cdots+v_n\mathbf e_n$
由内积的基本性质知道，其内积
$\lang\mathbf u,\mathbf v\rang =\lang u_1\mathbf e_1+\cdots+u_n\mathbf e_n,\ v_1\mathbf e_1+\cdots+v_n\mathbf e_n\rang =\sum_{i,j}u_iv_j\lang\mathbf e_i,\mathbf e_j\rang$
可见，只要知道基向量之间的内积，就可以求出任意两个向量的内积。上式用矩阵乘法表示为
$\lang\mathbf u,\mathbf v\rang=\mathbf u^TM\mathbf v$
其中，矩阵 $M=(\delta_{ij})$ 称为坐标基的度量矩阵，包含了基向量两两之间的内积
$\delta_{ij}=\lang\mathbf e_i,\mathbf e_j\rang$
定义：三维几何空间的度量概念也推广到向量空间中

$\|\mathbf v\|=\sqrt{\lang\mathbf v,\mathbf v\rang}$ 称为向量的长度或范数；
$\text{dist}(\mathbf u,\mathbf v)=\|\mathbf u-\mathbf v\|$ 称为向量 $\mathbf u,\mathbf v$ 间的距离；
两向量的夹角余弦 $\cos\theta=\dfrac{\lang\mathbf u,\mathbf v\rang}{\|\mathbf u\|\cdot\|\mathbf v\|}$
若 $\lang\mathbf u,\mathbf v\rang=0$ ，则称 $\mathbf u,\mathbf v$ 正交(orthogonal)；
长度为1的向量称为单位向量；
如果向量空间的基向量都为单位向量且两两正交，则称为标准正交基(orthonormal basis)；

性质：

$\|\mathbf v\|\geqslant 0,\quad \|\mathbf v\|=0\text{ iff }\mathbf v=0$
$c\|\mathbf v\|=|c|\ \|\mathbf v\|$
勾股定理：若 $\mathbf u,\mathbf v$ 是 $V$ 中的正交向量，则 $\|\mathbf u+\mathbf v\|^2=\|\mathbf u\|^2+\|\mathbf v\|^2$
柯西-施瓦茨不等式： $|\lang\mathbf u,\mathbf v\rang|\leqslant\|\mathbf u\|\cdot\|\mathbf v\|$
三角不等式： $\|\mathbf u+\mathbf v\|\leqslant\|\mathbf u\|+\|\mathbf v\|$
若向量组是一组两两正交的非零向量，则向量组线性无关

示例：向量空间的欧几里得内积定义为
$\lang\mathbf u,\mathbf v\rang=\mathbf u^T\mathbf v=u_1v_1+u_2v_2+\cdots+u_nv_n$

即采用的是标准正交基，度量矩阵为单位阵
$\delta_{ij}=\begin{cases}1, &i=j \\0, &i\neq j\end{cases}$
以后，当我们讨论内积空间时，总默认采用欧几里得内积。

正交补：设 $W$ 是 $V$ 的子空间，如果向量 $\mathbf z$ 与子空间 $W$ 中的任意向量都正交，则称 $\mathbf z$ 正交于 $W$ 。与子空间 $W$ 正交的全体向量的集合称为 $W$ 的正交补(orthogonal complement)，并记作 $W^{\perp}$ 。
$W^{\perp}=\{\mathbf z\in V\mid \forall\mathbf w\in W,\lang\mathbf z,\mathbf w\rang=0\}$

在这里插入图片描述

由其次方程 $A\mathbf x=0$ 的解空间易知：

$(\text{row }A)^{\perp}=\ker A$
$(\text{col }A)^{\perp}=\ker A^T$

定理：若 $\mathbf z$ 与 $\mathbf u_1,\mathbf u_2,\cdots,\mathbf u_p$ 均正交，则 $\mathbf z$ 正交于 $W=\text{span }\{\mathbf u_1,\mathbf u_2,\cdots,\mathbf u_p\}$ 。

证：对于任意 $\mathbf v\in W$ ，可线性表示为
$\mathbf v=x_1\mathbf u_1+x_2\mathbf u_2+\cdots+x_p\mathbf u_p$
由内积的性质知
$\lang\mathbf z,\mathbf v\rang=x_1\lang\mathbf z,\mathbf u_1\rang+x_2\lang\mathbf z,\mathbf u_2\rang+\cdots+x_p\lang\mathbf z,\mathbf u_p\rang=0$
于是可知 $\mathbf z$ 正交于 $W$ 。

正交矩阵与正交变换

定义：若矩阵 $A$ 满足 $A^TA=I$ ，即 $A^{-1}=A^T$ ，则称 $A$ 为正交矩阵。

上式用 $A$ 的列向量表示，即
$\begin{bmatrix}\mathbf a_1^T\\ \mathbf a_2^T\\ \vdots\\\mathbf a_n^T\end{bmatrix} (\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n)=I_n$
于是得到
$\mathbf a_i\mathbf a_j=\begin{cases}1, &i=j\\ 0, &i\neq j\end{cases}$
定理：矩阵 $A$ 为正交矩阵的充要条件是 $A$ 的列向量都是单位向量且两两正交。

考虑到 $A^TA=I$ 与 $AA^T=I$ 等价，所以上述结论对 $A$ 的行向量亦成立。

正交矩阵 $A$ 对应的线性变换称为正交变换。设 $\mathbf u,\mathbf v\in V$ ，则变换后的内积
$\lang A\mathbf u,A\mathbf v\rang=(A\mathbf u)^T(A\mathbf v)=\mathbf u^T\mathbf v=\lang\mathbf u,\mathbf v\rang$
定理：正交变换后向量内积保持不变，从而向量的长度、距离和夹角均保持不变。

正交投影

正交分解定理：设 $W$ 是 $V$ 的子空间，那么对于任意 $\mathbf v\in V$ 可唯一表示为
$\mathbf v=\hat{\mathbf v}+\mathbf z$
其中 $\hat{\mathbf v}\in W,\mathbf z\in W^{\perp}$ 。 $\hat{\mathbf v}$ 称为 $\mathbf v$ 在 $W$ 上的正交投影(orthogonal projection)，记作 $\text{proj}_W\mathbf v$ 。若 $\mathbf u_1,\mathbf u_2,\cdots,\mathbf u_p$ 是 $W$ 的任意正交基，则
$\hat{\mathbf v}=\text{proj}_W\mathbf v=\frac{\lang\mathbf v,\mathbf u_1\rang}{\lang\mathbf u_1,\mathbf u_1\rang}\mathbf u_1+\frac{\lang\mathbf v,\mathbf u_2\rang}{\lang\mathbf u_2,\mathbf u_2\rang}\mathbf u_2+\cdots+\frac{\lang\mathbf v,\mathbf u_p\rang}{\lang\mathbf u_p,\mathbf u_p\rang}\mathbf u_p$

在这里插入图片描述

证：若 $\mathbf u_1,\mathbf u_2,\cdots,\mathbf u_p$ 是 $W$ 的任意正交基，则任意 $\mathbf v\in V$ 的投影可线性表示
$\hat{\mathbf v}=x_1\mathbf u_1+x_2\mathbf u_2+\cdots+x_p\mathbf u_p$
令 $\mathbf z=\mathbf v-\hat{\mathbf v}$ ，由于任意基向量 $\mathbf u_j$ 与其他基向量正交且 $\mathbf z\in W^{\perp}$ ，则
$\lang\mathbf z,\mathbf u_j\rang=\lang\mathbf v-\hat{\mathbf v},\mathbf u_j\rang= \lang\mathbf v,\mathbf u_j\rang-x_j\lang\mathbf u_j,\mathbf u_j\rang=0$
于是便求得了投影的系数
$x_j=\frac{\lang\mathbf v,\mathbf u_j\rang}{\lang\mathbf u_j,\mathbf u_j\rang}$
性质：设 $W$ 是 $V$ 的子空间， $\mathbf v\in V,\hat{\mathbf v}=\text{proj}_W\mathbf v$

(最佳逼近定理) $\hat{\mathbf v}$ 是 $W$ 中最接近 $\mathbf v$ 的点，即对于 $\forall\mathbf w\in W,\ \|\mathbf v-\hat{\mathbf v}\|\leqslant \|\mathbf v-\mathbf w\|$
若 $U=(\mathbf u_1,\mathbf u_2,\cdots,\mathbf u_p)$ 的列向量是 $W$ 的单位正交基，则 $\text{proj}_W\mathbf v=UU^T\mathbf v$

证：(1) 取 $W$ 中的任一向量 $\mathbf w$ ，由于
$\mathbf v-\mathbf w=(\mathbf v-\hat{\mathbf v})+(\hat{\mathbf v}-\mathbf w)$

在这里插入图片描述

由勾股定理定理知道
$\|\mathbf v-\mathbf w\|^2=\|\mathbf v-\hat{\mathbf v}\|^2+\|\hat{\mathbf v}-\mathbf w\|^2$
由于 $\|\hat{\mathbf v}-\mathbf w\|^2\geqslant 0$ 从而不等式得证。

(2) 由于 $\mathbf u_1,\mathbf u_2,\cdots,\mathbf u_p$ 是 $W$ 的单位正交基，那么
$\text{proj}_W\mathbf v=\lang\mathbf v,\mathbf u_1\rang\mathbf u_1+\lang\mathbf v,\mathbf u_2\rang\mathbf u_2\cdots++\lang\mathbf v,\mathbf u_p\rang\mathbf u_p\\ =\mathbf u_1^T\mathbf v\mathbf u_1+\mathbf u_2^T\mathbf v\mathbf u_2+\cdots+\mathbf u_p^T\mathbf v\mathbf u_p=UU^T\mathbf v$

施密特正交化

施密特(Schmidt)正交化方法是将向量空间 $V$ 的任意一组基 $\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_r$ 构造成标准正交基 $\mathbf e_1,\mathbf e_2,\cdots,\mathbf e_r$ 的简单算法。

取
$\begin{aligned} &\mathbf b_1=\mathbf a_1 \\ &\mathbf b_2=\mathbf a_2-\frac{\mathbf b_1^T\mathbf a_2}{\mathbf b_1^T\mathbf b_1}\mathbf b_1 \\ &\mathbf b_3=\mathbf a_3-\frac{\mathbf b_1^T\mathbf a_3}{\mathbf b_1^T\mathbf b_1}\mathbf b_1-\frac{\mathbf b_2^T\mathbf a_3}{\mathbf b_2^T\mathbf b_2}\mathbf b_2 \\ &\cdots \\ &\mathbf b_r=\mathbf a_r-\frac{\mathbf b_1^T\mathbf a_r}{\mathbf b_1^T\mathbf b_1}\mathbf b_1-\frac{\mathbf b_2^T\mathbf a_r}{\mathbf b_2^T\mathbf b_2}\mathbf b_2-\cdots-\frac{\mathbf b_{r-1}^T\mathbf a_{r-1}}{\mathbf b_{r-1}^T\mathbf b_{r-1}}\mathbf b_{r-1} \\ \end{aligned}$
那么 $\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_r$ 是 $V$ 的一组正交基
$V=\text{span }\{\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_r\}=\text{span }\{\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_r\}$
再把它们单位化
$\mathbf e_1=\frac{1}{\|\mathbf b_1\|}\mathbf b_1,\quad\mathbf e_2=\frac{1}{\|\mathbf b_2\|}\mathbf b_2,\quad\cdots,\quad\mathbf e_r=\frac{1}{\|\mathbf b_r\|}\mathbf b_r$
最终获得 $V$ 的一组标准正交基。

例：设 $\mathbf a_1=\begin{bmatrix}1\\1\\1\\1\end{bmatrix},\mathbf a_2=\begin{bmatrix}0\\1\\1\\1\end{bmatrix},\mathbf a_3=\begin{bmatrix}0\\0\\1\\1\end{bmatrix}$ 是子空间 $V$ 的一组基，试构造 $V$ 的一组正交基

解：step 1 取第一个基向量 $\mathbf b_1=\mathbf a_1,W_1=\text{span}\{\mathbf a_1\}=\text{span}\{\mathbf b_1\}$

step 2 取第二个基向量
$\mathbf b_2=\mathbf a_2-\text{proj}_{W_1}\mathbf a_2= \mathbf a_2-\frac{\mathbf b_1^T\mathbf a_2}{\mathbf b_1^T\mathbf b_1}\mathbf b_1\\ =\begin{bmatrix}0\\1\\1\\1\end{bmatrix}-\frac{3}{4}\begin{bmatrix}1\\1\\1\\1\end{bmatrix}= \begin{bmatrix}-3/4\\1/4\\1/4\\1/4\end{bmatrix}$

为计算方便，缩放 $\mathbf b_2=(-3,1,1,1)^T$ 。同样取 $W_2=\text{span}\{\mathbf b_1,\mathbf b_2\}$

step 3 取第三个基向量
$\mathbf b_3=\mathbf a_3-\text{proj}_{W_2}\mathbf a_3= \mathbf a_3-\frac{\mathbf b_1^T\mathbf a_3}{\mathbf b_1^T\mathbf b_1}\mathbf b_1-\frac{\mathbf b_2^T\mathbf a_3}{\mathbf b_2^T\mathbf b_2}\mathbf b_2\\ =\begin{bmatrix}0\\0\\1\\1\end{bmatrix}- \frac{2}{4}\begin{bmatrix}1\\1\\1\\1\end{bmatrix}- \frac{2}{12}\begin{bmatrix}-3\\1\\1\\1\end{bmatrix}= \begin{bmatrix}0\\-2/3\\1/3\\1/3\end{bmatrix}$

在这里插入图片描述

实对称矩阵的对角化

定理：

实对称矩阵对应于不同特征值的特征向量必正交。
实对称矩阵可正交相似对角化。即对于对称矩阵 $A$ ，存在正交矩阵 $P$ ，使 $\Lambda=P^{-1}AP$ 。 $\Lambda$ 的对角元素为 $A$ 的特征值。

证明：(1) 设实对称矩阵 $A$ 对应不同特征值 $\lambda_1,\lambda_2$ 的特征向量分别为 $\mathbf u_1,\mathbf u_2$ 。则
$A^T=A,\quad A\mathbf u_1=\lambda_1\mathbf u_1,\quad A\mathbf u_2=\lambda_2\mathbf u_2$
对 $A\mathbf u_1=\lambda_1\mathbf u_1$ 两边求转置，再右乘向量 $\mathbf u_2$ ，有
$\mathbf u_1^TA\mathbf u_2=\lambda_1\mathbf u_1^T\mathbf u_2$
对 $A\mathbf u_2=\lambda_2\mathbf u_2$ 两边左乘向量 $\mathbf u_1^T$ ，有
$\mathbf u_1^TA\mathbf u_2=\lambda_2\mathbf u_1^T\mathbf u_2$
两式相减，得到
$(\lambda_1-\lambda_2)\mathbf u_1^T\mathbf u_2=0$
由于 $\lambda_1\neq \lambda_2$ ，所以 $\mathbf u_1^T\mathbf u_2=0$ ，即特征向量 $\mathbf u_1,\mathbf u_2$ 正交。

例：将矩阵 $A=\begin{bmatrix}3&-2&4\\-2&6&2\\4&2&3\end{bmatrix}$ 正交对角化

解：特征方程 $\det(A-\lambda I)=-(\lambda-7)^2(\lambda+2)=0$ ，特征值和特征向量分别为
$\lambda=7:\mathbf v_1=\begin{bmatrix}1\\0\\1\end{bmatrix}, \mathbf v_2=\begin{bmatrix}-1/2\\1\\0\end{bmatrix}; \quad \lambda=-2:\mathbf v_1=\begin{bmatrix}-1\\-1/2\\1\end{bmatrix}$
尽管 $\mathbf v_1,\mathbf v_2$ 是线性无关的，但它们并不正交。我们可以用施密特正交化方法，计算与 $\mathbf v_1$ 正交的 $\mathbf v_2$ 分量
$\mathbf z_2=\mathbf v_2-\frac{\mathbf v_1^T\mathbf v_2}{\mathbf v_1^T\mathbf v_1}\mathbf v_1=\begin{bmatrix}-1/4\\1\\1/4\end{bmatrix}$
由于 $\mathbf z_2$ 是特征值 $\lambda=7$ 的特征向量 $\mathbf v_1,\mathbf v_2$ 的线性组合，从而 $\mathbf z_2$ 是特征值 $\lambda=7$ 的特征向量。

分别将 $\mathbf v_1,\mathbf v_2,\mathbf v_3$ 标准化
$\mathbf u_1=\begin{bmatrix}1/\sqrt{2}\\0\\1/\sqrt{2}\end{bmatrix}, \mathbf u_2=\begin{bmatrix}-1/\sqrt{18}\\4/\sqrt{18}\\1/\sqrt{18}\end{bmatrix}, \mathbf u_3=\begin{bmatrix}-2/3\\-1/3\\2/3\end{bmatrix}$
令
$P=(\mathbf u_1,\mathbf u_2,\mathbf u_3)=\begin{bmatrix}1/\sqrt{2}&-1/\sqrt{18}&-2/3\\0&4/\sqrt{18}&-1/3\\1/\sqrt{2}&1/\sqrt{18}&2/3\end{bmatrix},\quad \Lambda=\begin{bmatrix}7&0&0\\0&7&0\\0&0&-2\end{bmatrix}$
于是正交矩阵 $P$ 将 $A$ 正交对角化，即 $A=P\Lambda P^{-1}$

对称矩阵的谱：矩阵 $A$ 的特征值的集合称为 $A$ 的谱(spectrum)
$\text{spec }A=\{\lambda\in\Complex\mid\det(A-\lambda I)=0\}$
性质 设 $A$ 为 $n$ 阶对称阵

$A$ 有 $n$ 个实特征值(包含重复的特征值)；
对于每一个特征值，对应的特征空间的维数等于特征方程的根的重数；
不同特征值的特征空间相互正交的；
$A$ 可正交対角化;

谱分解：假设对称矩阵 $A=P\Lambda P^{-1}$ 。其中 $P$ 为正交矩阵，其列是 $A$ 的正交特征向量 $\mathbf u_1,\mathbf u_2,\cdots,\mathbf u_n$ ，对应的特征值 $\lambda_1,\lambda_2,\cdots,\lambda_n$ 是 $\Lambda$ 的对角线元素。由于 $P^T=P^{-1}$ ，故
$\begin{aligned} A&=P\Lambda P^{-1}=(\mathbf u_1,\mathbf u_2,\cdots,\mathbf u_n) \begin{bmatrix}\lambda_1\\&\lambda_2\\&&\ddots\\&&&\lambda_n\end{bmatrix} \begin{bmatrix}\mathbf u_1^T\\\mathbf u_2^T\\\vdots\\\mathbf u_n^T\end{bmatrix} \\ &=(\lambda_1\mathbf u_1,\lambda_2\mathbf u_2,\cdots,\lambda_n\mathbf u_n) \begin{bmatrix}\mathbf u_1^T\\\mathbf u_2^T\\\vdots\\\mathbf u_n^T\end{bmatrix} \\ &=\lambda_1\mathbf u_1\mathbf u_1^T+\lambda_2\mathbf u_2\mathbf u_2^T+\cdots+\lambda_n\mathbf u_n\mathbf u_n^T \end{aligned}$
由于它将 $A$ 分解为由 $A$ 的特征值确定的小块，因此这个 $A$ 的表示就称为 $A$ 的谱分解。上式中的每一项都是一个秩为1的 $n$ 阶方阵。例如， $\lambda_1\mathbf u_1\mathbf u_1^T$ 的每一列都是 $\mathbf u_1$ 的倍数。