矩阵范数介绍

news2025/7/7 7:48:22

这里写目录标题

- 理论
- - 1 诱导范数 (induced norm)
  - 2 “元素形式”范数(“entrywise" norm)
  - 3 Schatten 范数
- 论文中常用范数的书写

理论

参考张贤达矩阵分析page 34

矩阵范数主要有三种类型：诱导范数，元素形式范数和Schatten范数

1 诱导范数 (induced norm)

诱导范数又称 $m\times n$ 矩阵空间上的算子范数 (operator norm),定义为

(1.4.36)

$\begin{aligned}\|A\|&=\max\{\|Ax\|:\boldsymbol{x}\in\mathbb{K}^n,\|\boldsymbol{x}\|=1\}\\&=\max\left\{\frac{\|Ax\|}{\|x\|}:x\in\mathbb{K}^n,x\neq0\right\}\end{aligned}$

(1.4.37)

常用的诱导范数为 $p$ -范数

$\|A\|_p\overset{\mathrm{def}}{\operatorname*{=}}\max_{\boldsymbol{x}\neq0}\frac{\|\boldsymbol{A}\boldsymbol{x}\|_p}{\|\boldsymbol{x}\|_p}$

(1.4.38)

$p$ 范数也称 Minkowski $p$ 范数或者 $L_p$ 范数。特别地， $p=1,2,\infty$ 时，对应的诱导范数分别为
$\begin{aligned} &\|A\|_1=\max_{1\leqslant j\leqslant n}\sum_{i=1}^m|a_{ij}|&& (1.4.39) \\ &\left\|A\right\|_{\mathrm{spec}}=\left\|A\right\|_2&& (1.4.40) \\ &\left\|\boldsymbol{A}\right\|_\infty=\max_{1\leqslant i\leqslant m}\sum_{j=1}^n\left|a_{ij}\right|&& (1.4.41) \end{aligned}$
也就是说，诱导 $L_{1}$ 和 $L_\infty$ 范数分别直接是该矩阵的各列元素绝对值之和的最大值 (最大
绝对列和)及最大绝对行和；而诱导 $L_{2}$ 范数则是矩阵 $\boldsymbol{A}$ 的最大奇异值。
诱导 $L_1$ 范数 $\|\boldsymbol{A}\|_1$ 和诱导 $L_\infty$ 范数 $\|\boldsymbol{A}\|_\infty$ 也分别称为绝对列和范数 (column-sum norm) 及绝对行和范数 (row-sum norm)。诱导 $L_2$ 范数习惯称为谱范数 (spectrum norm)。

2 “元素形式”范数(“entrywise" norm)

将 $m\times n$ 矩阵先按照列堆栈的形式，排列成一个 $mn\times1$ 向量，然后采用向量的范数定义，即得到矩阵的范数。由于这类范数是使用矩阵的元素表示的，故称为元素形式范数。元素形式范数是下面的 $p$ 矩阵范数

$\left\|A\right\|_p\overset{\mathrm{def}}{=}\left(\sum_{i=1}^m\sum_{j=1}^n|a_{ij}|^p\right)^{1/p}$

(1.4.42)

以下是三种典型的元素形式 $p$ 范数：
(1) $L_{1}$ 范数 (和范数) $(p = 1)$

(1.4.43)

$\|A\|_1\stackrel{\mathrm{def}}{=}\sum_{i=1}^m\sum_{j=1}^n|a_{ij}|$

(2) Frobenius 范数( $p = 2)$

$\|A\|_\mathrm{F}\stackrel{\mathrm{def}}{=}\left(\sum_{i=1}^m\sum_{j=1}^n|a_{ij}|^2\right)^{1/2}$

(1.4.44)

(3)最大范数 (max norm)即 $p=\infty$ 的 $p$ 范数，定义为

(1.4.45)

$\left\|A\right\|_\infty=\max_{i=1,\cdots,m;j=1,\cdots,n}\{\left|a_{ij}\right|\}$

Frobenius 范数可以视为向量的 Euclideani 范数对按照矩阵各列依次排列的“拉长向量” $x=[a_{11},\cdots,a_{m1},a_{12},\cdots,a_{m2},\cdots,a_{1n},\cdots,a_{mn}]^{\mathrm{T}}$ 的推广。矩阵的 Frobenius 范数有时也称 Euclidean 范数、Schur 范数、Hilbert-Schmidt 范数或者 $L_{2}$ 范数。
Frobenius 范数又可写作迹函数的形式

$\left\|\boldsymbol{A}\right\|_\mathrm{F}\stackrel{\mathrm{def}}{=}\left\langle\boldsymbol{A},\boldsymbol{A}\right\rangle^{1/2}=\sqrt{\mathrm{tr}\left(\boldsymbol{A}^\mathrm{H}\boldsymbol{A}\right)}$

(1.4.46)

由正定的矩阵 $\Omega$ 进行加权的 Frobenius 范数

$\left\|\boldsymbol{A}\right\|_\Omega=\sqrt{\operatorname{tr}(\boldsymbol{A}^\mathrm{H}\boldsymbol{\Omega}\boldsymbol{A})}$

(1.4.47)
称为Mahalanobis范数

3 Schatten 范数

Schatten 范数就是用矩阵的奇异值定义的范数，将在第 5 章 (奇异值分析) 中介绍。注意，向量 $x$ 的 $L_p$ 范数 $x\|_p$ 相当于该向量的长度。当矩阵 $A$ 作用于长度为 $x\|_p$
的向量 $x$ 时，得到线性变换结果为向量 $A x$ ,其长度为 $Ax\|_p$ 。线性变换矩阵 $A$ 可视为一线性放大器算子。因此，比率 $\|\boldsymbol{A}x\|_p/\|x\|_p$ 提供了线性变换 $A x$ 相对于 $x$ 的放大倍数，而矩阵 $\boldsymbol{A}$ 的 $p$ 范数 $\|\boldsymbol{A}\|_p$ 是由 $\boldsymbol{A}$ 产生的最大放大倍数。类似地，放大器算子 $\boldsymbol{A}$ 的最小放大倍数由

$\min|\boldsymbol{A}|_p\overset{\mathrm{def}}{\operatorname*{=}}\min_{\boldsymbol{x}\neq\boldsymbol{0}}\frac{\|\boldsymbol{A}\boldsymbol{x}\|_p}{\|\boldsymbol{x}\|_p}$

(1.4.48)

给出。比率 $\|\boldsymbol{A}\|_p/\min|\boldsymbol{A}|_p^{\prime}$ 描述放大器算子 $A$ 的“动态范围”。
若 $A, B$ 是 $m\times n$ 矩阵，则矩阵的范数具有以下性质

(1.4.49)

(1.4.50)

(1.4.51)

$A+B\|+\|A-B\|=2(\|A\|^2+\|B\|^2)$
$\|A+B\|\cdot\|A-B\|\leqslant\|A\|^2+\|B\|^2$
以下是矩阵的内积与范数之间的关系 $^{[238]}$ 。
(1) Cauchy-Schwartz 不等式
$\left|\langle A,B\rangle\right|^2\leqslant\|A\|^2\|B\|^2$
等号成立，当且仅当 $\boldsymbol A=c\boldsymbol B$ ,其中， $c$ 是某个复常数。
(2) Pathagoras 定理： $\langle \boldsymbol{A}, \boldsymbol{B}\rangle = 0$ $\Rightarrow$ $\| \boldsymbol{A}+ \boldsymbol{B}\| ^2= \| \boldsymbol{A}\| ^2+ \| \boldsymbol{B}\| ^2$
(3)极化恒等式
$\begin{aligned}&\mathrm{Re}\left(\langle\boldsymbol{A},\boldsymbol{B}\rangle\right)=\frac14\left(\|\boldsymbol{A}+\boldsymbol{B}\|^2-\|\boldsymbol{A}-\boldsymbol{B}\|^2\right)\\&\mathrm{Re}\left(\langle\boldsymbol{A},\boldsymbol{B}\rangle\right)=\frac12\left(\|\boldsymbol{A}+\boldsymbol{B}\|^2-\|\boldsymbol{A}\|^2-\|\boldsymbol{B}\|^2\right)\end{aligned}$
式中 Re $(\langle\boldsymbol{A},\boldsymbol{B}\rangle)$ 表示 $A^\mathrm{H}\boldsymbol{B}$ 的实部。

(1.4.52)

(1.4.53)

论文中常用范数的书写

欧几里得范数 Euclidean norm $\|\cdot\|$ 又称Frobenius范数，Schur范数，Hilbert-Schmidt范数或者 $L_2$ 范数：
欧几里得范数 对于向量 $\mathbf{v} = [v_1, v_2, \dots, v_n]^\top$ ，它表示向量的长度或大小，定义为所有元素平方和的平方根：

欧几里得范数 $\|\cdot\|$ 是用于向量的 2-范数。对于向量 $\mathbf{v} = [v_1, v_2, \dots, v_n]^\top$ ，定义为：
$\|\mathbf{v}\| = \sqrt{\sum_{i=1}^n |v_i|^2}$
它表示向量在空间中的长度或大小。

同理引申到矩阵。

$\|A\| = \|A\|_\mathrm{F}\stackrel{\mathrm{def}}{=}\left(\sum_{i=1}^m\sum_{j=1}^n|a_{ij}|^2\right)^{1/2}$

核范数 nuclear norm $\|\cdot\|_*$ ：
核范数是矩阵奇异值的和，也被称为“迹范数”。对于矩阵 $\mathbf{A}$ ，核范数通过将矩阵的奇异值相加得到，常用于低秩矩阵逼近问题：

核范数 $\|\cdot\|_*$ 是矩阵奇异值的和，常用于低秩矩阵问题。对于矩阵 $\mathbf{A}$ ，定义为：
$\|\mathbf{A}\|_* = \sum_{i} \sigma_i$
其中 $\sigma_i$ 是矩阵 $\mathbf{A}$ 的奇异值。

贴上一些关于核范数的拓展介绍。
在这里插入图片描述

谱范数 spectral norm $\|\cdot\|_2$ ：
谱范数，是诱导范数的一种，也称为矩阵的诱导 $L_2$ -范数，其定义在最上面

是矩阵的最大奇异值。它描述了矩阵作为线性变换时对向量的最大伸缩程度：

在实际计算时，谱范数 $\|\cdot\|_2$ 是矩阵的最大奇异值。对于矩阵 $\mathbf{A}$ ，定义为：
$\|\mathbf{A}\|_2 = \max_i \sigma_i$
其中 $\sigma_i$ 是矩阵 $\mathbf{A}$ 的奇异值。

证明如下：

在实际计算中，诱导的 L2 范数，也称为矩阵的谱范数，等于矩阵的最大奇异值。这是因为矩阵的 L2 范数定义为：
$A\|_2 = \sup_{\|x\|_2 = 1} \|Ax\|_2$
也就是对单位向量 (x) 进行矩阵 (A) 作用后所得向量的最大长度（或范数）。这个定义可以理解为，L2 范数描述了矩阵 (A) 在欧几里得空间中作用时可能产生的最大拉伸效果。