这里写目录标题
- 理论
- 1 诱导范数 (induced norm)
- 2 “元素形式”范数(“entrywise" norm)
- 3 Schatten 范数
- 论文中常用范数的书写
理论
参考张贤达矩阵分析page 34
矩阵范数主要有三种类型:诱导范数,元素形式范数和Schatten范数
1 诱导范数 (induced norm)
诱导范数又称 m × n m\times n m×n矩阵空间上的算子范数 (operator norm),定义为
(1.4.36)
∥ A ∥ = max { ∥ A x ∥ : x ∈ K n , ∥ x ∥ = 1 } = max { ∥ A x ∥ ∥ x ∥ : x ∈ K n , x ≠ 0 } \begin{aligned}\|A\|&=\max\{\|Ax\|:\boldsymbol{x}\in\mathbb{K}^n,\|\boldsymbol{x}\|=1\}\\&=\max\left\{\frac{\|Ax\|}{\|x\|}:x\in\mathbb{K}^n,x\neq0\right\}\end{aligned} ∥A∥=max{∥Ax∥:x∈Kn,∥x∥=1}=max{∥x∥∥Ax∥:x∈Kn,x=0}
(1.4.37)
常用的诱导范数为 p p p-范数
∥ A ∥ p = d e f max x ≠ 0 ∥ A x ∥ p ∥ x ∥ p \|A\|_p\overset{\mathrm{def}}{\operatorname*{=}}\max_{\boldsymbol{x}\neq0}\frac{\|\boldsymbol{A}\boldsymbol{x}\|_p}{\|\boldsymbol{x}\|_p} ∥A∥p=defx=0max∥x∥p∥Ax∥p
(1.4.38)
p
p
p范数也称 Minkowski
p
p
p范数或者
L
p
L_p
Lp范数。特别地,
p
=
1
,
2
,
∞
p=1,2,\infty
p=1,2,∞时,对应的诱导范数分别为
∥
A
∥
1
=
max
1
⩽
j
⩽
n
∑
i
=
1
m
∣
a
i
j
∣
(
1.4.39
)
∥
A
∥
s
p
e
c
=
∥
A
∥
2
(
1.4.40
)
∥
A
∥
∞
=
max
1
⩽
i
⩽
m
∑
j
=
1
n
∣
a
i
j
∣
(
1.4.41
)
\begin{aligned} &\|A\|_1=\max_{1\leqslant j\leqslant n}\sum_{i=1}^m|a_{ij}|&& (1.4.39) \\ &\left\|A\right\|_{\mathrm{spec}}=\left\|A\right\|_2&& (1.4.40) \\ &\left\|\boldsymbol{A}\right\|_\infty=\max_{1\leqslant i\leqslant m}\sum_{j=1}^n\left|a_{ij}\right|&& (1.4.41) \end{aligned}
∥A∥1=1⩽j⩽nmaxi=1∑m∣aij∣∥A∥spec=∥A∥2∥A∥∞=1⩽i⩽mmaxj=1∑n∣aij∣(1.4.39)(1.4.40)(1.4.41)
也就是说,诱导
L
1
L_{1}
L1和
L
∞
L_\infty
L∞范数分别直接是该矩阵的各列元素绝对值之和的最大值 (最大
绝对列和)及最大绝对行和;而诱导
L
2
L_{2}
L2范数则是矩阵
A
\boldsymbol{A}
A的最大奇异值。
诱导
L
1
L_1
L1范数
∥
A
∥
1
\|\boldsymbol{A}\|_1
∥A∥1和诱导
L
∞
L_\infty
L∞范数
∥
A
∥
∞
\|\boldsymbol{A}\|_\infty
∥A∥∞也分别称为绝对列和范数 (column-sum norm) 及绝对行和范数 (row-sum norm)。诱导
L
2
L_2
L2范数习惯称为谱范数 (spectrum norm)。
2 “元素形式”范数(“entrywise" norm)
将 m × n m\times n m×n矩阵先按照列堆栈的形式,排列成一个 m n × 1 mn\times1 mn×1向量,然后采用向量的范数定义,即得到矩阵的范数。由于这类范数是使用矩阵的元素表示的,故称为元素形式范数。元素形式范数是下面的 p p p矩阵范数
∥ A ∥ p = d e f ( ∑ i = 1 m ∑ j = 1 n ∣ a i j ∣ p ) 1 / p \left\|A\right\|_p\overset{\mathrm{def}}{=}\left(\sum_{i=1}^m\sum_{j=1}^n|a_{ij}|^p\right)^{1/p} ∥A∥p=def(i=1∑mj=1∑n∣aij∣p)1/p
(1.4.42)
以下是三种典型的元素形式
p
p
p范数:
(1)
L
1
L_{1}
L1范数 (和范数)
(
p
=
1
)
(p=1)
(p=1)
(1.4.43)
∥ A ∥ 1 = d e f ∑ i = 1 m ∑ j = 1 n ∣ a i j ∣ \|A\|_1\stackrel{\mathrm{def}}{=}\sum_{i=1}^m\sum_{j=1}^n|a_{ij}| ∥A∥1=defi=1∑mj=1∑n∣aij∣
(2) Frobenius 范数( p = 2 ) p=2) p=2)
∥ A ∥ F = d e f ( ∑ i = 1 m ∑ j = 1 n ∣ a i j ∣ 2 ) 1 / 2 \|A\|_\mathrm{F}\stackrel{\mathrm{def}}{=}\left(\sum_{i=1}^m\sum_{j=1}^n|a_{ij}|^2\right)^{1/2} ∥A∥F=def(i=1∑mj=1∑n∣aij∣2)1/2
(1.4.44)
(3)最大范数 (max norm)即 p = ∞ p=\infty p=∞的 p p p范数,定义为
(1.4.45)
∥ A ∥ ∞ = max i = 1 , ⋯ , m ; j = 1 , ⋯ , n { ∣ a i j ∣ } \left\|A\right\|_\infty=\max_{i=1,\cdots,m;j=1,\cdots,n}\{\left|a_{ij}\right|\} ∥A∥∞=i=1,⋯,m;j=1,⋯,nmax{∣aij∣}
Frobenius 范数可以视为向量的 Euclideani 范数对按照矩阵各列依次排列的“拉长向量”
x
=
[
a
11
,
⋯
,
a
m
1
,
a
12
,
⋯
,
a
m
2
,
⋯
,
a
1
n
,
⋯
,
a
m
n
]
T
x=[a_{11},\cdots,a_{m1},a_{12},\cdots,a_{m2},\cdots,a_{1n},\cdots,a_{mn}]^{\mathrm{T}}
x=[a11,⋯,am1,a12,⋯,am2,⋯,a1n,⋯,amn]T的推广。矩阵的 Frobenius 范数有时也称 Euclidean 范数、Schur 范数、Hilbert-Schmidt 范数或者
L
2
L_{2}
L2范数。
Frobenius 范数又可写作迹函数的形式
∥ A ∥ F = d e f ⟨ A , A ⟩ 1 / 2 = t r ( A H A ) \left\|\boldsymbol{A}\right\|_\mathrm{F}\stackrel{\mathrm{def}}{=}\left\langle\boldsymbol{A},\boldsymbol{A}\right\rangle^{1/2}=\sqrt{\mathrm{tr}\left(\boldsymbol{A}^\mathrm{H}\boldsymbol{A}\right)} ∥A∥F=def⟨A,A⟩1/2=tr(AHA)
(1.4.46)
由正定的矩阵 Ω \Omega Ω进行加权的 Frobenius 范数
∥ A ∥ Ω = tr ( A H Ω A ) \left\|\boldsymbol{A}\right\|_\Omega=\sqrt{\operatorname{tr}(\boldsymbol{A}^\mathrm{H}\boldsymbol{\Omega}\boldsymbol{A})} ∥A∥Ω=tr(AHΩA)
(1.4.47)
称为Mahalanobis范数
3 Schatten 范数
Schatten 范数就是用矩阵的奇异值定义的范数,将在第 5 章 (奇异值分析) 中介绍。注意,向量
x
x
x的
L
p
L_p
Lp范数
∥
x
∥
p
\|x\|_p
∥x∥p相当于该向量的长度。当矩阵
A
A
A作用于长度为
∥
x
∥
p
\|x\|_p
∥x∥p
的向量
x
x
x时,得到线性变换结果为向量
A
x
Ax
Ax,其长度为
∥
A
x
∥
p
\|Ax\|_p
∥Ax∥p。线性变换矩阵
A
A
A可视为一线性放大器算子。因此,比率
∥
A
x
∥
p
/
∥
x
∥
p
\|\boldsymbol{A}x\|_p/\|x\|_p
∥Ax∥p/∥x∥p提供了线性变换
A
x
Ax
Ax相对于
x
x
x的放大倍数, 而矩阵
A
\boldsymbol{A}
A的
p
p
p范数
∥
A
∥
p
\|\boldsymbol{A}\|_p
∥A∥p是由
A
\boldsymbol{A}
A产生的最大放大倍数。类似地,放大器算子
A
\boldsymbol{A}
A的最小放大倍数由
min ∣ A ∣ p = d e f min x ≠ 0 ∥ A x ∥ p ∥ x ∥ p \min|\boldsymbol{A}|_p\overset{\mathrm{def}}{\operatorname*{=}}\min_{\boldsymbol{x}\neq\boldsymbol{0}}\frac{\|\boldsymbol{A}\boldsymbol{x}\|_p}{\|\boldsymbol{x}\|_p} min∣A∣p=defx=0min∥x∥p∥Ax∥p
(1.4.48)
给出。比率
∥
A
∥
p
/
min
∣
A
∣
p
′
\|\boldsymbol{A}\|_p/\min|\boldsymbol{A}|_p^{\prime}
∥A∥p/min∣A∣p′描述放大器算子
A
A
A的“动态范围”。
若
A
,
B
A,B
A,B是
m
×
n
m\times n
m×n矩阵,则矩阵的范数具有以下性质
(1.4.49)
(1.4.50)
(1.4.51)
∥
A
+
B
∥
+
∥
A
−
B
∥
=
2
(
∥
A
∥
2
+
∥
B
∥
2
)
\|A+B\|+\|A-B\|=2(\|A\|^2+\|B\|^2)
∥A+B∥+∥A−B∥=2(∥A∥2+∥B∥2)
∥
A
+
B
∥
⋅
∥
A
−
B
∥
⩽
∥
A
∥
2
+
∥
B
∥
2
\|A+B\|\cdot\|A-B\|\leqslant\|A\|^2+\|B\|^2
∥A+B∥⋅∥A−B∥⩽∥A∥2+∥B∥2
以下是矩阵的内积与范数之间的关系
[
238
]
^{[238]}
[238]。
(1) Cauchy-Schwartz 不等式
∣
⟨
A
,
B
⟩
∣
2
⩽
∥
A
∥
2
∥
B
∥
2
\left|\langle A,B\rangle\right|^2\leqslant\|A\|^2\|B\|^2
∣⟨A,B⟩∣2⩽∥A∥2∥B∥2
等号成立,当且仅当
A
=
c
B
\boldsymbol A=c\boldsymbol B
A=cB,其中,
c
c
c是某个复常数。
(2) Pathagoras 定理:
⟨
A
,
B
⟩
=
0
\langle \boldsymbol{A}, \boldsymbol{B}\rangle = 0
⟨A,B⟩=0
⇒
\Rightarrow
⇒
∥
A
+
B
∥
2
=
∥
A
∥
2
+
∥
B
∥
2
\| \boldsymbol{A}+ \boldsymbol{B}\| ^2= \| \boldsymbol{A}\| ^2+ \| \boldsymbol{B}\| ^2
∥A+B∥2=∥A∥2+∥B∥2
(3)极化恒等式
R
e
(
⟨
A
,
B
⟩
)
=
1
4
(
∥
A
+
B
∥
2
−
∥
A
−
B
∥
2
)
R
e
(
⟨
A
,
B
⟩
)
=
1
2
(
∥
A
+
B
∥
2
−
∥
A
∥
2
−
∥
B
∥
2
)
\begin{aligned}&\mathrm{Re}\left(\langle\boldsymbol{A},\boldsymbol{B}\rangle\right)=\frac14\left(\|\boldsymbol{A}+\boldsymbol{B}\|^2-\|\boldsymbol{A}-\boldsymbol{B}\|^2\right)\\&\mathrm{Re}\left(\langle\boldsymbol{A},\boldsymbol{B}\rangle\right)=\frac12\left(\|\boldsymbol{A}+\boldsymbol{B}\|^2-\|\boldsymbol{A}\|^2-\|\boldsymbol{B}\|^2\right)\end{aligned}
Re(⟨A,B⟩)=41(∥A+B∥2−∥A−B∥2)Re(⟨A,B⟩)=21(∥A+B∥2−∥A∥2−∥B∥2)
式中 Re
(
⟨
A
,
B
⟩
)
(\langle\boldsymbol{A},\boldsymbol{B}\rangle)
(⟨A,B⟩)表示
A
H
B
A^\mathrm{H}\boldsymbol{B}
AHB的实部。
(1.4.52)
(1.4.53)
论文中常用范数的书写
∣
⋅
∣
|\cdot|
∣⋅∣,denote the absolute value of a complex scalar
∥
⋅
∥
\|\cdot\|
∥⋅∥,denote the Euclidean norm of a vector,
∥
⋅
∥
∗
\|\cdot\|_*
∥⋅∥∗, denote the the nuclear norm of a matrix,
∥
⋅
∥
2
\|\cdot\|_2
∥⋅∥2 denote the spectral norm of a matrix.
-
欧几里得范数 Euclidean norm ∥ ⋅ ∥ \|\cdot\| ∥⋅∥ 又称Frobenius范数,Schur范数,Hilbert-Schmidt范数或者 L 2 L_2 L2范数:
欧几里得范数 对于向量 v = [ v 1 , v 2 , … , v n ] ⊤ \mathbf{v} = [v_1, v_2, \dots, v_n]^\top v=[v1,v2,…,vn]⊤,它表示向量的长度或大小,定义为所有元素平方和的平方根:欧几里得范数 ∥ ⋅ ∥ \|\cdot\| ∥⋅∥ 是用于向量的 2-范数。对于向量 v = [ v 1 , v 2 , … , v n ] ⊤ \mathbf{v} = [v_1, v_2, \dots, v_n]^\top v=[v1,v2,…,vn]⊤,定义为:
∥ v ∥ = ∑ i = 1 n ∣ v i ∣ 2 \|\mathbf{v}\| = \sqrt{\sum_{i=1}^n |v_i|^2} ∥v∥=i=1∑n∣vi∣2
它表示向量在空间中的长度或大小。
同理引申到矩阵。
∥ A ∥ = ∥ A ∥ F = d e f ( ∑ i = 1 m ∑ j = 1 n ∣ a i j ∣ 2 ) 1 / 2 \|A\| = \|A\|_\mathrm{F}\stackrel{\mathrm{def}}{=}\left(\sum_{i=1}^m\sum_{j=1}^n|a_{ij}|^2\right)^{1/2} ∥A∥=∥A∥F=def(i=1∑mj=1∑n∣aij∣2)1/2
-
核范数 nuclear norm ∥ ⋅ ∥ ∗ \|\cdot\|_* ∥⋅∥∗:
核范数是矩阵奇异值的和,也被称为“迹范数”。对于矩阵 A \mathbf{A} A,核范数通过将矩阵的奇异值相加得到,常用于低秩矩阵逼近问题:核范数 ∥ ⋅ ∥ ∗ \|\cdot\|_* ∥⋅∥∗ 是矩阵奇异值的和,常用于低秩矩阵问题。对于矩阵 A \mathbf{A} A,定义为:
∥ A ∥ ∗ = ∑ i σ i \|\mathbf{A}\|_* = \sum_{i} \sigma_i ∥A∥∗=i∑σi
其中 σ i \sigma_i σi 是矩阵 A \mathbf{A} A 的奇异值。
贴上一些关于核范数的拓展介绍。
- 谱范数 spectral norm
∥
⋅
∥
2
\|\cdot\|_2
∥⋅∥2:
谱范数,是诱导范数的一种,也称为矩阵的 诱导 L 2 L_2 L2-范数,其定义在最上面
是矩阵的最大奇异值。它描述了矩阵作为线性变换时对向量的最大伸缩程度:
在实际计算时, 谱范数
∥
⋅
∥
2
\|\cdot\|_2
∥⋅∥2 是矩阵的最大奇异值。对于矩阵
A
\mathbf{A}
A,定义为:
∥
A
∥
2
=
max
i
σ
i
\|\mathbf{A}\|_2 = \max_i \sigma_i
∥A∥2=imaxσi
其中
σ
i
\sigma_i
σi 是矩阵
A
\mathbf{A}
A 的奇异值。
证明如下:
在实际计算中,诱导的 L2 范数,也称为矩阵的谱范数,等于矩阵的最大奇异值。这是因为矩阵的 L2 范数定义为:
∥
A
∥
2
=
sup
∥
x
∥
2
=
1
∥
A
x
∥
2
\|A\|_2 = \sup_{\|x\|_2 = 1} \|Ax\|_2
∥A∥2=∥x∥2=1sup∥Ax∥2
也就是对单位向量 (x) 进行矩阵 (A) 作用后所得向量的最大长度(或范数)。这个定义可以理解为,L2 范数描述了矩阵 (A) 在欧几里得空间中作用时可能产生的最大拉伸效果。
在奇异值分解(SVD)中,任意矩阵 (A) 可以表示为:
A
=
U
Σ
V
T
A = U \Sigma V^T
A=UΣVT
其中,(U) 和 (V) 是正交矩阵,而 (\Sigma) 是一个对角矩阵,包含了 (A) 的所有奇异值,即 (A) 的作用在不同方向上的尺度因子。
由于 (U) 和 (V) 是正交矩阵,它们的作用不会改变向量的长度(它们仅进行旋转和反射),矩阵 (A) 的拉伸效果完全由 (\Sigma) 矩阵中的对角元素(奇异值)来决定。因此,(A) 对向量的最大拉伸效果(即 L2 范数)就等于最大奇异值。
总结来说,矩阵的 L2 范数与其最大奇异值相等,因此在实际计算诱导 L2 范数时,只需找到矩阵的奇异值并取其中的最大值即可,而无需进一步计算复杂的向量优化问题。