支持向量机

news2024/11/20 3:33:54

目录

  • 支持向量机

  • 0. 由来

  • 1. 核心思想

  • 2. 硬间隔支持向量机

    • 2.1 间隔最大化

      • 2.1.1 函数间隔
      • 2.1.2 几何间隔
      • 2.1.2 间隔最大化
    • 2.2 转换为拉格朗日对偶问题

      • 2.2.1 拉格朗日对偶问题
      • 2.2.2 将问题转换为拉格朗日对偶问题
  • 3. 软间隔支持向量机

  • 4. 泛函基础

    • 4.1 度量(距离)空间

    • 4.2 线性空间

    • 4.3 赋范空间

    • 4.4 巴拿赫(Banach)空间

    • 4.5 内积空间

    • 4.6 希尔伯特(Hibert)空间

  • 5. 核支持向量机

    • 5.1 正定核

    • 5.2 常用核函数

      • 5.2.1 多项式核函数

      • 5.2.2 高斯核函数

        • 5.2.3 字符串核函数
  • 6. SMO算法

支持向量机

0. 由来

Cortes与Vapnik 提出线性支持向量机.

Boser Guyon Vapnik 又引入核技巧,提出非线性支持向量机。

Vapnik:俄罗斯统计学家。

1. 核心思想

可以将数据分开的超平面有很多,SVM为了达到更好的泛化效果,寻找一个能正确划分数据且使支持向量(距离分类超平面最近的样本点)间隔最大的超平面。对于线性不可分数据,有两种处理方式:

  • 松弛处理:即允许分类器对部分样本的分类出错。

  • 引入核函数:通过核函数将输入特征空间变换到维度更高的隐特征空间,在维度更高的隐特征空间数据变得线性可分。

请添加图片描述

2. 硬间隔支持向量机

数据线性可分,寻找正确分类数据且间隔最大的超平面。

分类超平面:

w ∗ ⋅ x + b ∗ = 0 w^*\cdot x+b^*=0 wx+b=0

决策函数:

f ( x ) = s i g n ( w ∗ ⋅ x + b ∗ ) f(x)=sign(w^*\cdot x + b^*) f(x)=sign(wx+b)

2.1 间隔最大化

2.1.1 函数间隔

∣ w ⋅ x + b ∣ |w\cdot x+b| wx+b能够相对的表示样本到超平面的距离, w ⋅ x + b w\cdot x+b wx+b的符号与 y y y的符号是否一致可以表示分类是否正确,故可以定义函数间隔来表示分类的正确性和置信度:

γ ^ i = y i ( w ⋅ x i + b ) γ ^ = min ⁡ i = 1... N γ ^ i \hat \gamma_i = y_i(w\cdot x_i+b) \\ \hat \gamma = \min_{i=1...N}\hat \gamma_i γ^i=yi(wxi+b)γ^=i=1...Nminγ^i

2.1.2 几何间隔

函数间隔存在一些问题:当 w w w b b b成比例的变化时,分类超平面没有改变但函数间隔确发生了变化,因此需要对 w w w b b b进行规范化,由此得出了几何间隔:

γ i = y i ( w ∥ w ∥ 2 ⋅ x i + b ∥ w ∥ 2 ) γ = min ⁡ i = 1... N γ i \gamma_i = y_i(\frac{w}{\Vert w \Vert_2}\cdot x_i+\frac{b}{\Vert w \Vert_2}) \\ \gamma = \min_{i=1...N}\gamma_i γi=yi(w2wxi+w2b)γ=i=1...Nminγi

函数间隔和几何间隔存在如下关系:

γ i = γ ^ i ∥ w ∥ 2 γ = γ ^ ∥ w ∥ 2 \gamma_i = \frac{\hat \gamma_i}{\Vert w \Vert_2}\\ \gamma = \frac{\hat \gamma}{\Vert w \Vert_2} γi=w2γ^iγ=w2γ^

2.1.2 间隔最大化

确保分类正确的同时定义间隔最大化有:

max ⁡ w , b γ ^ ∥ w ∥ 2 s . t . y i ( w ⋅ x i + b ) ≥ γ ^ γ ^ ≥ 0 \max_{w,b} \quad \frac{\hat \gamma}{\Vert w \Vert_2} \\ s.t. \quad y_i(w\cdot x_i+b)\ge \hat \gamma\\ \hat \gamma \ge 0 w,bmaxw2γ^s.t.yi(wxi+b)γ^γ^0

函数间隔 γ ^ \hat \gamma γ^的取值并不影响最优化问题的解 事实上,假设将 w , b w,b w,b按比例改变为 λ w , λ b \lambda w,\lambda b λw,λb这时函数间隔成为 λ γ ^ \lambda \hat \gamma λγ^,不妨令 γ ^ = 1 \hat \gamma=1 γ^=1则有:

min ⁡ w , b 1 ∥ w ∥ 2 s . t . y i ( w ⋅ x i + b ) ≥ 1 \min_{w,b} \quad \frac{1}{\Vert w \Vert_2} \\ s.t. \quad y_i(w\cdot x_i+b)\ge 1 w,bminw21s.t.yi(wxi+b)1

该问题的解具有存在性和唯一性,详细证明见李航《统计机器学习》

2.2 转换为拉格朗日对偶问题

2.2.1 拉格朗日对偶问题

对于含有不等式的约束问题:

min ⁡ f ( x ) s . t . c i ( x ) ≤ 0 h j ( j ) = 0 \begin{aligned} \min \quad f(x)&\\ s.t.\quad c_i(x)&\le 0 \\ h_j(j)&=0 \end{aligned} minf(x)s.t.ci(x)hj(j)0=0

希望找到一个无约束优化问题,使得无约束优化问题的解即为原问题的解,由此构造了拉格朗日函数:

L ( x , α , β ) = f ( x ) + ∑ i α i c i ( x ) + ∑ j β i h j ( x ) L(x,\alpha,\beta) = f(x)+\sum_i \alpha_i c_i(x)+\sum_j\beta_i h_j(x)\\ L(x,α,β)=f(x)+iαici(x)+jβihj(x)

通过对 α \alpha α加限制可以做到:

max ⁡ α ≥ 0 , β L ( x , α , β ) = f ( x ) s . t . c i ( x ) ≤ 0 h j ( j ) = 0 \begin{aligned} \quad \max_{\alpha\ge0,\beta}L(x,\alpha,\beta)&=f(x)\\ s.t.\quad c_i(x)&\le 0 \\ h_j(j)&=0 \end{aligned} α0,βmaxL(x,α,β)s.t.ci(x)hj(j)=f(x)0=0

原始问题和对偶问题具有如下关系:

max ⁡ α , β : α ≥ 0 min ⁡ x L ( x , α , β ) ≤ min ⁡ α , β : α ≥ 0 max ⁡ x L ( x , α , β ) \max_{\alpha,\beta:\alpha\ge0} \min_x L(x,\alpha,\beta) \le \min_{\alpha,\beta:\alpha\ge0}\max_x L(x,\alpha,\beta) α,β:α0maxxminL(x,α,β)α,β:α0minxmaxL(x,α,β)

则原问题变为:

max ⁡ α ≥ 0 , β min ⁡ x L ( x , α , β ) s . t . c i ( x ) ≤ 0 h j ( j ) = 0 \begin{aligned} \quad \max_{\alpha\ge0,\beta}\min_x\quad L(x,\alpha,\beta)\\ s.t.\quad c_i(x)\le 0\\ h_j(j)=0 \end{aligned} α0,βmaxxminL(x,α,β)s.t.ci(x)0hj(j)=0

某些情况下原始问题和对偶问题的最优值相等(详细证明需要对偶相关理论),不妨设满足这个最优值的解为 ( x ∗ , α ∗ , β ∗ ) (x^*,\alpha^*,\beta^*) (x,α,β),则有成立的充要条件,即KKT条件:

∇ x L ( x ∗ , α ∗ , β ∗ ) = 0 α i ≥ 0 i = 1 , 2 , . . . , k α i ∗ c i ( x ) = 0 i = 1 , 2 , . . . , k c i ( x ) ≤ 0 i = 1 , 2 , . . . , k h j ( x ) = 0 j = 1 , 2 , . . . , l \nabla_xL(x^*,\alpha^*,\beta^*)=0\\ \alpha_i \ge 0\quad i=1,2,...,k\\ \alpha^*_i c_i(x)=0 \quad i=1,2,...,k\\ c_i(x)\le0\quad i=1,2,...,k\\ h_j(x)=0 \quad j=1,2,...,l xL(x,α,β)=0αi0i=1,2,...,kαici(x)=0i=1,2,...,kci(x)0i=1,2,...,khj(x)=0j=1,2,...,l

其中 α i ∗ c i ( x ) = 0 \alpha^*_i c_i(x)=0 αici(x)=0为对偶互补条件

2.2.2 将问题转换为拉格朗日对偶问题

定义拉格朗日函数有:

L ( w , b , α ) = 1 2 ∥ w ∥ 2 2 − ∑ i N α i y i ( w ⋅ x i + b ) + ∑ i N α i L(w,b,\alpha)=\frac{1}{2}\Vert w \Vert_2^2-\sum_i^N\alpha_i y_i(w\cdot x_i+b)+\sum_i^N\alpha_i L(w,b,α)=21w22iNαiyi(wxi+b)+iNαi

max ⁡ α : α ≥ 0 min ⁡ w , b L ( w , b , α ) \max_{\alpha:\alpha\ge0} \min_{w,b} L(w,b,\alpha) α:α0maxw,bminL(w,b,α)

求解 min ⁡ w , b L ( w , b , , α ) \min_{w,b}L(w,b,,\alpha) minw,bL(w,b,,α)有:

∇ w L ( w , b , α ) = w − ∑ i N α i y i x i = 0 ∇ b L ( w , b , α ) = − ∑ i N α i y i = 0 得 : w = ∑ i N α i y i x i ∑ i N α i y i = 0 \nabla_w L(w,b,\alpha)=w-\sum_i^N\alpha_iy_ix_i=0\\ \nabla_b L(w,b,\alpha)= -\sum_i^N\alpha_iy_i=0\\ 得:\\ w=\sum_i^N\alpha_iy_ix_i\\ \sum_i^N\alpha_iy_i=0 wL(w,b,α)=wiNαiyixi=0bL(w,b,α)=iNαiyi=0w=iNαiyixiiNαiyi=0

带原拉格朗日函数整理得:

L ( w , b , α ) = − 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) + ∑ i = 1 N α i L(w,b,\alpha)=-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_j y_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i\\ L(w,b,α)=21i=1Nj=1Nαiαjyiyj(xixj)+i=1Nαi

对偶问题有:

max ⁡ α L ( w , b , α ) = min ⁡ α − L ( w , b , α ) \max_{\alpha} L(w,b,\alpha)=\min_{\alpha}-L(w,b,\alpha) αmaxL(w,b,α)=αminL(w,b,α)

则最后需要求解得问题变为

min ⁡ α 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) − ∑ i = 1 N α i s . t . ∑ i = 1 N α i y i = 0 α i ≥ 0 , i = 1 , 2 , . . . , N \min_{\alpha} \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_j y_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i\\ s.t. \sum_{i=1}^{N}\alpha_i y_i=0 \\ \alpha_i \ge 0,\quad i=1,2,...,N αmin21i=1Nj=1Nαiαjyiyj(xixj)i=1Nαis.t.i=1Nαiyi=0αi0,i=1,2,...,N

求解出最优的 α ∗ = ( α 1 ∗ , α 2 ∗ , . . . , α N ∗ ) T \alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_N^*)^T α=(α1,α2,...,αN)T,后有解:

w ∗ = ∑ i = 1 N α i ∗ y i x i b ∗ = y j − ∑ i = 1 N α i ∗ y i ( x i ⋅ x j ) w^* = \sum_{i=1}^N\alpha_i^*y_ix_i\\ b^*=y_j-\sum_{i=1}^N\alpha_i^*y_i(x_i\cdot x_j) w=i=1Nαiyixib=yji=1Nαiyi(xixj)

决策函数有:

f ( x ) = s i g n ( ∑ i = 1 N α i ∗ y i ( x ⋅ x i ) + b ∗ ) f(x)=sign(\sum_{i=1}^N\alpha_i^*y_i(x\cdot x_i)+b^*) f(x)=sign(i=1Nαiyi(xxi)+b)

3. 软间隔支持向量机

对于线性不可分数据,某些样本不满足函数距离不小于1得条件,因此可以通过对每个样本引入一个松弛变量 ξ i ≥ 0 \xi_i \ge0 ξi0来松弛约束,并引入一个惩罚系数 C C C最小化所有松弛变量,则有如下软间隔得支持向量机问题:

m i n 1 2 ∥ w ∣ 2 2 + C ∑ i ξ i s . t . y i ( w ⋅ x i + b ) ≥ 1 − ξ i , i = 1 , 2 , . . . , N ξ i ≥ 0 , i = 1 , 2 , . . . , N min \quad \frac{1}{2}\Vert w \vert_2^2+C\sum_i \xi_i\\ s.t. \quad y_i(w\cdot x_i+b)\ge 1-\xi_i,\quad i=1,2,...,N\\ \xi_i\ge 0, \quad i=1,2,...,N min21w22+Ciξis.t.yi(wxi+b)1ξi,i=1,2,...,Nξi0,i=1,2,...,N

则此时拉格朗日函数有:

L ( w , b , ξ , α , μ ) = 1 2 ∥ w ∣ 2 2 + C ∑ i ξ i − ∑ i α i ( y i ( w ⋅ x i + b ) − 1 + ξ i ) − ∑ i μ i ξ i L(w,b,\xi,\alpha,\mu)=\frac{1}{2}\Vert w \vert_2^2+C\sum_i \xi_i-\sum_i\alpha_i(y_i(w\cdot x_i+b)-1+\xi_i)-\sum_i\mu_i\xi_i L(w,b,ξ,α,μ)=21w22+Ciξiiαi(yi(wxi+b)1+ξi)iμiξi

求解偏导数有:

∇ w L ( w , b , ξ , α , μ ) = w − ∑ i α i y i x i = 0 ∇ b L ( w , b , ξ , α , μ ) = − ∑ i α i y i = 0 ∇ ξ i L ( w , b , ξ , α , μ ) = C − α i − μ i = 0 \nabla_wL(w,b,\xi,\alpha,\mu)=w-\sum_i \alpha_i y_i x_i = 0\\ \nabla_bL(w,b,\xi,\alpha,\mu)= -\sum_i\alpha_iy_i=0\\ \nabla_{\xi_i} L(w,b,\xi,\alpha,\mu)= C-\alpha_i-\mu_i=0 wL(w,b,ξ,α,μ)=wiαiyixi=0bL(w,b,ξ,α,μ)=iαiyi=0ξiL(w,b,ξ,α,μ)=Cαiμi=0

解得:

w = ∑ i α i y i x i ∑ i α i y i = 0 C − α i − ξ i = 0 w=\sum_i \alpha_i y_i x_i\\ \sum_i\alpha_iy_i=0\\ C-\alpha_i-\xi_i=0 w=iαiyixiiαiyi=0Cαiξi=0

代入原问题得:

min ⁡ w , b , ξ L ( w , b , α , ξ , μ ) = − 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) + ∑ i = 1 N α i \min_{w,b,\xi}L(w,b,\alpha,\xi,\mu)=-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_j y_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i\\ w,b,ξminL(w,b,α,ξ,μ)=21i=1Nj=1Nαiαjyiyj(xixj)+i=1Nαi

需要求解得对偶问题有:

max ⁡ α , μ : α ≥ 0 , μ ≥ 0 min ⁡ w , b , ξ L ( w , b , α , ξ , μ ) = max ⁡ α , μ : α ≥ 0 , μ ≥ 0 − 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) + ∑ i = 1 N α i s . t . ∑ i α i y i = 0 C − α i − μ i = 0 α i ≥ 0 μ i ≥ 0 \max_{\alpha,\mu:\alpha\ge0,\mu\ge0} \min_{w,b,\xi} L(w,b,\alpha,\xi,\mu)\\ = \max_{\alpha,\mu:\alpha\ge0,\mu\ge0}-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_j y_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i\\ s.t.\quad \sum_i\alpha_iy_i=0\\ \quad C-\alpha_i-\mu_i=0\\ \quad \alpha_i\ge0\\ \quad \mu_i \ge 0 α,μ:α0,μ0maxw,b,ξminL(w,b,α,ξ,μ)=α,μ:α0,μ0max21i=1Nj=1Nαiαjyiyj(xixj)+i=1Nαis.t.iαiyi=0Cαiμi=0αi0μi0

合并约束条件,转为求最小目标,则有对偶问题:

min ⁡ α : α ≥ 0 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) − ∑ i = 1 N α i s . t . ∑ i α i y i = 0 0 ≤ α i ≤ C \min_{\alpha:\alpha\ge0}\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_j y_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i\\ s.t.\quad \sum_i\alpha_iy_i=0\\ \quad 0\le\alpha_i\le C α:α0min21i=1Nj=1Nαiαjyiyj(xixj)i=1Nαis.t.iαiyi=00αiC

4. 泛函基础

泛函分析形成于20世纪30年代,从变分问题、积分方程和理论物理得研究中发展而来,主要研究:

  • 无限维向量空间上的函数、算子和极限理论;

  • 拓扑线性空间到拓扑线性空间之间,满足各种拓扑和代数条件的映射。

算子:把无限维空间到无限维空间的变换。

4.1 度量(距离)空间

4.1.1 定义

设X是非空集合,对于 X X X中的任意两元素 x x x y y y,按某一法则都对应唯一的实数 ρ ( x , y ) \rho(x,y) ρ(x,y),并满足以下三条公理(距离公理):

  1. 非负性: ρ ( x , y ) ≥ 0 \rho(x,y)\ge 0 ρ(x,y)0 ρ ( x , y ) = 0 \rho(x,y)=0 ρ(x,y)=0当且仅当 x = y x=y x=y

  2. 对称性: ρ ( x , y ) = ρ ( y , x ) \rho(x,y) = \rho(y,x) ρ(x,y)=ρ(y,x)

  3. 三角不等式: 对任意的 x , y , z x,y,z x,y,z有: ρ ( x , y ) ≤ ρ ( x , z ) + ρ ( z , y ) \rho(x,y)\le \rho(x,z) + \rho(z,y) ρ(x,y)ρ(x,z)+ρ(z,y)

则称:

ρ ( x , y ) \rho(x,y) ρ(x,y) x x x y y y间的距离(或度量);

X X X是以 ρ \rho ρ为距离的距离空间(或度量空间),记成 ( X , ρ ) (X,\rho) (X,ρ),或简记为 X X X X X X中的元素称为 X X X中的点。

  • 点(元素)包含:真正意义下得点、数列和函数。

  • 泛函分析是研究一个空间中点与点之间的关系,以及空间中符合一定条件的点组成的该空间子集的一些性质。

4.1.2 ρ \rho ρ次幂可积函数空间

L p [ a , b ] L^p[a,b] Lp[a,b]表示区间 [ a , b ] [a,b] [a,b]绝对值的 ρ \rho ρ次幂 L L L可积函数的全体,并把几乎处处相等的函数看成是同一个函数,对于 x , y ∈ L p [ a , b ] x,y\in L^p[a,b] x,yLp[a,b],规定:

ρ ( x , y ) = [ ∫ a b ∣ x ( t ) − y ( t ) ∣ d t ] 1 p , p ≥ 1 \rho(x,y)=\bigg[\int_a^b\big|x(t)-y(t)\big|dt\bigg]^\frac{1}{p},p\ge1 ρ(x,y)=[abx(t)y(t)dt]p1,p1

L p [ a , b ] L^p[a,b] Lp[a,b]构成一个距离空间,称之为 ρ \rho ρ次幂可积函数空间。

4.1.3 完备性概念

( X , ρ ) (X,\rho) (X,ρ)为度量空间:

  • { x n } n = 1 ∞ \{x_n\}_{n=1}^\infty {xn}n=1 X X X中的点列,如果对于任一正数 ϵ \epsilon ϵ,存在正数 N N N,使得当自然数 n , m ≥ N n,m\ge N n,mN时:

    ρ ( x n , x m ) < ϵ \rho(x_n,x_m)<\epsilon ρ(xn,xm)<ϵ

    就称 { x n } n = 1 ∞ \{x_n\}_{n=1}^\infty {xn}n=1 X X X中的基本点列,或者称为 C a u c h y Cauchy Cauchy点列。

  • 如果度量空间$ X
    中 每 个 基 本 点 列 都 收 敛 , 称 中每个基本点列都收敛,称 X$是完备度量空间。

4.2 线性空间

空间中的任意两点可以做加法或与数相乘,运算的结果仍未该空间的点,并且该空间中的每个点可以定义长度,这个长度称为该点的范数,范数可以视为欧式空间中向量长度概念的推广。

4.3 赋范空间

X X X是实(或复)线性空间,如果对于 X X X中每个元素 x x x,按照一定的法则对应于实数 ∥ x ∥ \Vert x\Vert x,且满足:

  • ∥ x ∥ ≥ 0 \Vert x\Vert \ge 0 x0 ∥ x ∥ = 0 \Vert x\Vert =0 x=0当且仅当 X X X等于零元

  • ∥ a x ∥ = ∣ a ∣ ∥ x ∥ \Vert ax\Vert = |a|\Vert x\Vert ax=ax a a a是实(或复)数

  • ∥ x + y ∥ ≤ ∥ x ∥ + ∥ y ∥ \Vert x+y\Vert\le\Vert x\Vert+\Vert y\Vert x+yx+y

则称 ∥ X ∥ \Vert X\Vert X是实(或复)赋范线性空间, ∥ x ∥ \Vert x\Vert x称为 x x x的范数

  • 赋范线性空间必然是距离空间:定义
    ρ ( x , y ) = ∥ x − y ∥ \rho(x,y)=\Vert x-y\Vert ρ(x,y)=xy

  • 与度量空间不同:

    • 平移不变性: d ( x + a , y + a ) = d ( x , y ) d(x+a,y+a)=d(x,y) d(x+a,y+a)=d(x,y), x , y , a x,y,a x,y,a属于 X X X

    • 齐次性: d ( a x , a y ) = ∣ a ∣ d ( x , y ) d(ax,ay)=|a|d(x,y) d(ax,ay)=ad(x,y), x , y x,y x,y属于 X X X a a a属于 K K K

4.4 巴拿赫(Banach)空间

如果赋范线性空间 ( X , ∣ ∣ . ∣ ∣ ) (X, ||.||) (X,.)是完备的,则称(X, ||.||)是Banach空间。

例子:

  • n n n维Euclid空间 R n R^n Rn是Banach空间

  • L p [ a , b ] ( p ≥ 1 ) L^p[a,b](p\ge1) Lp[a,b](p1)是Banach空间

算子 T T T是由赋范线性空间 X X X中的某个子集 D D D到赋范线性空间中的一个映射,则称 T T T是算子, D D D T T T的定义域,记为 D ( T ) D(T) D(T),像集 { y ∣ y = T x , x ∈ D } \{y|y=Tx,x\in D\} {yy=Tx,xD} T T T的值域,记为 T ( D ) T(D) T(D)

线性算子: T T T满足可加性和齐次性

  • 可加性: T ( x + y ) = T x + T y T(x+y)=Tx+Ty T(x+y)=Tx+Ty

  • 齐次性: T ( a x ) = a T ( x ) T(ax)=aT(x) T(ax)=aT(x)

**有界算子:**存在正数 M M M使得对于一切 x ∈ D ( T ) x\in D(T) xD(T),有 ∥ T x ∥ ≤ M ∥ x ∥ \Vert Tx\Vert \le M\Vert x\Vert TxMx

4.5 内积空间

设X 是定义在实(或复)数域 K K K上的线性空间,若对于 X X X任意一对有序元素 x , y x,y x,y, 恒对应数域 K K K的值 ( x , y ) (x,y) (x,y),且满足:

  • ( a x , y ) = a ( x , y ) (ax,y)=a(x,y) (ax,y)=a(x,y)

  • ( x + y , z ) = ( x , z ) + ( y , z ) (x+y,z)=(x,z)+(y,z) (x+y,z)=(x,z)+(y,z)

  • ( x , y ) = ( y , z ) (x,y)=(y,z) (x,y)=(y,z)

  • ( x , x ) ≥ 0 (x,x)\ge0 (x,x)0 ,且 ( x , x ) = 0 (x,x)=0 (x,x)=0的充要条件是 x = 0 x=0 x=0

则称 X X X为内积空间, ( x , y ) (x,y) (x,y)称为 x , y x,y x,y的内积。

4.6 希尔伯特(Hibert)空间

可由内积导出范数: ∥ x ∥ = ( x , x ) \Vert x\Vert = \sqrt{(x,x)} x=(x,x)

完备的内积空间称为希尔伯特空间。

5. 核支持向量机

通过一个非线性变换将输入空间(欧氏空间 R R R或离散集合)对应于一个特征空间(希尔伯特空间),使得在输入空间中的超曲面模型对应于特征空间中的超平面模型(支持向量机)。

K ( x , z ) = ϕ ( x ) ⋅ ϕ ( z ) K(x,z)=\phi(x)\cdot\phi(z) K(x,z)=ϕ(x)ϕ(z)

其中 K ( x , z ) K(x,z) K(x,z)为核函数, ϕ ( x ) \phi(x) ϕ(x)为映射函数。

  • 在学习与预测中只定义核函数 K ( x , z ) K(x,z) K(x,z),而不显式地定义映射函数。

则核支持向量机的目标函数有:

W ( α ) = 1 2 ∑ i ∑ j α i α j y i y j K ( x i , x j ) − ∑ i α i W(\alpha)=\frac{1}{2}\sum_i\sum_j\alpha_i\alpha_jy_iy_jK(x_i,x_j)-\sum_i\alpha_i\\ W(α)=21ijαiαjyiyjK(xi,xj)iαi

核支持向量机要求解的问题:

min ⁡ α 1 2 ∑ i ∑ j α i α j y i y j K ( x i , x j ) − ∑ i α i s . t . ∑ i = 1 N α i y i = 0 0 ≤ α i ≤ C , i = 1 , 2 , . . . , N \min_\alpha\quad\frac{1}{2}\sum_i\sum_j\alpha_i\alpha_jy_iy_jK(x_i,x_j)-\sum_i\alpha_i\\ s.t. \quad \sum_{i=1}^N\alpha_iy_i=0\\ \quad 0\le\alpha_i \le C,\quad i=1,2,...,N αmin21ijαiαjyiyjK(xi,xj)iαis.t.i=1Nαiyi=00αiC,i=1,2,...,N

决策函数:

f ( x ) = s i g n ( ∑ i α i ∗ y i K ( x i , x ) + b ∗ ) f(x)=sign\bigg(\sum_i\alpha_i^*y_iK(x_i,x)+b^*\bigg) f(x)=sign(iαiyiK(xi,x)+b)

5.1 正定核

5.2 常用核函数

5.2.1 多项式核函数

K ( x , z ) = ( x ⋅ z + 1 ) p K(x,z)=(x\cdot z+1)^p K(x,z)=(xz+1)p

对应的支持向量机为P次多项式分类器

5.2.2 高斯核函数

K ( x , z ) = e x p ( − ∥ x − z ∥ 2 2 σ ) K(x,z)=exp(-\frac{\Vert x-z\Vert^2}{2\sigma}) K(x,z)=exp(2σxz2)

高斯核函数对应的映射函数可以将数据映射到无限维

5.2.3 字符串核函数

6. SMO算法

序列最小优化算法

求解如下问题:

min ⁡ α 1 2 ∑ i ∑ j α i α j y i y j K ( x i , x j ) − ∑ i α i s . t . ∑ i = 1 N α i y i = 0 0 ≤ α i ≤ C , i = 1 , 2 , . . . , N \min_\alpha\quad\frac{1}{2}\sum_i\sum_j\alpha_i\alpha_jy_iy_jK(x_i,x_j)-\sum_i\alpha_i\\ s.t. \quad \sum_{i=1}^N\alpha_iy_i=0\\ \quad 0\le\alpha_i \le C,\quad i=1,2,...,N αmin21ijαiαjyiyjK(xi,xj)iαis.t.i=1Nαiyi=00αiC,i=1,2,...,N

是一种启发式算法,加快求解多变量约束问题

  • 如果所有变量的解都满足此最优化问题的KKT条件,那么得到解;

  • 否则,选择两个变量,固定其它变量,针对这两个变量构建一个二次规划问题,称为子问题,可通过解析方法求解,提高了计算速度。子问题的两个变量:一个是违反KKT条件最严重的那个,另一个由约束条件自动确定。

步骤:

  1. 求解两个变量的子问题二次规划问题

  2. 启发式寻找子问题的两个变量

  3. 继续执行1

参考资料

《统计机器学习》李航

https://baike.baidu.com/item/弗拉基米尔·万普尼克?fr=aladdin

https://blog.pluskid.org/archives/702

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/29256.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Flutter 8 个优秀动画 Packages

Flutter 8 个优秀动画 Packages 前言 动画对于使移动应用程序的用户界面感觉自然流畅至关重要。加上交互式元素和平滑的过渡&#xff0c;它们使应用程序简单易用。 正文 Flutter Animate 组件 Package https://pub.dev/packages/flutter_animate 一个 performant 库&#xff0c…

springboot simple (9) springboot jpa(Hibernate)

返回目录 1 JPA Hibernate Hibernate是一个全自动的ORM框架&#xff08;Object Relational Mapping ,对象关系映射&#xff09;。 Spring Data JPA&#xff1a; 是Spring Data的子模块&#xff0c;JPA默认使用hibernate作为ORM实现。 2 springboot继承Hibernate 第1步&…

【Servlet】7:监听器和过滤器的原理和应用

目录 | 监听器 监听器 基本概述 ServletContextListener监听器 ServletContextAttributeListener监听器 监听器的应用场景 | 过滤器 过滤器 基本概述 过滤器 实现步骤 过滤器 应用场景 本文章属于后端全套笔记的第三部分 &#xff08;更新中&#xff09;【后端入门到入…

leetcode 494.目标和 动态规划背包问题 (c++版本)

题目描述 说白了就是让一部分数减去剩下的一部数使得差值为target&#xff0c;计算有多少中组合的方法 下面来个数学公式推导一下 leftrightsumleft−righttargetleftsum−lefttargetleft(sumtarget)/2leftright sum\\ left-righttarget\\ leftsum-lefttarget\\ left(sumtarge…

用户行为分析-如何用数据驱动增长

用户行为分析-如何用数据驱动增长 2022-11-22 看完书才知道是 GrowingIO 公司出的一本书&#xff0c;干货还是挺多的。 第一章从商业进化的角度认识用户行为数据的重要性&#xff0c;帮助大家了解什么是用户行为数据&#xff0c;以及用户行为数据怎么发挥价值。接着四章详细…

【操作系统】2.2 操作系统的调度

2.2.1 操作系统之处理机调度的概念及层次 2.2.1操作系统之处理机调度的概念及层次_StudyWinter的博客-CSDN博客_操作系统调度的层次 高级调度&#xff08;作业调度&#xff09;&#xff1a;外存-》内存 中级调度&#xff08;内存调度&#xff09;&#xff1a;外存-》内存 低…

用最少的代码模拟gRPC四种消息交换模式

我们知道&#xff0c;建立在HTTP2/3之上的gRPC具有四种基本的通信模式或者消息交换模式&#xff08;MEP&#xff1a; Message Exchange Pattern&#xff09;&#xff0c;即Unary、Server Stream、Client Stream和Bidirectional Stream。本篇文章通过4个简单的实例演示它们在.NE…

HTML+CSS大作业 格林蛋糕(7个页面) 餐饮美食网页设计与实现

&#x1f380; 精彩专栏推荐&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb; ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 &#x1f482; 作者主页: 【主页——&#x1f680;获取更多优质源码】 &#x1f393; web前端期末大作业…

编写第一个Qt程序和分析第一个Qt程序

文章目录编写第一个Qt程序新建一个项目项目的文件组成和管理项目的编译、调试与运行分析第一个Qt程序创建项目1) main.cpp2) mainwindow.h和mainwindow.cpp编码实现简易的窗口界面编写第一个Qt程序 已剪辑自: http://c.biancheng.net/view/1817.html 学习一种编程语言或编程环…

最漂亮:yWorks yFiles Diagramming SDK 5.4.0.2

yWorks yfiles Diagramming SDK 5.4.0.2 卓越的 绘图 SDK 使用 yFiles 自动布局的图表 您的数据可视化软件开发套件 yFiles是行业领先的 图表软件库。20 多年来&#xff0c;公司和机构一直在使用此 SDK 来 描述、编辑和分析他们的连接数据。 准备好探索自动布局和交互式图形组…

Qt-OpenCV学习笔记--人脸识别--基于Haar特征的cascade分类器

概述 基于Haar特征的cascade分类器(classifiers) 是Paul Viola和 Michael Jone在2001年&#xff0c;论文”Rapid Object Detection using a Boosted Cascade of Simple Features”中提出的一种有效的物品检测(object detect)方法。它是一种机器学习方法&#xff0c;通过许多正…

G1D21-作业-AttacKGSVMkg_book偷懒哈哈哈

唔~咖啡泡出来好好看呀&#xff01; 一、写作业 第一件事是将昨天读的NER综述补充到作业之中~大概30min 50分钟&#xff0c;补充完了思维导图和文档&#xff0c;明确了下一步论文的阅读方向——NER的综述/网安NER具体技术类文章&#xff08;找找最新的叭&#xff09;。 二、…

2022 IDEA大会引领科技创新趋势 沈向洋团队重磅发布低空经济白皮书

11月22日&#xff0c;2022 IDEA大会在深圳顺利开幕。大会由深圳市科技创新委员会、深圳市人才工作局和深圳市福田区人民政府指导&#xff0c;粤港澳大湾区数字经济研究院&#xff08;International Digital Economy Academy&#xff0c;简称“IDEA研究院”&#xff09;主办。 …

leetcode 216. 组合总和 III

文章目录题目思考代码和注释总结题目 找出所有相加之和为 n 的 k 个数的组合&#xff0c;且满足下列条件&#xff1a; 只使用数字1到9 每个数字 最多使用一次 返回 所有可能的有效组合的列表 。该列表不能包含相同的组合两次&#xff0c;组合可以以任何顺序返回。 来源&…

【图像分类】Efficientnet的学习

文章目录1. Efficientnet的学习1.1 网络模型1.2 MBConv卷积块1.3 模型规模1.4 模型训练方式2. Efficientnet-pytorch代码3.参考1. Efficientnet的学习 论文&#xff1a;https://arxiv.org/abs/1905.11946 1.1 网络模型 主要结构&#xff1a; 基线模型EfficientNet-B0Effici…

ImmunoChemistry艾美捷Annexin DNA损伤ELISA试剂盒方案

使用ImmunoChemistry艾美捷DNA损伤&#xff08;8-OHdG&#xff09;ELISA试剂盒定量尿液、细胞培养物、血浆和其他样品基质中的8-OHdG。该试剂盒提供了快速的培养时间、稳定的试剂和用户友好的方案。使用吸光度板读取器分析结果。 8-羟基-2-脱氧鸟苷&#xff08;8-OHdG&#xff…

开放式激光振镜运动控制器:C++ 快速调用图形库应用

今天&#xff0c;正运动小助手给大家分享一下开放式激光振镜运动控制器&#xff1a;C快速调用图形库应用&#xff0c;本文以二维码打标、文本打标、矢量图形打标为例&#xff0c;解决用户在激光打标时需要进行各种复杂的操作和函数库调用时容易出现的错误问题。 01 ZMC408SCAN…

牛客网语法篇练习复合类型(一)

1.试计算在区间1 到n 的所有整数中&#xff0c;数字x&#xff08;0 ≤ x ≤ 9&#xff09;共出现了多少次&#xff1f; 例如&#xff0c;在1到11 中&#xff0c;即在1、2、3、4、5、6、7、8、9、10、11 中&#xff0c;数字1 出现了4 次。 n,x list(map(int,input().split())) …

CSS的两种渐变

线性渐变和径向渐变 几个常见的例子效果 <!DOCTYPE html> <html><head><meta charset"utf-8"><title></title><style>.a{font-size: 20px;width: 100%;height: 50px;margin: 10px;background-image: linear-gradient(r…

应急监管双重预防机制数字化管理解决方案

新《安全生产法》&#xff0c;将组织建立并落实双重预防工作机制写入生产经营单位主要负责人职责中&#xff0c;双重预防机制建设已上升到法律的高度。2021 年 12 月 31 日国务院安委会印发《全国危险化学品安全风险集中治理方案》&#xff0c;将推进基于信息化的危险化学品企业…