支持向量机算法（三）：非线性支持向量原理层层拆解，精读公式每一处细节

支持向量机算法（一）：像讲故事一样讲明白它的原理及实现奥秘-CSDN博客

支持向量机算法（二）：层层拆解，精读公式每一处细节-CSDN博客

支持向量机算法（一）、算法（二）学习了什么是支持向量机、线性可分支持向量机、线性支持向量机，本次学习非线性支持向量机。

在线性支持向量机模型中，通过引入松弛因子可以让少量噪声样本也能正确分类并得到最优超平面，用线性超平面将非线性数据集近似分离。然而，这些被战略性“放弃”的样本是少数样本，被认为是噪声或是一种扰动。如果数据集中两种类别的大部分样本都是混叠在一起，那么采用这种方法得到的模型效果就不佳了。此时，要采用核函数映射的方法将低维空间映射到高维空间，将低维空间中的非线性问题转化为高维空间中的线性问题。

因此，非线性支持向量机模型为“核函数映射+线性支持向量机模型”，即在核函数映射后的数据集上训练线性支持向量机模型。核函数映射的技巧在于不显式地定义映射函数，而是通过寻找一个核函数k(·,·)，使得通过核函数映射后的结果等价于样本通过映射函数后在特征空间的内积。即核技巧实际是将特征映射与内积两步运算压缩在一起，而不关心具体的映射函数本身是哪种形式。

☀我们该如何理解这段话呢？

（1）从映射说起
想象你有一些玩具（这些玩具就像是原始数据），它们在一个小盒子（低维空间）里摆放着。你想把这些玩具放到一个大仓库（高维空间）里，并且摆放的方式要更有规律，这样才能更好地分类或者做其他操作。这个把玩具从盒子放到仓库并且重新摆放的过程就像是映射函数。
以前呢，我们得先想好怎么把玩具从盒子拿到仓库，并且要清楚地告诉别人每个玩具在仓库里放在哪儿，这就是明确地定义映射函数。比如，你要把一个小方块玩具从盒子里拿到仓库，并且规定它在仓库的第三排第五列第二层（这就像定义了映射函数后，知道样本在高维空间的位置）。
（2）核函数的特别之处
现在有了核函数，就好像有了一个魔法盒子。你不需要知道玩具在大仓库里具体是怎么摆放的（不需要知道映射函数）。
这个魔法盒子有个神奇的功能，你只要把两个玩具的名字（原始样本）告诉它，它就能直接告诉你这两个玩具在大仓库里如果按照某种神秘规则摆放后，它们离得有多近（通过核函数计算得到的结果等价于在高维空间中的内积）。
比如，有两个玩具叫小熊和小兔子，你把它们的名字告诉魔法盒子（核函数），魔法盒子就会告诉你一个数字，这个数字就代表了如果把小熊和小兔子放到大仓库里，它们之间的一种亲密程度（在高维特征空间中的内积）。
（3）为什么这样做很好
要是用以前的方法，你得先把小熊和小兔子按照复杂的规则放到大仓库里（计算映射函数），然后再量它们之间的距离（计算内积），这很麻烦。
但是有了魔法盒子（核函数），就简单多了。而且，很多时候，我们其实只关心小熊和小兔子在大仓库里是不是离得近（样本在高维空间中的相似性），并不关心它们具体放在仓库的哪个位置（具体的映射函数）。所以核函数这种方法又简单又能达到我们想要的效果。

核函数的定义如下：设Ω为输入空间（欧式空间），Η为特征空间（希尔伯特空间），如果存在一个从Ω到H 的映射∅(x):Ω→ Η，使得对于所有的x, y∈Ω，都有函数k(x,y)满足：

则称k(x,y)为核函数，∅ (·)定义为映射函数，∅(x)·∅(y)表示映射后在特征空间的内积，以下是几种常用的核函数。

（1）线性核函数

线性核函数（Linear Kernel）是最简单的核函数，主要用于线性可分的情况，表达式为：

其中，c为可选的常数。线性核函数是原始输入空间的内积，即特征空间和输入空间的维度是一样的，参数较少，运算速度较快。一般情况下，在特征数量相对于样本数量非常多时，适合采用线性核函数。

①公式解读

$x$ 和 $y$ 是输入的向量（可以理解为数据点）， $x^{T}$ 是向量 $x$ 的转置， $x^{T}\cdot y$ 这部分就是两个向量的内积运算，c是一个可选的常数。

②线性核函数特点

☛与原始输入空间的关系：线性核函数是原始输入空间的内积，这意味着它没有对原始数据进行复杂的非线性变换，直接使用原始数据的内积来计算核函数的值。例如，在二维平面上有一些点，使用线性核函数计算它们之间的核函数值，就是直接计算这些点坐标向量的内积。
☛特征空间和输入空间维度：因为是原始输入空间的内积，所以特征空间和输入空间的维度是一样的。比如原始数据是三维向量，那么经过线性核函数处理后，在 “特征空间”（这里其实就是原始空间）中还是三维的。
☛参数较少：相比其他一些复杂的核函数（如高斯核函数等），线性核函数只有内积运算和一个可选的常数，没有其他复杂的参数需要调整，所以参数较少。
☛运算速度较快：由于不需要进行复杂的非线性变换等计算，只是简单的内积运算和可能的常数加法，所以运算速度相对较快。例如，在处理大规模数据时，计算线性核函数的值比计算一些复杂核函数的值要快很多。

（2）多项式核函数

多项式核函数（Polynomial Kernel）的参数比较多，当多项式阶数高时，复杂度会很高，对于正交归一化后的数据，可优先选此核函数，其表达式如下：

其中，α表示调节参数，p表示最高次项次数，c为可选常数。

线性核函数是多项式核函数的特殊情况（a=1，p=1），多项式核函数通过调整a、c和p的值，可以得到不同的核函数形式，具有更强的灵活性和适应性。

（3）径向基核函数（高斯核函数）

径向基核函数（Radial Basis Function Kernel）具有很强的灵活性，应用很广泛。与多项式核函数相比，它的参数少，因此大多数情况下，都有比较好的性能；在不确定用哪种核函数时，可优先验证高斯核函数。由于类似于高斯函数，所以也称其为高斯核函数。表达式如下：

其中，σ^2越大，高斯核函数变得越平滑，模型的偏差和方差大，泛化能力差，容易过拟合。σ^2越小，高斯核函数变化越剧烈，模型的偏差和方差越小，模型对噪声样本比较敏感。

①公式各部分表达的意思

☛ $k(x,y)$ ：表示核函数的值，它衡量了输入向量 $x$ 和 $y$ 之间的某种相似度或关系。

☛ $exp$ ：表示以自然常数 $e$ 为底的指数函数。

☛ $\left \| x-y \right \|^{2}$ ：这是向量 $x$ 和 $y$ 之间的欧几里得距离的平方。它反映了两个向量在空间中的距离远近，距离越近， $\left \| x-y \right \|^{2}$ 的值越小。

☛ $\sigma$ ：是一个超参数，称为带宽（bandwidth）。它控制了高斯核函数的宽度， $\sigma$ 的值越大，核函数的曲线越平坦，意味着对距离较远的样本也会给予一定的权重； $\sigma$ 的值越小，核函数的曲线越陡峭，只有距离非常近的样本才会有较大的权重。

☀我们该如何理解超参数呢？

在机器学习中，超参数是在模型训练之前需要手动设置的参数，它不通过模型的训练过程来学习。就是高斯核函数中的一个超参数，它对核函数的形状和性质有着重要的影响。

在机器学习任务中， $\sigma$ 的选择至关重要：

①如果选择的 $\sigma$ 值过大，模型可能会过于平滑，导致对训练数据的拟合不足，可能无法捕捉到数据中的复杂模式，从而在测试数据上的表现不佳，出现欠拟合的情况。
②相反，如果 $\sigma$ 值过小，模型可能会对训练数据中的噪声过于敏感，过度拟合训练数据，在新的数据上泛化能力差。
③因此，需要通过交叉验证等方法来选择合适的 $\sigma$ 值，以平衡模型的拟合能力和泛化能力，使得模型在处理实际问题时能够达到较好的性能。

$\sigma$ 作为高斯核函数的带宽，通过控制核函数的宽度，影响着样本之间的权重分配，进而对基于高斯核函数的机器学习模型的性能产生重要影响，需要谨慎选择和调整。

（4）Sigmoid 核函数

Sigmoid核函数来源于感知机中的激活函数，SVM使用Sigmoid相当于一个两层的感知机网络，Sigmoid核函数表达式如下：