1. 问题描述
感知机收敛性定理假设:
-
存在一个参数向量 θ(被归一化为单位向量,,以及一个正数 ,使得对所有训练样本 满足:
这是线性可分的假设,意味着每个样本点与正确超平面之间有一个至少为的几何边距。
-
输入特征向量 的欧几里得范数满足 。
目标是证明感知机算法在最坏情况下,最多会发生 次更新(即错误分类次数)。
2. 感知机算法回顾
感知机算法的核心是更新规则:
- 初始化 ;
- 对于每个训练样本 ,如果当前参数向量 θ 的预测错误: 则更新:
3. 证明过程
证明分为两部分:
(1) 参数向量与理想向量的内积下界
定义 为算法在第 k 次错误更新后的参数向量。
-
初始条件:。
-
假设第 k 次错误发生在样本 t 上,则更新为:
对 进行展开:
-
由假设 ,得到:
-
通过数学归纳法可以证明:
(2) 参数向量的范数上界
接下来对 进行分析:
-
参数更新后,范数为:
-
展开平方项:
-
由于 且 ,因此。同时,因为更新发生在错误分类的样本上,意味着:
所以 。
-
因此可以得到:
-
通过数学归纳法可得:
(3) 综合上下界
结合上述两部分结果:
- 从内积下界:
- 从范数上界:
两者结合:
整理得:
这表明,感知机算法最多进行 次错误更新后收敛。
4. 直观理解
- 几何解释:感知机每次更新都会使参数向量 θ 朝着正确分类的方向前进,并逐渐接近理想向量 。
- 收敛性条件:如果训练数据是线性可分的,存在一个几何边距 ,感知机能够找到一个分离超平面。
- 错误次数的影响因素:
- R :数据的最大范数,表示样本点的“大小”。
- :几何边距,表示样本点到分离超平面的最小距离。
5. 总结
感知机的收敛性证明基于:
- 更新过程中参数向量与理想向量的内积逐渐增大;
- 参数向量的范数增长受限;
- 通过两者关系,推导出错误更新次数的上界。
证明的核心是利用数学归纳法和不等式,将错误次数限制在 以内,表明感知机算法在有限次错误更新后收敛。
参考文献:Collins M. Convergence proof for the perceptron algorithm[J]. Lecture Notes, Columbia University, Link, 2012.