【自学笔记】支持向量机(3)——软间隔

news2025/1/7 6:14:42

引入

  上一回解决了SVM在曲线边界的上的使用,使得非线性数据集也能得到正确的分类。然而,对于一个大数据集来说,极有可能大体呈线性分类趋势,但是边界处混杂,若仍采用原来的方式,会得到极其复杂的超平面边界,浪费了算力。
  上述要求所有训练样本满足约束的分类方式称为硬分类。而允许部分样本不满足约束的分类方式则被称为软分类

实现逻辑

  在实现软间隔的同时,我们既要保证模型的性能(违反约束的样本点尽量少),同时保证模型复杂度不要过高,我们需要设置一个损失函数来控制模型的样本点是否需要满足约束。
  最简单的,定义0/1损失函数 ℓ 0 / 1 ( z ) \ell _{0/1}(z) 0/1(z)

ℓ 0 / 1 ( z ) = { 1 ,   i f   z < 0 0 ,   o t h e r w i s e \ell _{0/1}(z)=\begin{cases}1,\ if \ z<0 \\0, \ otherwise\end{cases} 0/1(z)={1, if z<00, otherwise

  并修改优化目标为:

m i n w ⃗ , b   1 2 ∣ ∣ w ⃗ ∣ ∣ 2 + C ∑ i = 1 m ℓ 0 / 1 ( y i ( w ⃗ T x ⃗ i + b ) − 1 ) min_{\vec{w}, b}\ \frac{1}{2}||\vec{w}||^{2}+C\sum_{i=1}^{m}\ell _{0/1}(y_{i}(\vec{w}^{T}\vec{x}_{i}+b)-1) minw ,b 21∣∣w 2+Ci=1m0/1(yi(w Tx i+b)1)

  其中常数 C > 0 C>0 C>0,称为正则化参数,控制了对误分类样本的惩罚程度。而损失函数则决定这个样本点误分类是否需要产生惩罚。

  然而,0/1损失函数非凸,非连续,使得后续求解不方便。人们通常用其他一些函数来替代 ℓ 0 / 1 ( z ) \ell _{0/1}(z) 0/1(z),称为替代损失

替代损失函数形式
hinge 损失 ℓ h i n g e ( z ) = m a x ( 0 , 1 − z ) \ell_{hinge}(z)=max(0, 1-z) hinge(z)=max(0,1z)
指数损失 ℓ e x p ( z ) = e x p ( − z ) \ell_{exp}(z)=exp(-z) exp(z)=exp(z)
对率损失 ℓ l o g ( z ) = l o g ( 1 + e x p ( − z ) ) \ell_{log}(z)=log(1+exp(-z)) log(z)=log(1+exp(z))

网图-三种常见的替代函数

  以 h i n g e hinge hinge损失为例,目标变成:

m i n w ⃗ , b   1 2 ∣ ∣ w ⃗ ∣ ∣ 2 + C ∑ i = 1 m m a x ( 0 , 1 − y i ( w ⃗ T x ⃗ i + b ) ) min_{\vec{w}, b}\ \frac{1}{2}||\vec{w}||^{2}+C\sum_{i=1}^{m}max(0,1-y_{i}(\vec{w}^{T}\vec{x}_{i}+b)) minw ,b 21∣∣w 2+Ci=1mmax(0,1yi(w Tx i+b))

  将求和符号后的部分记作松弛变量 ξ i ≥ 0 \xi _{i} \ge 0 ξi0,可重写为:

m i n w ⃗ , b   1 2 ∣ ∣ w ⃗ ∣ ∣ 2 + C ∑ i = 1 m ξ i min_{\vec{w}, b}\ \frac{1}{2}||\vec{w}||^{2}+C\sum_{i=1}^{m}\xi _{i} minw ,b 21∣∣w 2+Ci=1mξi

s . t .   y i ( w ⃗ T x ⃗ i + b ) ≥ 1 − ξ i s.t. \ y_{i}(\vec{w}^{T}\vec{x}_{i}+b)\ge1-\xi_{i} s.t. yi(w Tx i+b)1ξi
       ξ i ≥ 0 , i = 1 , 2 , . . . , m \ \ \ \ \ \ \xi_{i} \ge 0, i=1,2,...,m       ξi0,i=1,2,...,m

  松弛变量的值反映了样本点离群的程度。值越大,样本点离正确的分类区域越远。

  使用软间隔方法的SVM被称为软间隔支持向量机

求解

  问题被转化后,依然是一个二次规划问题,我们仍用拉格朗日乘子法得到拉格朗日函数:

L ( w ⃗ , b , α ⃗ , ξ ⃗ , μ ⃗ ) = 1 2 ∣ ∣ w ⃗ ∣ ∣ 2 L(\vec{w},b,\vec{\alpha}, \vec{\xi},\vec{\mu})=\frac{1}{2}||\vec{w}||^{2} L(w ,b,α ,ξ ,μ )=21∣∣w 2
                            + C ∑ i = 1 m ξ i \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ +C\sum_{i=1}^{m}\xi_{i}                            +Ci=1mξi
                            + ∑ i = 1 m α i [ 1 − ξ i − y i ( w ⃗ T x ⃗ i + b ) ] \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ +\sum_{i=1}^{m}\alpha _{i}[1-\xi_{i}-y_{i}(\vec{w}^{T}\vec{x}_{i}+b)]                            +i=1mαi[1ξiyi(w Tx i+b)]
                            − ∑ i = 1 m μ i ξ i \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ - \sum_{i=1}^{m}\mu_{i}\xi_{i}                            i=1mμiξi
其中 α i ≥ 0 \alpha_{i} \ge 0 αi0, μ i ≥ 0 \mu_{i} \ge 0 μi0是拉格朗日乘子

  令 L ( w ⃗ , b , α ⃗ , ξ ⃗ , μ ⃗ ) L(\vec{w},b,\vec{\alpha}, \vec{\xi},\vec{\mu}) L(w ,b,α ,ξ ,μ ) w ⃗ , b , ξ i \vec{w}, b, \xi_{i} w ,b,ξi求导为 0 0 0,得:

w ⃗ = ∑ i = 1 m α i y i x ⃗ i \vec{w}=\sum_{i=1}^{m}\alpha_{i}y_{i}\vec{x}_{i} w =i=1mαiyix i
0 = ∑ i = 1 m α i y i 0 = \sum_{i=1}^{m}\alpha_{i}y_{i} 0=i=1mαiyi
C = α i + μ i C = \alpha_{i}+\mu_{i} C=αi+μi

  代回得:

m a x α ⃗ ∑ i = 1 m α i − 1 2 ∑ i = 1 m ∑ j = 1 m α i α j y i y j x ⃗ i T x ⃗ j max_{\vec{\alpha}} \sum_{i=1}^{m}\alpha_{i}-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_{i}\alpha_{j}y_{i}y_{j}\vec{x}_{i}^{T}\vec{x}_{j} maxα i=1mαi21i=1mj=1mαiαjyiyjx iTx j

s . t .   ∑ i = 1 m α i y i = 0 s.t.\ \sum_{i=1}^{m}\alpha_{i}y_{i}=0 s.t. i=1mαiyi=0
        0 ≥ α i ≥ C , i = 1 , 2 , . . . , m \ \ \ \ \ \ \ 0 \ge \alpha_{i} \ge C, i=1,2,...,m        0αiC,i=1,2,...,m

  不难发现,与硬间隔的对偶问题相比,只是把 0 ≤ α i 0 \le \alpha_{i} 0αi改成了 0 ≤ α i ≤ C 0 \le \alpha_{i} \le C 0αiC

  更改后的KKT要求为:

1.互补松弛条件
   α i [ y i ( w ⃗ x ⃗ i + b ) − ( 1 − ξ i ) ] = 0 \alpha_{i}[y_{i}(\vec{w}\vec{x}_{i}+b)-(1-\xi_{i})]=0 αi[yi(w x i+b)(1ξi)]=0
   μ i ξ i = 0 \mu_{i}\xi_{i}=0 μiξi=0

2.原始约束
   y i ( w ⃗ x ⃗ i + b ) − ( 1 − ξ i ) ≥ 0 y_{i}(\vec{w}\vec{x}_{i}+b)-(1-\xi_{i}) \ge 0 yi(w x i+b)(1ξi)0
   ξ i ≥ 0 \xi_{i} \ge 0 ξi0
3.对偶约束
   0 ≤ α i ≤ C 0 \le \alpha_{i} \le C 0αiC
   ∑ i = 1 m α i y i = 0 \sum_{i=1}^{m}\alpha_{i}y_{i}=0 i=1mαiyi=0

  分析一下上面的式子,发现对任意样本 ( x ⃗ i , y i ) (\vec{x}_{i},y_{i}) (x i,yi),总有 α i = 0 \alpha_{i}=0 αi=0 y i ( w ⃗ x ⃗ i + b ) − ( 1 − ξ i ) = 0 y_{i}(\vec{w}\vec{x}_{i}+b)-(1-\xi_{i}) = 0 yi(w x i+b)(1ξi)=0。(由第一个式子推得)

  当 α i = 0 \alpha_{i}=0 αi=0,则说明该样本不会对 f ( x ⃗ ) f(\vec{x}) f(x )有任何影响
  否则,有 y i ( w ⃗ x ⃗ i + b ) = 1 − ξ i y_{i}(\vec{w}\vec{x}_{i}+b)=1-\xi_{i} yi(w x i+b)=1ξi,则该样本是支持向量

  注意,由于软间隔对边界附近的数据点进行了处理,支持向量的定义不再限制于完全在分类边界上的样本,而是规定为满足 y i f ( x ⃗ i ) = 1 − ξ i y_{i}f(\vec{x}_{i})=1-\xi_{i} yif(x i)=1ξi这个式子的样本。

  而对于所有的支持向量,也有一些分类:

条件性质
α i < C \alpha_{i}<C αi<C,则 μ i > 0 \mu_{i}>0 μi>0,有 ξ i = 0 \xi_{i}=0 ξi=0样本恰好在最大间隔边界上
α i = C \alpha_{i}=C αi=C,则 μ i = 0 \mu_{i}=0 μi=0,若 ξ i ≤ 1 \xi_{i} \le 1 ξi1样本落在最大间隔内部
α i = C \alpha_{i}=C αi=C,则 μ i = 0 \mu_{i}=0 μi=0,若 ξ i > 1 \xi_{i} > 1 ξi>1样本被错误分类

  在《机器学习》中,紧跟了一句话:

  由此可以看出,软间隔支持向量机的最终模型仅与支持向量有关,即通过采用 h i n g e hinge hinge损失函数仍保持了稀疏性。

  这里作个解释:
在这里插入图片描述

一般化

  以上其实是以 h i n g e hinge hinge损失函数替代 0 / 1 0/1 0/1损失函数的例子,我们当然可以通过其他的损失函数来得到其他的学习模型,最终都会变成以下的一般形式:

m i n f   Ω ( f ) + C ∑ i = 1 m ℓ ( f ( x ⃗ i ) , y i ) min_{f} \ \Omega (f)+C\sum_{i=1}{m}\ell(f(\vec{x}_{i}),y_{i}) minf Ω(f)+Ci=1m(f(x i),yi)

  前半部分的 Ω ( f ) \Omega (f) Ω(f)称为结构风险(structural risk),是由模型的结构所产生的惩罚,如各种正则化,描述了模型 f f f的各种性质。

  后半部分的 C ∑ i = 1 m ℓ ( f ( x ⃗ i , y i ) C\sum_{i=1}{m}\ell(f(\vec{x}_{i},y_{i}) Ci=1m(f(x i,yi)被称为经验风险,是模型在训练数据集上的平均损失,它衡量了模型在已知训练数据上的拟合程度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2158807.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

高效高质量SCI论文撰写及投稿

第一章、论文写作准备即为最关键 1、科技论文写作前期的重要性及其分类 2、AI工具如何助力学术论文 3、研究主题确定及提高创新性 兴趣与背景&#xff1a;选择一个您感兴趣且有背景知识的研究领域。 创新性&#xff1a;选题和研究设计阶段如何提高学术创新性的方法。 研究缺…

FreeMarker 禁止自动转义标签-noautoesc

&#x1f496;简介 FreeMarker 是一个用 Java 语言编写的模板引擎&#xff0c;它被设计用来生成文本输出&#xff08;HTML 网页、电子邮件、配置文件等&#xff09;。在 FreeMarker 中&#xff0c;默认情况下&#xff0c;当你在模板中输出变量时&#xff0c;如果这些变量包含 …

应用密码学第一次作业(9.23)

一、Please briefly describe the objectives of information and network security,such as confidentiality, integrity, availability , authenticity , and accountability The objectives of information and network security include: Confidentiality: Protecting se…

在线思维导图怎么制作?只需要台这些组合分析法!

思维导图经历了漫长的进化&#xff0c;现已成为信息组织、记忆和头脑风暴的重要工具。其制作方式主要有手绘和软件两种&#xff0c;随着互联网的发展&#xff0c;软件制作因其便捷性和易于保存逐渐占据主导。如今&#xff0c;在线工具使得用户能够免费创建思维导图。本文将以即…

828华为云征文 | 云服务器Flexus X实例,Docker集成搭建Redis集群

828华为云征文 | 云服务器Flexus X实例&#xff0c;Docker集成搭建Redis集群 Redis 集群是一种分布式的 Redis 解决方案&#xff0c;能够在多个节点之间分片存储数据&#xff0c;实现水平扩展和高可用性。与传统的主从架构不同&#xff0c;Redis 集群支持数据自动分片、主节点故…

基于SpringBoot+Vue+MySQL的教学资料管理系统

系统展示 管理员后台界面 教师后台界面 系统背景 在当今信息化高速发展的时代&#xff0c;教育机构面临着日益增长的教学资料管理需求。为了提升教学管理的效率&#xff0c;优化资源的配置与利用&#xff0c;开发一套高效、便捷的教学资料管理系统显得尤为重要。基于SpringBoot…

通信工程学习:什么是MANO管理编排

MANO&#xff1a;管理编排 MANO&#xff1a;Management and Network Orchestration&#xff08;管理和网络编排&#xff09;在网络功能虚拟化&#xff08;NFV&#xff09;架构中扮演着至关重要的角色。MANO是一个由多个功能实体组合而成的层次&#xff0c;这些功能实体负责管理…

嘉宾云集旌城 只为大赛而来 2024ISGC国际烈酒(中国)大奖赛在德阳落下帷幕

秋高气爽、古蜀之源&#xff0c;迎来第六届国际烈酒&#xff08;中国&#xff09;大奖赛&#xff1b;五谷丰登、重装之都&#xff0c;齐聚百名国际烈酒大奖赛评委。 9月18日&#xff0c;由德阳市人民政府、国家葡萄酒及白酒露酒产品质量检验检测中心、上海合作组织多功能经贸平…

数据结构之图的遍历

文章目录 广度优先遍历深度优先遍历 广度优先遍历 广度优先遍历过程类似于二叉树的层序遍历&#xff0c;从起始顶点开始一层一层向外进行遍历 比如现在要找东西&#xff0c;假设有三个抽屉&#xff0c;东西在那个抽屉不清楚&#xff0c;现在要将其找到&#xff0c;广度优先遍历…

【第十二周】李宏毅机器学习笔记10:生成式对抗网络2

目录 摘要Abstract1.GAN is Still Challenging2.Evaluation of Generation2.1 Mode Collapse2.2.Mode Dropping2.3.Diversity 3.Conditional GAN4.Learning from Unpaired Data总结 摘要 本周主要学习了上周关于生成式对抗网络的剩余知识&#xff0c;了解了为什么 GAN 难以训练…

2024全球超模大赛(北京|山东|内蒙三城联动)顺利举办

近日&#xff0c;2024 全球超模大赛&#xff08;北京|山东|内蒙&#xff09;三城联动暨新国潮文化赛事主题发布会在紫薇美力集团国贸鲁采赋盛大举行。此次发布会旨在鼓励优质模特共同传播中国传统文化&#xff0c;让其在全球范围内绽放光彩&#xff0c;展现中国人的骄傲与风采&…

怎么开通GitHub Copilot?不会开通GitHub Copilot?一文看懂

GitHub Copilot 简介 GitHub Copilot 是由 GitHub 推出的一种人工智能编程助手&#xff0c;旨在帮助开发者更快速、更高效地编写代码。GitHub Copilot 是基于 OpenAI 的 GPT&#xff08;Generative Pre-trained Transformer&#xff09;模型开发的&#xff0c;它能够通过理解编…

艾迈斯欧司朗与小象光显联合发布全新uLED智能投影灯,打造多元、交互的智慧城市新视像

艾迈斯欧司朗今日宣布&#xff0c;艾迈斯欧司朗携手微型投影模块供应商小象光显在第二十五届中国国际光电博览会&#xff08;以下简称&#xff1a;CIOE&#xff09;期间联合发布全新uLED智能投影灯MLP3000。这款极具创新的uLED智能投影灯由小象设计&#xff0c;采用了艾迈斯欧司…

Linux高级I/O:多路转接模型

目录 一.常见的IO模型介绍二.多路转接I/O1.select1.1.函数解析1.2. select特点和缺点1.3.基于 select 的多客户端网络服务器 2.poll2.1.poll函数解析2.2.poll特点和缺点2.3.基于poll的tcp服务器 3.epoll3.1.系列函数解析3.2.epoll原理解析2.3.基于 select 的多客户端网络服务器…

石油高压胶管的种类和测量方法

关键字:石油高压胶管,高压胶管测径仪,高压胶管种类,高压胶管生产线, 高压钢丝缠绕胶管, 高压钢丝编织胶管,胶管测径仪,非接触测径仪, 石油高压胶管在石油行业中扮演着至关重要的角色&#xff0c;主要用于高压流体输送&#xff0c;特别是在矿井液压支架、油田开发、工程建筑等领…

文件(打开关闭读写) C语言

一、文件 二、打开文件 关闭文件 FILE *fopen(const char *path, const char *mode); 功能: 打开文件&#xff0c;获得对应的流指针数&#xff1a; "r" 只读方式&#xff0c;文件必须存在&#xff0c;不存在则报错 "r" 读写方式&…

VS2019配置Open3Dv0.18.0版本库

文章目录 一、引言二、配置过程三、举个例子参考资料一、引言 现在如果直接使用vs2019对Open3D(v0.15.2)进行编译,会比较麻烦,一是需要科学上网,另一个就是容易出现错误,这里就仍然按照之前的思路来配置新版本的Open3D(VS2015(及以上版本)配置Open3Dv0.15.2版本库)。 二…

计算机毕业设计 | SSM 凌云招聘平台 求职问答审批系统(附源码)

1&#xff0c;绪论 人力资源是企业产生效益、创造利润的必不可少的、最重要的资源。人作为人力资源的个体可看作是一个承载着有效知识、能力的信息单元。这样的信息单元可看作是一个为企业产生价值和利润的个体。从而使得这样的信息单元所具有的信息就是一个有价值的信息。 校…

Android使用OpenCV 4.5.0实现扑克牌识别(源码分享)

一、显示效果展示 二、OpenCV 4.5.0 OpenCV 4.5.0是OpenCV&#xff08;Open Source Computer Vision Library&#xff0c;开源计算机视觉库&#xff09;的一个重要更新版本&#xff0c;该版本在多个方面进行了优化和新增了多项功能。 三、ONNX模型 ONNX&#xff08;Open Neu…

YOLO V10简单使用

一.环境安装 1、下载官方源码 官方GitHub地址&#xff1a;https://github.com/THU-MIG/yolov10 点击跳转 2. 配置conda环境 在conda创建python3.9环境 conda create -n yolov10 python3.9激活切换到创建的python3.9环境 conda activate yolov103. 安装YOLOv10依赖 切换…