机器学习——支持向量机学习

news2024/9/21 22:04:58

支持向量机(Support Vector Machine, SVM)不仅具有坚实的统计学理论基础,还可以很好地应用于高维数据、避免维度灾难问题,已经成为一种倍受关注的机器学习分类技术。

为了解释SVM的基本思想,我们首先介绍一下最大边缘超平面(Maximal Margin Hyperplane)

给定训练数据集,线性分类器最基本的想法是:在样本空间中寻找一个超平面,将不同类别的样本分开。

每个超平面B,都对应着一对平行的超平面:bi1,和bi2,

它们之间的间隔称为超平面的边缘(margin)

图中,超平面B的边缘明显大于B的边缘。因此,在这个例子中,B就是训练样本的最大边缘超平面

直觉上,决策边界的边缘较小,决策边界任何轻微的扰动都可能对分类结果产生较大的影响。也就是说,具有较大边缘的决策边界比那些具有较小边缘的决策边界具有更好的泛化误差。

因此,根据结构风险最小化原理,需要设计最大化决策边界的边缘的线性分类器,以确保最坏情况下的泛化误差最小。线性支持向量机(linear SVM)就是这样的分类器。

距离决策边界最近的训练样本点使得上式中的等号成立,因此被称为“支持向量”(support vector)。两个异类支持向量到决策边界的距离之和被称为决策边界的“边缘”(margin),刚好等于超平面bi1和bi2之间的间隔。

由于目标函数是二次的,并且约束条件在参数w和b上是线性的,因此线性支持向量机的学习问题是一个凸二次优化问题,可以直接用现成的优化计算包求解,或者用更高效的拉格朗日乘子法求解

KKT条件表明,除非训练样本满足9if(;) =1,否则必有拉格朗日乘子Q =0。那些a > 0的训练样本,

即 gJ;f (;)= 1的训练样本都落在最大边缘的边界6;和b;2上,都是支持向量。

可见,最终支持向量机模型的参数和b仅仅依赖于这些支持向量

由于对偶优化问题是一个二次规划问题,可使用通用的二次规划算法来求解;

然而,该问题的规模正比于训练样本的数目,对于大型数据集,会造成很大的开销。为了避开这个障碍,人们通过利用问题本身的特性,提出了很多高效的算法,比如:SMO序列最小化优化算法

线性SVM假定训练样本是线性可分的,即存在一个线性的决策边界能将所有的训练样本正确分类。

然而在实际应用中,在原始的样本空问内也许并不存在这样的决策边界。

对于这样的问题,可将样本从原始空问映射到一个更高维的特征空间,使得样本在映射后的特征空间内线性可分。例如在下图中,如果将原始的二维空间映射到一个合适的三维空间,就能找到一个合适的划分超平面。幸运的是,如果原始空间是有限维,即属性数目有限,那么一定存在一个更高维的特征空间使得样本线性可分。

那么,合适的核函数是否一定存在呢?什么样的函数才能做核函数呢?

根据Mercer定理,只要一个对称函数所对应的核矩阵半正定,那么它就能作为核函数来使用

于是,核函数的选择成为非线性SVM的最大变数,若核函数选择不合适,就意味着将样本映射到了一个不合适的特征空间,从而很可能导致非线性SVM性能不佳。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/377724.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++STL详解(三)——vector的介绍和使用

文章目录vector的介绍vector的使用vector的定义方式vector的空间增长问题reserve和resizevector的迭代器使用begin 和endrbegin和rendinsert 和erasefind函数元素访问vector迭代器失效问题1:inserse插入扩容时空间销毁造成野指针问题2:erase删除或者inse…

什么是“奥卡姆剃刀”,如何用“奥卡姆剃刀”解决复杂问题?复杂问题简单化

什么是“奥卡姆剃刀”,如何用“奥卡姆剃刀”解决复杂问题?复杂问题简单化问题什么是“奥卡姆剃刀”?如何使用“奥卡姆剃刀”解决问题复杂问题简单化“汉隆剃刀”小结问题 假设你在夜空中看到一颗闪闪发光的「不明飞行物」,你认为这会是什么呢…

优秀的IC/FPGA开源项目(六)-手语字母翻译器

《优秀的IC/FPGA开源项目》是新开的系列,旨在介绍单一项目,会比《优秀的 Verilog/FPGA开源项目》内容介绍更加详细,包括但不限于综合、上板测试等。两者相辅相成,互补互充~一种智能手套,可将手语字母翻译成带显示器的书…

【分享】订阅集简云畅捷通T+cloud连接器自动同步财务费用单至畅捷通

方案场景 伴随公司发展和数字化水平提高,大量的财务单据需要手动审核和录入,这些重复机械的操作占据大量人力,同时极容易出现数据出错或丢失等情况,严重影响着企业经营效率。 使用集简云提供服务的畅捷通TCloud钉钉连接器完成财…

UML 类关系(详解)——依赖、关联、聚合、组合、泛化

概述 在学习面向对象设计时,类关系涉及依赖、关联、聚合、组合和泛化(继承)这五种关系,耦合度依次递增。关于耦合度,可以简单地理解为当一个类发生变更时,对其他类造成的影响程度,影响越小则耦…

电子发票打印工具 v2023.02.27 免费的PDF发票打印软件

电子发票打印工具一款PDF发票打印辅助软件,因为单位有很多电子发票需要打印,每次打印都要用reader阅读器打开,选打印,选份数,选纸张,选纸盒,当然,有些发票有清单页的,以上步骤请再重复一遍。多张发票请重复N遍,忍了多年,终于决心开发一款方便用于打印PDF发票的辅助工…

源码numpy笔记

参考文章 numpy学习 numpy中的浅复制和深复制的详细用法 numpy中的np.where torch.gather() Numpy的核心数据结构,就叫做array就是数组,array对象可以是一维数组,也可以是多维数组 array本身的属性 shape:返回一个元组&#xf…

【数据库增删查改进阶版】保姆级教程带大家去学习更加复杂的sql语句,各种各样的约束以及各种各样的查询

前言: 大家好,我是良辰丫🍅🍅🍅,上一篇数据库我们一起学习了基础版本的增删查改,今天我们将接触更高级的增删查改,主要是学习一些约束条件,你们准备好了嘛?开…

华为OD机试题,用 Java 解【流水线】问题

最近更新的博客 华为OD机试题,用 Java 解【停车场车辆统计】问题华为OD机试题,用 Java 解【字符串变换最小字符串】问题华为OD机试题,用 Java 解【计算最大乘积】问题华为OD机试题,用 Java 解【DNA 序列】问题华为OD机试 - 组成最大数(Java) | 机试题算法思路 【2023】使…

LearnOpenGL-入门-8.坐标系统

本人刚学OpenGL不久且自学,文中定有代码、术语等错误,欢迎指正 我写的项目地址:https://github.com/liujianjie/LearnOpenGLProject LearnOpenGL中文官网:https://learnopengl-cn.github.io/ 文章目录坐标系统概述局部空间世界空…

干货收藏|医疗数据安全、临床业务容灾、智能运维及数字化转型方案集锦

数智赋能,助力医院高质量发展!历时三天的2022中华医院信息网络大会(CHINC)圆满落下帷幕,美创科技赴五年之约,与医疗行业用户朋友在深圳再聚交流,也带来关于“医疗行业数据安全、数字化转型”的新…

【再临数据结构】Day1. 稀疏数组

前言 这不单单是稀疏数组的开始,也是我重学数据结构的开始。因此,在开始说稀疏数组的具体内容之前,我想先说一下作为一个有着十余年“学龄”的学生,所一直沿用的一个学习方法:3W法。我认为,只有掌握了正确的…

react的严格模式 和 解决react useEffect执行两次

useEffect执行两次 这个问题,主要是刚接触react的时候发的问题,当时也没总结。现在回过头来再总结一次!!! 文章目录useEffect执行两次前言一、为什么useEffect执行两次1.React的严格模式(模版创建项目&…

Hadoop综合案例 - 聊天软件数据

目录1、聊天软件数据分析案例需求2、基于Hive数仓实现需求开发2.1 建库2.2 建表2.3 加载数据2.4 ETL数据清洗2.5 需求指标统计---都很简单3、FineBI实现可视化报表3.1 FineBI介绍3.2 FineBI配置数据3.3 构建可视化报表1、聊天软件数据分析案例需求 MR速度慢—引入hive 背景&a…

深度剖析指针(中)——“C”

各位CSDN的uu们你们好呀,今天小雅兰的内容仍旧是深度剖析指针噢,在上一篇博客中,我已经写过了字符指针、数组指针、指针数组、数组传参和指针传参的知识点,那么这篇博客小雅兰会讲解一下函数指针、函数指针数组 、指向函数指针数组…

【Spark分布式内存计算框架——Spark Streaming】8. Direct 方式集成底层原理 集成Kafka 0.10.x

Direct 方式集成底层原理 SparkStreaming集成Kafka采用Direct方式消费数据,如下三个方面优势: 第一、简单的并行度(Simplified Parallelism) 读取topics的总的分区数目 每批次RDD中分区数目;topic中每个分区数据 被…

布局三八女王节,巧借小红书数据分析工具成功引爆618

对于小红书“她”经济来说,没有比三八节更好的阵地了。伴随三八女王节逐渐临近,各大品牌蓄势待发,这场开春后第一个S级大促活动,看看品牌方们可以做什么? 洞察流量,把握节点营销时机 搜索小红书2023年的三…

学员作品|微博“绿洲”APP产品分析

一产品架构1. 产品功能架构图绿洲的主要功能模块可以拆分为六部分:首页、发现、发布动态、个人中心、水滴、消息。整体功能架构图如下:2. 用户使用路径图用于浏览动态:用于发布动态:新用户引导路径:二市场分析1. 产品定…

【Linux】Linux中gcc/g++的使用

本期主题:程序的编译过程和gcc/g的使用博客主页:小峰同学分享小编的在Linux中学习到的知识和遇到的问题小编的能力有限,出现错误希望大家不吝赐🍁 1.背景知识 预处理(进行宏替换,去注释,头文件的…

索引、索引失效、索引的存储

文章目录1.索引种类2.创建索引注意点3.索引失效的情况4.为什么索引使用B树存储(1)如果使用数组来存储索引(2)如果使用二叉查找树来存储索引(3)如果使用平衡二叉查找树来存储索引(4)如…