【Python机器学习实战】 | 基于支持向量机(Support Vector Machine, SVM)进行分类和回归任务分析

news2024/11/26 10:32:27

🎩 欢迎来到技术探索的奇幻世界👨‍💻

📜 个人主页:@一伦明悦-CSDN博客

✍🏻 作者简介: C++软件开发、Python机器学习爱好者

🗣️ 互动与支持💬评论      👍🏻点赞      📂收藏     👀关注+

如果文章有所帮助,欢迎留下您宝贵的评论,

点赞加收藏支持我,点击关注,一起进步!

引言

svm.SVC是Scikit-learn中用于支持向量机(Support Vector Machine, SVM)分类任务的类。具体来说,svm.SVC实现了基于支持向量的分类器,其核心是在特征空间中找到最佳的超平面来区分不同类别的数据点。

主要参数解释:

  1. C

    • 正则化参数,控制错误分类样本的惩罚力度。C值越小,容错空间越大,模型可能更简单;C值越大,容错空间越小,模型可能更复杂。
  2. kernel

    • 核函数的选择,用于将数据从原始特征空间映射到更高维的空间,以便更好地分离不同类别的数据点。
    • 常见的核函数包括线性核(‘linear’)、多项式核(‘poly’)、高斯径向基函数(RBF)核(‘rbf’)、sigmoid核等。
  3. degree(仅在kernel='poly’时有效):

    • 多项式核函数的阶数。
  4. gamma

    • 核函数的系数,影响模型的拟合能力。较大的gamma值可以产生更复杂的决策边界,可能导致过拟合。
  5. class_weight

    • 类别权重的设置,用于处理不平衡类别问题。
  6. probability

    • 是否启用概率估计。如果设置为True,则会启用概率估计,并在训练过程中计算每个类别的概率。

方法和属性:

  • fit(X, y)

    • 训练模型,X是特征数据,y是标签数据。
  • predict(X)

    • 对新数据进行预测。
  • decision_function(X)

    • 返回每个样本到决策函数的距离。
  • predict_proba(X)

    • 返回每个样本预测为各个类别的概率值(仅在probability=True时可用)。
  • support_

    • 返回支持向量的索引。
  • coef_intercept_

    • 分别返回决策函数的系数和常数项。

示例用法:

from sklearn import svm
X = [[0, 0], [1, 1]]
y = [0, 1]
clf = svm.SVC()
clf.fit(X, y)
print(clf.predict([[2., 2.]]))

这段代码创建了一个svm.SVC分类器,并用样本X和标签y进行训练。然后,它对新的数据点[[2., 2.]]进行了预测。

总结来说,svm.SVC是一个强大的分类器,通过调整不同的参数(如C、kernel、gamma等),可以实现不同复杂度的分类模型,适用于多种分类问题。

正文

01-分类数据集,并将其可视化

这段代码的作用是生成一个简单的分类数据集,并将其可视化。

具体步骤和功能解释如下:

  1. 导入模块

    • 导入了需要使用的各种Python模块,如numpy用于数值计算,pandas用于数据处理,matplotlib用于绘图,以及一些机器学习相关的模块如sklearn。
  2. 设置警告过滤和绘图参数

    • warnings.filterwarnings(action='ignore'):设置忽略警告,通常用于屏蔽不影响程序运行的警告信息。
    • %matplotlib inline:指定在Jupyter Notebook中显示matplotlib绘制的图形。
    • plt.rcParams:设置matplotlib绘图的一些参数,如中文字体和负号显示问题。
  3. 生成分类数据集

    • 使用make_classification函数生成具有两个特征的分类数据集。
    • n_samples=N:指定生成样本的数量为100。
    • n_features=2:每个样本具有2个特征。
    • n_redundant=0:生成的特征中不包含冗余信息。
    • n_informative=2:两个特征是信息性的。
    • class_sep=1:两个类之间的分离度为1。
    • random_state=1:随机数种子,确保结果可重现。
    • n_clusters_per_class=1:每个类别内部只有一个簇。

    这些参数共同作用,生成了一个具有两个特征和两个类别的分类数据集。

  4. 数据集划分

    • 使用train_test_split函数将生成的数据集划分为训练集和测试集。
    • train_size=0.85:指定训练集占总数据的85%。
    • random_state=123:随机数种子,确保划分结果可重现。
  5. 数据可视化

    • 使用matplotlib进行数据的可视化。
    • markers=['^', 'o']:定义两种不同的标记样式,用于不同类别的数据点。
    • 使用循环结构和条件筛选,分别在训练集和测试集上绘制不同类别的数据点。
    • plt.scatter函数用于绘制散点图,其中包括了标记样式、颜色、边缘颜色等参数。
    • plt.titleplt.xlabelplt.ylabel设置图表标题和坐标轴标签。
    • plt.grid(True, linestyle='-.')添加网格线,并指定网格线的样式为虚线。
  6. 展示图形

    • plt.show()显示生成的散点图,展示了训练集和测试集中不同类别的数据点分布情况。

总结:该段代码的主要作用是生成一个包含100个样本观测点的二维分类数据集,并通过散点图展示数据点在特征空间中的分布情况,其中训练集和测试集的不同类别用不同的标记和颜色区分开来。

#本章需导入的模块
import numpy as np
from numpy import random
import pandas as pd
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import warnings
warnings.filterwarnings(action = 'ignore')
%matplotlib inline
plt.rcParams['font.sans-serif']=['SimHei']  #解决中文显示乱码问题
plt.rcParams['axes.unicode_minus']=False
from sklearn.datasets import make_classification,make_circles,make_regression
from sklearn.model_selection import train_test_split,KFold
import sklearn.neural_network as net
import sklearn.linear_model as LM
from scipy.stats import multivariate_normal
from sklearn.metrics import r2_score,mean_squared_error,classification_report
from sklearn import svm
import os

N=100
X,Y=make_classification(n_samples=N,n_features=2,n_redundant=0,n_informative=2,class_sep=1,random_state=1,n_clusters_per_class=1)
X_train, X_test, Y_train, Y_test = train_test_split(X,Y,train_size=0.85, random_state=123)
markers=['^','o']
for k,m in zip([1,0],markers):
    plt.scatter(X_train[Y_train==k,0],X_train[Y_train==k,1],marker=m,s=40)
for k,m in zip([1,0],markers):
    plt.scatter(X_test[Y_test==k,0],X_test[Y_test==k,1],marker=m,s=40,c='r',edgecolors='g')
plt.title("100个样本观测点的分布")
plt.xlabel("X1")
plt.ylabel("X2")
plt.grid(True,linestyle='-.')
plt.show()   

运行结果如下图所示: 

这段代码主要实现了以下功能:

  1. 生成网格数据

    • 使用 np.meshgrid 创建了一个密集的网格点集合 (X1, X2),覆盖了训练数据集特征空间的范围。这样做是为了后续在整个特征空间内进行预测和可视化。
  2. 创建绘图框架

    • 使用 plt.subplots 创建了一个包含4个子图的图像框架,分布为2行2列,每个子图的大小为 (12, 8)
  3. 循环训练和可视化

    • 使用循环遍历不同的随机种子 (123, 3000, 0, 20) 和对应的子图位置 (H, L)
    • 对于每个随机种子,创建一个 MLPClassifier 多层感知器模型 (NeuNet):
      • activation='logistic':指定激活函数为逻辑斯蒂函数。
      • random_state=seed:设置随机种子,以便结果可复现。
      • hidden_layer_sizes=(10,):指定一个包含10个神经元的隐藏层。
      • max_iter=200:设置最大迭代次数为200。
    • 使用 NeuNet.fit(X_train, Y_train) 对训练集进行训练。
  4. 预测和可视化分类结果

    • 使用训练好的模型 NeuNet 对整个特征空间 (X0) 进行预测,得到预测结果 Y0
    • 在每个子图中:
      • 根据预测结果将网格点分别用灰色和淡红色表示,以显示模型预测的分类边界。
      • 用不同的标记 ('^' 和 'o') 和颜色 ('r' 和 'g') 分别绘制训练集和测试集的数据点。
      • 添加虚线网格以增强可读性。
      • 设置子图标题,包括当前随机种子和测试误差率 (1 - NeuNet.score(X_test, Y_test)) 的信息。

总结:该段代码通过多次使用不同的随机种子训练 MLPClassifier 模型,并在网格点上绘制模型的分类边界,展示了模型在不同随机种子下的分类效果。每个子图展示了模型对特征空间的不同划分,帮助理解模型在决策边界上的表现。

X1,X2= np.meshgrid(np.linspace(X_train[:,0].min(),X_train[:,0].max(),300),np.linspace(X_train[:,1].min(),X_train[:,1].max(),300))
X0=np.hstack((X1.reshape(len(X1)*len(X2),1),X2.reshape(len(X1)*len(X2),1)))

fig,axes=plt.subplots(nrows=2,ncols=2,figsize=(12,8))
for seed,H,L in [(123,0,0),(3000,0,1),(0,1,0),(20,1,1)]:
    NeuNet=net.MLPClassifier(activation='logistic',random_state=seed,hidden_layer_sizes=(10,),max_iter=200)
    NeuNet.fit(X_train,Y_train)
    #NeuNet.out_activation_  #输出节点的激活函数
    Y0=NeuNet.predict(X0)
    axes[H,L].scatter(X0[np.where(Y0==1),0],X0[np.where(Y0==1),1],c='lightgray')
    axes[H,L].scatter(X0[np.where(Y0==0),0],X0[np.where(Y0==0),1],c='mistyrose')
    for k,m in [(1,'^'),(0,'o')]:
        axes[H,L].scatter(X_train[Y_train==k,0],X_train[Y_train==k,1],marker=m,s=40)
        axes[H,L].scatter(X_test[Y_test==k,0],X_test[Y_test==k,1],marker=m,s=40,c='r',edgecolors='g')
    axes[H,L].grid(True,linestyle='-.')
    axes[H,L].set_title("分类平面(随机数种子=%d,测试误差=%.2f)"%(seed,1-NeuNet.score(X_test,Y_test)))

 运行结果如下图所示: 

02-线性可分下的支持向量机最大边界超平面分析

这段代码实现了以下功能:

  1. 生成数据集

    • 使用 make_classification 函数生成一个二维特征的分类数据集 X 和对应的标签 Y。数据集具有100个样本,每个样本包括2个特征,是一个线性可分的数据集。
  2. 数据集的可视化

    • 使用 train_test_split 将数据集分割成训练集 (X_train, Y_train) 和测试集 (X_test, Y_test),其中训练集占85%。
    • 使用 plt.scatter 绘制训练集中的样本点,分别用不同的标记 ('^' 和 'o') 表示两类样本,帮助可视化数据分布。
  3. 创建网格数据

    • 使用 np.meshgrid 创建密集的二维网格 (X1, X2),覆盖了训练集特征空间的范围。这样做是为了后续在整个特征空间内进行预测和可视化。
  4. 训练支持向量机模型

    • 使用 svm.SVC 创建一个支持向量机分类器 modelSVC,采用线性核函数 (kernel='linear'),设置随机种子 (random_state=123) 和正则化参数 C=2
    • 使用 modelSVC.fit(X_train, Y_train) 对训练集进行训练,学习得到最大边界超平面以及支持向量的位置。
  5. 预测和可视化分类结果

    • 使用训练好的支持向量机模型 modelSVC 对整个特征空间 (X0) 进行预测,得到预测结果 Y0
    • 在单个图像中:
      • 根据预测结果将网格点分别用灰色和淡红色表示,以显示模型预测的分类边界。
      • 使用不同的标记 ('^' 和 'o') 和颜色 ('r' 和 'g') 分别绘制训练集和测试集的数据点。
      • 使用蓝色圆圈标记支持向量的位置,并调整其透明度以区分它们。
  6. 添加图像元素

    • 设置图像的标题、坐标轴标签和网格线,增强图像的可读性和解释性。

总结:该段代码展示了如何使用支持向量机处理线性可分的二维数据集。通过训练模型并在特征空间中绘制分类边界和支持向量的位置,帮助理解支持向量机在数据分类中的应用及其决策边界的形成。

#本章需导入的模块
import numpy as np
from numpy import random
import pandas as pd
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import warnings
warnings.filterwarnings(action = 'ignore')
%matplotlib inline
plt.rcParams['font.sans-serif']=['SimHei']  #解决中文显示乱码问题
plt.rcParams['axes.unicode_minus']=False
from sklearn.datasets import make_classification,make_circles,make_regression
from sklearn.model_selection import train_test_split,KFold
import sklearn.neural_network as net
import sklearn.linear_model as LM
from scipy.stats import multivariate_normal
from sklearn.metrics import r2_score,mean_squared_error,classification_report
from sklearn import svm
import os

N=100
X,Y=make_classification(n_samples=N,n_features=2,n_redundant=0,n_informative=2,class_sep=1,random_state=1,n_clusters_per_class=1)

plt.figure(figsize=(9,6))
X_train, X_test, Y_train, Y_test = train_test_split(X,Y,train_size=0.85, random_state=123)
markers=['^','o']
for k,m in zip([1,0],markers):
    plt.scatter(X_train[Y_train==k,0],X_train[Y_train==k,1],marker=m,s=50)
plt.title("训练集中样本观测点的分布")
plt.xlabel("X1")
plt.ylabel("X2")
plt.grid(True,linestyle='-.')
plt.show()   

N=100
X,Y=make_classification(n_samples=N,n_features=2,n_redundant=0,n_informative=2,class_sep=1,random_state=1,n_clusters_per_class=1)
X_train, X_test, Y_train, Y_test = train_test_split(X,Y,train_size=0.85, random_state=123)
X1,X2= np.meshgrid(np.linspace(X_train[:,0].min(),X_train[:,0].max(),500),np.linspace(X_train[:,1].min(),X_train[:,1].max(),500))
X0=np.hstack((X1.reshape(len(X1)*len(X2),1),X2.reshape(len(X1)*len(X2),1)))
modelSVC=svm.SVC(kernel='linear',random_state=123,C=2) #modelSVC=svm.LinearSVC(C=2,dual=False)
modelSVC.fit(X_train,Y_train)
print("超平面的常数项b:",modelSVC.intercept_)
print("超平面系数W:",modelSVC.coef_)
print("支持向量的个数:",modelSVC.n_support_)
Y0=modelSVC.predict(X0)
plt.figure(figsize=(6,4)) 
plt.scatter(X0[np.where(Y0==1),0],X0[np.where(Y0==1),1],c='lightgray')
plt.scatter(X0[np.where(Y0==0),0],X0[np.where(Y0==0),1],c='mistyrose')
for k,m in [(1,'^'),(0,'o')]:
    plt.scatter(X_train[Y_train==k,0],X_train[Y_train==k,1],marker=m,s=40)
    plt.scatter(X_test[Y_test==k,0],X_test[Y_test==k,1],marker=m,s=40,c='r',edgecolors='g')

plt.scatter(modelSVC.support_vectors_[:,0],modelSVC.support_vectors_[:,1],marker='o',c='b',s=120,alpha=0.3)
plt.xlabel("X1")
plt.ylabel("X2")
plt.title("线性可分下的支持向量机最大边界超平面")
plt.grid(True,linestyle='-.')
plt.show()  

 运行结果如下图所示: 

03-广义线性可分下的支持向量机最大边界超平面

这段代码主要包括以下几个部分:

  1. 导入必要的模块:

    • numpy:用于数值计算。
    • pandas:用于数据处理和分析。
    • matplotlib.pyplot:用于绘图。
    • mpl_toolkits.mplot3d:用于绘制3D图形。
    • warnings:用于控制警告输出。
    • sklearn 相关模块:包括生成数据集、模型选择、评估指标、支持向量机等。
    • scipy.stats:用于生成多维正态分布。
    • os:用于与操作系统进行交互。
  2. 生成样本数据和划分训练集、测试集:

    • 使用 make_classification 生成具有分类信息的数据集,包括特征和类别标签。
    • 使用 train_test_split 将数据集划分为训练集和测试集,比例为 0.85:0.15。
  3. 绘制训练集样本观测点的分布:

    • 使用不同的标记符号和颜色展示训练集中两类样本点的分布情况。
    • 设置图像标题、坐标轴标签,并显示网格线。
    • 将绘制的图保存为文件,并展示在输出窗口中。
  4. 使用支持向量机 (SVM) 模型拟合数据和绘制决策边界:

    • 使用线性核的 SVM 模型,分别设定不同的惩罚参数 C 值。
    • 根据模型预测结果绘制分类边界和支持向量。
    • 在两个子图中展示不同 C 值下的分类效果、支持向量,以及训练集、测试集样本的分布。
    • 设置子图的标题、坐标轴标签,并显示网格线。
    • 将绘制的图保存为文件。

整体上,这段代码主要展示了如何生成分类数据集、划分数据集、利用 SVM 模型进行分类,并通过可视化展示不同参数下的分类效果和支持向量分布。

#本章需导入的模块
import numpy as np
from numpy import random
import pandas as pd
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import warnings
warnings.filterwarnings(action = 'ignore')
%matplotlib inline
plt.rcParams['font.sans-serif']=['SimHei']  #解决中文显示乱码问题
plt.rcParams['axes.unicode_minus']=False
from sklearn.datasets import make_classification,make_circles,make_regression
from sklearn.model_selection import train_test_split,KFold
import sklearn.neural_network as net
import sklearn.linear_model as LM
from scipy.stats import multivariate_normal
from sklearn.metrics import r2_score,mean_squared_error,classification_report
from sklearn import svm
import os

N=100
X,Y=make_classification(n_samples=N,n_features=2,n_redundant=0,n_informative=2,class_sep=1.2,random_state=1,n_clusters_per_class=1)
rng=np.random.RandomState(2)
X+=2*rng.uniform(size=X.shape)
X_train, X_test, Y_train, Y_test = train_test_split(X,Y,train_size=0.85, random_state=1)

plt.figure(figsize=(9,6))
markers=['^','o']
for k,m in zip([1,0],markers):
    plt.scatter(X_train[Y_train==k,0],X_train[Y_train==k,1],marker=m,s=50)
plt.title("训练集中样本观测点的分布")
plt.xlabel("X1")
plt.ylabel("X2")
plt.grid(True,linestyle='-.')
plt.savefig("../4.png", dpi=500) 
plt.show()  

N=100
X,Y=make_classification(n_samples=N,n_features=2,n_redundant=0,n_informative=2,class_sep=1.2,random_state=1,n_clusters_per_class=1)
rng=np.random.RandomState(2)
X+=2*rng.uniform(size=X.shape)
X_train, X_test, Y_train, Y_test = train_test_split(X,Y,train_size=0.85, random_state=1)
X1,X2= np.meshgrid(np.linspace(X_train[:,0].min(),X_train[:,0].max(),500),np.linspace(X_train[:,1].min(),X_train[:,1].max(),500))
X0=np.hstack((X1.reshape(len(X1)*len(X2),1),X2.reshape(len(X1)*len(X2),1)))
fig,axes=plt.subplots(nrows=1,ncols=2,figsize=(15,6))
for C,H in [(5,0),(0.1,1)]:
    modelSVC=svm.SVC(kernel='linear',random_state=123,C=C) 
    modelSVC.fit(X_train,Y_train)
    Y0=modelSVC.predict(X0)
    axes[H].scatter(X0[np.where(Y0==1),0],X0[np.where(Y0==1),1],c='lightgray')
    axes[H].scatter(X0[np.where(Y0==0),0],X0[np.where(Y0==0),1],c='mistyrose')
    for k,m in [(1,'^'),(0,'o')]:
        axes[H].scatter(X_train[Y_train==k,0],X_train[Y_train==k,1],marker=m,s=40)
        axes[H].scatter(X_test[Y_test==k,0],X_test[Y_test==k,1],marker=m,s=40,c='r',edgecolors='g')
        
    axes[H].scatter(modelSVC.support_vectors_[:,0],modelSVC.support_vectors_[:,1],marker='o',c='b',s=120,alpha=0.3)
    axes[H].set_xlabel("X1")
    axes[H].set_ylabel("X2")
    axes[H].set_title("广义线性可分下的支持向量机最大边界超平面\n(C=%.1f,训练误差=%.2f)"%(C,1-modelSVC.score(X_train,Y_train)))
    axes[H].grid(True,linestyle='-.')
plt.savefig("../4.png", dpi=500) 

运行结果如下图所示 

04-广义线性可分下的支持向量机最大边界超平面

这段代码主要包括以下几个部分:

  1. 导入必要的模块:

    • numpy:用于数值计算。
    • pandas:用于数据处理和分析。
    • matplotlib.pyplot:用于绘图。
    • mpl_toolkits.mplot3d:用于绘制3D图形。
    • warnings:用于控制警告输出。
    • sklearn 相关模块:包括生成数据集、模型选择、评估指标、支持向量机等。
    • scipy.stats:用于生成多维正态分布。
    • os:用于与操作系统进行交互。
  2. 生成样本数据和可视化:

    • 使用 make_circles 生成环形结构的数据集,包括特征和类别标签。
    • 创建一个包含两个子图的大图(fig),其中一个是 3D 散点图,另一个是二维散点图和等高线图。
    • 在 3D 散点图中,根据数据点的位置和类别,使用不同的标记符号和颜色展示样本点的分布情况。
    • 设置 3D 图的 x、y、z 轴标签以及标题。
  3. 在二维空间中绘制样本散点图和等高线图:

    • 在第二个子图中,根据样本点的位置和类别,使用不同的标记符号展示样本点的分布情况。
    • 设置二维图的标题、坐标轴标签,并显示网格线。
    • 使用等高线图表示二维样本数据在三维空间中的分布情况。

整体上,这段代码主要展示了如何生成环形结构的数据集,并通过可视化在三维和二维空间中展示样本数据的分布情况。通过这种可视化方式,可以更直观地理解数据的特征和结构。

#本章需导入的模块
import numpy as np
from numpy import random
import pandas as pd
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import warnings
warnings.filterwarnings(action = 'ignore')
%matplotlib inline
plt.rcParams['font.sans-serif']=['SimHei']  #解决中文显示乱码问题
plt.rcParams['axes.unicode_minus']=False
from sklearn.datasets import make_classification,make_circles,make_regression
from sklearn.model_selection import train_test_split,KFold
import sklearn.neural_network as net
import sklearn.linear_model as LM
from scipy.stats import multivariate_normal
from sklearn.metrics import r2_score,mean_squared_error,classification_report
from sklearn import svm
import os

N=100
X,Y=make_circles(n_samples=N,noise=0.2,factor=0.5,random_state=123)
fig = plt.figure(figsize=(20,6))
markers=['^','o']
ax = fig.add_subplot(121, projection='3d')
var = multivariate_normal(mean=[0,0], cov=[[1,0],[0,1]])
Z=np.zeros((len(X),))
for i,x in enumerate(X):
    Z[i]=var.pdf(x)
for k,m in zip([1,0],markers):
    ax.scatter(X[Y==k,0],X[Y==k,1],Z[Y==k],marker=m,s=40)
ax.set_xlabel('X1')
ax.set_ylabel('X2')
ax.set_zlabel('Z')
ax.set_title('三维空间下100个样本观测点的分布')  

ax = fig.add_subplot(122)
X1,X2= np.meshgrid(np.linspace(X[:,0].min(),X[:,0].max(),500),np.linspace(X[:,1].min(),X[:,1].max(),500))
X0=np.hstack((X1.reshape(len(X1)*len(X2),1),X2.reshape(len(X1)*len(X2),1)))
Z=np.zeros((len(X0),))
for i,x in enumerate(X0):
    Z[i]=var.pdf(x)
for k,m in zip([1,0],markers):
    ax.scatter(X[Y==k,0],X[Y==k,1],marker=m,s=50)
ax.set_title("100个样本观测点在二维空间中的分布")
ax.set_xlabel("X1")
ax.set_ylabel("X2")
ax.grid(True,linestyle='-.')
contour = plt.contour(X1,X2,Z.reshape(len(X1),len(X2)),[0.12],colors='k')
#ax.clabel(contour,fontsize=10,colors=('k'))  #等高线上标明z(即高度)的值


运行结果如下图所示  

总结

支持向量机(Support Vector Machine,SVM)是一种用于分类和回归分析的监督学习模型。以下是支持向量机的总结要点:

  1. 原理

    • SVM的核心思想是找到一个最优的超平面,将不同类别的样本点分开,并使得两个类别的支持向量到超平面的距离最大化。
    • SVM在特征空间中寻找一个最优的划分超平面,最大化间隔(Margin),同时引入核技巧进行非线性分类。
  2. 优点

    • 可用于解决线性和非线性分类问题。
    • 在高维空间中有效,适用于特征维度较高的数据集。
    • 泛化能力较强,对过拟合的控制比较好。
  3. 缺点

    • 对大规模样本数据的训练耗时较长,不适用于数据量较大的情况。
    • 对噪声敏感,数据集中存在噪声会影响模型性能。
    • 需要调节核函数和正则化参数,选择合适的参数对模型性能影响较大。
  4. 应用

    • SVM广泛应用于文本分类、图像识别、生物信息学、医学影像分析等领域。
    • 在实践中,SVM被用于二分类、多分类,以及回归等任务。
  5. 核心概念

    • 支持向量(Support Vectors):训练数据集中距离超平面最近的样本点。
    • 超平面(Hyperplane):在特征空间中将不同类别样本点分开的分界线。
    • 间隔(Margin):支持向量到超平面的距离。
  6. SVM变种

    • 支持向量回归(Support Vector Regression,SVR):用于回归问题。
    • 核支持向量机(Kernel SVM):用于处理非线性分类问题。
    • 多类别SVM:通过一对一(One vs One)或一对其余(One vs Rest)策略处理多类别分类问题。

总的来说,支持向量机是一种强大的机器学习算法,具有良好的分类性能和泛化能力,适用于多种领域的分类和回归任务。在实际应用中,需要合理选择参数、优化模型,并根据具体问题调整算法以提高模型性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1845606.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

zynq qspi启动、无SD卡、格式化分区emmc、调试全过程

1 背景 使用黑金开发板,全部开发流程避开使用SD卡调试,zynq开发过程中很多资料都是基于SD启动。这样就对新板卡调试带来了一定的困难,因为新板卡基本上没有设计SD卡。这里就一步一步实现qspi启动内核,格式化分区emmc,…

leetCode40组合总和(回溯)

题目 给定一个候选人编号的集合 candidates 和一个目标数 target ,找出 candidates 中所有可以使数字和为 target 的组合。 candidates 中的每个数字在每个组合中只能使用 一次示例 : 输入: candidates [2,5,2,1,2], target 5, 输出: [ [1,2,2], [5] ]回溯一般模…

[package-view] RegisterGUI.java-自用

java GUI : frame---> panel --> components[button/输入框/标签] JFrame-->JPanel---> [JButton/JTextField/JLabel] /** This code sets up a registration window using Swing. * The window includes input fields for the users name, ID,* and password, …

vue3 自定义指令-积分埋点

自用笔记,内容可能不全 // package.json "sunshine-track": "^1.0.0-beta.2",// track index.jsimport Track from sunshine-trackconst options {projectKey: test-project, // 项目的keyuserId: digger, // 用户idreport: {url: http://exam…

uniapp app打开微信客服

按钮触发 uni.share({provider: "weixin",openCustomerServiceChat: true,customerUrl: https://work.weixin.qq.com/kfid/*************, //企业微信地址corpid: ww13edaa**********, //企业idsuccess: (res) > {console.log("success:" JSON.string…

Redis精要

一、什么是缓存击穿、缓存穿透、缓存雪崩? 缓存穿透 【针对大量非法访问的请求,缓存中没有,直接访问DB】 缓存穿透指的查询缓存和数据库中都不存在的数据,这样每次请求直接打到数据库,就好像缓存不存在 一样。 对于系…

【经验分享】Ubuntu24.04安装微信

【经验分享】Ubuntu24.04安装微信(linux官方2024universal版) 文章如下,22.04和24.04微信兼容 【经验分享】Ubuntu22.04安装微信(linux官方2024universal版) 实测Ubuntu24.04LTS版本可以兼容。

cenots 出现 curl 外网地址很慢,或者微信授权很慢

用 curl 访问链接,很慢才显示接口、或者微信授权很慢, 微信授权,很慢才授权成功,平均延时 5s 可能是 dns配置问题,直接修改 sudo vim /etc/resolv.conf 的 nameserver 改为 114.114.114.114 即可 其他…

锂电池寿命预测 | Matlab基于ARIMA的锂电池寿命预测

目录 预测效果基本介绍程序设计参考资料 预测效果 基本介绍 锂电池寿命预测 | Matlab基于ARIMA的锂电池寿命预测 NASA数据集,B0005号电池,选择前110个数据训练,后58个数据测试预测。程序包含去趋势线、差分、平稳化及AIC准则判定p和q。命令窗…

DSP28335课设:音乐流水灯的设计

本题目为音乐流水灯的设计,目的是熟练掌握DSP定时器的控制、中断系统的应用以及程序的编写调试。 1、让DSP发出不同的音乐音调; 2、存储一个简单音乐(自选); 3、音乐的音调对应不同的灯 4、启动开关按下时&…

C++Muduo网络库初探

Muduo初探 Muduo网络库简介 Muduo是由【陈硕】大佬个人开发的TCP网络编程库,基于Reactor模式,提供了高效的事件驱动网络编程框架,有助于快速搭建高性能的网络服务端。 什么是Reactor模式? I/O多路复用 在网络I/O中&#xff0…

eclipse中没有SERVER的解决办法(超详细)

将 Tomcat 和 Eclipse 相关联时,Eclipse有的版本发现 发现eclipse->【Window】->【Preferences】里没有【server】从而配置不了Runtime Environment。所以需要通过eclipse进行安装。 通过我个人的经验下面给出解决办法: 一、获取 Eclipse版本 点击…

性能测试并发量评估新思考:微服务压力测试并发估算

性能测试并发量评估新思考 相信很多人在第一次做压力测试的时候,对并发用户数的选择一直有很多的疑惑,那么行业内有一些比较通用的并发量的计算方法,但是这些方法在如今微服务的架构下多少会有一些不适合,下面的文章我们对这些问题…

JS【数组】交集、差集、补集、并集

var a [1,2,3,4,5] var b [2,4,6,8,10]var sa new Set(a); var sb new Set(b); // 交集 let intersect a.filter(x > sb.has(x)); // 差集 let minus a.filter(x > !sb.has(x)); // 补集 let complement [...a.filter(x > !sb.has(x)), ...b.filter(x > !sa…

MicroBlaze IP核中Local Memory Bus (LMB)接口描述

LMB(Local Memory Bus)是一种同步总线,主要用于访问FPGA上的块RAM(Block RAM,BRAM)。LMB使用最少的控制信号和一个简单的协议,以保证块RAM能在一个时钟周期内被存取。所有的LMB信号都是高电平有…

[深度学习]--分类问题的排查错误的流程

原因复现: 原生的.pt 好使, 转化后的 CoreML不好使, 分类有问题。 yolov8 格式的支持情况 Format Argument Suffix CPU GPU 0 PyTorch - .pt True True 1 Tor…

Unet已死,Transformer当立!详细解读基于DiT的开源视频生成大模型EasyAnimate

Diffusion Models视频生成-博客汇总 前言:最近阿里云PIA团队开源了基于Diffusion Transformer结构的视频生成模型EasyAnimate,并且提出了专门针对视频的slice VAE,对于目前基于Unet结构的视频生成最好如SVD形成了降维打击,不论是生…

快消品经销商的仓库管理,有哪些是必须注意的事项?

快消品经销商仓库管理是一个复杂而关键的过程,它涉及到产品的存储、保管、发货以及库存控制等多个环节。一个高效的仓库管理系统不仅有助于减少成本,提高运营效率,还能确保产品质量和满足客户需求。以下是一些快消品经销商在仓库管理过程中需…

JDBC之API(DriverManager)详解

之前在 JDBC 的快速入门写代码的时候,遇到了很多的API。这篇博客主要学习一些API。 目录 一、API(介绍) 二、JDBC之API——DriverManager (1)DriverManager (获取 Connection 的连接对象) 1、…

玩转热门游戏,选对系统是关键!游戏专用电脑系统在这里!

如果我们给电脑安装上游戏专用系统,那么就能体验到更加流畅、稳定的游戏运行环境,享受沉浸式的游戏体验。但是,许多新手用户不知道去哪里才能下载到玩游戏专用的电脑系统?接下来小编给大家分享玩游戏专用电脑系统,这些…