支持向量机的基本概念和数学公式:
1. 线性可分的支持向量机
对于线性可分的数据集
,其中(x_i \in R^d) 是特征向量
是类别标签,目标是找到一个超平面
,使得对于所有
的样本
,对于所有(y_i = -1) 的样本,(w^T x_i + b \leq -1)。
间隔(M)定义为:
目标是最大化间隔,即最小化(\frac{1}{2}|w|^2),同时满足![在这里插入图片描述
2. 对偶问题
通过引入拉格朗日乘子(\alpha_i\geq 0),原问题的拉格朗日函数为:
对偶问题通过对(L)求(w)和(b)的偏导数并令其为(0)得到:
对偶问题是最大化
约束条件为
3. 核函数
核函数
,将数据映射到高维空间。常见的核函数有:
-
线性核:
-
多项式核:
-
径向基函数(RBF)核:
4. 软间隔与正则化
引入松弛变量(\xi_i\geq 0),目标函数变为:
约束条件为
5. 支持向量回归(SVR)
对于回归问题,引入(\epsilon)-不敏感损失函数,目标是找到(w) 和(b) 使得:
约束条件为
代码示例(使用 Python 和 scikit-learn
库):
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC, SVR
from sklearn.metrics import accuracy_score, mean_squared_error
import numpy as np
# 生成示例数据集
X, y = datasets.make_classification(n_samples=100, n_features=2, n_informative=2, n_redundant=0, random_state=42)
y[y == 0] = -1 # 将类别标签转换为 -1 和 1
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
# 线性 SVM 分类器
svm_classifier = SVC(kernel='linear', C=1.0)
svm_classifier.fit(X_train, y_train)
y_pred = svm_classifier.predict(X_test)
print("线性 SVM 分类准确率:", accuracy_score(y_test, y_pred))
# 多项式核 SVM 分类器
svm_poly_classifier = SVC(kernel='poly', degree=3, C=1.0)
svm_poly_classifier.fit(X_train, y_train)
y_pred_poly = svm_poly_classifier.predict(X_test)
print("多项式核 SVM 分类准确率:", accuracy_score(y_test, y_pred_poly))
# RBF 核 SVM 分类器
svm_rbf_classifier = SVC(kernel='rbf', gamma=0.7, C=1.0)
svm_rbf_classifier.fit(X_train, y_train)
y_pred_rbf = svm_rbf_classifier.predict(X_test)
print("RBF 核 SVM 分类准确率:", accuracy_score(y_test, y_pred_rbf))
# 生成回归数据集
X_reg, y_reg = datasets.make_regression(n_samples=100, n_features=1, noise=0.1, random_state=42)
X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X_reg, y_reg, test_size=0.3, random_state=42)
# 支持向量回归
svr = SVR(kernel='rbf', C=1.0, epsilon=0.2)
svr.fit(X_train_reg, y_train_reg)
y_pred_reg = svr.predict(X_test_reg)
print("SVR 均方误差:", mean_squared_error(y_test_reg, y_pred_reg))
代码解释:
datasets.make_classification
:生成分类数据集。
train_test_split
:将数据集划分为训练集和测试集。SVC
:支持向量分类器,可指定不同的核函数(linear
、poly
、rbf
等)和正则化参数C
。accuracy_score
:计算分类准确率。datasets.make_regression
:生成回归数据集。SVR
:支持向量回归,可指定核函数、正则化参数C
和(\epsilon) 参数。mean_squared_error
:计算均方误差。
手动实现 SVM 分类器(简化版):
import numpy as np
def linear_kernel(x1, x2):
return np.dot(x1, x2)
def train_svm(X, y, C=1.0, max_iter=1000, tol=1e-3, kernel=linear_kernel):
n_samples, n_features = X.shape
alpha = np.zeros(n_samples)
b = 0
eta = 0
L = 0
H = 0
for iteration in range(max_iter):
num_changed_alphas = 0
for i in range(n_samples):
Ei = np.sum(alpha * y * kernel(X, X[i])) + b - y[i]
if (y[i] * Ei < -tol and alpha[i] < C) or (y[i] * Ei > tol and alpha[i] > 0):
j = np.random.choice([k for k in range(n_samples) if k!= i])
Ej = np.sum(alpha * y * kernel(X, X[j])) + b - y[j]
alpha_i_old = alpha[i]
alpha_j_old = alpha[j]
if y[i] == y[j]:
L = max(0, alpha[j] + alpha[i] - C)
H = min(C, alpha[j] + alpha[i])
else:
L = max(0, alpha[j] - alpha[i])
H = min(C, C + alpha[j] - alpha[i])
if L == H:
continue
eta = 2 * kernel(X[i], X[j]) - kernel(X[i], X[i]) - kernel(X[j], X[j])
if eta >= 0:
continue
alpha[j] -= y[j] * (Ei - Ej) / eta
alpha[j] = np.clip(alpha[j], L, H)
if abs(alpha[j] - alpha_j_old) < tol:
continue
alpha[i] += y[i] * y[j] * (alpha_j_old - alpha[j])
b1 = b - Ei - y[i] * (alpha[i] - alpha_i_old) * kernel(X[i], X[i]) - y[j] * (alpha[j] - alpha_j_old) * kernel(X[i], X[j])
b2 = b - Ej - y[i] * (alpha[i] - alpha_i_old) * kernel(X[i], X[j]) - y[j] * (alpha[j] - alpha_j_old) * kernel(X[j], X[j])
if 0 < alpha[i] < C:
b = b1
elif 0 < alpha[j] < C:
b = b2
else:
b = (b1 + b2) / 2
num_changed_alphas += 1
if num_changed_alphas == 0:
break
return alpha, b
def predict_svm(X, alpha, b, X_train, y_train, kernel=linear_kernel):
n_samples = X.shape[0]
y_pred = []
for i in range(n_samples):
pred = np.sum(alpha * y_train * kernel(X_train, X[i])) + b
y_pred.append(np.sign(pred))
return np.array(y_pred)
# 示例使用
X = np.array([[1, 2], [2, 3], [3, 4], [6, 7], [7, 8], [8, 9]])
y = np.array([1, 1, 1, -1, -1, -1])
alpha, b = train_svm(X, y, C=1.0)
y_pred = predict_svm(X, alpha, b, X, y)
print("手动实现 SVM 预测结果:", y_pred)
代码解释:
linear_kernel
:定义线性核函数。
train_svm
:使用 SMO(Sequential Minimal Optimization)算法训练 SVM,更新拉格朗日乘子(\alpha) 和偏置(b)。predict_svm
:使用训练好的(\alpha) 和(b) 进行预测。