当前位置：首页 > news >正文

【手撕算法】支持向量机（SVM）从入门到实战：数学推导与核技巧揭秘

news 2025/9/11 1:13:24

摘要

支持向量机（SVM）是机器学习中的经典算法！本文将深入解析最大间隔分类原理，手撕对偶问题推导过程，并实战实现非线性分类与图像识别。文中附《统计学习公式手册》及SVM调参指南，助力你掌握这一核心算法！

一、算法核心思想

SVM通过寻找最大间隔超平面实现分类，核心数学表达为：
$( min_{w,b} \frac{1}{2}|w|^2 )$
满足约束：
$( y_i(w^Tx_i + b) \geq 1 \quad \forall i )$

📌 关联阅读：《逻辑回归算法精讲》

二、数学原理详解

2.1 拉格朗日对偶问题

引入拉格朗日乘子 $( \alpha_i \geq 0 )$ ：
$( L(w,b,\alpha) = \frac{1}{2}|w|^2 - \sum_{i=1}^n \alpha_i[y_i(w^Tx_i + b) - 1] )$

对 w 和 b 求偏导得：
$( w = \sum_{i=1}^n \alpha_i y_i x_i )$
$( \sum_{i=1}^n \alpha_i y_i = 0 )$

2.2 核技巧（Kernel Trick）

将内积替换为核函数：
$( K(x_i, x_j) = \phi(x_i)^T \phi(x_j) )$
常用核函数：

高斯核： $( K(x,y) = \exp(-\gamma|x - y|^2) )$
多项式核： $( K(x,y) = (x^Ty + c)^d )$

三、Python代码实战

3.1 线性SVM分类（手写实现）

import numpy as np
from cvxopt import matrix, solversclass SVM:def __init__(self, kernel='linear', C=1.0, gamma=0.1):self.kernel = kernelself.C = Cself.gamma = gammadef fit(self, X, y):n_samples, n_features = X.shape# 计算核矩阵K = self._compute_kernel(X, X)# 构建QP问题参数P = matrix(np.outer(y, y) * K)q = matrix(-np.ones(n_samples))A = matrix(y.reshape(1, -1).astype(np.double))b = matrix(0.0)G = matrix(np.vstack((-np.eye(n_samples), np.eye(n_samples))))h = matrix(np.hstack((np.zeros(n_samples), np.ones(n_samples) * self.C)))# 求解二次规划solution = solvers.qp(P, q, G, h, A, b)self.alpha = np.ravel(solution['x'])# 计算支持向量sv = self.alpha > 1e-5self.sv_alpha = self.alpha[sv]self.sv_X = X[sv]self.sv_y = y[sv]# 计算偏置bself.b = np.mean(self.sv_y - np.sum(self.sv_alpha * self.sv_y * self._compute_kernel(self.sv_X, self.sv_X), axis=1))def predict(self, X):return np.sign(np.sum(self.sv_alpha * self.sv_y * self._compute_kernel(self.sv_X, X), axis=1) + self.b)

3.2 非线性分类可视化

from sklearn.datasets import make_moons
import matplotlib.pyplot as plt# 生成非线性数据集
X, y = make_moons(n_samples=100, noise=0.15, random_state=42)
y = np.where(y == 0, -1, 1)# 训练SVM模型
model = SVM(kernel='rbf', gamma=0.5, C=1.0)
model.fit(X, y)# 绘制决策边界
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),np.arange(y_min, y_max, 0.02))Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
plt.contourf(xx, yy, Z, alpha=0.3)
plt.scatter(X[:,0], X[:,1], c=y, edgecolors='k')