当前位置：首页 > news >正文

机器学习之支持向量机(原理)

news 2025/8/9 8:42:41

摘要

一、概述

二、SVM算法定义

1.超平⾯最⼤间隔介绍

2.硬间隔和软间隔

1.硬间隔分类

2. 软间隔分类

三、SVM算法原理

1 定义输⼊数据

2 线性可分⽀持向量机

3 SVM的计算过程与算法步骤

四、核函数

五、SVM算法api介绍

1. 核心参数说明

2. 主要方法

3. 重要属性

六、SVM支持向量机的优缺点

1、优点

2、缺点

摘要

支持向量机(SVM)是一种监督学习算法,用于数据的二元分类。它通过寻找最大边距超平面实现分类,适用于小样本和非线性问题。SVM能够处理线性和非线性数据,通过核函数将低维不可分数据映射到高维空间,实现线性可分。本文介绍了SVM的基本原理、硬间隔和软间隔概念、核函数以及模型评估方法。

一、概述

支持向量机（SVM）是一类按监督学习方式对数据进行二元分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面，可以将问题化为一个求解凸二次规划的问题。与逻辑回归和神经网络相比，支持向量机，在学习复杂的非线性方程时提供了一种更为清晰，更加强大的方式。

具体来说：在线性可分时，在原空间寻找两类样本的最优分类超平面。在线性不可分时，加入松弛变量并通过使用非线性映射将低维度输入空间的样本映射到高维度空间使其变为线性可分，这样就可以在该特征空间中寻找最优分类超平面。

SVM使用准则： n为特征数， m为训练样本数。

如果相较于m而言，n要大许多，即训练集数据量不够支持我们训练一个复杂的非线性模型，我们选用逻辑回归模型或者不带核函数的支持向量机。
如果 n较小，而且 m 大小中等，例如 n 在 1-1000 之间，而 m 在10-10000之间，使用高斯核函数的支持向量机。
如果 n 较小，而 m 较大，例如 n 在1-1000之间，而 m 大于50000，则使用支持向量机会非常慢，解决方案是创造、增加更多的特征，然后使用逻辑回归或不带核函数的支持向量机。

二、SVM算法定义

SVM：SVM全称是supported vector machine（⽀持向量机），即寻找到⼀个超平⾯使样本分成两类，并且间隔最⼤。 SVM能够执⾏线性或⾮线性分类、回归，甚⾄是异常值检测任务。它是机器学习领域最受欢迎的模型之⼀。SVM特别适⽤于中⼩型复杂数据集的分类。

1.超平⾯最⼤间隔介绍

上左图显示了三种可能的线性分类器的决策边界：

虚线所代表的模型表现⾮常糟糕，甚⾄都⽆法正确实现分类。其余两个模型在这个训练集上表现堪称完美，但是它们的决策边界与实例过于接近，导致在⾯对新实例时，表现可能不会太好

右图中的实线代表SVM分类器的决策边界，不仅分离了两个类别，且尽可能远离最近的训练实例。

2.硬间隔和软间隔

1.硬间隔分类

在上⾯我们使⽤超平⾯进⾏分割数据的过程中，如果我们严格地让所有实例都不在最⼤间隔之间，并且位于正确的⼀边，这就是硬间隔分类。硬间隔分类有两个问题，⾸先，它只在数据是线性可分离的时候才有效；其次，它对异常值⾮常敏感。当有⼀个额外异常值的鸢尾花数据：左图的数据根本找不出硬间隔，⽽右图最终显示的决策边界与我们之前所看到的⽆异常值时的决策边界也⼤不相同，可能⽆法很好地泛化

2. 软间隔分类

要避免这些问题，最好使⽤更灵活的模型。⽬标是尽可能在保持最⼤间隔宽阔和限制间隔违例（即位于最⼤间隔之上，甚⾄在错误的⼀边的实例）之间找到良好的平衡，这就是软间隔分类。要避免这些问题，最好使⽤更灵活的模型。⽬标是尽可能在保持间隔宽阔和限制间隔违例之间找到良好的平衡，这就是软间隔分类

在Scikit-Learn的SVM类中，可以通过超参数C来控制这个平衡：C值越⼩，则间隔越宽，但是间隔违例也会越多。上图显示了在⼀个⾮线性可分离数据集上，两个软间隔SVM分类器各⾃的决策边界和间隔。

左边使⽤了⾼C值，分类器的错误样本（间隔违例）较少，但是间隔也较⼩。

右边使⽤了低C值，间隔⼤了很多，但是位于间隔上的实例也更多。

看起来第⼆个分类器的泛化效果更好，因为⼤多数间隔违例实际上都位于决策边界正确的⼀边，所以即便是在该训练集上，它做出的错误预测也会更少。

三、SVM算法原理

1 定义输⼊数据

假设给定⼀个特征空间上的训练集为：

其中，(xi,yi )称为样本点。

xi 为第i个实例（样本）， yi 为xi的标记：当yi =1时，xi为正例当yi =−1时，xi为负例

2 线性可分⽀持向量机

给定了上⾯提出的线性可分训练数据集，通过间隔最⼤化得到分离超平⾯为 :y(x)=wT Φ(x)+b T 相应的分类决策函数为： f(x)=sign(wT Φ(x)+b) 以上决策函数就称为线性可分⽀持向量机。

这⾥解释⼀下Φ(x)这个东东。 i这是某个确定的特征空间转换函数，它的作⽤是将x映射到更⾼的维度，它有⼀个以后我们经常会⻅到的专有称号”核函数“。

以上就是线性可分⽀持向量机的模型表达式。我们要去求出这样⼀个模型，或者说这样⼀个超平⾯y(x),它能够最优地分离两个集合。其实也就是我们要去求⼀组参数（w,b),使其构建的超平⾯函数能够最优地分离两个集合。如下就是⼀个最优超平⾯:

3 SVM的计算过程与算法步骤

对偶问题