支持向量机
如果数据线性可分但存在噪声,那么对硬间隔支持向量机的训练影响就很大,我们希望它能具有一定的包容能力,容忍那些放错的点(噪声),但又不能容忍过度。允许一点分类错误的SVM称为 软间隔支持向量机。
之前讲到的硬间隔支持向量机模型的优化函数如下:
引入允许一点分类错误的情形后,优化函数转为:
其中C为超参数,用来控制惩罚程度。loss为度量分类错误的损失函数。有以下两种:
- 0-1损失:对犯错误的点进行统计计数
令 z = y(w^Tx+b) ,则I(z) 函数图像如右,可见,关于非连续可导。

2. 距离来度量loss
所以
令 ,则 函数图像如右,可见,关于只有一点不可导。

综上,软间隔优化问题为:
引入, 令, 且 。则有
这里若越大,包容能力就越小,当取值很大时,就等价于硬间隔支持向量机,而ξ使得支持向量的间隔可以调整,不必像硬间隔那样严格等于
注意,上述优化函数的约束与之前硬间隔SVM的区别:
- 首先是多了约束项 , 这是因为 的定义引入的,为了消除目标函数里面的函数
- 其次是对数据点到超平面分割线的距离大于

