机器学习基础---分类方法---支持向量机（SVM）

支持向量机SVM（分类器）

方法描述

核心思想：

本篇中主要以二分类问题为例讨论SVM分类器
对于d维样本集，每个样本视作d维空间中的一个点
就二分类问题而言：
- 若样本线性可分，则一定可以找到一个超平面 $(W, b)$ 将d维样本空间分为两个部分，每类样本分别在超平面一边
- 若样本线性不可分，通过核方法映射到可以线性分开样本的高维，再使用线性分类器
对于线性可分数据来说，分割平面不唯一，为了得到唯一确定且最优的分割平面，引入间隔概念（衡量平面两端样本到平面的距离）
间隔增大意味着对于样本的容错能力增强，因此SVM方法的核心目标即为最大化间隔

如下图，黑色间隔平面与样本间间隔较大，蓝色平面与样本间隔较小，对于红色新样本点，黑色平面分类结果更合理：

在这里插入图片描述

形式描述(二分类)

有输入样本集 $X=[x_1,x_2,...,x_n]$ ，对应标签 $L=[y_1,y_2,...,y_n],y_i\in{\{+1,-1\}}$
在d维空间中有分割平面 $(w, b)$ ，其与输入样本的间隔为 $\tau$
优化目标为：
$\underset{W,b}{arg\ max}\ \tau$
确定分割超平面 $(w, b)$ 后，定义分类器为：
$\bar{y_i}=sign(wx_i+b)$

方法推导

硬间隔
- 根据硬间隔方法定义，优化目标为：
$\underset{w,b}{arg\ max}\ \tau\\ s.t.\ y_i(\frac{wx_i}{|w|}+\frac{b}{|w|})\geq\tau$
- 由函数间隔定义，目标可改为：
  $\underset{W,b}{arg\ max}\ \frac{\bar{\tau}}{|w|}\\ s.t.\ y_i(wx_i+b)\geq\bar{\tau}$
- 由于函数间隔不由点和平面唯一确定，指定距离平面最近的样本点到平面函数距离为1，即 $\bar\tau=1$ ，有：
  $\underset{W,b}{arg\ max}\ \frac{1}{|w|}\\ s.t.\ y_i(wx_i+b)-1\geq0$
- 该问题又可转化为：
  $\underset{w,b}{arg\ min}\ \frac12|w|^2\\ s.t.\ y_i(wx_i+b)-1\geq0$
- 构建广义拉格朗日函数：
  $L(x,\alpha,\beta)=\frac12|w|^2-\sum_{i=1}^n\alpha_iy_i(wx_i+b)+\sum_{i=1}^n\alpha_i$
  原问题等价于：
  $\underset{W,b}{min}\ \underset{\alpha}{max}L(w,b,\alpha)$
  原问题的对偶问题：
  $\underset{\alpha}{max}\ \underset{W,b}{min}L(w,b,\alpha)$
- $\underset{W,b}{min}L(W,b,\alpha)$ 求解：
  - 求偏导，令为0
    $L(x,\alpha,\beta)=\frac12|w|^2-\sum_{i=1}^n\alpha_iy_i(wx_i+b)+\sum_{i=1}^n\alpha_i$
    
    $\begin{cases} \nabla_wL(w,b,\alpha)=w-\sum_{i=1}^n\alpha_iy_ix_i=0\\ \nabla_bL(w,b,\alpha)=-\sum_{i=1}^n\alpha_iy_i=0 \end{cases}$
  - 得：
    $\begin{cases} w=\sum_{i=1}^n\alpha_iy_ix_i\\ \sum_{i=1}^n\alpha_iy_i=0 \end{cases}$
    带入L，有：
    $\begin{aligned} L(x,\alpha,\beta)&=\frac12\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_j(x_ix_j)-\sum_{i=1}^n\sum_{j=1}^n\alpha_iy_i((\sum_{i=1}^n\alpha_iy_ix_i)x_i+b)+\sum_{i=1}^n\alpha_i\\ &=-\frac12\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_j(x_ix_j)+\sum_{i=1}^n\alpha_i \end{aligned}$
- 求 $\underset{W,b}{max}\ \theta_D$ ：
  $\underset{\alpha}{max}\ \underset{w,b}{min}L(W,b,\alpha)$
  
  $\begin{aligned} \underset{\alpha}{max}(-\frac12\sum_{i=1}^n\sum_{j=1}^n&\alpha_i\alpha_jy_iy_j(x_ix_j)+\sum_{i=1}^n\alpha_i)\\ s.t.&\sum_{i=1}^n\alpha_iy_i=0\\ &\alpha_i\geq0 \end{aligned}$
  
  转化为
  $\begin{aligned} \underset{\alpha}{min}(\frac12\sum_{i=1}^n\sum_{j=1}^n&\alpha_i\alpha_jy_iy_j(x_ix_j)-\sum_{i=1}^n\alpha_i)\\ s.t.&\sum_{i=1}^n\alpha_iy_i=0\\ &\alpha_i\geq0 \end{aligned}$
  上述问题也是原始问题的对偶问题
- 结合对偶问题相关定理，目标函数与约束函数为凸函数，约束严格可行，故存在 $\alpha^*,w^*,b^*$ 使 $\alpha^*$ 是原问题的解， $w^*,b^*$ 是对偶问题的解
- 因此，有线性可分数据集，已知对偶问题解 $\alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_n^*)$ ，即可求得原始问题解 $w^*,b^*$ ：
  
  由KKT条件：
  $\begin{cases} \nabla_wL(w,b,\alpha)=w-\sum_{i=1}^n\alpha_iy_ix_i=0\\ \nabla_bL(w,b,\alpha)=-\sum_{i=1}^n\alpha_iy_i=0\\ \alpha_i^*(y_i(w^*x_i+b^*)-1)=0\\ y_i(w^*x_i+b^*)-1\geq0\\ \alpha_i^*\geq0 \end{cases}$
  得：
  $\begin{cases} w^*=\sum_{i=1}^n\alpha_i^*y_ix_i\\ b_j^*=y_j-\sum_{i=1}^n\alpha_i^*y_ix_ix_j \ \ \ \ \ \ (j满足\alpha_j>0) \end{cases}$
- 对偶问题求解 $\alpha^*$ 通过SMO方法完成
软间隔

为了处理线性不可分情况，修改约束条件，对样本点 $x_i$ 引入松弛变量 $\zeta_i$ ，有：
$\ y_i(wx_i+b)\geq1-\zeta_i$
优化目标为：
$\underset{w,b,\zeta}{min} \frac12|w|^2+C\sum_{i=1}^n\zeta_i\\ s.t.\ \ \ y_i(wx_i+b)\geq1-\zeta_i\ \ \ (i=1,2,...n)\\ \zeta_i\geq0$
广义拉格朗日函数：
$L(w,b,\zeta,\alpha,u)=\frac12|w|^2+C\sum_{i=1}^n\zeta_i-\sum_{i=1}^n\alpha_i(y_i(wx_i+b)-1+\zeta_i)-\sum_{i=1}^nu_i\zeta_i$
目标问题是极小极大问题：
$\underset{W,b,\zeta}{min}\ \underset{\alpha,u}{max}L(w,b,\zeta,\alpha,u)$
对偶问题为极大极小问题：
$\underset{\alpha,u}{max}\ \underset{w,b,\zeta}{min}\ L(w,b,\zeta,\alpha,u)$
- 先求极小 $\underset{w,b,\zeta}{min}\ L(w,b,\zeta,\alpha,u)$ ：
  - 令偏导为0
    $\begin{cases} \nabla_wL(w,b,\zeta,\alpha,u) = w-\sum_{i=1}^n\alpha_iy_ix_i=0\\ \nabla_bL(w,b,\zeta,\alpha,u) = -\sum_{i=1}^n\alpha_iy_i=0\\ \nabla_{\zeta_i}L(w,b,\zeta,\alpha,u)=C-\alpha_i-u_i=0 \end{cases}$
  - 得：
    $\begin{cases} w=\sum_{i=1}^n\alpha_iy_ix_i \\ \sum_{i=1}^n\alpha_iy_i=0\\ C-\alpha_i-u_i=0 \end{cases}$
  - 带回L得：
    $L(w,b,\zeta,\alpha,u)=-\frac12\sum_{i=1}^n\sum_{j=1}^n \alpha_i\alpha_jy_iy_jx_ix_j+\sum_{i=1}^n\alpha_i$
    有约束：
    $\sum_{i=1}^n\alpha_iy_i=0\\ 0\leq\alpha_i\leq{C}$
- 再对极小求极大，问题为：
  $\underset{\alpha}{max}\ (-\frac12\sum_{i=1}^n\sum_{j=1}^n \alpha_i\alpha_jy_iy_jx_ix_j+\sum_{i=1}^n\alpha_i)\\ s.t.\ \ \ \ \ \ \sum_{i=1}^n\alpha_iy_i=0\\ \ \ \ \ \ \ \ \ \ \ \ \ \ 0\leq\alpha_i\leq{C}$
  该问题是原问题的对偶问题
- 目标函数与约束函数为凸函数，约束严格可行，故存在 $\alpha^*,w^*,b^*$ 使 $\alpha^*$ 是原问题的解， $w^*,b^*$ 是对偶问题的解
  
  由KKT条件：
  $\begin{cases} \nabla_wL(w,b,\zeta,\alpha,u) = w-\sum_{i=1}^n\alpha_iy_ix_i=0\\ \nabla_bL(w,b,\zeta,\alpha,u) = -\sum_{i=1}^n\alpha_iy_i=0\\ \nabla_{\zeta_i}L(w,b,\zeta,\alpha,u)=C-\alpha_i-u_i=0\\ \alpha_i^*(y_i(w^*x_i+b^*)-1+\zeta_i)=0\\ u_i\zeta_i=0\\ \ y_i(wx_i+b)-1+\zeta_i\geq0\\ \zeta_i\geq0, \ \alpha_i\geq0,\ u_i\geq0\\ \end{cases}$
  在对偶问题解 $\alpha^*$ 确定情况下，有：
  $\begin{aligned} &w^*=\sum_{i=1}^n\alpha_iy_ix_i\\ &b_j^*=y_j-\sum_{i=1}^ny_i\alpha_i^*(x_ix_j)\ \ (0<\alpha_j<C, u_j\neq0,\zeta_j=0) \end{aligned}$
- 对偶问题求解 $\alpha^*$ 通过SMO方法完成
SMO方法
- 求解目标：
  - $\alpha^*=(\alpha_1^*,...,a_n^*)$
  $\underset{\alpha}{min}\ (\frac12\sum_{i=1}^n\sum_{j=1}^n \alpha_i\alpha_jy_iy_jK(x_ix_j)-\sum_{i=1}^n\alpha_i)\\ s.t.\ \ \ \ \ \ \sum_{i=1}^n\alpha_iy_i=0\\ \ \ \ \ \ \ \ \ \ \ \ \ \ 0\leq\alpha_i\leq{C}$
- 基本思路：
  - 若 $\alpha^*$ 中所有变量解都满足KKT条件，则 $\alpha^*$ 满足KKT条件
  - SMO算法将原问题不断分为子问题并对其求解
  - 每个子问题更新时指定两个变量，一个是违反KKT条件最严重的变量 $\alpha_1$ ，另一个由 $\alpha_2=-y_1\sum_{i\neq2}\alpha_iy_i$ 确定
- 变量更新：
  - 选取一对变量 $\alpha_1,\alpha_2$
  - 优化目标：
    $\underset{\alpha_1,\alpha_2}{min}\ \ W(\alpha_1,\alpha_2)=\frac12K_{11}\alpha_1^2+\frac12K_{22}\alpha_2^2+y_1y_2K_{12}\alpha_1\alpha_{2}-(\alpha_1+\alpha_2)+y_1\alpha_1\sum_{i=3}^ny_i\alpha_iK_{i1}+y_2\alpha_2\sum_{i=3}^ny_i\alpha_iK_{i2}\\ s.t.\ \ \alpha_1y_1+\alpha_2y_2=-\sum_{i=3}^ny_i\alpha_i=\zeta\\ 0\leq\alpha_i\leq{C}$
  - $\alpha_1,\alpha_2$ 之间的约束关系可表示为：
    
    两个变量存在限制，因此两变量优化问题实际上是单变量优化问题，假设对 $\alpha_2$ 进行优化，上一轮解为 $\alpha_1^{old},\alpha_2^{old}$ ，假设沿着约束方向未根据约束剪切的解是 $\alpha_2^{new,unc}$ ，本轮结果 $\alpha_1^{new},\alpha_2^{new}$
    
    假设L,H分别为 $\alpha_2^{new}$ 所在线段的边界，有 $L<\alpha_2^{new}<H$
    
    若是左图中的情况( $y_1,y_2$ 不一致)，
    $L=max(0,\alpha_2^{old}-\alpha_1^{old}),\ H=min(C,C+\alpha_2^{old}-\alpha_1^{old})$
    若是右图中的情况( $y_1,y_2$ 一致)，
    $L=max(0,\alpha_2^{old}+\alpha_1^{old}-C),\ H=min(C,\alpha_2^{old}+\alpha_1^{old})$
    有：
    $\alpha_2^{new}=\begin{cases} H \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \alpha_2^{new,unc}>H\\ \alpha_2^{new,unc}\ \ \ \ \ \ \ L<\alpha_2^{new,unc}<H\\ L \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \alpha_2^{new,unc}<L \end{cases}$
  - $\alpha_2^{new,unc}$ 求解
    - 定义：
    $\begin{aligned} &g(x)=\sum_{j=1}^m\alpha_j^*y_jK(x_j,x_i)+b\\ &E_i(x)=g(x_i)-y_i\\ &v_i=\sum_{i=3}^ny_j\alpha_jK(x_i,x_j)=g(x_i)-\sum_{i=1}^2\alpha_j^*y_jK(x_j,x_i)-b \end{aligned}$
    - 目标函数简化为：
      $W(\alpha_1,\alpha_2)=\frac12K_{11}\alpha_1^2+\frac12K_{22}\alpha_2^2+y_1y_2K_{12}\alpha_1\alpha_2-(\alpha_1+\alpha_2)+y_1\alpha_1v_1+y_2\alpha_2v_2$
    - 由：
      $\alpha_1y_1+\alpha_2y_2=\zeta\\ y_i^2=1$
      有：
      $\alpha_1=y_1(\zeta-\alpha_2y_2)$
    - 再带入目标，消除 $\alpha_1$ ：
      $W(\alpha_2)=\frac12K_{11}(y_1(\zeta-\alpha_2y_2))^2+\frac12K_{22}\alpha_2^2+y_2K_{12}\alpha_2(\zeta-\alpha_2y_2)-y_1(\zeta-\alpha_2y_2)-\alpha_2+(\zeta-\alpha_2y_2)v_1+y_2\alpha_2v_2$
      对 $\alpha_2$ 求导，令为0：
      $\frac{\partial{W}}{\partial\alpha_2}=K_{11}\alpha_2+K_{22}\alpha_2-2K_{12}\alpha_2-K_{11}\zeta{y_2}+K_{12}\zeta{y_2+y_1y_2}-1-v_1y_2+v_2y_2=0$
      再带入 $\alpha_1y_1+\alpha_2y_2=\zeta$ ，求解得：
      $\alpha_2^{new,unc}=\alpha_2^{old}+\frac{y2(E_1-E_2)}{K_{11}+K_{22}-2K_{12}}$
  - 阈值与差值更新：
    - 完成两个变量的优化之后，需要重新计算阈值b
    - 当 $0<\alpha_1^{new}<C$ 有： $y_1-\sum_{i=1}^n\alpha_iy_iK_{i1}-b_1=0$
    - 新的 $b_1^{new}$ 与 $E_1$
      $b_1^{new}=y_1-\sum_{i=3}^n\alpha_iy_iK_{i1}-\alpha_1^{new}y_1K_{11}-\alpha_2^{new}y_2K_{21}$
      
      $E_1=g(x_1)-y_1=\alpha_1^{old}y_1K_{11}+\alpha_2^{old}y_2K_{21}+\sum_{i=3}^n\alpha_iy_iK_{i1}+b^{old}-y_1$
      
      $b_1^{new}=-E_1-y_1K_{11}(\alpha_1^{new}-\alpha_2^{old})-y_2K_{21}(\alpha_2^{new}-\alpha_2^{old})+b^{old}$
    - 同样， $0<\alpha_2^{new}<C$ 时有 $b_2^{new}$
      $b_2^{new}=-E_2-y_1K_{12}(\alpha_1^{new}-\alpha_1^{old})-y_2K_{22}(\alpha_2^{new}-\alpha_2^{old})+b^{old}$
    - $b^{new}=\frac{b_1^{new}+b_2^{new}}{2}$
    - 更新 $E_i$
      $E_i=\sum_{支持向量}y_j\alpha_jK(x_i,x_j)+b^{new}-y_i$
- 变量选择：
  - 第一个变量:
    
    检测样本 $x_i,y_i)$ 是否满足KKT条件：
    $\begin{cases} \begin{aligned} \alpha_i=0 \ &<=> \ y_i(\sum_{j=1}^n\alpha_jy_jK(x_jx_i)+b)\geq1\ \ \ \ \ \ \ (间隔外)\\ 0<\alpha_i<C\ &<=>\ y_i(\sum_{j=1}^n\alpha_jy_jK(x_jx_i)+b)=1\ \ \ \ \ \ \ (间隔边界上的支持向量)\\ \alpha_i=C\ &<=>\ y_i(\sum_{j=1}^n\alpha_jy_jK(x_jx_i)+b)\leq1\ \ \ \ \ \ \ (间隔内) \end{aligned} \end{cases}$
    优先选间隔超平面上的点（支持向量），若这些点都满足KKT条件，再选其他违反KKT条件的点
  - 第二个变量：
    
    假设我们在外层循环已经找到了 $\alpha_1$ , 第二个变量 $\alpha_2$ 的选择标准是让 $E_1-E_2|$ 尽可能大，即当 $E_1$ 正时选最小的 $E_i$ ，否则选最大 $E_i$
- SMO流程：
  - 取初值 $\alpha^0=0,k=0$
  - 选取 $\alpha_1^k,\alpha_2^k$
  - 计算 $\alpha_2^{k+1},\alpha_1^{k+1}$
  - 计算 $b^{k+1}$ 与 $E_i$
  - 若对所有 $\alpha_i$ 均满足KKT条件，结束，否则回到第二步
多分类：
- SVM方法是基于几何的方法，只能通过多个分割平面组合来解决多分类问题，有OVO,OVA两种方案
- OVO（One Vs One）
  - 对于每两类之间，都求一个分割超平面（求K(K-1)/2个平面*）
  - 在判断样本分类情况时，对所有的分割平面都进行一次判断，投票决定分类（进行K(K-1)/2次判断*）
- OVA（One Vs All）
  - 对每一类样本，都视作本类与非本类的二分类问题，求一个分割平面（整个样本集求K个平面）
  - 判断样本分类时，对所有的分割平面都进行一次判断，投票决定分类（进行K次判断）
- 二者相比，OVO方法无法判断的区域比OVA方法小，更加准确，但计算量更大

方法流程

输入数据集 $X=[x_1,x_2,...,x_n]$ ，标签 $L=[y_1,y_2,...,y_n]$
选择惩罚系数C，构造约束优化问题：
$\underset{\alpha}{min}\ (\frac12\sum_{i=1}^n\sum_{j=1}^n \alpha_i\alpha_jy_iy_jx_ix_j+\sum_{i=1}^n\alpha_i)\\ s.t.\ \ \ \ \ \ \sum_{i=1}^n\alpha_iy_i=0\\ \ \ \ \ \ \ \ \ \ \ \ \ \ 0\leq\alpha_i\leq{C}$
SMO算法求出目标最小时 $\alpha^*$
计算 $w^*=\sum_{i=1}^n\alpha_iy_ix_i$
找出支撑向量对应 $x_j,y_j)$ ，计算对应 $b_j^*=y_j-\sum_{i=1}^ny_i\alpha_i^*(x_ix_j)\ \ (0<\alpha_j<C, u_j\neq0,\zeta_j=0)$

$b^*=\frac1S\sum_{j}b^*_j$
分割超平面为：
$w^*x+b^*=0$
分类器：
$f(x)=sign(w^*x+b^*)$

参考资料

【1】《统计学习方法》李航

【2】支持向量机原理(四)SMO算法原理

机器学习基础---分类方法---支持向量机（SVM）

支持向量机SVM（分类器）

方法描述

核心思想：

形式描述(二分类)

相关概念

方法推导

方法流程

参考资料