跳转至

SVM 对偶问题:推导脉络、要背的 min 版、硬/软/核三类的区别

  • 章节:第7章 · SVM(对偶问题 / 解答题核心 · LSQ"数学模型背也得背下来"⭐)

疑问

对偶问题怎么从 max_α min_{w,b} L 推出来?最终要背哪个形式(max 还是 min)?硬间隔 / 软间隔 / 核函数三类对偶差在哪?

我悟到的

推导脉络(max-min 是过程,min 是结论)

  1. 中间形式是极大极小:\(\displaystyle\max_{\alpha}\min_{w,b}L(w,b,\alpha)\)
  2. 先求内层 \(\min_{w,b}\):对 \(w,b\) 求偏导令零\(w=\sum_i\alpha_i y_i x_i\)(式 7.19)、\(\sum_i\alpha_i y_i=0\)(式 7.20)。
  3. 代回消掉 \(w,b\)\(b\) 那项因 \(\sum_i\alpha_i y_i=0\) 而归零),剩下只含 \(\alpha\)\(\displaystyle\max_{\alpha}\big[-\tfrac12\sum_i\sum_j\alpha_i\alpha_j y_iy_j(x_i\cdot x_j)+\sum_i\alpha_i\big]\)(式 7.21)。
  4. 取负号转成 min(更好记、更标准)→ 课本定稿式 7.22。

要背的标准式(硬间隔,min 版,式 7.22–7.24)

\[\min_{\alpha}\ \tfrac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_j y_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i\]
\[\text{s.t.}\quad \sum_{i=1}^N\alpha_i y_i=0,\qquad \alpha_i\ge0,\ i=1,\dots,N\]

两个约束:一个等式 \(\sum_i\alpha_i y_i=0\),一个不等式 \(\alpha_i\ge0\)

三类对偶只差一点点(目标函数同款)

  • 硬间隔(线性可分):\(\alpha_i\ge0\)
  • 软间隔(线性、近似可分):目标函数完全一样,只把约束改成 \(0\le\alpha_i\le C\)(多了上界 \(C\))。
  • 核函数版(非线性):把内积 \(x_i\cdot x_j\) 换成核 \(K(x_i,x_j)\),其余不变。

易错点

  • 背 min 版(式 7.22)。max_α min_{w,b} L 是推导过程,max 形式(式 7.21)是中间产物;课本/PPT/作业定稿全用 min。
  • max→min 是取负号(等价),不是两个不同模型,别记成两套。
  • 两个约束别漏:等式 \(\sum\alpha_i y_i=0\) + 不等式(\(\alpha_i\ge0\)\(0\le\alpha_i\le C\))。
  • \(b\) 消失是因 \(\nabla_b L=0\Rightarrow\sum\alpha_i y_i=0\),代回使 \(b\) 项归零,不是"求导后没 \(b\)"。
  • 软间隔与硬间隔只差 α 的上界 \(C\),目标函数不变;核版只换内积为 \(K\)

出处

课本 p.101 式 7.18(拉格朗日函数 \(L\))+ 极大极小 \(\max_\alpha\min_{w,b}L\);p.102 偏导式 7.19/7.20、max 式 7.21 →"转求极小"→ min 式 7.22–7.24;软间隔对偶 \(0\le\alpha_i\le C\)(p.108 区间约束);核版 \(K(x_i,x_j)\) 见算法 7.4 式 7.95。PPT:slide_018–020 硬间隔对偶(含 max min L ≤ ½‖w‖²)、slide_023 软间隔、slide_025/026 核。相关:[[硬间隔SVM-为什么令函数间隔等于1]]、[[对偶问题与KKT]]、[[非线性SVM-异或核矩阵计算]]。