SVM 对偶问题:推导脉络、要背的 min 版、硬/软/核三类的区别¶
- 章节:第7章 · SVM(对偶问题 / 解答题核心 · LSQ"数学模型背也得背下来"⭐)
疑问¶
对偶问题怎么从 max_α min_{w,b} L 推出来?最终要背哪个形式(max 还是 min)?硬间隔 / 软间隔 / 核函数三类对偶差在哪?
我悟到的¶
推导脉络(max-min 是过程,min 是结论)¶
- 中间形式是极大极小:\(\displaystyle\max_{\alpha}\min_{w,b}L(w,b,\alpha)\)。
- 先求内层 \(\min_{w,b}\):对 \(w,b\) 求偏导令零 → \(w=\sum_i\alpha_i y_i x_i\)(式 7.19)、\(\sum_i\alpha_i y_i=0\)(式 7.20)。
- 代回消掉 \(w,b\)(\(b\) 那项因 \(\sum_i\alpha_i y_i=0\) 而归零),剩下只含 \(\alpha\) 的 \(\displaystyle\max_{\alpha}\big[-\tfrac12\sum_i\sum_j\alpha_i\alpha_j y_iy_j(x_i\cdot x_j)+\sum_i\alpha_i\big]\)(式 7.21)。
- 取负号转成 min(更好记、更标准)→ 课本定稿式 7.22。
要背的标准式(硬间隔,min 版,式 7.22–7.24)¶
\[\min_{\alpha}\ \tfrac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_j y_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i\]
\[\text{s.t.}\quad \sum_{i=1}^N\alpha_i y_i=0,\qquad \alpha_i\ge0,\ i=1,\dots,N\]
两个约束:一个等式 \(\sum_i\alpha_i y_i=0\),一个不等式 \(\alpha_i\ge0\)。
三类对偶只差一点点(目标函数同款)¶
- 硬间隔(线性可分):\(\alpha_i\ge0\)。
- 软间隔(线性、近似可分):目标函数完全一样,只把约束改成 \(0\le\alpha_i\le C\)(多了上界 \(C\))。
- 核函数版(非线性):把内积 \(x_i\cdot x_j\) 换成核 \(K(x_i,x_j)\),其余不变。
易错点¶
- 背 min 版(式 7.22)。
max_α min_{w,b} L是推导过程,max形式(式 7.21)是中间产物;课本/PPT/作业定稿全用 min。 - max→min 是取负号(等价),不是两个不同模型,别记成两套。
- 两个约束别漏:等式 \(\sum\alpha_i y_i=0\) + 不等式(\(\alpha_i\ge0\) 或 \(0\le\alpha_i\le C\))。
- \(b\) 消失是因 \(\nabla_b L=0\Rightarrow\sum\alpha_i y_i=0\),代回使 \(b\) 项归零,不是"求导后没 \(b\)"。
- 软间隔与硬间隔只差 α 的上界 \(C\),目标函数不变;核版只换内积为 \(K\)。
出处¶
课本 p.101 式 7.18(拉格朗日函数 \(L\))+ 极大极小 \(\max_\alpha\min_{w,b}L\);p.102 偏导式 7.19/7.20、max 式 7.21 →"转求极小"→ min 式 7.22–7.24;软间隔对偶 \(0\le\alpha_i\le C\)(p.108 区间约束);核版 \(K(x_i,x_j)\) 见算法 7.4 式 7.95。PPT:slide_018–020 硬间隔对偶(含 max min L ≤ ½‖w‖²)、slide_023 软间隔、slide_025/026 核。相关:[[硬间隔SVM-为什么令函数间隔等于1]]、[[对偶问题与KKT]]、[[非线性SVM-异或核矩阵计算]]。