暂退法(dropout) vs 早停法(early stopping):别记混¶
- 章节:第23章 · 前馈神经网络(23.3 正则化)
- 性质:名词记混,不难。我曾把「暂退法」误记成「学到一定程度自动停止」——那其实是早停法。
- 出处:课本 23.3.2 早停法 p.406、23.3.3 暂退法 p.408。
一句话辨析¶
- 暂退法 = dropout = 随机失活 / 随机丢弃(三个名字一个东西,课本官方译名「暂退法」):训练每一步随机让一些神经元退出,与「何时停」无关。
- 早停法 = early stopping:用验证集判断何时终止训练。这才是「学到某程度就停」。
- 我记反的点:把 dropout 当成了 early stopping。
课本原文¶
- 早停法(p406):「在学习中使用验证集进行评估,判断训练的终止点,进行模型选择,是隐式的正则化方法。」
- 暂退法(p408):「在训练过程中的每一步随机选取一些神经元,让它们不参与(退出)训练,学习结束后对权重进行调整,然后将整体网络用于预测。」
对照¶
| 暂退法 dropout | 早停法 early stopping | |
|---|---|---|
| 做什么 | 训练每步随机让神经元退出 | 用验证集判断何时停止训练 |
| 关键词 | 随机丢神经元、子网络、Bagging | 终止时机、验证集、模型选择 |
| 课本节 | 23.3.3(p408) | 23.3.2(p406) |
关系¶
二者唯一共同点:都是课本 23.3 节并列的正则化(防过拟合)方法(与 L1/L2、权重衰减并列)。做法完全不同。
补充:早停法的 PPT 细节(老师 PPT slide_014,课本定义里没有)¶
- 数据划分:训练集 / 验证集 / 测试集 ≈ 1/2, 1/4, 1/4(PPT 给的比例,值得记,可能填空)。
- 训练中持续训练,训练误差不断减小趋近 0,而验证误差在某点达到最小后回升;选验证误差最小的点为训练终止点,输出此时的模型(图 23.28)。
- 注:PPT 对早停法讲得比暂退法还细(带误差曲线图),暂退法详细版见 暂退法dropout-课本完整版。