跳转至

暂退法(dropout) vs 早停法(early stopping):别记混

  • 章节:第23章 · 前馈神经网络(23.3 正则化)
  • 性质:名词记混,不难。我曾把「暂退法」误记成「学到一定程度自动停止」——那其实是早停法
  • 出处:课本 23.3.2 早停法 p.406、23.3.3 暂退法 p.408。

一句话辨析

  • 暂退法 = dropout = 随机失活 / 随机丢弃(三个名字一个东西,课本官方译名「暂退法」):训练每一步随机让一些神经元退出,与「何时停」无关。
  • 早停法 = early stopping:用验证集判断何时终止训练。这才是「学到某程度就停」。
  • 我记反的点:把 dropout 当成了 early stopping。

课本原文

  • 早停法(p406):「在学习中使用验证集进行评估,判断训练的终止点,进行模型选择,是隐式的正则化方法。」
  • 暂退法(p408):「在训练过程中的每一步随机选取一些神经元,让它们不参与(退出)训练,学习结束后对权重进行调整,然后将整体网络用于预测。」

对照

暂退法 dropout 早停法 early stopping
做什么 训练每步随机让神经元退出 用验证集判断何时停止训练
关键词 随机丢神经元、子网络、Bagging 终止时机、验证集、模型选择
课本节 23.3.3(p408) 23.3.2(p406)

关系

二者唯一共同点:都是课本 23.3 节并列的正则化(防过拟合)方法(与 L1/L2、权重衰减并列)。做法完全不同。

补充:早停法的 PPT 细节(老师 PPT slide_014,课本定义里没有)

  • 数据划分:训练集 / 验证集 / 测试集 ≈ 1/2, 1/4, 1/4(PPT 给的比例,值得记,可能填空)。
  • 训练中持续训练,训练误差不断减小趋近 0,而验证误差在某点达到最小后回升;选验证误差最小的点为训练终止点,输出此时的模型(图 23.28)。
  • 注:PPT 对早停法讲得比暂退法还细(带误差曲线图),暂退法详细版见 暂退法dropout-课本完整版