暂退法 dropout(课本完整版 + 预测缩放为什么这么做)¶
- 章节:第23章 · 前馈神经网络(23.3.3 正则化)
- 出处:课本 23.3.3 节 p.408–410(式 23.69–23.75)。老师 PPT slide_014 也讲,但只讲定性(见末尾「PPT vs 课本」)。
- 相关:暂退法vs早停法-名词辨析
- ⭐ 考试信号:课本 p.408 本节标题上方有手绘五角星、首句画波浪线,大概率考。正式术语「暂退法」(p.406 OCR 的"智退法"是错字)。
一、是什么(课本定义)¶
暂退法在训练的每一步随机选一些神经元让它们退出(不参与训练),学习结束后对权重做调整,再把整体网络用于预测。课本定性(给分点):经验性方法、现实中有效、但目前没有严格理论证明;可视为应用于深度学习的一种 Bagging 方法。
二、训练时怎么做¶
- 作用范围:输入层 + 每个隐层,不含输出层。每层一个保留概率 \(p\)(各层可不同)。
- ⚠️ \(p\) 是「保留概率」不是丢弃概率(最易记反):每个神经元以 \(p\) 保留、\(1-p\) 退出;\(p=1\) 不退出。
- 课本经验值:输入层 \(p=0.8\),隐层 \(p=0.5\)(填空可能直接考)。
- 子网络:每步保留的神经元构成一个退化子网络,用 SGD 只更新该子网络权重。某层 \(m\) 个神经元 → \(2^m\) 种排列,子网络数指数级。
数学表示(式 23.69–23.70,掩码 \(\boldsymbol d\in\{0,1\}^m\),1=保留 0=退出):
正向用 \(\tilde{\boldsymbol h}\)、反向用 \(\tilde{\boldsymbol\delta}\);每步的 \(\boldsymbol d\) 重新随机,各步不同。
三、预测时怎么做(重点,含「为什么缩放」)¶
核心矛盾:训练时每个神经元只以概率 \(p\) 出场,预测时全员出场。 设某神经元输出 \(h\):训练时下游收到的期望是 \(p\cdot h\);预测时不丢、100% 出场、传完整 \(h\),下游一下大了 \(\tfrac1p\) 倍 → 分布对不上 → 预测乱。 两种修法本质都是把训练与预测的期望拉齐:
方法一·预测时 \(\times p\)(式 23.71)
预测时全员参与做一次正常前向,但把输出(或每个输出权重 \(w\to p\cdot w\))乘以 \(p\),把「全员的 \(h\)」压回训练时「期望的 \(p\cdot h\)」。课本直观解释:训练时神经元以 \(p\) 参与,故用期待值 \(p\cdot w\) 作真实权重;偏置保持不变。
方法二·逆暂退法 inverted dropout(式 23.72),训练时 \(\times\tfrac1p\)
训练时就把保留下来的输出放大 \(\tfrac1p\) 倍,训练期望已被拉到 \(h\);预测时啥都不用改,正常前向即可。
一句话:方法一在预测端补偿,方法二在训练端预先补偿,目标都是「训练时下游期望 = 预测时下游收到的值」。二选一,别两边都缩。现代框架默认用方法二(逆暂退法),因为预测代码不用动。
四、为什么等价于 Bagging(了解即可,不用手推)¶
✅ 给分点(背这一句):dropout 本质是一种 Bagging(集成)方法——训练时随机关神经元,等于训练 \(2^m\) 个共享参数的子网络;预测时的权重缩放(\(\times p\))近似实现这些子网络的集成,从而缓解过拟合。
🔵 下面的几何平均推导(式 23.73–23.75、\(\tfrac12\) 的来历)了解即可、不用手推——课本也只说「可以证明在特殊情况下」,是特例佐证。
课本用二层分类网络证明:\(2^m\) 个掩码 → \(2^m\) 个子模型,共享整体网络参数;对所有子模型输出概率取几何平均作集成输出,恰好化简成用 \(\tfrac12\boldsymbol w_k^\top\boldsymbol h\) 的 softmax(式 23.74–23.75),集成模型精确等价于权重调整后的暂退法模型。 相比一般 Bagging 的三点改动:① 不显式定义子模型、共享参数;② 每步用一个随机样本训练一个子模型;③ 预测用参数调整后的整体网络近似集成(几何平均)。
易错点速记(按课本)¶
- 退出作用于输入层 + 隐层,不含输出层;\(p\) 是保留概率(输入 0.8 / 隐层 0.5)。
- 训练随机丢、预测不丢;预测 \(\times p\)(23.71)或训练时 \(\times\tfrac1p\)(逆暂退 23.72),二选一。
- 课本把 dropout 归为正则化手段、本质 Bagging/集成、经验性、无严格理论证明。
简答模板¶
暂退法是一种正则化方法,训练时每步以保留概率 \(p\) 随机让神经元退出(输入层 \(p=0.8\)、隐层 \(p=0.5\),不含输出层),构成指数级的共享参数子网络,迫使网络不依赖个别神经元;预测时不丢弃,改用 \(p\cdot\boldsymbol h\) 缩放(或训练时用逆暂退法 \(\tfrac1p\boldsymbol d\odot\boldsymbol h\))。本质可视为深度学习中的 Bagging(集成),能有效缓解过拟合,属经验性方法、尚无严格理论证明。
PPT vs 课本(深度差异,决定考多深)¶
老师 PPT(slide_014)讲暂退法只有定性三句:经验性方法 / 训练每步随机让神经元退出、学习后调权重、整体网络预测 / 保留神经元构成退化子网络、SGD 更新。 PPT 完全没提:\(p\)、0.8/0.5、式 23.69–23.72、逆暂退法、\(p\cdot h\) 缩放、Bagging 证明——这些全是课本独有深度。 → 按课本评分稳拿;若老师按 PPT 深度出题,暂退法可能只考那三句定性。两手准备。