暂退法 dropout（课本完整版 + 预测缩放为什么这么做）¶

章节：第23章 · 前馈神经网络（23.3.3 正则化）
出处：课本 23.3.3 节 p.408–410（式 23.69–23.75）。老师 PPT slide_014 也讲，但只讲定性（见末尾「PPT vs 课本」）。
相关：暂退法vs早停法-名词辨析
⭐ 考试信号：课本 p.408 本节标题上方有手绘五角星、首句画波浪线，大概率考。正式术语「暂退法」（p.406 OCR 的"智退法"是错字）。

一、是什么（课本定义）¶

暂退法在训练的每一步随机选一些神经元让它们退出（不参与训练），学习结束后对权重做调整，再把整体网络用于预测。课本定性（给分点）：经验性方法、现实中有效、但目前没有严格理论证明；可视为应用于深度学习的一种 Bagging 方法。

二、训练时怎么做¶

作用范围：输入层 + 每个隐层，不含输出层。每层一个保留概率 \(p\)（各层可不同）。
⚠️ \(p\) 是「保留概率」不是丢弃概率（最易记反）：每个神经元以 \(p\) 保留、\(1-p\) 退出；\(p=1\) 不退出。
课本经验值：输入层 \(p=0.8\)，隐层 \(p=0.5\)（填空可能直接考）。
子网络：每步保留的神经元构成一个退化子网络，用 SGD 只更新该子网络权重。某层 \(m\) 个神经元 → \(2^m\) 种排列，子网络数指数级。

数学表示（式 23.69–23.70，掩码 \(\boldsymbol d\in\{0,1\}^m\)，1=保留 0=退出）：

\[ \tilde{\boldsymbol h}=\boldsymbol d\odot\boldsymbol h\ (23.69)\qquad \tilde{\boldsymbol\delta}=\boldsymbol d\odot\boldsymbol\delta\ (23.70) \]

正向用 \(\tilde{\boldsymbol h}\)、反向用 \(\tilde{\boldsymbol\delta}\)；每步的 \(\boldsymbol d\) 重新随机，各步不同。

三、预测时怎么做（重点，含「为什么缩放」）¶

核心矛盾：训练时每个神经元只以概率 \(p\) 出场，预测时全员出场。设某神经元输出 \(h\)：训练时下游收到的期望是 \(p\cdot h\)；预测时不丢、100% 出场、传完整 \(h\)，下游一下大了 \(\tfrac1p\) 倍 → 分布对不上 → 预测乱。两种修法本质都是把训练与预测的期望拉齐：

方法一·预测时 \(\times p\)（式 23.71）

\[ \tilde{\boldsymbol h}=p\cdot\boldsymbol h\quad(23.71) \]

预测时全员参与做一次正常前向，但把输出（或每个输出权重 \(w\to p\cdot w\)）乘以 \(p\)，把「全员的 \(h\)」压回训练时「期望的 \(p\cdot h\)」。课本直观解释：训练时神经元以 \(p\) 参与，故用期待值 \(p\cdot w\) 作真实权重；偏置保持不变。

方法二·逆暂退法 inverted dropout（式 23.72），训练时 \(\times\tfrac1p\)

\[ \tilde{\boldsymbol h}=\frac1p\,\boldsymbol d\odot\boldsymbol h\quad(23.72) \]

训练时就把保留下来的输出放大 \(\tfrac1p\) 倍，训练期望已被拉到 \(h\)；预测时啥都不用改，正常前向即可。

一句话：方法一在预测端补偿，方法二在训练端预先补偿，目标都是「训练时下游期望 = 预测时下游收到的值」。二选一，别两边都缩。现代框架默认用方法二（逆暂退法），因为预测代码不用动。

四、为什么等价于 Bagging（了解即可，不用手推）¶

✅ 给分点（背这一句）：dropout 本质是一种 Bagging（集成）方法——训练时随机关神经元，等于训练 \(2^m\) 个共享参数的子网络；预测时的权重缩放（\(\times p\)）近似实现这些子网络的集成，从而缓解过拟合。

🔵 下面的几何平均推导（式 23.73–23.75、\(\tfrac12\) 的来历）了解即可、不用手推——课本也只说「可以证明在特殊情况下」，是特例佐证。

课本用二层分类网络证明：\(2^m\) 个掩码 → \(2^m\) 个子模型，共享整体网络参数；对所有子模型输出概率取几何平均作集成输出，恰好化简成用 \(\tfrac12\boldsymbol w_k^\top\boldsymbol h\) 的 softmax（式 23.74–23.75），集成模型精确等价于权重调整后的暂退法模型。相比一般 Bagging 的三点改动：① 不显式定义子模型、共享参数；② 每步用一个随机样本训练一个子模型；③ 预测用参数调整后的整体网络近似集成（几何平均）。

易错点速记（按课本）¶

退出作用于输入层 + 隐层，不含输出层；\(p\) 是保留概率（输入 0.8 / 隐层 0.5）。
训练随机丢、预测不丢；预测 \(\times p\)（23.71）或训练时 \(\times\tfrac1p\)（逆暂退 23.72），二选一。
课本把 dropout 归为正则化手段、本质 Bagging/集成、经验性、无严格理论证明。

简答模板¶

暂退法是一种正则化方法，训练时每步以保留概率 \(p\) 随机让神经元退出（输入层 \(p=0.8\)、隐层 \(p=0.5\)，不含输出层），构成指数级的共享参数子网络，迫使网络不依赖个别神经元；预测时不丢弃，改用 \(p\cdot\boldsymbol h\) 缩放（或训练时用逆暂退法 \(\tfrac1p\boldsymbol d\odot\boldsymbol h\)）。本质可视为深度学习中的 Bagging（集成），能有效缓解过拟合，属经验性方法、尚无严格理论证明。

PPT vs 课本（深度差异，决定考多深）¶

老师 PPT（slide_014）讲暂退法只有定性三句：经验性方法 / 训练每步随机让神经元退出、学习后调权重、整体网络预测 / 保留神经元构成退化子网络、SGD 更新。 PPT 完全没提：\(p\)、0.8/0.5、式 23.69–23.72、逆暂退法、\(p\cdot h\) 缩放、Bagging 证明——这些全是课本独有深度。 → 按课本评分稳拿；若老师按 PPT 深度出题，暂退法可能只考那三句定性。两手准备。