跳转至

反向传播:要点总结 + 自测清单

  • 章节:第23章 · 前馈神经网络(反向传播 / 解答题)
  • 用法:复习时盖住「解」一栏,看自己能否讲出来——能讲出来才算内化。
  • 相关详解接力棒与内积外积为什么权重梯度是外积 x·δᵀ(链式推导)
  • 约定:本课用 \(z=W^\top x+b\);权重梯度 \(x\,\delta^\top\)(注意课本式23.58 字面是 \(\delta h^\top\),记法差一个 W 转置,详见链式推导条目的「课本记法冲突」)。
  • 出处:课本 p.401–404(式23.57/23.58、\(z=W^\top x+b\)、梯度消失 p.402)。下列「三类角色/接力棒」等为助记框架,非课本术语。

一、要点总结(学到了什么)

前向传播 - 一层只有两个动作:线性变换 \(\boldsymbol z=\boldsymbol W^\top\boldsymbol x+\boldsymbol b\)\(+\boldsymbol b\) 必写)+ 逐元素激活。 - 整条流水线:\(\boldsymbol x\to\boldsymbol z_1\to\boldsymbol h_1\to\hat y\to L\)

反向传播的核心机制 - 链式法则是发动机;火种 \(\delta=\hat y-y\) 从最右出发,一站站往左传。 - 三类角色(助记):接力棒(\(\partial L/\partial\boldsymbol h\)\(\boldsymbol\delta\),层间传递,不更新)/采收物(\(\partial L/\partial\boldsymbol W\)\(\partial L/\partial\boldsymbol b\),每层就地算出,是更新目标)/临时量(\(\boldsymbol z\)\(\boldsymbol h\) 的数值,前向留、反向借用)。 - ReLU 在反向里是开关;通用式 \(\partial L/\partial\boldsymbol z=\partial L/\partial\boldsymbol h\odot a'(\boldsymbol z)\) 对任何逐元素激活都成立。

两套自检利器(考场救命) - 梯度的形状永远 = 对应参数的形状。 - 矩阵能不能乘、乘出什么形状,看「内维相等」。

一条必杀记法 - \(\big(\partial L/\partial\boldsymbol W\big)_{ij}=x_i\,\delta_j\) —— \(x\)\(i\)(管行)、\(\delta\)\(j\)(管列),外积顺序由此锁死。

顺带搞懂的考点 - sigmoid 导数 \(\le0.25\),连乘 → 梯度消失;ReLU 正区间导数为 1 → 缓解梯度消失。

二、自测清单(盖住右栏,先自己讲)

# 卡在哪
1 \(\boldsymbol W_2\) 本是列向量,公式里为什么转置成行? 为维度对上(内维相等),\((1\times2)(2\times1)\to\) 标量
2 导数 / 偏导 / 梯度分不清 导数=单变量敏感度;偏导=多变量只动一个;梯度=所有偏导打包
3 标量 \(\delta(4)\times\) 向量 \(\boldsymbol h_1(2\times1)\),结果怎么还是 \(2\times1\) 这是数乘不是矩阵乘法,数乘不改形状
4 梯度怎么穿过 ReLU?\(\boldsymbol z,\boldsymbol h,\mathrm{ReLU}',\partial L/\partial\boldsymbol h\) 关系乱 ReLU 是开关,状态由前向 \(\boldsymbol z\) 符号定;\(\partial L/\partial\boldsymbol z=\partial L/\partial\boldsymbol h\odot\mathrm{ReLU}'(\boldsymbol z)\)
5 换 sigmoid 公式还成立吗? 成立,通用式 \(\odot a'(\boldsymbol z)\);只是 \(a'\) 不同,sigmoid 会缩小梯度
6 \(\boldsymbol\delta\) 和各偏导的「地位」?层间传递还是层内临时?\(\boldsymbol\delta_1\) 跟最初的 \(\delta\) 啥关系? 三类角色;\(\boldsymbol\delta\) 是同一接力棒在不同站点,每层钉在该层的 \(\boldsymbol z\)
7 \(\partial L/\partial\boldsymbol W_1\) 为什么 \(\boldsymbol x\) 在左、\(\boldsymbol\delta\) 在右,不能交换? 要得 \(2\times2\) 只能外积;顺序被 \((\partial L/\partial W)_{ij}=x_i\delta_j\) 锁死,交换=转置=错
8 想从链式法则原理推出 \(\boldsymbol x\boldsymbol\delta^\top\) 分量展开:\(W_{ij}\) 只进 \(z_j\)、系数是 \(x_i\Rightarrow(\partial L/\partial W)_{ij}=x_i\delta_j\Rightarrow\) 外积

进步轨迹:疑惑从「这个符号怎么回事」(1、2、3)升级到「这个公式凭什么这么写、能不能推」(7、8)——从「会算」走向「会讲、会推」,正是解答题拿满分要到的层次。