《深度学习》期末样卷（A 卷）· 参考答案与详解¶

配套试卷：同目录 深度学习样卷.md。下列答案的公式编号/页码均溯源自课本（李航《机器学习方法》）与课件 PPT，并对计算题做了程序（numpy）核验。全卷符号约定：线性变换 \(\boldsymbol z=\boldsymbol W^{\mathsf T}\boldsymbol x+\boldsymbol b\)，公式中偏置必写；\(\odot\) 为逐元素乘。

一、填空题（每题 2 分，共 10 题，共 20 分；含多空者须全部答对方得分）¶

题	答案	出处
1	深度学习 \(\subseteq\) 表示学习 \(\subseteq\) 机器学习 \(\subseteq\) 人工智能	课件 slide 1；作业一·1
2	\(\boldsymbol W^{\mathsf T}\boldsymbol x+\boldsymbol b\)（或 \(\boldsymbol w^{\mathsf T}\boldsymbol x+b\)）；激活（函数）	课件 slide 2；课本式(23.3)(23.4)
3	\(\sigma'(z)=\sigma(z)\bigl(1-\sigma(z)\bigr)\)；ReLU 在 \(z>0\) 处导数为 \(1\)	课本式(23.15)(23.20)
4	Softmax；交叉熵	课本 p.380–381；课件 slide 6
5	互相关；\(\left\lfloor\dfrac{M+2P-W}{S}\right\rfloor+1\)	课本 p.416、式(24.6)；课件 slide 30
6	平移不变性；感受野	课本 p.430；课件 slide 36
7	\(\alpha_i^*>0\)；\(0\le\alpha_i\le C\)	课本 p.103、p.108；课件 slide 18/23
8	动量法（Momentum）；RMSProp	课本 §29.3 式(29.8)–(29.12)
9	保留；输出（层不参与暂退）	课本 §23.3.3 式(23.69)–(23.72)
10	LSTM（长短期记忆网络）和 GRU（门控循环单元）；注意力（自注意力）；位置编码	课本第 25/26 章；课件 slide 42/48

评分提示：第 1 题写成集合符号 \(\subset\) 同样给分；韦恩图为"四个同心椭圆，外到内 AI⊃ML⊃表示学习⊃DL"。第 2 题若漏写偏置 \(+\boldsymbol b\) 扣分（老师反复强调）。第 6 题"参数共享/局部连接"已在题干给出，需补的是"平移不变性"与"感受野"。

二、简答题（每题 6 分，共 30 分）¶

1.（绪论：隶属关系 + ANN 定义）¶

隶属关系（层层包含）：深度学习 \(\subseteq\) 表示学习 \(\subseteq\) 机器学习 \(\subseteq\) 人工智能。韦恩图画成四个同心椭圆，由外到内依次为：人工智能（AI）、机器学习（ML）、表示学习、深度学习（DL）。

┌─────────────── 人工智能 AI ───────────────┐
│   ┌─────────── 机器学习 ML ───────────┐   │
│   │   ┌─────── 表示学习 ───────┐      │   │
│   │   │   ┌─── 深度学习 DL ──┐  │      │   │
│   │   │   └─────────────────┘  │      │   │
│   │   └───────────────────────┘      │   │
│   └───────────────────────────────────┘   │
└───────────────────────────────────────────┘

人工智能：研究用于模拟、延伸和扩展人的智能的理论、方法与技术的学科。
机器学习：从有限的观测数据中学习出一般性规律，并用于对未知数据做预测的方法（AI 的一种实现）。
表示学习：能自动学习出有效特征、从而提升模型性能的机器学习方法。
深度学习：通过构建有一定深度结构的模型，自动学习数据的多层次特征表示（底层→中层→高层），通常也称深度神经网络。

人工神经网络的定义（任写其一）：①对人脑完成特定任务所采用的方法进行建模的机器；②由简单处理单元构成的大规模并行分布式处理器，通过学习从环境获取知识，知识存储于突触权值中；③一种旨在模拟人脑结构及其功能的智能信息处理系统（老师常用第三种）。

出处：课件 slide 1；作业一·1；wiki/07-练习题/02。

2.（激活函数 + 输出层选择）¶

名称	表达式 \(a(z)\)	导数 \(a'(z)\)
Sigmoid（S 型）	\(\dfrac{1}{1+e^{-z}}\)	\(\sigma(z)\bigl(1-\sigma(z)\bigr)\)
tanh（双曲正切）	\(\dfrac{e^{z}-e^{-z}}{e^{z}+e^{-z}}\)	\(1-\tanh^2(z)\)
ReLU（整流线性）	\(\max(0,z)\)	\(\begin{cases}1,&z>0\\0,&z\le0\end{cases}\)

输出层激活函数随任务选择：

回归：线性/恒等 \(g(z)=z\)（配平方误差损失）；
二分类：Sigmoid（配二值交叉熵）；
多分类：Softmax \(p_k=\dfrac{e^{z_k}}{\sum_i e^{z_i}}\)（配交叉熵）。

说明：老师强调"导数长啥样很重要，因为后面反向传播要用导"。出处：课本式(23.14)–(23.20)、p.380–381；课件 slide 5/6。（若课件把"第 4 种"列为阶跃函数，则其导数除 \(z=0\) 外处处为 0。）

3.（三类 SVM + 软间隔对偶）¶

三类 SVM 及适用数据：

硬间隔支持向量机（线性可分 SVM）：训练数据线性可分，通过硬间隔最大化学习；
软间隔支持向量机（线性 SVM）：训练数据近似线性可分（含噪声/异常点），引入松弛变量 \(\xi_i\) 软间隔最大化；
非线性支持向量机：训练数据线性不可分，通过核函数映射到高维特征空间再做线性 SVM。

软间隔支持向量机的对偶问题（课本式(7.44)–(7.49)）：

\[ \min_{\boldsymbol\alpha}\ \frac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_j y_i y_j(\boldsymbol x_i\cdot\boldsymbol x_j)-\sum_{i=1}^N\alpha_i \qquad\text{s.t.}\quad \sum_{i=1}^N\alpha_i y_i=0,\ \ \boxed{0\le\alpha_i\le C} \]

与硬间隔对偶的唯一区别：目标函数与等式约束 \(\sum_i\alpha_iy_i=0\) 完全相同，只是把不等式约束 \(\alpha_i\ge0\) 收紧为 \(0\le\alpha_i\le C\)（多了上界 \(C\)）——这正是老师"打五角星"强调的区别。\(C\) 越大越不容忍误分类（趋近硬间隔）。

出处：课本 p.108 式(7.44)–(7.49)；课件 slide 23。

4.（优化器关系 + BN 作用）¶

四种优化器的关系与要点：

SGD（随机/小批量梯度下降）：最基础，沿负梯度更新 \(\boldsymbol\theta_t=\boldsymbol\theta_{t-1}-\eta\boldsymbol g_t\)；缺点是在"峡谷"地形震荡、对所有参数用同一学习率。
动量法（Momentum）：引入速度变量累积历史梯度 \(\boldsymbol v_t=\beta_1\boldsymbol v_{t-1}+(1-\beta_1)\boldsymbol g_t\)，再 \(\boldsymbol\theta_t=\boldsymbol\theta_{t-1}-\eta\boldsymbol v_t\)，减少震荡、加速收敛。
RMSProp：用梯度平方的指数加权平均 \(\boldsymbol s_t=\beta_2\boldsymbol s_{t-1}+(1-\beta_2)\boldsymbol g_t\odot\boldsymbol g_t\) 自适应缩放学习率 \(\dfrac{\eta}{\sqrt{\boldsymbol s_t+\epsilon}}\)，修正了 AdaGrad 学习率单调衰减过快的缺点。
Adam：= 动量法（一阶矩）+ RMSProp（二阶矩）+ 偏差校正，是最常用的默认优化器。

批量归一化（BN）的主要作用（课本官方表述）：①抑制内部协变量偏移、加快收敛（让每层净输入保持均值 0、方差 1，稳定各层输入分布）；②缓解梯度消失与梯度爆炸（把净输入约束在合理范围、避免落入激活函数饱和区）。

出处：课本 §29 式(29.2)/(29.5)/(29.8)–(29.12)、§23.2 BN（式(23.59)–(23.62)）；课件 slide 13/50。注意课本动量/RMSProp 用 \(\beta_1/\beta_2\) 的指数加权平均规范形式。

5.（Transformer 七大技术 + 注意力公式）¶

七大核心技术（老师原话"这 7 个必须会"）：

注意力的编码-解码与编码信息传递（编码器-解码器注意力 / Cross-Attention）；
多头注意力（Multi-Head Attention，注意力的并列）；
前馈神经网络（逐位置 FFN）；
残差连接（Residual Connection）；
掩码自注意力（Masked Self-Attention，防止未来信息泄露）；
位置编码（Positional Encoding，补充顺序信息）；
层归一化（Layer Normalization）。

注意力计算式：

课本"缩放点积"形式（式(26.21)）：\(\operatorname{attend}(\boldsymbol Q,\boldsymbol K,\boldsymbol V)=\boldsymbol V\cdot\operatorname{softmax}\!\left(\dfrac{\boldsymbol K^{\mathsf T}\boldsymbol Q}{\sqrt{d_k}}\right)\)。
一般形式（打分 + softmax + 加权求和）：\(\alpha_i=\operatorname{softmax}_i\bigl(\operatorname{score}(\boldsymbol q,\boldsymbol k_i)\bigr)\)，\(\operatorname{Attention}=\sum_i\alpha_i\boldsymbol v_i\)。

为什么除以 \(\sqrt{d_k}\)：当维度 \(d_k\) 较大时，点积 \(\boldsymbol q^{\mathsf T}\boldsymbol k\) 数值会很大，使 softmax 进入饱和区、梯度过小；除以 \(\sqrt{d_k}\) 做缩放可稳定梯度。

出处：课本 §26 式(26.21)–(26.25)、p.480–482；课件 slide 46–50。（标准教材常写作 \(\operatorname{softmax}(\boldsymbol Q\boldsymbol K^{\mathsf T}/\sqrt{d_k})\boldsymbol V\)，与课本式(26.21)互为等价的转置写法；答题以课本式(26.21)为准。）

三、计算题（共 32 分）· 详解（答案经 numpy 核验）¶

1.（卷积与池化，10 分）¶

（1）\(S=1,\ P=0\)：输出尺寸 \(=\dfrac{5-3}{1}+1=3\)，即 \(3\times3\)。卷积即互相关——核在图上滑动，对应元素相乘再求和：

\[ \boldsymbol Y=\begin{bmatrix}4&7&2\\4&4&6\\5&3&5\end{bmatrix} \]

逐元素演算（核 \(\boldsymbol W\) 只取四角 \(1\) 与中心 \(1\)，即 \(y=\) 左上+右上+中心+左下+右下）：

\(y_{11}=I_{11}+I_{13}+I_{22}+I_{31}+I_{33}=1+0+1+1+1=4\)；
\(y_{12}=I_{12}+I_{14}+I_{23}+I_{32}+I_{34}=2+1+2+0+2=7\)；
\(y_{13}=I_{13}+I_{15}+I_{24}+I_{33}+I_{35}=0+1+0+1+0=2\)；
第二、三行同理 → \(\begin{bmatrix}4&4&6\\5&3&5\end{bmatrix}\)。

（2）尺寸：

\(S=2,\ P=0\)：\(\left\lfloor\dfrac{5-3}{2}\right\rfloor+1=2\) → \(2\times2\)；
\(S=1,\ P=1\)：\(\dfrac{5+2\cdot1-3}{1}+1=5\) → \(5\times5\)。

（3）池化（\(2\times2\)、步幅 2，四个不重叠窗口）：

最大池化：\(\begin{bmatrix}\max\{2,4,6,4\}&\max\{6,1,3,2\}\\\max\{0,2,7,3\}&\max\{2,1,0,1\}\end{bmatrix}=\begin{bmatrix}6&6\\7&2\end{bmatrix}\)
平均池化：\(\begin{bmatrix}\frac{2+4+6+4}{4}&\frac{6+1+3+2}{4}\\\frac{0+2+7+3}{4}&\frac{2+1+0+1}{4}\end{bmatrix}=\begin{bmatrix}4&3\\3&1\end{bmatrix}\)

出处：卷积/池化定义式(24.1)/(24.8)/(24.9)、输出尺寸式(24.6)；课件 slide 27–33。

2.（前馈网络：前向 + 反向传播，12 分）¶

（1）数学模型与前向（含偏置）：

\[ \boldsymbol z_1=\boldsymbol W_1^{\mathsf T}\boldsymbol x+\boldsymbol b_1,\quad \boldsymbol h_1=\mathrm{ReLU}(\boldsymbol z_1),\quad \hat y=\boldsymbol W_2^{\mathsf T}\boldsymbol h_1+b_2 \]

代入数据（注意 \(\boldsymbol z=\boldsymbol W^{\mathsf T}\boldsymbol x\)）：

\[ \boldsymbol W_1^{\mathsf T}=\begin{bmatrix}1&1\\-1&1\end{bmatrix},\quad \boldsymbol z_1=\begin{bmatrix}1&1\\-1&1\end{bmatrix}\begin{bmatrix}2\\1\end{bmatrix}+\begin{bmatrix}0\\0\end{bmatrix}=\begin{bmatrix}3\\-1\end{bmatrix} \]

\[ \boldsymbol h_1=\mathrm{ReLU}\!\begin{bmatrix}3\\-1\end{bmatrix}=\begin{bmatrix}3\\0\end{bmatrix},\qquad \hat y=\boldsymbol W_2^{\mathsf T}\boldsymbol h_1+b_2=[1,2]\begin{bmatrix}3\\0\end{bmatrix}+0=\boxed{3} \]

\[ L=\tfrac12(\hat y-y)^2=\tfrac12(3-1)^2=\boxed{2} \]

（2）反向传播。输出层误差项（回归 + 平方误差）：

\[ \delta^{(2)}=\hat y-y=3-1=\boxed{2} \]

第二层参数梯度（本课约定下 \(\partial L/\partial\boldsymbol W=\boldsymbol h\,\delta^{\mathsf T}\)，即"前一层输出 \(\times\) 误差项"）：

\[ \frac{\partial L}{\partial \boldsymbol W_2}=\boldsymbol h_1\,\delta^{(2)}=\begin{bmatrix}3\\0\end{bmatrix}\cdot2=\boxed{\begin{bmatrix}6\\0\end{bmatrix}}, \qquad \frac{\partial L}{\partial b_2}=\delta^{(2)}=\boxed{2} \]

回传到隐层，先求 \(\partial L/\partial\boldsymbol h_1=\boldsymbol W_2\,\delta^{(2)}=\begin{bmatrix}1\\2\end{bmatrix}\cdot2=\begin{bmatrix}2\\4\end{bmatrix}\)；由 \(\boldsymbol z_1=[3,-1]^{\mathsf T}\) 得 \(\mathrm{ReLU}'(\boldsymbol z_1)=[1,0]^{\mathsf T}\)，故

\[ \boldsymbol\delta^{(1)}=\mathrm{ReLU}'(\boldsymbol z_1)\odot\bigl(\boldsymbol W_2\,\delta^{(2)}\bigr)=\begin{bmatrix}1\\0\end{bmatrix}\odot\begin{bmatrix}2\\4\end{bmatrix}=\boxed{\begin{bmatrix}2\\0\end{bmatrix}} \]

第一层参数梯度（\(\partial L/\partial\boldsymbol W_1=\boldsymbol x\,\boldsymbol\delta^{(1)\mathsf T}\)，外积，元素 \((\partial L/\partial\boldsymbol W_1)_{ij}=x_i\,\delta^{(1)}_j\)）：

\[ \frac{\partial L}{\partial \boldsymbol W_1}=\boldsymbol x\,\boldsymbol\delta^{(1)\mathsf T}=\begin{bmatrix}2\\1\end{bmatrix}[2,\ 0]=\boxed{\begin{bmatrix}4&0\\2&0\end{bmatrix}}, \qquad \frac{\partial L}{\partial \boldsymbol b_1}=\boldsymbol\delta^{(1)}=\boxed{\begin{bmatrix}2\\0\end{bmatrix}} \]

关键提示（最易丢分处）：本课约定 \(\boldsymbol z=\boldsymbol W^{\mathsf T}\boldsymbol x+\boldsymbol b\)，与之配套的权重梯度是 \(\dfrac{\partial L}{\partial\boldsymbol W}=\boldsymbol x\,\boldsymbol\delta^{\mathsf T}\)（\(\boldsymbol x\) 在左、\(\boldsymbol\delta^{\mathsf T}\) 在右），梯度形状与 \(\boldsymbol W\) 同形。若忘记顺序，可逐元素核验：\((\partial L/\partial\boldsymbol W_1)_{ij}=x_i\delta_j\)，行号配 \(\boldsymbol x\)、列号配 \(\boldsymbol\delta\)。切勿写成 \(\boldsymbol\delta\,\boldsymbol x^{\mathsf T}\)（那是课本另一处 \(z=Wx\) 约定下的形式，会得到转置错的矩阵）。三个核心式：\(\partial L/\partial w_{ji}^{(t)}=\delta_j^{(t)}h_i^{(t-1)}\)、\(\partial L/\partial b_j^{(t)}=\delta_j^{(t)}\)、\(\delta^{(t)}=a'(z^{(t)})\odot(\boldsymbol W^{(t+1)}\boldsymbol\delta^{(t+1)})\)。出处：课件 slide 10、课本式(23.57)/(23.58)、约定 p.403–404。

3.（支持向量机：核函数，10 分）¶

（1）核矩阵。多项式核 \(K(\boldsymbol x_i,\boldsymbol x_j)=(1+\boldsymbol x_i^{\mathsf T}\boldsymbol x_j)^2\)。先看内积：同一点 \(\boldsymbol x_i^{\mathsf T}\boldsymbol x_i=(-1)^2+(-1)^2=2\Rightarrow K=(1+2)^2=9\)；任意两个不同点的内积均为 \(0\)（如 \(\boldsymbol x_1^{\mathsf T}\boldsymbol x_2=(-1)(-1)+(-1)(1)=0\)）\(\Rightarrow K=(1+0)^2=1\)。故

\[ \boldsymbol K=\begin{bmatrix}9&1&1&1\\1&9&1&1\\1&1&9&1\\1&1&1&9\end{bmatrix} \]

（2）对偶问题（核化，课本式(7.95) 对应形式）：

\[ \min_{\boldsymbol\alpha}\ \frac12\sum_{i=1}^4\sum_{j=1}^4\alpha_i\alpha_j y_i y_j K(\boldsymbol x_i,\boldsymbol x_j)-\sum_{i=1}^4\alpha_i \]

\[ \text{s.t.}\quad \sum_{i=1}^4\alpha_i y_i=0\ \ (\text{即}\ -\alpha_1+\alpha_2+\alpha_3-\alpha_4=0),\qquad \alpha_i\ge0,\ i=1,2,3,4 \]

（3）决策函数（一般表达式）：

\[ f(\boldsymbol x)=\operatorname{sign}\!\left(\sum_{i=1}^4\alpha_i^* y_i\,K(\boldsymbol x_i,\boldsymbol x)+b^*\right) \]

其中 \(b^*=y_j-\sum_i\alpha_i^* y_i K(\boldsymbol x_i,\boldsymbol x_j)\)（\(\boldsymbol x_j\) 取任一支持向量）。

（附加，供参考） 对各 \(\alpha_i\) 求偏导联立可解得 \(\alpha_1^*=\alpha_2^*=\alpha_3^*=\alpha_4^*=\tfrac18\ (>0)\)，故 4 个样本全是支持向量；代入并化简得最优超平面 \(\sum_i\alpha_i^*y_iK(\boldsymbol x_i,\boldsymbol x)=-x_1x_2=0\)，决策函数 \(f(\boldsymbol x)=\operatorname{sgn}(-x_1x_2)\)（可逐点验证与标签一致）。

出处：核化对偶/决策函数课本式(7.95)–(7.97)、p.121；课件 slide 25。该题型与作业三·补充 3/4、异或题完全同款，已在 wiki/07-练习题/01 给出程序核验详解。老师提示异或问题较难，(1)(2)(3) 三问（核矩阵、写对偶、写决策函数）是必须拿到的分，求解 \(\alpha^*\) 为加分项。

四、解答题（共 18 分）· 详解¶

1.（前馈网络综合，10 分）¶

（1）结构图（输入层不计层数，故为"三层"= 两隐层 + 输出层；层间全连接、层内不连接）：

输入层(4)        隐层1(5)        隐层2(4)        输出层(3)
  x1 ─┐
  x2 ─┼──全连接──▶ a1..a5 ──全连接──▶ b1..b4 ──全连接──▶ y1
  x3 ─┤            (σ1)            (σ2)            y2  (σ3)
  x4 ─┘                                            y3
     (+1偏置可画可不画，但数学模型公式里 +b 必写)

（2）数学模型表达式（逐层复合，公式含偏置）：

\[ \boldsymbol h^{(1)}=\sigma_1\!\bigl(\boldsymbol W^{(1)\mathsf T}\boldsymbol x+\boldsymbol b^{(1)}\bigr),\quad \boldsymbol h^{(2)}=\sigma_2\!\bigl(\boldsymbol W^{(2)\mathsf T}\boldsymbol h^{(1)}+\boldsymbol b^{(2)}\bigr),\quad \boldsymbol y=\sigma_3\!\bigl(\boldsymbol W^{(3)\mathsf T}\boldsymbol h^{(2)}+\boldsymbol b^{(3)}\bigr) \]

即整体为复合函数 \(\boldsymbol y=\sigma_3\!\bigl(\boldsymbol W^{(3)\mathsf T}\sigma_2(\boldsymbol W^{(2)\mathsf T}\sigma_1(\boldsymbol W^{(1)\mathsf T}\boldsymbol x+\boldsymbol b^{(1)})+\boldsymbol b^{(2)})+\boldsymbol b^{(3)}\bigr)\)。

（3）各层维数（约定 \(\boldsymbol z=\boldsymbol W^{\mathsf T}\boldsymbol x+\boldsymbol b\)，\(\boldsymbol W\) 摆成"输入 × 神经元"，\(\boldsymbol W^{\mathsf T}\) 才能左乘列向量；偏置与该层输出同形）：

层	输入维 → 输出维	\(\boldsymbol W^{(t)}\) 维数（输入×神经元）	\(\boldsymbol b^{(t)}\) 维数
第 1 层	\(4\to5\)	\(\boldsymbol W^{(1)}:\ 4\times5\)	\(\boldsymbol b^{(1)}:\ 5\times1\)
第 2 层	\(5\to4\)	\(\boldsymbol W^{(2)}:\ 5\times4\)	\(\boldsymbol b^{(2)}:\ 4\times1\)
第 3 层	\(4\to3\)	\(\boldsymbol W^{(3)}:\ 4\times3\)	\(\boldsymbol b^{(3)}:\ 3\times1\)

维度判别：以第 1 层为例，\(\boldsymbol W^{(1)\mathsf T}\) 为 \(5\times4\)，乘 \(\boldsymbol x\,(4\times1)\) 得 \(5\times1=\boldsymbol z^{(1)}\)，内维 4 对接、外维 \(5\times1\) 正好是 5 个神经元的净输入。出处：课件 slide 3；课本式(23.8)(23.9)(23.13)；作业三·4。

2.（循环神经网络，8 分）¶

（1）简单循环神经网络 SRNN（课本定义 25.1，式(25.1)(25.2)）：

\[ \boldsymbol h_t=\tanh\!\bigl(\boldsymbol U\boldsymbol h_{t-1}+\boldsymbol W\boldsymbol x_t+\boldsymbol b\bigr),\qquad \boldsymbol p_t=\operatorname{softmax}\!\bigl(\boldsymbol V\boldsymbol h_t+\boldsymbol c\bigr) \]

其中 \(\boldsymbol U\) 为隐→隐（循环）权重、\(\boldsymbol W\) 为输入→隐权重、\(\boldsymbol V\) 为隐→输出权重；\(\boldsymbol b,\boldsymbol c\) 分别为隐层、输出层偏置。三组权重在所有时间步共享。

（2）双向循环神经网络（课本式(25.35)–(25.37)）：

\[ \overrightarrow{\boldsymbol h}_t=\tanh\!\bigl(\boldsymbol U^{(1)}\overrightarrow{\boldsymbol h}_{t-1}+\boldsymbol W^{(1)}\boldsymbol x_t+\boldsymbol b^{(1)}\bigr)\quad\text{（前向，从左到右）} \]

\[ \overleftarrow{\boldsymbol h}_t=\tanh\!\bigl(\boldsymbol U^{(2)}\overleftarrow{\boldsymbol h}_{t+1}+\boldsymbol W^{(2)}\boldsymbol x_t+\boldsymbol b^{(2)}\bigr)\quad\text{（后向，从右到左）} \]

\[ \boldsymbol h_t=\bigl[\overrightarrow{\boldsymbol h}_t;\ \overleftarrow{\boldsymbol h}_t\bigr]\quad\text{（拼接，每个时刻都能利用整句上下文）} \]

（3）五种循环神经网络：①简单循环网络（SRNN）；②长短期记忆网络（LSTM）；③门控循环单元（GRU）；④深度（堆叠）循环网络；⑤双向循环网络。其中基于门控机制的是 LSTM 与 GRU。

出处：课本第 25 章式(25.1)–(25.4)、(25.20)–(25.30)、(25.35)–(25.37)；课件 slide 40–43；作业五。老师强调本章重点是"图与公式要能一一对应"，学习算法仍是沿时间的反向传播（BPTT）。

命题与评分说明（命题溯源）¶

题型：严格按教材封面手写批注的"填空 / 简答 / 计算 / 解答"四类命制；CNN 一章老师提示"按选择题/识记掌握"，相应概念放入填空题。
权重分布（按题逐项统计）：第 23 章前馈网络（最高，约 34 分，散布于填空 3 空 + 简答 1 题 + 计算 12 分 + 解答 10 分）＞第 7 章 SVM（约 18 分：填空 2 + 简答 6 + 计算 10）＞第 24 章 CNN（约 14 分：填空 4 + 计算 10）＞第 29.1 优化算法（封面"必考"，约 10 分：填空 4 + 简答 6）≈第 25 章 RNN（约 10 分：填空 + 解答 8）＞绪论（约 8 分：填空 2 + 简答 6）≈第 26 章 Transformer（约 8 分：填空 + 简答 6）。（其中填空第 10 题跨 RNN 与 Transformer 两章，做了交叉计数，故各章合计略大于 100，仅表相对权重而非精确分值表。）该排序与"复习重点地图"的量化重要度一致：前馈最高、SVM 次之、CNN/优化居中、RNN/Transformer 较低但均覆盖。
符号与公式溯源：全部采用课本（李航《机器学习方法》）与课件 PPT 的定义；关键处标注了课本公式编号/页码与课件 slide 号。线性变换统一 \(\boldsymbol z=\boldsymbol W^{\mathsf T}\boldsymbol x+\boldsymbol b\)、偏置必写、反向传播权重梯度 \(\boldsymbol x\boldsymbol\delta^{\mathsf T}\) 等均依课程房规与作业勘误。
数值核验：三道计算题的答案（卷积 \(\begin{bmatrix}4&7&2\\4&4&6\\5&3&5\end{bmatrix}\)、池化、\(\hat y=3,L=2\) 及各梯度、核矩阵与决策函数）均经 numpy 独立核算。