跳转至

《深度学习》期末样卷(A 卷)· 参考答案与详解

配套试卷:同目录 深度学习样卷.md。下列答案的公式编号/页码均溯源自课本(李航《机器学习方法》)与课件 PPT,并对计算题做了程序(numpy)核验。 全卷符号约定:线性变换 \(\boldsymbol z=\boldsymbol W^{\mathsf T}\boldsymbol x+\boldsymbol b\),公式中偏置必写\(\odot\) 为逐元素乘。


一、填空题(每题 2 分,共 10 题,共 20 分;含多空者须全部答对方得分)

答案 出处
1 深度学习 \(\subseteq\) 表示学习 \(\subseteq\) 机器学习 \(\subseteq\) 人工智能 课件 slide 1;作业一·1
2 \(\boldsymbol W^{\mathsf T}\boldsymbol x+\boldsymbol b\)(或 \(\boldsymbol w^{\mathsf T}\boldsymbol x+b\));激活(函数) 课件 slide 2;课本式(23.3)(23.4)
3 \(\sigma'(z)=\sigma(z)\bigl(1-\sigma(z)\bigr)\);ReLU 在 \(z>0\) 处导数为 \(1\) 课本式(23.15)(23.20)
4 Softmax交叉熵 课本 p.380–381;课件 slide 6
5 互相关\(\left\lfloor\dfrac{M+2P-W}{S}\right\rfloor+1\) 课本 p.416、式(24.6);课件 slide 30
6 平移不变性感受野 课本 p.430;课件 slide 36
7 \(\alpha_i^*>0\)\(0\le\alpha_i\le C\) 课本 p.103、p.108;课件 slide 18/23
8 动量法(Momentum)RMSProp 课本 §29.3 式(29.8)–(29.12)
9 保留输出(层不参与暂退) 课本 §23.3.3 式(23.69)–(23.72)
10 LSTM(长短期记忆网络)GRU(门控循环单元)注意力(自注意力)位置编码 课本第 25/26 章;课件 slide 42/48

评分提示:第 1 题写成集合符号 \(\subset\) 同样给分;韦恩图为"四个同心椭圆,外到内 AI⊃ML⊃表示学习⊃DL"。第 2 题若漏写偏置 \(+\boldsymbol b\) 扣分(老师反复强调)。第 6 题"参数共享/局部连接"已在题干给出,需补的是"平移不变性"与"感受野"。


二、简答题(每题 6 分,共 30 分)

1.(绪论:隶属关系 + ANN 定义)

隶属关系(层层包含):深度学习 \(\subseteq\) 表示学习 \(\subseteq\) 机器学习 \(\subseteq\) 人工智能。韦恩图画成四个同心椭圆,由外到内依次为:人工智能(AI)、机器学习(ML)、表示学习、深度学习(DL)。

┌─────────────── 人工智能 AI ───────────────┐
│   ┌─────────── 机器学习 ML ───────────┐   │
│   │   ┌─────── 表示学习 ───────┐      │   │
│   │   │   ┌─── 深度学习 DL ──┐  │      │   │
│   │   │   └─────────────────┘  │      │   │
│   │   └───────────────────────┘      │   │
│   └───────────────────────────────────┘   │
└───────────────────────────────────────────┘
  • 人工智能:研究用于模拟、延伸和扩展人的智能的理论、方法与技术的学科。
  • 机器学习:从有限的观测数据中学习出一般性规律,并用于对未知数据做预测的方法(AI 的一种实现)。
  • 表示学习:能自动学习出有效特征、从而提升模型性能的机器学习方法。
  • 深度学习:通过构建有一定深度结构的模型,自动学习数据的多层次特征表示(底层→中层→高层),通常也称深度神经网络。

人工神经网络的定义(任写其一):①对人脑完成特定任务所采用的方法进行建模的机器;②由简单处理单元构成的大规模并行分布式处理器,通过学习从环境获取知识,知识存储于突触权值中;③一种旨在模拟人脑结构及其功能的智能信息处理系统(老师常用第三种)。

出处:课件 slide 1;作业一·1;wiki/07-练习题/02。

2.(激活函数 + 输出层选择)

名称 表达式 \(a(z)\) 导数 \(a'(z)\)
Sigmoid(S 型) \(\dfrac{1}{1+e^{-z}}\) \(\sigma(z)\bigl(1-\sigma(z)\bigr)\)
tanh(双曲正切) \(\dfrac{e^{z}-e^{-z}}{e^{z}+e^{-z}}\) \(1-\tanh^2(z)\)
ReLU(整流线性) \(\max(0,z)\) \(\begin{cases}1,&z>0\\0,&z\le0\end{cases}\)

输出层激活函数随任务选择

  • 回归:线性/恒等 \(g(z)=z\)(配平方误差损失);
  • 二分类:Sigmoid(配二值交叉熵);
  • 多分类:Softmax \(p_k=\dfrac{e^{z_k}}{\sum_i e^{z_i}}\)(配交叉熵)。

说明:老师强调"导数长啥样很重要,因为后面反向传播要用导"。出处:课本式(23.14)–(23.20)、p.380–381;课件 slide 5/6。(若课件把"第 4 种"列为阶跃函数,则其导数除 \(z=0\) 外处处为 0。)

3.(三类 SVM + 软间隔对偶)

三类 SVM 及适用数据

  • 硬间隔支持向量机(线性可分 SVM):训练数据线性可分,通过硬间隔最大化学习;
  • 软间隔支持向量机(线性 SVM):训练数据近似线性可分(含噪声/异常点),引入松弛变量 \(\xi_i\) 软间隔最大化;
  • 非线性支持向量机:训练数据线性不可分,通过核函数映射到高维特征空间再做线性 SVM。

软间隔支持向量机的对偶问题(课本式(7.44)–(7.49)):

\[ \min_{\boldsymbol\alpha}\ \frac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_j y_i y_j(\boldsymbol x_i\cdot\boldsymbol x_j)-\sum_{i=1}^N\alpha_i \qquad\text{s.t.}\quad \sum_{i=1}^N\alpha_i y_i=0,\ \ \boxed{0\le\alpha_i\le C} \]

与硬间隔对偶的唯一区别:目标函数与等式约束 \(\sum_i\alpha_iy_i=0\) 完全相同,只是把不等式约束 \(\alpha_i\ge0\) 收紧为 \(0\le\alpha_i\le C\)(多了上界 \(C\))——这正是老师"打五角星"强调的区别。\(C\) 越大越不容忍误分类(趋近硬间隔)。

出处:课本 p.108 式(7.44)–(7.49);课件 slide 23。

4.(优化器关系 + BN 作用)

四种优化器的关系与要点

  • SGD(随机/小批量梯度下降):最基础,沿负梯度更新 \(\boldsymbol\theta_t=\boldsymbol\theta_{t-1}-\eta\boldsymbol g_t\);缺点是在"峡谷"地形震荡、对所有参数用同一学习率。
  • 动量法(Momentum):引入速度变量累积历史梯度 \(\boldsymbol v_t=\beta_1\boldsymbol v_{t-1}+(1-\beta_1)\boldsymbol g_t\),再 \(\boldsymbol\theta_t=\boldsymbol\theta_{t-1}-\eta\boldsymbol v_t\)减少震荡、加速收敛
  • RMSProp:用梯度平方的指数加权平均 \(\boldsymbol s_t=\beta_2\boldsymbol s_{t-1}+(1-\beta_2)\boldsymbol g_t\odot\boldsymbol g_t\) 自适应缩放学习率 \(\dfrac{\eta}{\sqrt{\boldsymbol s_t+\epsilon}}\),修正了 AdaGrad 学习率单调衰减过快的缺点。
  • Adam:= 动量法(一阶矩)+ RMSProp(二阶矩)+ 偏差校正,是最常用的默认优化器。

批量归一化(BN)的主要作用(课本官方表述):①抑制内部协变量偏移、加快收敛(让每层净输入保持均值 0、方差 1,稳定各层输入分布);②缓解梯度消失与梯度爆炸(把净输入约束在合理范围、避免落入激活函数饱和区)。

出处:课本 §29 式(29.2)/(29.5)/(29.8)–(29.12)、§23.2 BN(式(23.59)–(23.62));课件 slide 13/50。注意课本动量/RMSProp 用 \(\beta_1/\beta_2\) 的指数加权平均规范形式。

5.(Transformer 七大技术 + 注意力公式)

七大核心技术(老师原话"这 7 个必须会"):

  1. 注意力的编码-解码与编码信息传递(编码器-解码器注意力 / Cross-Attention);
  2. 多头注意力(Multi-Head Attention,注意力的并列);
  3. 前馈神经网络(逐位置 FFN);
  4. 残差连接(Residual Connection);
  5. 掩码自注意力(Masked Self-Attention,防止未来信息泄露);
  6. 位置编码(Positional Encoding,补充顺序信息);
  7. 层归一化(Layer Normalization)。

注意力计算式

  • 课本"缩放点积"形式(式(26.21)):\(\operatorname{attend}(\boldsymbol Q,\boldsymbol K,\boldsymbol V)=\boldsymbol V\cdot\operatorname{softmax}\!\left(\dfrac{\boldsymbol K^{\mathsf T}\boldsymbol Q}{\sqrt{d_k}}\right)\)
  • 一般形式(打分 + softmax + 加权求和):\(\alpha_i=\operatorname{softmax}_i\bigl(\operatorname{score}(\boldsymbol q,\boldsymbol k_i)\bigr)\)\(\operatorname{Attention}=\sum_i\alpha_i\boldsymbol v_i\)

为什么除以 \(\sqrt{d_k}\):当维度 \(d_k\) 较大时,点积 \(\boldsymbol q^{\mathsf T}\boldsymbol k\) 数值会很大,使 softmax 进入饱和区、梯度过小;除以 \(\sqrt{d_k}\) 做缩放可稳定梯度。

出处:课本 §26 式(26.21)–(26.25)、p.480–482;课件 slide 46–50。(标准教材常写作 \(\operatorname{softmax}(\boldsymbol Q\boldsymbol K^{\mathsf T}/\sqrt{d_k})\boldsymbol V\),与课本式(26.21)互为等价的转置写法;答题以课本式(26.21)为准。)


三、计算题(共 32 分)· 详解(答案经 numpy 核验)

1.(卷积与池化,10 分)

(1)\(S=1,\ P=0\):输出尺寸 \(=\dfrac{5-3}{1}+1=3\),即 \(3\times3\)。卷积即互相关——核在图上滑动,对应元素相乘再求和:

\[ \boldsymbol Y=\begin{bmatrix}4&7&2\\4&4&6\\5&3&5\end{bmatrix} \]

逐元素演算(核 \(\boldsymbol W\) 只取四角 \(1\) 与中心 \(1\),即 \(y=\) 左上+右上+中心+左下+右下):

  • \(y_{11}=I_{11}+I_{13}+I_{22}+I_{31}+I_{33}=1+0+1+1+1=4\)
  • \(y_{12}=I_{12}+I_{14}+I_{23}+I_{32}+I_{34}=2+1+2+0+2=7\)
  • \(y_{13}=I_{13}+I_{15}+I_{24}+I_{33}+I_{35}=0+1+0+1+0=2\)
  • 第二、三行同理 → \(\begin{bmatrix}4&4&6\\5&3&5\end{bmatrix}\)

(2)尺寸

  • \(S=2,\ P=0\)\(\left\lfloor\dfrac{5-3}{2}\right\rfloor+1=2\)\(2\times2\)
  • \(S=1,\ P=1\)\(\dfrac{5+2\cdot1-3}{1}+1=5\)\(5\times5\)

(3)池化\(2\times2\)、步幅 2,四个不重叠窗口):

  • 最大池化:\(\begin{bmatrix}\max\{2,4,6,4\}&\max\{6,1,3,2\}\\\max\{0,2,7,3\}&\max\{2,1,0,1\}\end{bmatrix}=\begin{bmatrix}6&6\\7&2\end{bmatrix}\)
  • 平均池化:\(\begin{bmatrix}\frac{2+4+6+4}{4}&\frac{6+1+3+2}{4}\\\frac{0+2+7+3}{4}&\frac{2+1+0+1}{4}\end{bmatrix}=\begin{bmatrix}4&3\\3&1\end{bmatrix}\)

出处:卷积/池化定义式(24.1)/(24.8)/(24.9)、输出尺寸式(24.6);课件 slide 27–33。

2.(前馈网络:前向 + 反向传播,12 分)

(1)数学模型与前向(含偏置):

\[ \boldsymbol z_1=\boldsymbol W_1^{\mathsf T}\boldsymbol x+\boldsymbol b_1,\quad \boldsymbol h_1=\mathrm{ReLU}(\boldsymbol z_1),\quad \hat y=\boldsymbol W_2^{\mathsf T}\boldsymbol h_1+b_2 \]

代入数据(注意 \(\boldsymbol z=\boldsymbol W^{\mathsf T}\boldsymbol x\)):

\[ \boldsymbol W_1^{\mathsf T}=\begin{bmatrix}1&1\\-1&1\end{bmatrix},\quad \boldsymbol z_1=\begin{bmatrix}1&1\\-1&1\end{bmatrix}\begin{bmatrix}2\\1\end{bmatrix}+\begin{bmatrix}0\\0\end{bmatrix}=\begin{bmatrix}3\\-1\end{bmatrix} \]
\[ \boldsymbol h_1=\mathrm{ReLU}\!\begin{bmatrix}3\\-1\end{bmatrix}=\begin{bmatrix}3\\0\end{bmatrix},\qquad \hat y=\boldsymbol W_2^{\mathsf T}\boldsymbol h_1+b_2=[1,2]\begin{bmatrix}3\\0\end{bmatrix}+0=\boxed{3} \]
\[ L=\tfrac12(\hat y-y)^2=\tfrac12(3-1)^2=\boxed{2} \]

(2)反向传播。输出层误差项(回归 + 平方误差):

\[ \delta^{(2)}=\hat y-y=3-1=\boxed{2} \]

第二层参数梯度(本课约定下 \(\partial L/\partial\boldsymbol W=\boldsymbol h\,\delta^{\mathsf T}\),即"前一层输出 \(\times\) 误差项"):

\[ \frac{\partial L}{\partial \boldsymbol W_2}=\boldsymbol h_1\,\delta^{(2)}=\begin{bmatrix}3\\0\end{bmatrix}\cdot2=\boxed{\begin{bmatrix}6\\0\end{bmatrix}}, \qquad \frac{\partial L}{\partial b_2}=\delta^{(2)}=\boxed{2} \]

回传到隐层,先求 \(\partial L/\partial\boldsymbol h_1=\boldsymbol W_2\,\delta^{(2)}=\begin{bmatrix}1\\2\end{bmatrix}\cdot2=\begin{bmatrix}2\\4\end{bmatrix}\);由 \(\boldsymbol z_1=[3,-1]^{\mathsf T}\)\(\mathrm{ReLU}'(\boldsymbol z_1)=[1,0]^{\mathsf T}\),故

\[ \boldsymbol\delta^{(1)}=\mathrm{ReLU}'(\boldsymbol z_1)\odot\bigl(\boldsymbol W_2\,\delta^{(2)}\bigr)=\begin{bmatrix}1\\0\end{bmatrix}\odot\begin{bmatrix}2\\4\end{bmatrix}=\boxed{\begin{bmatrix}2\\0\end{bmatrix}} \]

第一层参数梯度(\(\partial L/\partial\boldsymbol W_1=\boldsymbol x\,\boldsymbol\delta^{(1)\mathsf T}\),外积,元素 \((\partial L/\partial\boldsymbol W_1)_{ij}=x_i\,\delta^{(1)}_j\)):

\[ \frac{\partial L}{\partial \boldsymbol W_1}=\boldsymbol x\,\boldsymbol\delta^{(1)\mathsf T}=\begin{bmatrix}2\\1\end{bmatrix}[2,\ 0]=\boxed{\begin{bmatrix}4&0\\2&0\end{bmatrix}}, \qquad \frac{\partial L}{\partial \boldsymbol b_1}=\boldsymbol\delta^{(1)}=\boxed{\begin{bmatrix}2\\0\end{bmatrix}} \]

关键提示(最易丢分处):本课约定 \(\boldsymbol z=\boldsymbol W^{\mathsf T}\boldsymbol x+\boldsymbol b\),与之配套的权重梯度是 \(\dfrac{\partial L}{\partial\boldsymbol W}=\boldsymbol x\,\boldsymbol\delta^{\mathsf T}\)\(\boldsymbol x\) 在左、\(\boldsymbol\delta^{\mathsf T}\) 在右),梯度形状与 \(\boldsymbol W\) 同形。若忘记顺序,可逐元素核验:\((\partial L/\partial\boldsymbol W_1)_{ij}=x_i\delta_j\),行号配 \(\boldsymbol x\)、列号配 \(\boldsymbol\delta\)切勿写成 \(\boldsymbol\delta\,\boldsymbol x^{\mathsf T}\)(那是课本另一处 \(z=Wx\) 约定下的形式,会得到转置错的矩阵)。 三个核心式:\(\partial L/\partial w_{ji}^{(t)}=\delta_j^{(t)}h_i^{(t-1)}\)\(\partial L/\partial b_j^{(t)}=\delta_j^{(t)}\)\(\delta^{(t)}=a'(z^{(t)})\odot(\boldsymbol W^{(t+1)}\boldsymbol\delta^{(t+1)})\)。出处:课件 slide 10、课本式(23.57)/(23.58)、约定 p.403–404。

3.(支持向量机:核函数,10 分)

(1)核矩阵。多项式核 \(K(\boldsymbol x_i,\boldsymbol x_j)=(1+\boldsymbol x_i^{\mathsf T}\boldsymbol x_j)^2\)。先看内积:同一点 \(\boldsymbol x_i^{\mathsf T}\boldsymbol x_i=(-1)^2+(-1)^2=2\Rightarrow K=(1+2)^2=9\);任意两个不同点的内积均为 \(0\)(如 \(\boldsymbol x_1^{\mathsf T}\boldsymbol x_2=(-1)(-1)+(-1)(1)=0\)\(\Rightarrow K=(1+0)^2=1\)。故

\[ \boldsymbol K=\begin{bmatrix}9&1&1&1\\1&9&1&1\\1&1&9&1\\1&1&1&9\end{bmatrix} \]

(2)对偶问题(核化,课本式(7.95) 对应形式):

\[ \min_{\boldsymbol\alpha}\ \frac12\sum_{i=1}^4\sum_{j=1}^4\alpha_i\alpha_j y_i y_j K(\boldsymbol x_i,\boldsymbol x_j)-\sum_{i=1}^4\alpha_i \]
\[ \text{s.t.}\quad \sum_{i=1}^4\alpha_i y_i=0\ \ (\text{即}\ -\alpha_1+\alpha_2+\alpha_3-\alpha_4=0),\qquad \alpha_i\ge0,\ i=1,2,3,4 \]

(3)决策函数(一般表达式):

\[ f(\boldsymbol x)=\operatorname{sign}\!\left(\sum_{i=1}^4\alpha_i^* y_i\,K(\boldsymbol x_i,\boldsymbol x)+b^*\right) \]

其中 \(b^*=y_j-\sum_i\alpha_i^* y_i K(\boldsymbol x_i,\boldsymbol x_j)\)\(\boldsymbol x_j\) 取任一支持向量)。

(附加,供参考) 对各 \(\alpha_i\) 求偏导联立可解得 \(\alpha_1^*=\alpha_2^*=\alpha_3^*=\alpha_4^*=\tfrac18\ (>0)\),故 4 个样本全是支持向量;代入并化简得最优超平面 \(\sum_i\alpha_i^*y_iK(\boldsymbol x_i,\boldsymbol x)=-x_1x_2=0\),决策函数 \(f(\boldsymbol x)=\operatorname{sgn}(-x_1x_2)\)(可逐点验证与标签一致)。

出处:核化对偶/决策函数 课本式(7.95)–(7.97)、p.121;课件 slide 25。该题型与作业三·补充 3/4、异或题完全同款,已在 wiki/07-练习题/01 给出程序核验详解。老师提示异或问题较难,(1)(2)(3) 三问(核矩阵、写对偶、写决策函数)是必须拿到的分,求解 \(\alpha^*\) 为加分项。


四、解答题(共 18 分)· 详解

1.(前馈网络综合,10 分)

(1)结构图(输入层不计层数,故为"三层"= 两隐层 + 输出层;层间全连接、层内不连接):

输入层(4)        隐层1(5)        隐层2(4)        输出层(3)
  x1 ─┐
  x2 ─┼──全连接──▶ a1..a5 ──全连接──▶ b1..b4 ──全连接──▶ y1
  x3 ─┤            (σ1)            (σ2)            y2  (σ3)
  x4 ─┘                                            y3
     (+1偏置可画可不画,但数学模型公式里 +b 必写)

(2)数学模型表达式(逐层复合,公式含偏置):

\[ \boldsymbol h^{(1)}=\sigma_1\!\bigl(\boldsymbol W^{(1)\mathsf T}\boldsymbol x+\boldsymbol b^{(1)}\bigr),\quad \boldsymbol h^{(2)}=\sigma_2\!\bigl(\boldsymbol W^{(2)\mathsf T}\boldsymbol h^{(1)}+\boldsymbol b^{(2)}\bigr),\quad \boldsymbol y=\sigma_3\!\bigl(\boldsymbol W^{(3)\mathsf T}\boldsymbol h^{(2)}+\boldsymbol b^{(3)}\bigr) \]

即整体为复合函数 \(\boldsymbol y=\sigma_3\!\bigl(\boldsymbol W^{(3)\mathsf T}\sigma_2(\boldsymbol W^{(2)\mathsf T}\sigma_1(\boldsymbol W^{(1)\mathsf T}\boldsymbol x+\boldsymbol b^{(1)})+\boldsymbol b^{(2)})+\boldsymbol b^{(3)}\bigr)\)

(3)各层维数(约定 \(\boldsymbol z=\boldsymbol W^{\mathsf T}\boldsymbol x+\boldsymbol b\)\(\boldsymbol W\) 摆成"输入 × 神经元",\(\boldsymbol W^{\mathsf T}\) 才能左乘列向量;偏置与该层输出同形):

输入维 → 输出维 \(\boldsymbol W^{(t)}\) 维数(输入×神经元) \(\boldsymbol b^{(t)}\) 维数
第 1 层 \(4\to5\) \(\boldsymbol W^{(1)}:\ 4\times5\) \(\boldsymbol b^{(1)}:\ 5\times1\)
第 2 层 \(5\to4\) \(\boldsymbol W^{(2)}:\ 5\times4\) \(\boldsymbol b^{(2)}:\ 4\times1\)
第 3 层 \(4\to3\) \(\boldsymbol W^{(3)}:\ 4\times3\) \(\boldsymbol b^{(3)}:\ 3\times1\)

维度判别:以第 1 层为例,\(\boldsymbol W^{(1)\mathsf T}\)\(5\times4\),乘 \(\boldsymbol x\,(4\times1)\)\(5\times1=\boldsymbol z^{(1)}\),内维 4 对接、外维 \(5\times1\) 正好是 5 个神经元的净输入。出处:课件 slide 3;课本式(23.8)(23.9)(23.13);作业三·4。

2.(循环神经网络,8 分)

(1)简单循环神经网络 SRNN(课本定义 25.1,式(25.1)(25.2)):

\[ \boldsymbol h_t=\tanh\!\bigl(\boldsymbol U\boldsymbol h_{t-1}+\boldsymbol W\boldsymbol x_t+\boldsymbol b\bigr),\qquad \boldsymbol p_t=\operatorname{softmax}\!\bigl(\boldsymbol V\boldsymbol h_t+\boldsymbol c\bigr) \]

其中 \(\boldsymbol U\) 为隐→隐(循环)权重、\(\boldsymbol W\) 为输入→隐权重、\(\boldsymbol V\) 为隐→输出权重;\(\boldsymbol b,\boldsymbol c\) 分别为隐层、输出层偏置。三组权重在所有时间步共享

(2)双向循环神经网络(课本式(25.35)–(25.37)):

\[ \overrightarrow{\boldsymbol h}_t=\tanh\!\bigl(\boldsymbol U^{(1)}\overrightarrow{\boldsymbol h}_{t-1}+\boldsymbol W^{(1)}\boldsymbol x_t+\boldsymbol b^{(1)}\bigr)\quad\text{(前向,从左到右)} \]
\[ \overleftarrow{\boldsymbol h}_t=\tanh\!\bigl(\boldsymbol U^{(2)}\overleftarrow{\boldsymbol h}_{t+1}+\boldsymbol W^{(2)}\boldsymbol x_t+\boldsymbol b^{(2)}\bigr)\quad\text{(后向,从右到左)} \]
\[ \boldsymbol h_t=\bigl[\overrightarrow{\boldsymbol h}_t;\ \overleftarrow{\boldsymbol h}_t\bigr]\quad\text{(拼接,每个时刻都能利用整句上下文)} \]

(3)五种循环神经网络:①简单循环网络(SRNN);②长短期记忆网络(LSTM);③门控循环单元(GRU);④深度(堆叠)循环网络;⑤双向循环网络。其中基于门控机制的是 LSTM 与 GRU

出处:课本第 25 章 式(25.1)–(25.4)、(25.20)–(25.30)、(25.35)–(25.37);课件 slide 40–43;作业五。老师强调本章重点是"图与公式要能一一对应",学习算法仍是沿时间的反向传播(BPTT)。


命题与评分说明(命题溯源)

  • 题型:严格按教材封面手写批注的"填空 / 简答 / 计算 / 解答"四类命制;CNN 一章老师提示"按选择题/识记掌握",相应概念放入填空题。
  • 权重分布(按题逐项统计):第 23 章前馈网络(最高,约 34 分,散布于填空 3 空 + 简答 1 题 + 计算 12 分 + 解答 10 分)>第 7 章 SVM(约 18 分:填空 2 + 简答 6 + 计算 10)>第 24 章 CNN(约 14 分:填空 4 + 计算 10)>第 29.1 优化算法(封面"必考",约 10 分:填空 4 + 简答 6)≈第 25 章 RNN(约 10 分:填空 + 解答 8)>绪论(约 8 分:填空 2 + 简答 6)≈第 26 章 Transformer(约 8 分:填空 + 简答 6)。(其中填空第 10 题跨 RNN 与 Transformer 两章,做了交叉计数,故各章合计略大于 100,仅表相对权重而非精确分值表。)该排序与"复习重点地图"的量化重要度一致:前馈最高、SVM 次之、CNN/优化居中、RNN/Transformer 较低但均覆盖。
  • 符号与公式溯源:全部采用课本(李航《机器学习方法》)与课件 PPT 的定义;关键处标注了课本公式编号/页码与课件 slide 号。线性变换统一 \(\boldsymbol z=\boldsymbol W^{\mathsf T}\boldsymbol x+\boldsymbol b\)、偏置必写、反向传播权重梯度 \(\boldsymbol x\boldsymbol\delta^{\mathsf T}\) 等均依课程房规与作业勘误。
  • 数值核验:三道计算题的答案(卷积 \(\begin{bmatrix}4&7&2\\4&4&6\\5&3&5\end{bmatrix}\)、池化、\(\hat y=3,L=2\) 及各梯度、核矩阵与决策函数)均经 numpy 独立核算。