《深度学习》期末样卷（A 卷）¶

符号约定（全卷统一）

线性变换（净输入）一律写 \(\boldsymbol z=\boldsymbol W^{\mathsf T}\boldsymbol x+\boldsymbol b\)（\(\boldsymbol w\) 与 \(\boldsymbol x\) 做内积）；输出层同理 \(\hat{\boldsymbol y}=g(\boldsymbol W^{\mathsf T}\boldsymbol h+\boldsymbol b)\)。
数学模型公式中偏置 \(+\boldsymbol b\) 必须写出（即使其取值为 \(\boldsymbol 0\)），结构图上画不画偏置均可。
\(\odot\) 表示逐元素（Hadamard）乘积；\(\sigma\) 表示 Sigmoid 函数；\(\operatorname{sign}(\cdot)\) 表示符号函数。

一、填空题（每题 \(2\) 分，共 \(10\) 题，共 \(20\) 分；含多空者须全部答对方得分）¶

人工智能、机器学习、表示学习、深度学习四者是层层包含关系。按"被包含 \(\to\) 包含"由小到大排列为：

\[\underline{\qquad\qquad}\ \subseteq\ \underline{\qquad\qquad}\ \subseteq\ \underline{\qquad\qquad}\ \subseteq\ \underline{\qquad\qquad}\]

单个神经元的数学模型为 \(y=a(z)\)，其净输入（仿射函数）写作 \(z=\underline{\qquad\qquad}\)；其中 \(a(\cdot)\) 称为 \(\underline{\qquad\qquad}\) 函数。
Sigmoid 函数 \(\sigma(z)=\dfrac{1}{1+e^{-z}}\) 的导数 \(\sigma'(z)=\underline{\qquad\qquad}\)；ReLU 函数 \(\max(0,z)\) 在 \(z>0\) 处的导数为 \(\underline{\qquad\qquad}\)。
对于多分类任务，输出层一般采用 \(\underline{\qquad\qquad}\) 激活函数，并配合 \(\underline{\qquad\qquad}\) 损失函数。
在深度学习中，"卷积"实际指 \(\underline{\qquad\qquad}\) 运算；当输入为 \(M\times N\)、卷积核为 \(W\times W\)、填充为 \(P\)、步幅为 \(S\) 时，卷积输出特征图的高（行数）为 \(\underline{\qquad\qquad}\)。
卷积神经网络的三大性质是：参数共享（表示效率高）、\(\underline{\qquad\qquad}\) 和 \(\underline{\qquad\qquad}\)（神经元所能"看到"的输入区域）。
支持向量机对偶问题的解 \(\boldsymbol\alpha^*\) 中，满足 \(\underline{\qquad\qquad}\) 的样本点称为支持向量；软间隔对偶相比硬间隔对偶，唯一区别是把约束 \(\alpha_i\ge0\) 改为 \(\underline{\qquad\qquad}\)。
Adam 优化算法可视为 \(\underline{\qquad\qquad}\) 法与 \(\underline{\qquad\qquad}\) 算法两者的结合，并额外引入了偏差校正。
暂退法（Dropout）中的 \(p\) 是神经元的 \(\underline{\qquad\qquad}\) 概率（填"保留"或"丢弃"）；它作用于输入层与隐层，但 \(\underline{\qquad\qquad}\) 层不参与暂退。
基于门控机制的两种循环神经网络分别是 \(\underline{\qquad\qquad}\) 和 \(\underline{\qquad\qquad}\)；Transformer 完全依赖 \(\underline{\qquad\qquad}\) 机制，并通过 \(\underline{\qquad\qquad}\) 为序列注入位置信息。

二、简答题（每题 \(6\) 分，共 \(30\) 分）¶

（绪论） 简述人工智能、机器学习、表示学习、深度学习四者之间的隶属关系，并用韦恩图示意；再写出"人工神经网络"的一种定义。
（前馈网络 · 激活函数） 写出三种常用激活函数的名称、数学表达式 \(a(z)\) 及其导数 \(a'(z)\)；并说明在回归、二分类、多分类三种任务中，输出层激活函数应分别如何选择。
（支持向量机） 支持向量机通常分为哪三类？分别对应什么样的数据情形？写出软间隔支持向量机的对偶问题（目标函数与约束条件），并指出它与硬间隔对偶问题的唯一区别。
（优化算法） 围绕梯度下降的改进，简述 \(\mathrm{SGD}\)、动量法（\(\mathrm{Momentum}\)）、\(\mathrm{RMSProp}\)、\(\mathrm{Adam}\) 四者的关系与各自要点（\(\mathrm{Adam}\) 由谁与谁结合而来）；并简述批量归一化（\(\mathrm{BN}\)）的两条主要作用。
（序列到序列 · Transformer） 列出 Transformer 的七大核心技术（组件）；并写出注意力机制的计算式，说明为什么要除以 \(\sqrt{d_k}\)。

三、计算题（共 \(32\) 分，可带计算器，须写出主要步骤）¶

1.（卷积与池化，\(10\) 分）¶

已知输入特征图 \(\boldsymbol I\) 与卷积核 \(\boldsymbol W\)（偏置 \(b=0\)）：

\[ \boldsymbol I=\begin{bmatrix}1&2&0&1&1\\0&1&2&0&1\\1&0&1&2&0\\2&1&0&1&1\\0&1&2&0&1\end{bmatrix}, \qquad \boldsymbol W=\begin{bmatrix}1&0&1\\0&1&0\\1&0&1\end{bmatrix}, \qquad \boldsymbol F=\begin{bmatrix}2&4&6&1\\6&4&3&2\\0&2&2&1\\7&3&0&1\end{bmatrix} \]

（1）取步幅 \(S=1\)、填充 \(P=0\)，计算输出特征图 \(\boldsymbol Y=\boldsymbol W*\boldsymbol I\) 及其尺寸。（\(4\) 分）

（2）分别写出 \(S=2,\ P=0\) 与 \(S=1,\ P=1\) 两种设置下输出特征图的尺寸（只需尺寸）。（\(3\) 分）

（3）对特征图 \(\boldsymbol F\)，分别用 \(2\times2\)、步幅 \(2\) 的最大池化与平均池化，给出池化后的特征图。（\(3\) 分）

2.（前馈网络：前向 \(+\) 反向传播，\(12\) 分）¶

考虑一个单隐层前馈网络（含两个参数层）：输入 \(\boldsymbol x\in\mathbb R^2\) 经第一层线性变换后过 \(\mathrm{ReLU}\)，再经第二层线性变换得到标量输出 \(\hat y\)（输出层为恒等激活）。按本课约定 \(\boldsymbol z=\boldsymbol W^{\mathsf T}\boldsymbol x+\boldsymbol b\)。已知：

\[ \boldsymbol x=\begin{bmatrix}2\\1\end{bmatrix},\quad \boldsymbol W_1=\begin{bmatrix}1&-1\\1&1\end{bmatrix},\quad \boldsymbol b_1=\begin{bmatrix}0\\0\end{bmatrix},\quad \boldsymbol W_2=\begin{bmatrix}1\\2\end{bmatrix},\quad b_2=0,\quad y=1 \]

损失函数为均方误差 \(L=\tfrac12(\hat y-y)^2\)。

（1）写出该网络的数学模型表达式（含偏置），并计算前向传播结果 \(\hat y\) 与损失 \(L\)。（\(5\) 分）

（2）基于反向传播算法，计算误差项 \(\delta^{(2)}\)、\(\boldsymbol\delta^{(1)}\)，以及损失对参数的梯度 \(\dfrac{\partial L}{\partial \boldsymbol W_2}\)、\(\dfrac{\partial L}{\partial b_2}\)、\(\dfrac{\partial L}{\partial \boldsymbol W_1}\)、\(\dfrac{\partial L}{\partial \boldsymbol b_1}\)。（\(7\) 分）

3.（支持向量机：核函数，\(10\) 分）¶

对以下 \(4\) 个训练样本（异或型，线性不可分），取多项式核 \(K(\boldsymbol x,\boldsymbol z)=(1+\boldsymbol x^{\mathsf T}\boldsymbol z)^2\)：

\[ \boldsymbol x_1=\begin{bmatrix}-1\\-1\end{bmatrix},y_1=-1;\quad \boldsymbol x_2=\begin{bmatrix}-1\\1\end{bmatrix},y_2=+1;\quad \boldsymbol x_3=\begin{bmatrix}1\\-1\end{bmatrix},y_3=+1;\quad \boldsymbol x_4=\begin{bmatrix}1\\1\end{bmatrix},y_4=-1 \]

（1）计算对称核矩阵 \(\boldsymbol K=[K(\boldsymbol x_i,\boldsymbol x_j)]_{4\times4}\)。（\(4\) 分）

（2）写出求解该核支持向量机的对偶问题（目标函数与约束条件，用核 \(K\) 表示）。（\(3\) 分）

（3）写出基于核函数的支持向量机决策函数的一般表达式。（\(3\) 分）

四、解答题（共 \(18\) 分）¶

1.（前馈网络综合，\(10\) 分）¶

已知一个三层前馈神经网络：输入 \(\boldsymbol x=(x_1,x_2,x_3,x_4)^{\mathsf T}\)（\(4\) 维），第一隐层 \(5\) 个神经元，第二隐层 \(4\) 个神经元，输出 \(\boldsymbol y=(y_1,y_2,y_3)^{\mathsf T}\)（\(3\) 维）。

（1）画出该网络的结构图，标注清楚输入层、各隐层、输出层及连接（偏置可画可不画）。（\(3\) 分）

（2）写出整个网络的数学模型表达式（公式中必须含偏置），各层激活函数记为 \(\sigma_1,\sigma_2,\sigma_3\)，权重矩阵记为 \(\boldsymbol W^{(1)},\boldsymbol W^{(2)},\boldsymbol W^{(3)}\)，偏置记为 \(\boldsymbol b^{(1)},\boldsymbol b^{(2)},\boldsymbol b^{(3)}\)。（\(4\) 分）

（3）按本课约定 \(\boldsymbol z=\boldsymbol W^{\mathsf T}\boldsymbol x+\boldsymbol b\)，给出每一层权重矩阵 \(\boldsymbol W^{(t)}\) 与偏置向量 \(\boldsymbol b^{(t)}\) 的维数。（\(3\) 分）

2.（循环神经网络，\(8\) 分）¶

（1）写出简单循环神经网络（SRNN）的数学模型（隐状态更新式与输出式各一行），并说明各权重矩阵 \(\boldsymbol U,\boldsymbol W,\boldsymbol V\) 的含义。（\(3\) 分）

（2）写出双向循环神经网络在 \(t\) 时刻的前向隐状态 \(\overrightarrow{\boldsymbol h}_t\)、后向隐状态 \(\overleftarrow{\boldsymbol h}_t\) 以及拼接后的隐状态 \(\boldsymbol h_t\) 的表达式。（\(3\) 分）

（3）列举 \(5\) 种循环神经网络，并指出其中哪两种是基于门控机制的。（\(2\) 分）