跳转至

《深度学习》期末样卷(A 卷)

符号约定(全卷统一)

  • 线性变换(净输入)一律写 \(\boldsymbol z=\boldsymbol W^{\mathsf T}\boldsymbol x+\boldsymbol b\)\(\boldsymbol w\)\(\boldsymbol x\) 做内积);输出层同理 \(\hat{\boldsymbol y}=g(\boldsymbol W^{\mathsf T}\boldsymbol h+\boldsymbol b)\)

  • 数学模型公式中偏置 \(+\boldsymbol b\) 必须写出(即使其取值为 \(\boldsymbol 0\)),结构图上画不画偏置均可。

  • \(\odot\) 表示逐元素(Hadamard)乘积;\(\sigma\) 表示 Sigmoid 函数;\(\operatorname{sign}(\cdot)\) 表示符号函数。


一、填空题(每题 \(2\) 分,共 \(10\) 题,共 \(20\) 分;含多空者须全部答对方得分)

  1. 人工智能、机器学习、表示学习、深度学习四者是层层包含关系。按"被包含 \(\to\) 包含"由小到大排列为:
\[\underline{\qquad\qquad}\ \subseteq\ \underline{\qquad\qquad}\ \subseteq\ \underline{\qquad\qquad}\ \subseteq\ \underline{\qquad\qquad}\]
  1. 单个神经元的数学模型为 \(y=a(z)\),其净输入(仿射函数)写作 \(z=\underline{\qquad\qquad}\);其中 \(a(\cdot)\) 称为 \(\underline{\qquad\qquad}\) 函数。

  2. Sigmoid 函数 \(\sigma(z)=\dfrac{1}{1+e^{-z}}\) 的导数 \(\sigma'(z)=\underline{\qquad\qquad}\);ReLU 函数 \(\max(0,z)\)\(z>0\) 处的导数为 \(\underline{\qquad\qquad}\)

  3. 对于多分类任务,输出层一般采用 \(\underline{\qquad\qquad}\) 激活函数,并配合 \(\underline{\qquad\qquad}\) 损失函数。

  4. 在深度学习中,"卷积"实际指 \(\underline{\qquad\qquad}\) 运算;当输入为 \(M\times N\)、卷积核为 \(W\times W\)、填充为 \(P\)、步幅为 \(S\) 时,卷积输出特征图的高(行数)为 \(\underline{\qquad\qquad}\)

  5. 卷积神经网络的三大性质是:参数共享(表示效率高)、\(\underline{\qquad\qquad}\)\(\underline{\qquad\qquad}\)(神经元所能"看到"的输入区域)。

  6. 支持向量机对偶问题的解 \(\boldsymbol\alpha^*\) 中,满足 \(\underline{\qquad\qquad}\) 的样本点称为支持向量;软间隔对偶相比硬间隔对偶,唯一区别是把约束 \(\alpha_i\ge0\) 改为 \(\underline{\qquad\qquad}\)

  7. Adam 优化算法可视为 \(\underline{\qquad\qquad}\) 法与 \(\underline{\qquad\qquad}\) 算法两者的结合,并额外引入了偏差校正。

  8. 暂退法(Dropout)中的 \(p\) 是神经元的 \(\underline{\qquad\qquad}\) 概率(填"保留"或"丢弃");它作用于输入层与隐层,但 \(\underline{\qquad\qquad}\) 层不参与暂退。

  9. 基于门控机制的两种循环神经网络分别是 \(\underline{\qquad\qquad}\)\(\underline{\qquad\qquad}\);Transformer 完全依赖 \(\underline{\qquad\qquad}\) 机制,并通过 \(\underline{\qquad\qquad}\) 为序列注入位置信息。


二、简答题(每题 \(6\) 分,共 \(30\) 分)

  1. (绪论) 简述人工智能、机器学习、表示学习、深度学习四者之间的隶属关系,并用韦恩图示意;再写出"人工神经网络"的一种定义。

  2. (前馈网络 · 激活函数) 写出三种常用激活函数的名称、数学表达式 \(a(z)\) 及其导数 \(a'(z)\);并说明在回归、二分类、多分类三种任务中,输出层激活函数应分别如何选择。

  3. (支持向量机) 支持向量机通常分为哪三类?分别对应什么样的数据情形?写出软间隔支持向量机的对偶问题(目标函数与约束条件),并指出它与硬间隔对偶问题的唯一区别。

  4. (优化算法) 围绕梯度下降的改进,简述 \(\mathrm{SGD}\)、动量法(\(\mathrm{Momentum}\))、\(\mathrm{RMSProp}\)\(\mathrm{Adam}\) 四者的关系与各自要点(\(\mathrm{Adam}\) 由谁与谁结合而来);并简述批量归一化(\(\mathrm{BN}\))的两条主要作用。

  5. (序列到序列 · Transformer) 列出 Transformer 的七大核心技术(组件);并写出注意力机制的计算式,说明为什么要除以 \(\sqrt{d_k}\)


三、计算题(共 \(32\) 分,可带计算器,须写出主要步骤)

1.(卷积与池化,\(10\) 分)

已知输入特征图 \(\boldsymbol I\) 与卷积核 \(\boldsymbol W\)(偏置 \(b=0\)):

\[ \boldsymbol I=\begin{bmatrix}1&2&0&1&1\\0&1&2&0&1\\1&0&1&2&0\\2&1&0&1&1\\0&1&2&0&1\end{bmatrix}, \qquad \boldsymbol W=\begin{bmatrix}1&0&1\\0&1&0\\1&0&1\end{bmatrix}, \qquad \boldsymbol F=\begin{bmatrix}2&4&6&1\\6&4&3&2\\0&2&2&1\\7&3&0&1\end{bmatrix} \]

(1)取步幅 \(S=1\)、填充 \(P=0\),计算输出特征图 \(\boldsymbol Y=\boldsymbol W*\boldsymbol I\) 及其尺寸。(\(4\) 分)

(2)分别写出 \(S=2,\ P=0\)\(S=1,\ P=1\) 两种设置下输出特征图的尺寸(只需尺寸)。(\(3\) 分)

(3)对特征图 \(\boldsymbol F\),分别用 \(2\times2\)、步幅 \(2\)最大池化平均池化,给出池化后的特征图。(\(3\) 分)

2.(前馈网络:前向 \(+\) 反向传播,\(12\) 分)

考虑一个单隐层前馈网络(含两个参数层):输入 \(\boldsymbol x\in\mathbb R^2\) 经第一层线性变换后过 \(\mathrm{ReLU}\),再经第二层线性变换得到标量输出 \(\hat y\)(输出层为恒等激活)。按本课约定 \(\boldsymbol z=\boldsymbol W^{\mathsf T}\boldsymbol x+\boldsymbol b\)。已知:

\[ \boldsymbol x=\begin{bmatrix}2\\1\end{bmatrix},\quad \boldsymbol W_1=\begin{bmatrix}1&-1\\1&1\end{bmatrix},\quad \boldsymbol b_1=\begin{bmatrix}0\\0\end{bmatrix},\quad \boldsymbol W_2=\begin{bmatrix}1\\2\end{bmatrix},\quad b_2=0,\quad y=1 \]

损失函数为均方误差 \(L=\tfrac12(\hat y-y)^2\)

(1)写出该网络的数学模型表达式(含偏置),并计算前向传播结果 \(\hat y\) 与损失 \(L\)。(\(5\) 分)

(2)基于反向传播算法,计算误差项 \(\delta^{(2)}\)\(\boldsymbol\delta^{(1)}\),以及损失对参数的梯度 \(\dfrac{\partial L}{\partial \boldsymbol W_2}\)\(\dfrac{\partial L}{\partial b_2}\)\(\dfrac{\partial L}{\partial \boldsymbol W_1}\)\(\dfrac{\partial L}{\partial \boldsymbol b_1}\)。(\(7\) 分)

3.(支持向量机:核函数,\(10\) 分)

对以下 \(4\) 个训练样本(异或型,线性不可分),取多项式核 \(K(\boldsymbol x,\boldsymbol z)=(1+\boldsymbol x^{\mathsf T}\boldsymbol z)^2\)

\[ \boldsymbol x_1=\begin{bmatrix}-1\\-1\end{bmatrix},y_1=-1;\quad \boldsymbol x_2=\begin{bmatrix}-1\\1\end{bmatrix},y_2=+1;\quad \boldsymbol x_3=\begin{bmatrix}1\\-1\end{bmatrix},y_3=+1;\quad \boldsymbol x_4=\begin{bmatrix}1\\1\end{bmatrix},y_4=-1 \]

(1)计算对称核矩阵 \(\boldsymbol K=[K(\boldsymbol x_i,\boldsymbol x_j)]_{4\times4}\)。(\(4\) 分)

(2)写出求解该核支持向量机的对偶问题(目标函数与约束条件,用核 \(K\) 表示)。(\(3\) 分)

(3)写出基于核函数的支持向量机决策函数的一般表达式。(\(3\) 分)


四、解答题(共 \(18\) 分)

1.(前馈网络综合,\(10\) 分)

已知一个三层前馈神经网络:输入 \(\boldsymbol x=(x_1,x_2,x_3,x_4)^{\mathsf T}\)\(4\) 维),第一隐层 \(5\) 个神经元,第二隐层 \(4\) 个神经元,输出 \(\boldsymbol y=(y_1,y_2,y_3)^{\mathsf T}\)\(3\) 维)。

(1)画出该网络的结构图,标注清楚输入层、各隐层、输出层及连接(偏置可画可不画)。(\(3\) 分)

(2)写出整个网络的数学模型表达式(公式中必须含偏置),各层激活函数记为 \(\sigma_1,\sigma_2,\sigma_3\),权重矩阵记为 \(\boldsymbol W^{(1)},\boldsymbol W^{(2)},\boldsymbol W^{(3)}\),偏置记为 \(\boldsymbol b^{(1)},\boldsymbol b^{(2)},\boldsymbol b^{(3)}\)。(\(4\) 分)

(3)按本课约定 \(\boldsymbol z=\boldsymbol W^{\mathsf T}\boldsymbol x+\boldsymbol b\),给出每一层权重矩阵 \(\boldsymbol W^{(t)}\) 与偏置向量 \(\boldsymbol b^{(t)}\) 的维数。(\(3\) 分)

2.(循环神经网络,\(8\) 分)

(1)写出简单循环神经网络(SRNN)的数学模型(隐状态更新式与输出式各一行),并说明各权重矩阵 \(\boldsymbol U,\boldsymbol W,\boldsymbol V\) 的含义。(\(3\) 分)

(2)写出双向循环神经网络\(t\) 时刻的前向隐状态 \(\overrightarrow{\boldsymbol h}_t\)、后向隐状态 \(\overleftarrow{\boldsymbol h}_t\) 以及拼接后的隐状态 \(\boldsymbol h_t\) 的表达式。(\(3\) 分)

(3)列举 \(5\) 种循环神经网络,并指出其中哪两种是基于门控机制的。(\(2\) 分)