《深度学习》期末样卷(A 卷)¶
符号约定(全卷统一)
-
线性变换(净输入)一律写 \(\boldsymbol z=\boldsymbol W^{\mathsf T}\boldsymbol x+\boldsymbol b\)(\(\boldsymbol w\) 与 \(\boldsymbol x\) 做内积);输出层同理 \(\hat{\boldsymbol y}=g(\boldsymbol W^{\mathsf T}\boldsymbol h+\boldsymbol b)\)。
-
数学模型公式中偏置 \(+\boldsymbol b\) 必须写出(即使其取值为 \(\boldsymbol 0\)),结构图上画不画偏置均可。
-
\(\odot\) 表示逐元素(Hadamard)乘积;\(\sigma\) 表示 Sigmoid 函数;\(\operatorname{sign}(\cdot)\) 表示符号函数。
一、填空题(每题 \(2\) 分,共 \(10\) 题,共 \(20\) 分;含多空者须全部答对方得分)¶
- 人工智能、机器学习、表示学习、深度学习四者是层层包含关系。按"被包含 \(\to\) 包含"由小到大排列为:
-
单个神经元的数学模型为 \(y=a(z)\),其净输入(仿射函数)写作 \(z=\underline{\qquad\qquad}\);其中 \(a(\cdot)\) 称为 \(\underline{\qquad\qquad}\) 函数。
-
Sigmoid 函数 \(\sigma(z)=\dfrac{1}{1+e^{-z}}\) 的导数 \(\sigma'(z)=\underline{\qquad\qquad}\);ReLU 函数 \(\max(0,z)\) 在 \(z>0\) 处的导数为 \(\underline{\qquad\qquad}\)。
-
对于多分类任务,输出层一般采用 \(\underline{\qquad\qquad}\) 激活函数,并配合 \(\underline{\qquad\qquad}\) 损失函数。
-
在深度学习中,"卷积"实际指 \(\underline{\qquad\qquad}\) 运算;当输入为 \(M\times N\)、卷积核为 \(W\times W\)、填充为 \(P\)、步幅为 \(S\) 时,卷积输出特征图的高(行数)为 \(\underline{\qquad\qquad}\)。
-
卷积神经网络的三大性质是:参数共享(表示效率高)、\(\underline{\qquad\qquad}\) 和 \(\underline{\qquad\qquad}\)(神经元所能"看到"的输入区域)。
-
支持向量机对偶问题的解 \(\boldsymbol\alpha^*\) 中,满足 \(\underline{\qquad\qquad}\) 的样本点称为支持向量;软间隔对偶相比硬间隔对偶,唯一区别是把约束 \(\alpha_i\ge0\) 改为 \(\underline{\qquad\qquad}\)。
-
Adam 优化算法可视为 \(\underline{\qquad\qquad}\) 法与 \(\underline{\qquad\qquad}\) 算法两者的结合,并额外引入了偏差校正。
-
暂退法(Dropout)中的 \(p\) 是神经元的 \(\underline{\qquad\qquad}\) 概率(填"保留"或"丢弃");它作用于输入层与隐层,但 \(\underline{\qquad\qquad}\) 层不参与暂退。
-
基于门控机制的两种循环神经网络分别是 \(\underline{\qquad\qquad}\) 和 \(\underline{\qquad\qquad}\);Transformer 完全依赖 \(\underline{\qquad\qquad}\) 机制,并通过 \(\underline{\qquad\qquad}\) 为序列注入位置信息。
二、简答题(每题 \(6\) 分,共 \(30\) 分)¶
-
(绪论) 简述人工智能、机器学习、表示学习、深度学习四者之间的隶属关系,并用韦恩图示意;再写出"人工神经网络"的一种定义。
-
(前馈网络 · 激活函数) 写出三种常用激活函数的名称、数学表达式 \(a(z)\) 及其导数 \(a'(z)\);并说明在回归、二分类、多分类三种任务中,输出层激活函数应分别如何选择。
-
(支持向量机) 支持向量机通常分为哪三类?分别对应什么样的数据情形?写出软间隔支持向量机的对偶问题(目标函数与约束条件),并指出它与硬间隔对偶问题的唯一区别。
-
(优化算法) 围绕梯度下降的改进,简述 \(\mathrm{SGD}\)、动量法(\(\mathrm{Momentum}\))、\(\mathrm{RMSProp}\)、\(\mathrm{Adam}\) 四者的关系与各自要点(\(\mathrm{Adam}\) 由谁与谁结合而来);并简述批量归一化(\(\mathrm{BN}\))的两条主要作用。
-
(序列到序列 · Transformer) 列出 Transformer 的七大核心技术(组件);并写出注意力机制的计算式,说明为什么要除以 \(\sqrt{d_k}\)。
三、计算题(共 \(32\) 分,可带计算器,须写出主要步骤)¶
1.(卷积与池化,\(10\) 分)¶
已知输入特征图 \(\boldsymbol I\) 与卷积核 \(\boldsymbol W\)(偏置 \(b=0\)):
(1)取步幅 \(S=1\)、填充 \(P=0\),计算输出特征图 \(\boldsymbol Y=\boldsymbol W*\boldsymbol I\) 及其尺寸。(\(4\) 分)
(2)分别写出 \(S=2,\ P=0\) 与 \(S=1,\ P=1\) 两种设置下输出特征图的尺寸(只需尺寸)。(\(3\) 分)
(3)对特征图 \(\boldsymbol F\),分别用 \(2\times2\)、步幅 \(2\) 的最大池化与平均池化,给出池化后的特征图。(\(3\) 分)
2.(前馈网络:前向 \(+\) 反向传播,\(12\) 分)¶
考虑一个单隐层前馈网络(含两个参数层):输入 \(\boldsymbol x\in\mathbb R^2\) 经第一层线性变换后过 \(\mathrm{ReLU}\),再经第二层线性变换得到标量输出 \(\hat y\)(输出层为恒等激活)。按本课约定 \(\boldsymbol z=\boldsymbol W^{\mathsf T}\boldsymbol x+\boldsymbol b\)。已知:
损失函数为均方误差 \(L=\tfrac12(\hat y-y)^2\)。
(1)写出该网络的数学模型表达式(含偏置),并计算前向传播结果 \(\hat y\) 与损失 \(L\)。(\(5\) 分)
(2)基于反向传播算法,计算误差项 \(\delta^{(2)}\)、\(\boldsymbol\delta^{(1)}\),以及损失对参数的梯度 \(\dfrac{\partial L}{\partial \boldsymbol W_2}\)、\(\dfrac{\partial L}{\partial b_2}\)、\(\dfrac{\partial L}{\partial \boldsymbol W_1}\)、\(\dfrac{\partial L}{\partial \boldsymbol b_1}\)。(\(7\) 分)
3.(支持向量机:核函数,\(10\) 分)¶
对以下 \(4\) 个训练样本(异或型,线性不可分),取多项式核 \(K(\boldsymbol x,\boldsymbol z)=(1+\boldsymbol x^{\mathsf T}\boldsymbol z)^2\):
(1)计算对称核矩阵 \(\boldsymbol K=[K(\boldsymbol x_i,\boldsymbol x_j)]_{4\times4}\)。(\(4\) 分)
(2)写出求解该核支持向量机的对偶问题(目标函数与约束条件,用核 \(K\) 表示)。(\(3\) 分)
(3)写出基于核函数的支持向量机决策函数的一般表达式。(\(3\) 分)
四、解答题(共 \(18\) 分)¶
1.(前馈网络综合,\(10\) 分)¶
已知一个三层前馈神经网络:输入 \(\boldsymbol x=(x_1,x_2,x_3,x_4)^{\mathsf T}\)(\(4\) 维),第一隐层 \(5\) 个神经元,第二隐层 \(4\) 个神经元,输出 \(\boldsymbol y=(y_1,y_2,y_3)^{\mathsf T}\)(\(3\) 维)。
(1)画出该网络的结构图,标注清楚输入层、各隐层、输出层及连接(偏置可画可不画)。(\(3\) 分)
(2)写出整个网络的数学模型表达式(公式中必须含偏置),各层激活函数记为 \(\sigma_1,\sigma_2,\sigma_3\),权重矩阵记为 \(\boldsymbol W^{(1)},\boldsymbol W^{(2)},\boldsymbol W^{(3)}\),偏置记为 \(\boldsymbol b^{(1)},\boldsymbol b^{(2)},\boldsymbol b^{(3)}\)。(\(4\) 分)
(3)按本课约定 \(\boldsymbol z=\boldsymbol W^{\mathsf T}\boldsymbol x+\boldsymbol b\),给出每一层权重矩阵 \(\boldsymbol W^{(t)}\) 与偏置向量 \(\boldsymbol b^{(t)}\) 的维数。(\(3\) 分)
2.(循环神经网络,\(8\) 分)¶
(1)写出简单循环神经网络(SRNN)的数学模型(隐状态更新式与输出式各一行),并说明各权重矩阵 \(\boldsymbol U,\boldsymbol W,\boldsymbol V\) 的含义。(\(3\) 分)
(2)写出双向循环神经网络在 \(t\) 时刻的前向隐状态 \(\overrightarrow{\boldsymbol h}_t\)、后向隐状态 \(\overleftarrow{\boldsymbol h}_t\) 以及拼接后的隐状态 \(\boldsymbol h_t\) 的表达式。(\(3\) 分)
(3)列举 \(5\) 种循环神经网络,并指出其中哪两种是基于门控机制的。(\(2\) 分)