Transformer 必背:七大技术 + 核心公式(书本 / PPT 对齐版)¶
- 章节:第26章 · Transformer(简答必考 · 老师"这 7 个技术必须要会")
- 对齐说明:七大技术与各公式课本 p.477–485 与 PPT slide_046–050 基本一致;唯一不一致是位置编码(见下,⚠️)。
一、七大技术 + 作用(背诵主体,课本 p.482「模型特点」= PPT slide_050 原文)¶
Transformer 是完全基于注意力机制的序列到序列模型。主要技术:
- 基于注意力的编码、解码、编解码信息传递——完全靠注意力生成表示。
- 多头注意力——增强表示能力(描述单词间不同侧面的关系)。
- 前馈神经网络——做非线性变换,增强表示能力。
- 残差连接——增强表示能力(加法捷径;课本另强调"没有残差连接易使位置信息丢失"p.481)。
- 掩码自注意力——解码器用,遮住未来位置 → 保证自回归 → 实现并行训练。
- 位置编码——表示序列的位置信息(注意力无顺序性,需人为加)。
- 层归一化——提高学习效率。
助记:注意力打底 → 多头/前馈/残差三个"增强表示" → 掩码(并行)/位置(顺序)/层归一(效率)三个"补功能"。 超参数(填空):层数 \(l=6\)、头数 \(h=8\)、模型维度 \(d_m=512\)。
二、要背·会默写的公式(高频)¶
① 注意力(式 26.21,课本 = PPT 一致,核心)¶
单向量版:\(e(q,k_i)=\dfrac{q^{\mathsf T}k_i}{\sqrt d}\),\(\ v=\sum_i\alpha(q,k_i)\,v_i\),\(\ \sum_i\alpha=1\)。 (除以 \(\sqrt{d_k}\) 的原因见 [[注意力为什么除以根号d-尺度变换避免梯度消失]]。)Q/K/V:自注意力时三者同源;编解码注意力时 Q 来自解码器、K/V 来自编码器。
② 位置编码(⚠️ 背 PPT 版,但注意与课本不一致)¶
老师 PPT(slide_048,重点划线,要背)——固定的正余弦编码:
\(pos\)=单词位置(从 0 起),\(2i/2i{+}1\)=偶/奇维度索引,\(d_{model}\)=向量总维度;位置向量与词向量相加。
⚠️ 课本正文不是这个:课本式 26.27 用 \(e+p\),位置嵌入 \(p\) 是"在学习中自动获得"(learned);sin/cos 只在课本脚注作为"原始论文的经验公式"提了一句(p.481)。考试按老师 PPT 背 sin/cos,但要知道课本正文用的是"学习得到的位置嵌入"。
三、配套公式("认得 / 一句话"即可,不用默写)¶
- 残差连接(课本式 26.29):\(z+f(z)\) —— 就是加法捷径,\(f\) 是注意力或前馈;缓解梯度消失、保住位置信息。
- 前馈网络 FFN(课本式 26.28):\(\text{ffn}(z)=W_2\,\text{relu}(W_1z+b_1)+b_2\) —— 两层全连接 + ReLU(2048→512)。
- 层归一化(课本式 26.30):\(\text{norm}(z)=\gamma\dfrac{z-u\mathbf 1}{\sqrt{\sigma^2+\varepsilon}}+\beta\mathbf 1\) —— 对每列(每个位置)归一化,参数 \(\gamma,\beta\);了解即可。
- 多头注意力(式 26.22/26.23):\(\text{multi\_attend}=W_o\,\text{concat}(U_1,\dots,U_h)\),\(U_i=\text{attend}(W_Q^{(i)}Q,W_K^{(i)}K,W_V^{(i)}V)\) —— 背"过程"(投影到 \(h\) 个子空间→各自注意力→拼接→线性变换)+ 关系 \(d_k=d_v=\dfrac{d_m}{h}\);完整式认得即可。
- 掩码 M(式见 slide_049):\(\text{softmax}\big((K^{\mathsf T}Q+M)/\sqrt{d_k}\big)\),\(m_{ij}=0\,(i\le j)\)、\(-\infty\,(\text{其他})\) —— 背思想:给未来位置加 \(-\infty\),softmax 后≈0 → 看不到未来;\(-\infty\) 这个值可能填空。
四、背 / 了解 分档表¶
| 档 | 内容 |
|---|---|
| 背公式·会默写 | 注意力 attend(式26.21);位置编码 sin/cos(PPT版);七大技术名字+作用 |
| 背思想·认得式 | 残差=加法 z+f(z);掩码=未来位置加 −∞;多头=投影→子空间→拼接→线性变换、\(d_k=d_v=d_m/h\) |
| 只了解结构 | 编码层/解码层组合式(26.31–26.37);FFN、层归一化的完整式;输入层 \(H^{(0)}=E+P\);超参数 \(l{=}6,h{=}8,d_m{=}512\) |
出处¶
课本:p.482/485 七大技术(模型特点+概要);式26.21 注意力、26.22/26.23 多头、26.28 FFN、26.29 残差、26.30 层归一化、26.27 位置嵌入(学习获得)、脚注 sin/cos;掩码 M 见 PPT slide_049。PPT:slide_046(注意力)、slide_048(位置编码 sin/cos,重点划线)、slide_049(多头/掩码/残差/层归一化)、slide_050(七大特点)。相关:[[注意力为什么除以根号d-尺度变换避免梯度消失]]。