Transformer 必背：七大技术 + 核心公式（书本 / PPT 对齐版）¶

章节：第26章 · Transformer（简答必考 · 老师"这 7 个技术必须要会"）
对齐说明：七大技术与各公式课本 p.477–485 与 PPT slide_046–050 基本一致；唯一不一致是位置编码（见下，⚠️）。

一、七大技术 + 作用（背诵主体，课本 p.482「模型特点」= PPT slide_050 原文）¶

Transformer 是完全基于注意力机制的序列到序列模型。主要技术：

基于注意力的编码、解码、编解码信息传递——完全靠注意力生成表示。
多头注意力——增强表示能力（描述单词间不同侧面的关系）。
前馈神经网络——做非线性变换，增强表示能力。
残差连接——增强表示能力（加法捷径；课本另强调"没有残差连接易使位置信息丢失"p.481）。
掩码自注意力——解码器用，遮住未来位置 → 保证自回归 → 实现并行训练。
位置编码——表示序列的位置信息（注意力无顺序性，需人为加）。
层归一化——提高学习效率。

助记：注意力打底 → 多头/前馈/残差三个"增强表示" → 掩码(并行)/位置(顺序)/层归一(效率)三个"补功能"。 超参数（填空）：层数 \(l=6\)、头数 \(h=8\)、模型维度 \(d_m=512\)。

二、要背·会默写的公式（高频）¶

① 注意力（式 26.21，课本 = PPT 一致，核心）¶

\[\text{attend}(Q,K,V)=V\cdot\text{softmax}\!\Big(\frac{K^{\mathsf T}Q}{\sqrt{d_k}}\Big)\]

单向量版：\(e(q,k_i)=\dfrac{q^{\mathsf T}k_i}{\sqrt d}\)，\(\ v=\sum_i\alpha(q,k_i)\,v_i\)，\(\ \sum_i\alpha=1\)。（除以 \(\sqrt{d_k}\) 的原因见 [[注意力为什么除以根号d-尺度变换避免梯度消失]]。）Q/K/V：自注意力时三者同源；编解码注意力时 Q 来自解码器、K/V 来自编码器。

② 位置编码（⚠️ 背 PPT 版，但注意与课本不一致）¶

老师 PPT（slide_048，重点划线，要背）——固定的正余弦编码：

\[PE_{(pos,\,2i)}=\sin\!\Big(\frac{pos}{10000^{\,2i/d_{model}}}\Big),\qquad PE_{(pos,\,2i+1)}=\cos\!\Big(\frac{pos}{10000^{\,2i/d_{model}}}\Big)\]

\(pos\)=单词位置（从 0 起），\(2i/2i{+}1\)=偶/奇维度索引，\(d_{model}\)=向量总维度；位置向量与词向量相加。

⚠️ 课本正文不是这个：课本式 26.27 用 \(e+p\)，位置嵌入 \(p\) 是"在学习中自动获得"（learned）；sin/cos 只在课本脚注作为"原始论文的经验公式"提了一句（p.481）。考试按老师 PPT 背 sin/cos，但要知道课本正文用的是"学习得到的位置嵌入"。

三、配套公式（"认得 / 一句话"即可，不用默写）¶

残差连接（课本式 26.29）：\(z+f(z)\) —— 就是加法捷径，\(f\) 是注意力或前馈；缓解梯度消失、保住位置信息。
前馈网络 FFN（课本式 26.28）：\(\text{ffn}(z)=W_2\,\text{relu}(W_1z+b_1)+b_2\) —— 两层全连接 + ReLU（2048→512）。
层归一化（课本式 26.30）：\(\text{norm}(z)=\gamma\dfrac{z-u\mathbf 1}{\sqrt{\sigma^2+\varepsilon}}+\beta\mathbf 1\) —— 对每列(每个位置)归一化，参数 \(\gamma,\beta\)；了解即可。
多头注意力（式 26.22/26.23）：\(\text{multi\_attend}=W_o\,\text{concat}(U_1,\dots,U_h)\)，\(U_i=\text{attend}(W_Q^{(i)}Q,W_K^{(i)}K,W_V^{(i)}V)\) —— 背"过程"（投影到 \(h\) 个子空间→各自注意力→拼接→线性变换）+ 关系 \(d_k=d_v=\dfrac{d_m}{h}\)；完整式认得即可。
掩码 M（式见 slide_049）：\(\text{softmax}\big((K^{\mathsf T}Q+M)/\sqrt{d_k}\big)\)，\(m_{ij}=0\,(i\le j)\)、\(-\infty\,(\text{其他})\) —— 背思想：给未来位置加 \(-\infty\)，softmax 后≈0 → 看不到未来；\(-\infty\) 这个值可能填空。

四、背 / 了解分档表¶

档	内容
背公式·会默写	注意力 attend（式26.21）；位置编码 sin/cos（PPT版）；七大技术名字+作用
背思想·认得式	残差=加法 `z+f(z)`；掩码=未来位置加 −∞；多头=投影→子空间→拼接→线性变换、\(d_k=d_v=d_m/h\)
只了解结构	编码层/解码层组合式（26.31–26.37）；FFN、层归一化的完整式；输入层 \(H^{(0)}=E+P\)；超参数 \(l{=}6,h{=}8,d_m{=}512\)

出处¶

课本：p.482/485 七大技术（模型特点+概要）；式26.21 注意力、26.22/26.23 多头、26.28 FFN、26.29 残差、26.30 层归一化、26.27 位置嵌入(学习获得)、脚注 sin/cos；掩码 M 见 PPT slide_049。PPT：slide_046（注意力）、slide_048（位置编码 sin/cos，重点划线）、slide_049（多头/掩码/残差/层归一化）、slide_050（七大特点）。相关：[[注意力为什么除以根号d-尺度变换避免梯度消失]]。