跳转至

Transformer 必背:七大技术 + 核心公式(书本 / PPT 对齐版)

  • 章节:第26章 · Transformer(简答必考 · 老师"这 7 个技术必须要会")
  • 对齐说明:七大技术与各公式课本 p.477–485 与 PPT slide_046–050 基本一致唯一不一致是位置编码(见下,⚠️)。

一、七大技术 + 作用(背诵主体,课本 p.482「模型特点」= PPT slide_050 原文)

Transformer 是完全基于注意力机制的序列到序列模型。主要技术:

  1. 基于注意力的编码、解码、编解码信息传递——完全靠注意力生成表示。
  2. 多头注意力——增强表示能力(描述单词间不同侧面的关系)。
  3. 前馈神经网络——做非线性变换,增强表示能力。
  4. 残差连接——增强表示能力(加法捷径;课本另强调"没有残差连接易使位置信息丢失"p.481)。
  5. 掩码自注意力——解码器用,遮住未来位置 → 保证自回归 → 实现并行训练
  6. 位置编码——表示序列的位置信息(注意力无顺序性,需人为加)。
  7. 层归一化——提高学习效率。

助记:注意力打底 → 多头/前馈/残差三个"增强表示" → 掩码(并行)/位置(顺序)/层归一(效率)三个"补功能"。 超参数(填空):层数 \(l=6\)、头数 \(h=8\)、模型维度 \(d_m=512\)

二、要背·会默写的公式(高频)

① 注意力(式 26.21,课本 = PPT 一致,核心)

\[\text{attend}(Q,K,V)=V\cdot\text{softmax}\!\Big(\frac{K^{\mathsf T}Q}{\sqrt{d_k}}\Big)\]

单向量版:\(e(q,k_i)=\dfrac{q^{\mathsf T}k_i}{\sqrt d}\)\(\ v=\sum_i\alpha(q,k_i)\,v_i\)\(\ \sum_i\alpha=1\)。 (除以 \(\sqrt{d_k}\) 的原因见 [[注意力为什么除以根号d-尺度变换避免梯度消失]]。)Q/K/V:自注意力时三者同源;编解码注意力时 Q 来自解码器、K/V 来自编码器。

② 位置编码(⚠️ 背 PPT 版,但注意与课本不一致)

老师 PPT(slide_048,重点划线,要背)——固定的正余弦编码

\[PE_{(pos,\,2i)}=\sin\!\Big(\frac{pos}{10000^{\,2i/d_{model}}}\Big),\qquad PE_{(pos,\,2i+1)}=\cos\!\Big(\frac{pos}{10000^{\,2i/d_{model}}}\Big)\]

\(pos\)=单词位置(从 0 起),\(2i/2i{+}1\)=偶/奇维度索引\(d_{model}\)=向量总维度;位置向量与词向量相加

⚠️ 课本正文不是这个:课本式 26.27 用 \(e+p\),位置嵌入 \(p\)"在学习中自动获得"(learned);sin/cos 只在课本脚注作为"原始论文的经验公式"提了一句(p.481)。考试按老师 PPT 背 sin/cos,但要知道课本正文用的是"学习得到的位置嵌入"。

三、配套公式("认得 / 一句话"即可,不用默写)

  • 残差连接(课本式 26.29):\(z+f(z)\) —— 就是加法捷径\(f\) 是注意力或前馈;缓解梯度消失、保住位置信息。
  • 前馈网络 FFN(课本式 26.28):\(\text{ffn}(z)=W_2\,\text{relu}(W_1z+b_1)+b_2\) —— 两层全连接 + ReLU(2048→512)。
  • 层归一化(课本式 26.30):\(\text{norm}(z)=\gamma\dfrac{z-u\mathbf 1}{\sqrt{\sigma^2+\varepsilon}}+\beta\mathbf 1\) —— 对每列(每个位置)归一化,参数 \(\gamma,\beta\);了解即可。
  • 多头注意力(式 26.22/26.23):\(\text{multi\_attend}=W_o\,\text{concat}(U_1,\dots,U_h)\)\(U_i=\text{attend}(W_Q^{(i)}Q,W_K^{(i)}K,W_V^{(i)}V)\) —— 背"过程"(投影到 \(h\) 个子空间→各自注意力→拼接→线性变换)+ 关系 \(d_k=d_v=\dfrac{d_m}{h}\);完整式认得即可。
  • 掩码 M(式见 slide_049):\(\text{softmax}\big((K^{\mathsf T}Q+M)/\sqrt{d_k}\big)\)\(m_{ij}=0\,(i\le j)\)\(-\infty\,(\text{其他})\) —— 背思想:给未来位置加 \(-\infty\),softmax 后≈0 → 看不到未来;\(-\infty\) 这个值可能填空。

四、背 / 了解 分档表

内容
背公式·会默写 注意力 attend(式26.21);位置编码 sin/cos(PPT版);七大技术名字+作用
背思想·认得式 残差=加法 z+f(z);掩码=未来位置加 −∞;多头=投影→子空间→拼接→线性变换、\(d_k=d_v=d_m/h\)
只了解结构 编码层/解码层组合式(26.31–26.37);FFN、层归一化的完整式;输入层 \(H^{(0)}=E+P\);超参数 \(l{=}6,h{=}8,d_m{=}512\)

出处

课本:p.482/485 七大技术(模型特点+概要);式26.21 注意力、26.22/26.23 多头、26.28 FFN、26.29 残差、26.30 层归一化、26.27 位置嵌入(学习获得)、脚注 sin/cos;掩码 M 见 PPT slide_049。PPT:slide_046(注意力)、slide_048(位置编码 sin/cos,重点划线)、slide_049(多头/掩码/残差/层归一化)、slide_050(七大特点)。相关:[[注意力为什么除以根号d-尺度变换避免梯度消失]]。