Transformer Attention 机制原理

1. 核心思想

Attention 的本质是一个加权求和：给定一组信息，根据"相关性"动态决定每条信息应该被关注多少。

数学表达：

Attention (Q, K, V) = softmax (\frac{Q K^{T}}{\sqrt{d_{k}}}) V

同一个输入 $X$ 通过三个不同的线性变换，投射到三个不同的语义子空间：

计算流程：

这就是最朴素的自注意力。问题在于："匹配"和"取值"用的是同一个表示。一个 token 的表示既要负责"被别人找到"，又要负责"提供内容"，这两个目标经常是矛盾的。模型的表达能力被严重限制。

Q 和 K 共享参数意味着注意力矩阵是对称的：A 对 B 的关注度 = B 对 A 的关注度。但语言中关系天然是不对称的——"猫追老鼠"中，"追"对"猫"和"老鼠"的关注模式完全不同。Q ≠ K 才能建模这种非对称关系。

三个恰好是最小充分的设计——再少会丢失表达能力，再多（比如加第四个矩阵）没有带来本质上新的功能维度
。

Attention 的 QKV 设计体现了几个深刻的工程与数学直觉：

关注点分离 (Separation of Concerns)：把"用什么去匹配"、"凭什么被匹配"、"匹配后给什么"拆成三个独立的可学习变换，每个子空间专注一个职责。
最小充分原则：三个矩阵是实现"非对称匹配 + 内容与索引解耦"所需的最少参数。不多不少，恰好覆盖了信息检索的三个基本角色。
从信息检索到可微计算：QKV 本质上是把数据库查询（query → key matching → value retrieval）这个离散过程，变成了一个端到端可微分的软检索。这是 Transformer 能用梯度下降训练的关键。
对称性的主动打破：自然语言中的关系是有方向的。通过让 Q 和 K 使用不同的投影，模型获得了建模有向关系的能力，这比对称模型（如简单的相似度计算）强大得多。