改变AI命运的架构：Transformer深度解构与大模型时代的开端

本文介绍了一种名为Transformer的新型神经网络架构，该架构完全摒弃了传统的循环（Recurrent）和卷积（Convolutional）结构，转而依靠自注意力机制来处理序列数据。实验证明，该模型在机器翻译任务上不仅取得了当时的SOTA成绩，且在训练效率和并行化处理方面具有压倒性优势。

改变AI命运的架构：Transformer深度解构与大模型时代的开端 Slideify Arxiv Research VOL. 2017 • NO. 1 Attention Is All You Need 改变AI命运的架构：Transformer深度解构与大模型时代的开端 Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin Google Brain • Google Research • University of Toronto 在人工智能的发展史上，2017年6月12日是一个值得铭记的日子。当时，来自Google Brain和Google Research的八位研究员在arXiv上提交了一篇标题略显傲慢的论文——《Attention Is All You Need》。这篇文章不仅改变了机器翻译的路径，更是直接催生了后来的BERT、GPT系列，乃至今日引爆全球的ChatGPT。在Transformer出现之前，自然语言处理（NLP）领域长期被循环神经网络（RNN）及其变体LSTM、GRU统治。尽管这些模型在处理序列数据方面有天然优势，但它们有一个致命的弱点：无法并行化。你必须先处理完前一个单词，才能处理下一个。这种“排队等候”的模式在面对海量互联网数据时，显得极其低效。 ☞ In Brief: Key Takeaways 彻底摆脱了递归依赖，实现了训练过程的高度并行化。引入Multi-Head Attention，显著增强了模型捕获复杂语义关系的能力。作为所有现代LLM（如GPT-4, Claude, Llama）的鼻祖，重新定义了深度学习的范式。 RNN的黄昏与Transformer的崛起在深度学习的旧时代，我们试图通过增加神经网络的深度来解决复杂问题。但在序列建模中，长距离依赖一直是难以攻克的顽疾。当一句话超过50个词时，LSTM往往会“忘记”句首的信息。虽然卷积神经网络（CNN）试图通过并行处理来加速，但受限于卷积核的感受野，捕捉全局依赖依然需要堆叠大量的层。 Transformer的出现，宣告了一种全新范式的到来：既然我们需要捕捉依赖关系，为什么不直接让每个词都和其他所有词“对话”呢？这就是“自注意力机制”（Self-Attention）的核心逻辑。 § 关键架构对比：为何Transformer更快？为了直观理解Transformer的优势，我们可以对比几种主流架构的计算复杂度（其中 n 是序列长度， d 是维度）：模型类型每层复杂度并行操作最大路径长度 Self-Attention O(n² · d) O(1) O(1) Recurrent (RNN) O(n · d²) O(n) O(n) Convolutional (CNN) O(k · n · d²) O(1) O(log_k(n)) Table 1: Complexity Analysis showing Self-Attention's constant path length O(1). 由表可见，在Self-Attention中，任意两个位置之间的交互步数是常数 O(1) 。这意味着无论句子多长，模型都能瞬间捕捉到句首与句尾的联系。核心技术深度解构 2.1 缩放点积注意力 (Scaled Dot-Product Attention) Transformer的核心是Attention函数。它将输入映射为三个向量：查询（Query）、键（Key）和值（Value）。计算公式如下： Attention(Q, K, V) = softmax(QKᵀ / √dₖ)V 这里的 √dₖ 缩放因子是论文的一大贡献。随着维度的增加，点积的结果会变得极大，导致Softmax进入饱和区，梯度几乎消失。通过缩放，作者成功让训练变得平稳。 MatMul (Q × Kᵀ) Scale (1/√dₖ) Softmax MatMul (× V) Q K V Fig 1. Scaled Dot-Product Attention Mechanism. 2.2 多头注意力 (Multi-Head Attention) 如果只有一个注意力机制，模型可能只关注到了某一种特定的关系。作者通过“分身术”，将 d_model 维的向量投影到 h 个不同的子空间。这就像是一个句子被 h 个人同时阅读，有人关注语法，有人关注修辞，有人关注情感。最终将这些人的见解拼接起来，形成对文本的深度理解。 2.3 位置编码 (Positional Encoding) 由于Transformer在计算时不考虑单词的物理顺序（它是置换不变的），它必须通过某种方式学习“位置”。作者巧妙地利用了三角函数的周期性： PE(pos, 2i) = sin(pos / 10000^(2i/d)) PE(pos, 2i+1) = cos(pos / 10000^(2i/d)) 这种编码方式不仅能表示绝对位置，还能让模型更容易学习到相对位置关系，且理论上可以外推到训练时未见过的超长文本。 * * * 震撼性的实验结果在WMT 2014英德翻译任务上，Transformer取得了 28.4 BLEU 的成绩，比当时的最佳模型提高了 2个点以上。更令人震惊的是，它的训练成本仅为传统模型的几分之一。 Fig 2. WMT 2014 English-to-German Translation Accuracy (BLEU Score) 在英法翻译任务中，大版Transformer跑出了 41.8 BLEU ，刷新了单模型的世界纪录。这种效率的提升，意味着我们终于可以开始利用更大规模的数据集，这直接铺平了通往“超大规模预训练模型”的道路。从2017到GPT-4 论文发表后的几年内，AI领域进入了寒武纪大爆发： Encoder-Only (BERT) ：利用Transformer的编码器进行双向语言理解，统治了判别式任务。 Decoder-Only (GPT) ：只保留解码器，利用自回归特性进行文本生成，最终演化出了ChatGPT。 Encoder-Decoder (T5) ：探索了通用的文本到文本架构。如今我们讨论的“长文本上下文（Long Context）”、“推理加速”等话题，其根源都在于Transformer。虽然现在出现了如Mamba等试图挑战其 O(n²) 复杂度的线性架构，但Transformer依然是工业界最稳固的基石。甚至在计算机视觉（ViT）和多模态（Sora）领域，Transformer也展现出了恐怖的泛化能力。 § 结论《Attention Is All You Need》的标题在当时看来极具煽动性，但时间证明了作者们的远见。它不仅是一种模型架构，更是一种哲学：通过全局对比和权重分配，模型可以自动学习到比人类手工设计的规则更深刻的特征。尽管未来的AI可能会演化出更节省算力的架构，但Transformer所确立的“自注意力+残差连接+层归一化”的大框架，已经成为了人类通往通用人工智能（AGI）进程中最坚实的阶梯。正如论文结尾所言，这种模型在非文本任务（如图像、音频）上的潜力才刚刚开始被发掘，而今天我们已经见证了这一切的发生。 References Vaswani, A., et al. (2017). Attention Is All You Need. Bahdanau, D., et al. (2014). Neural machine translation by jointly learning to align and translate. Sutskever, I., et al. (2014). Sequence to sequence learning with neural networks. Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Devlin, J., et al. (2018). BERT: Pre-training of deep bidirectional transformers for language understanding. © 2025 Slideify.app • Generated by Slideify Arxiv