DeepSeek-V3.2 深度拆解：国产大模型如何通过 DSA 机制与强化学习挺进 AI “无人区”

DeepSeek-V3.2 是深度求索发布的最新旗舰模型，其核心突破包括：引入 DeepSeek Sparse Attention (DSA) 显著降低长文本计算开销；通过大规模强化学习（RL）将模型推理能力推向金牌奥赛水平；以及构建了大规模智能体任务合成流水线，大幅提升了模型在复杂环境下的交互表现。

DeepSeek-V3.2 深度拆解：国产大模型如何通过 DSA 机制与强化学习挺进 AI “无人区” Vol. 2025 • No. 1 Slideify Arxiv Research Dec 02 DeepSeek-V3.2 深度拆解 DeepSeek-AI Research Team DeepSeek-AI ☞ In Brief • DSA 稀疏注意力成功攻克了超长文本下的算力瓶颈，实现 O(Lk) 复杂度推理。 • 后训练阶段的 RL 算力投入占比超过预训练成本的 10%，重新定义了 Scaling Law 在 RL 阶段的应用。 • DeepSeek-V3.2-Speciale 在 2025 年国际奥林匹克竞赛（IMO/IOI）中取得金牌级表现，标志着开源模型推理能力的巅峰。 DeepSeek-V3.2 是深度求索发布的最新旗舰模型，其核心突破包括：引入 DeepSeek Sparse Attention (DSA) 显著降低长文本计算开销；通过大规模强化学习（RL）将模型推理能力推向金牌奥赛水平；以及构建了大规模智能体任务合成流水线，大幅提升了模型在复杂环境下的交互表现。在生成式人工智能的赛场上，闭源模型（如 OpenAI 的 GPT 系列和 Google 的 Gemini 系列）与开源模型之间一直存在着一条微妙的鸿沟。然而，随着深度求索（DeepSeek-AI）发布 DeepSeek-V3.2 ，这条鸿沟正在被加速填平。V3.2 不仅仅是一次常规的版本更新，它代表了 AI 架构从“暴力堆算力”向“极致效率与深度思考”的范式转移。当年，ChatGPT 的出现让世界见证了人类反馈强化学习（RLHF）的魔力；随后，o1 系列又展示了“思考链（CoT）”在复杂推理中的潜力。DeepSeek-V3.2 则通过其独创的 DSA（DeepSeek Sparse Attention）和超大规模 GRPO（Group Relative Policy Optimization）强化学习框架，证明了开源模型同样可以在奥赛级别的逻辑推理中击败全球顶尖的闭源巨头。 § 1. 架构革新：DeepSeek Sparse Attention 传统 Transformer 架构的核心是注意力机制（Vanilla Attention），其计算复杂度随序列长度 $L$ 呈平方级增长（$O(L^2)$）。在处理 128K 甚至更长的上下文时，这种增长会导致内存和计算资源的灾难性匮乏。 FIG 1. DSA ARCHITECTURE BLUEPRINT Query Token Lightning Indexer (FP8) Top-k Selection Sparse Attention O(Lk) Coarse-grained Filtering Figure 1. The DeepSeek Sparse Attention mechanism pipeline showing the efficiency flow. DeepSeek-V3.2 引入了 DSA 。该机制通过以下两个核心组件，将核心注意力复杂度降低至 $O(Lk)$（其中 $k$ 为选定的 token 数量）： Lightning Indexer Formula: I_{t,s} = \sum_{j=1}^{H^I} w^I_{t,j} \cdot \text{ReLU}(q^I_{t,j} \cdot k^I_s) 1. 闪电索引器（Lightning Indexer）：计算查询 token 与前序 token 之间的索引分量。为了保证吞吐量，索引器采用了极致精简的多头结构，并支持 FP8 精度实现，效率极高。 2. 细粒度 Token 选择：根据索引分数，仅检索前 $k$ 个键值对进入核心注意力计算，极大减少了无效计算。DeepSeek 此前在 V3 中提出了 MLA（Multi-head Latent Attention）来压缩 KV 缓存。在 V3.2 中，DSA 进一步与 MQA 模式结合，实现了在 Kernel 层面的高效算子融合。 * * * 2. 后训练的奇迹：RL 的 Scaling Law DeepSeek 团队认为，大模型的能力上限不再仅仅取决于预训练的数据规模，更取决于后训练（Post-training）阶段的“计算密度”。在 DeepSeek-V3.2 的训练中，团队将后训练阶段的计算预算提升到了预训练成本的 10% 以上。通过改进后的 GRPO 算法，模型在海量推理数据中自我对弈、自我纠错。 Comparative Benchmark Performance Fig 2. DeepSeek-V3.2 competes directly with closed-source giants on math and reasoning benchmarks. > "DeepSeek-V3.2 在开源模型中几乎全面压制同类竞品，且在数学奥赛（AIME）上展现出极高的稳定性。" Benchmark (Metric) GPT-5 High Gemini-3.0 Pro DeepSeek-V3.2 Kimi-K2 MMLU-Pro (EM) 87.5 90.1 85.0 84.6 GPQA Diamond 85.7 91.9 82.4 84.5 HLE (Pass@1) 26.3 37.7 25.1 23.9 AIME 2025 94.6 95.0 93.1 94.5 HMMT Feb 2025 88.3 97.5 92.5 89.4 Codeforces 2537 2708 2386 - SWE Verified 74.9 76.2 73.1 71.3 Data highlights: Bold indicates category leader. DeepSeek-V3.2 performs competitively despite open weights. 3. 智能体与 Speciale 变体为了让 DeepSeek-V3.2 成为真正的 Agent，团队开发了一个革命性的大规模任务合成流水线。团队自动合成了 1,827 个任务导向型环境和 85,000 个复杂提示词。这些任务包括但不限于行程规划、软件 Issue 修复、多步代码执行等。通过这种方式，DeepSeek-V3.2 在 Terminal Bench 2.0 中取得了 46.4 的优异成绩。在发布正式版的同时，深度求索还披露了一个实验性版本—— Speciale 。这个模型去掉了强化学习中的长度惩罚，允许模型进行无限度的思考。 IMO 2025: 获得金牌表现 IOI 2025: 获得金牌表现 ICPC World Final 2025: 获得金牌表现这标志着开源 AI 已经在逻辑推理深度上触及了人类智力的巅峰。尽管 Speciale 版本的 Token 效率相对较低，但它为“慢思考”模型提供了未来的蓝图。 4. 结论与未来 DeepSeek-V3.2 的发布证明了中国 AI 团队在算法底层创新上的深厚底蕴。通过 DSA 稀疏注意力和大规模 RL 的协同，DeepSeek 成功绕过了单纯依赖硬件规模扩张的“算力陷阱”，转而追求更高的“智力密度”。总结：如果你需要一个既能处理超长文档，又能在数学和代码领域提供专业建议，同时具备极高性价比的 AI 伙伴，DeepSeek-V3.2 无疑是当下的最佳选择。 References Vaswani et al. (2017). Attention is all you need. DeepSeek-AI (2025). DeepSeek-V3 technical report. Schulman (2020). Approximating KL divergence. DeepSeek-AI (2025). DeepSeek-R1: Incentivizing reasoning in llms through reinforcement learning. Shao et al. (2025). Towards robust mathematical reasoning. © 2025 Slideify.app • Generated by Slideify Arxiv