DeepSeek-R1:开启大模型“强化学习驱动”推理的新时代
本文详细介绍了DeepSeek-R1系列模型的开发历程。通过引入组相对策略优化(GRPO)算法,DeepSeek证明了即使没有初始的监督微调(SFT),纯强化学习也能激发出模型的复杂推理行为(如“自我反思”)。随后通过多阶段训练与蒸馏技术,R1在数学、编程等任务上达到了与OpenAI o1持平的顶级水平,并开源了从1.5B到70B的全系列蒸馏模型。
DeepSeek-R1:开启大模型“强化学习驱动”推理的新时代 Slideify Arxiv Research VOL. 2026 • NO. 1 R1 Series DeepSeek-R1 开启大模型“强化学习驱动”推理的新时代 DeepSeek-AI Team, Daya Guo, Dejian Yang, Haowei Zhang DeepSeek-AI, 杭州深度求索 摘要: 本文详细介绍了DeepSeek-R1系列模型的开发历程。通过引入组相对策略优化(GRPO)算法,DeepSeek证明了即使没有初始的监督微调(SFT),纯强化学习也能激发出模型的复杂推理行为(如“自我反思”)。随后通过多阶段训练与蒸馏技术,R1在数学、编程等任务上达到了与OpenAI o1持平的顶级水平,并开源了从1.5B到70B的全系列蒸馏模型。 ☞ 要点速览 (In Brief) 纯强化学习(RL)足以激发出大模型的逻辑推理、自我反思和错误修正能力,无需过度依赖人类标注。 GRPO算法通过省去Value Model,为超大规模参数模型的RL训练提供了一种极具成本效益的架构方案。 强大的推理模型可以作为‘教师’,通过蒸馏显著提升小参数模型(如1.5B/7B)的逻辑上限。 在人工智能的发展史上,我们长期习惯于让模型模仿人类。通过海量的监督微调(SFT),模型学会了像人一样说话。然而,2025年初DeepSeek-AI发布的 DeepSeek-R1 论文,向全球展示了另一种可能:如果不再让AI模仿人类的推理轨迹,而是让它在纯粹的强化学习规则下“自我进化”,会发生什么? 研究人员观察到了一个令人惊叹的现象——模型在训练中出现了一个“顿悟时刻”(Aha Moment)。它开始学会怀疑自己,会在推理中途停下来,说出“等一下”(Wait),然后推翻之前的结论重新开始。这种类似人类逻辑闭环的思维方式,并非由人类教导,而是为了获取更高的“准确奖励”而自发演化出来的。 § 历史背景:从“模仿”到“推理”的范式转移 在ChatGPT席卷全球后的两年里,业界意识到仅仅增加参数量无法解决深层逻辑问题。早期的思维链(Chain of Thought, CoT)主要依赖于人类提供的标注。然而,人类标注的逻辑轨迹不仅稀缺,而且带有固有的认知偏见。OpenAI o1的出现开启了“推理模型”的先河,但其技术细节始终深藏在黑盒之中。DeepSeek-R1的贡献在于,它不仅达到了顶尖的推理水平,更公开了一套完整的、基于 GRPO(Group Relative Policy Optimization) 的训练范式。 Fig 1. GRPO 算法架构蓝图 (Blueprint) Question (q) Old Policy π_old (No Critic) Group Sampling Output 1 → r1 Output 2 → r2 ... Output G → rG Compute Advantage GRPO 摒弃了传统的 Value Model,通过对同一问题生成多组输出并计算相对优势(Advantage)来优化策略,显著降低了显存消耗。 核心技术:GRPO算法的魔法 传统的强化学习(如PPO)通常需要一个与策略模型同等规模的“评论员模型”(Value Model),这在处理超大规模模型(如671B参数)时,硬件压力呈几何倍数增长。DeepSeek提出的GRPO算法,其核心思想是: 与其训练一个昂贵的打分员,不如让模型针对同一个问题输出多组结果,根据这组结果的相对优劣来决定学习方向。 // GRPO Objective Function J_GRPO(θ) = E [q ~ P(Q), {o_i} ~ π_old(O|q)] 1/G * Σ [ min( (π_θ/π_old) * A_i, clip(...) * A_i ) - β * D_KL ] 通过这种方式,显存占用大幅降低,使得大规模逻辑搜索成为可能。 DeepSeek-R1-Zero vs DeepSeek-R1 论文探讨了两种路径。R1-Zero是纯粹的RL实验,虽然逻辑极强,但输出像是一个“疯天才”——它会中英混杂,且思维跳跃。为了解决易读性问题,DeepSeek开发了正式版的R1,其多阶段管道如下: 冷启动SFT :使用数千条高质量人工编写的逻辑样本引导模型进入“思考模式”。 面向逻辑的RL :利用准确率奖励(Accuracy Reward)和格式奖励(Format Reward)强化逻辑。 拒绝采样与再微调 :筛选出RL阶段产生的最佳逻辑路径,重新微调模型,并加入非逻辑类数据(如写作、创意)。 对齐阶段 :通过人类偏好微调,确保模型不仅聪明,而且安全、好用。 “纯强化学习可诱导模型产生自我反思能力,并在数学编程领域比肩OpenAI o1。” 实验结果:中国AI的巅峰时刻 在数学竞赛和代码测试中,DeepSeek-R1展现了惊人的统治力。数据表明,DeepSeek-R1在 数学(AIME, MATH) 领域已经完全追平甚至微弱超越了OpenAI的旗舰模型,而在 代码(Codeforces) 领域也处于同一量级。这种性能阶跃标志着开源社区第一次在核心逻辑能力上不再对闭源巨头仰望。 Fig 2. 模型性能对比分析 (Model Performance Comparison) * Pass@1 Scores comparison across key benchmarks (AIME 2024, MATH-500, Codeforces Rating). 评测维度 (Metric) GPT-4o-0513 OpenAI o1-mini OpenAI o1-1217 DeepSeek-R1 AIME 2024 (Pass@1) 9.3% 63.6% 79.2% 79.8% MATH-500 (Pass@1) 74.6% 90.0% 96.4% 97.3% Codeforces (Rating) 759 1820 2061 2029 GPQA Diamond (Pass@1) 49.9% 60.0% 75.7% 71.5% 蒸馏:让小模型拥有大智慧 DeepSeek-R1最令开源界激动的举措是其“蒸馏策略”。论文指出,通过将R1生成的长逻辑链数据喂给小模型(如Qwen-7B、Llama-8B),这些小模型可以获得远超其参数规模的推理能力。例如, DeepSeek-R1-Distill-Qwen-32B 在多项指标上竟然超越了昂贵的GPT-4o。这改变了AI行业的竞争逻辑:未来,昂贵的推理算力可以被转化为高质量的数据,从而廉价地赋能给边缘侧和端侧设备。 局限性与未来:推理的终局? 尽管R1取得了成功,但DeepSeek团队依然保持清醒。目前的模型在软件工程任务上进步尚不明显,且存在过度思考(Overthinking)的问题——即在回答简单问题时也耗费大量Token。此外,多语言环境下的逻辑一致性仍需优化。未来的方向将聚焦于“测试时计算缩放”(Test-time Compute Scaling),即让模型根据问题的难度,自主分配思考的时长和深度。 结论 DeepSeek-R1不仅是一个更强大的模型,它更是一种宣言:强化学习才是大模型通往通用人工智能(AGI)逻辑核心的关键路径。它揭示了“慢思考”的价值,也证明了中国AI团队在底层算法创新上的全球领先地位。正如论文结尾所预示的,当AI学会了自我质疑和反思,它才真正踏上了通往智慧的阶梯。 常见问题解答 (FAQ) Q: DeepSeek-R1-Zero与DeepSeek-R1有什么区别? A: R1-Zero是直接在基础模型上通过纯强化学习(RL)训练的,展现了强大的原生推理能力但存在语言混杂和易读性差的问题;而R1则引入了冷启动数据、多阶段训练和拒绝采样,在保持推理能力的同时更符合人类表达习惯。 Q: 什么是GRPO算法? A: GRPO(Group Relative Policy Optimization)是DeepSeek提出的强化学习算法,它取消了传统PPO中的评论员(Critic)模型,通过组内得分的相对评价来估计优势函数,显著降低了显存消耗并提升了训练效率。 Q: DeepSeek-R1在数学竞赛中的表现如何? A: 在AIME 2024测试中,DeepSeek-R1达到了79.8%的Pass@1准确率,结合多数投票机制(cons@64)后更是提升至90%以上,性能与OpenAI o1-1217基本持平。 Q: 为什么R1训练过程中会出现“Aha Moment”? A: “Aha Moment”是指模型在RL过程中自主学会了审视之前的推理步骤并在发现错误时重新思考(如使用‘Wait’、‘Retry’等词汇),这标志着模型真正具备了自我反思和纠错的智能行为。 Q: 开源的蒸馏模型性能如何? A: DeepSeek将R1的推理能力蒸馏到了Qwen和Llama等小参数模型中。其中DeepSeek-R1-Distill-Llama-70B在多项基准测试中超越了GPT-4o和Claude-3.5-Sonnet,证明了逻辑推理能力是可以有效迁移的。 参考文献 (References) OpenAI (2023). GPT-4 Technical Report. Wei et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. Shao et al. (2024). DeepSeek-V3 Technical Report. Schulman et al. (2017). Proximal Policy Optimization Algorithms. Wang et al. (2023). Self-Consistency Improves Chain of Thought Prompting in Language Models. © 2025 Slideify.app • Generated by Slideify Arxiv