DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Abstract

我们介绍了第一代推理模型，DeepSeek-R1-Zero 和 DeepSeek-R1。
DeepSeek-R1-Zero 是通过大规模 强化学习（RL） 训练的模型，未经过 监督微调（SFT） 作为预处理步骤，展示了卓越的推理能力。通过强化学习，DeepSeek-R1-Zero 自然地具备了多种强大且引人注目的推理行为。然而，它也面临一些挑战，如 可读性差 和 语言混杂 等问题。为了应对这些问题并进一步提升推理性能，我们引入了 DeepSeek-R1，它在强化学习之前加入了 多阶段训练 和 冷启动数据。DeepSeek-R1 在推理任务中的表现与 OpenAI-o1-1217 相当。为了支持研究社区，我们将 DeepSeek-R1-Zero、DeepSeek-R1 和基于 Qwen 和 Llama 蒸馏的六个密集模型（1.5B、7B、8B、14B、32B、70B）开源。

Introduction

背景与挑战
- 近年来，大型语言模型（LLMs）迅速发展，逐渐缩小了与人工通用智能（AGI）之间的差距。
- 后训练（Post-training） 被证明能有效提升推理任务的准确性、与社会价值对齐，并适应用户偏好，同时所需计算资源较预训练少。
- 推理任务 的一个重要创新是 推理时扩展（inference-time scaling），例如 OpenAI 的 o1 系列通过增加 Chain-of-Thought（思维链）长度，显著提升了数学、编程和科学推理任务的表现。
DeepSeek-R1-Zero
- 采用纯 强化学习（RL） 训练，探索不依赖监督数据的推理能力提升。
- DeepSeek-V3-Base作为基础模型，结合 GRPO（Shao et al., 2024）框架，在推理基准测试中表现卓越：
  - AIME 2024 的 pass@1 分数 从 **15.6% 提升至 71.0%**，通过多数投票进一步提升至 **86.7%**，与 OpenAI-o1-0912 表现相当。
- 问题：存在 可读性差 和 语言混杂 等问题。
DeepSeek-R1
- 通过引入 冷启动数据 和 多阶段训练流程 解决了 DeepSeek-R1-Zero 的问题。
- 冷启动数据 用于微调模型，随后进行推理导向的 RL 训练。
- 完成 RL 收敛后，通过 拒绝采样（Rejection Sampling） 创建新的 SFT 数据，并结合 DeepSeek-V3 的监督数据进行再训练。
- 训练后的 DeepSeek-R1 模型在推理任务中表现与 OpenAI-o1-1217 相当。
蒸馏与小模型优化
- 从 DeepSeek-R1 蒸馏出更小的模型，使用 Qwen2.5-32B 作为基础模型，蒸馏结果优于直接应用 RL。
- 蒸馏出的 14B 模型超越了当前开源模型 QwQ-32B-Preview，而 32B 和 70B 模型在推理基准测试中设立了新的记录。
开源计划
- 开源了蒸馏后的 Qwen 和 Llama 系列模型，推动推理任务的进一步研究和应用。

总结

✅ DeepSeek-R1 通过多阶段训练与冷启动数据解决了推理中的可读性和语言混杂问题，展现了与 OpenAI-o1-1217 相当的推理能力。
✅ 蒸馏技术 成功将大模型的推理模式应用于小模型，并超越了现有的开源模型。
✅ 开源蒸馏模型 为推理任务研究提供了更强大的工具和更高的效能。

1.1. Contributions

Post-Training: Large-Scale Reinforcement Learning on the Base Model

直接应用 RL：无需依赖监督微调（SFT），通过 RL 训练基础模型，探索 Chain-of-Thought（CoT） 推理方法，成功开发 DeepSeek-R1-Zero。
DeepSeek-R1-Zero 展示了 自我验证、反思和生成长 CoT 等能力，标志着 LLM 推理能力的新突破。
首次验证：证明 LLM 推理能力可以通过纯 RL 激励实现，无需 SFT，为未来的研究提供了新方向。
DeepSeek-R1 开发流程：包括两阶段 RL 训练用于发现推理模式并与人类偏好对齐，以及两阶段 SFT 训练作为推理和非推理能力的基础。

Distillation: Smaller Models Can Be Powerful Too

蒸馏大模型推理模式：展示了大模型的推理模式能够蒸馏到小模型中，并取得比小模型 RL 推理模式更好的表现。
开源模型和 API：开源 DeepSeek-R1 和蒸馏后的模型，将有助于未来蒸馏出更强的小模型。
蒸馏效果：通过 DeepSeek-R1 生成的推理数据，对多个小型模型进行了微调，结果表明蒸馏后的小模型在推理基准测试中表现出色。
- DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 中得分 **55.5%**，超越 QwQ-32B-Preview。
- DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 获得 **72.6%**，在 MATH-500 获得 **94.3%**，在 LiveCodeBench 获得 **57.2%**，显著优于之前的开源模型，并与 o1-mini 相当。
开源 DeepSeek-R1 及其蒸馏后的 1.5B、7B、8B、14B、32B 和 70B 模型，基于 Qwen2.5 和 Llama3 系列，支持社区进一步研究。

总结

✅ DeepSeek-R1-Zero 展现了通过 RL 实现推理能力的突破，创新了模型训练方法。
✅ 蒸馏技术 成功将大模型的推理模式移植到小模型，显著提升小模型的性能。
✅ 开源贡献 提供了多种蒸馏模型，为研究社区和工业界提供强大的推理模型工具。

1.2. Summary of Evaluation Results

推理任务

AIME 2024：DeepSeek-R1 取得 79.8% Pass@1，略超越 OpenAI-o1-1217。
MATH-500：得分 **97.3%**，与 OpenAI-o1-1217 表现持平，显著超过其他模型。
编程任务：
- 在 Codeforces 编程竞赛 中，DeepSeek-R1 达到 2,029 Elo，超越 96.3% 的人类参赛者，展示了其在编程任务中的专家级能力。
- 在 工程任务 上，DeepSeek-R1 表现略优于 DeepSeek-V3，为开发者提供了实际应用价值。

知识任务

MMLU：DeepSeek-R1 取得 **90.8%**，超越 DeepSeek-V3，略低于 OpenAI-o1-1217。
MMLU-Pro：得分 **84.0%**，表现优于其他闭源模型。
GPQA Diamond：得分 **71.5%**，再次超过 DeepSeek-V3，表现出其在教育任务中的竞争力。
SimpleQA：在事实性问题上，DeepSeek-R1 超越 DeepSeek-V3，展示了其处理事实查询的能力。

其他任务

在 创造性写作、一般问答、编辑、摘要等任务上，DeepSeek-R1 表现出色。
在 AlpacaEval 2.0 上，DeepSeek-R1 取得 87.6% 的长度控制胜率，在 ArenaHard 上取得 92.3% 的胜率，展现了其处理非考试类查询的强大能力。
在 长上下文理解 任务中，DeepSeek-R1 大幅超越 DeepSeek-V3，在长上下文基准测试中表现突出。

总结

✅ DeepSeek-R1 在推理、编程和知识任务上表现出色，超越了多个现有模型。
✅ 在创造性写作、问答和长上下文理解等任务上，展示了强大的能力。
✅ 该模型在处理长上下文和复杂问题时，表现远超之前的版本，具有广泛的应用潜力。

Approach

2.1. Overview

本研究展示了 大规模强化学习（RL） 在提升模型推理能力方面的重要作用，且无需依赖 监督微调（SFT） 作为冷启动。通过引入少量冷启动数据，性能还可以进一步提升。研究中提出了以下三个关键部分：

DeepSeek-R1-Zero：直接应用 RL 到基础模型，无需任何 SFT 数据。
DeepSeek-R1：基于经过 长 Chain-of-Thought（CoT）示例微调的检查点，应用 RL 进行进一步训练。
蒸馏：从 DeepSeek-R1 中蒸馏推理能力到 小型密集模型。

2.2. DeepSeek-R1-Zero: Reinforcement Learning on the Base Model

强化学习在推理任务中已展现出显著的效果，这一点在我们之前的研究中得到了验证（Shao et al., 2024；Wang et al., 2023）。然而，这些研究在很大程度上依赖于监督数据，而收集这些数据是非常耗时的。在本节中，我们探讨了 大型语言模型（LLMs） 在 没有任何监督数据 的情况下发展推理能力的潜力，重点关注它们通过纯 强化学习过程 进行自我进化的能力。我们首先简要概述了我们的 RL 算法，然后展示了一些令人兴奋的结果，希望能为社区提供有价值的见解。

2.2.1. Reinforcement Learning Algorithm

为了降低强化学习（RL）的训练成本，采用 Group Relative Policy Optimization (GRPO) 算法（Shao et al., 2024）。GRPO 避免了传统的 评估模型（critic model），而是通过 组得分 来估算基准。具体来说，GRPO 为每个问题 q 从旧的策略模型 πθold 中采样一组输出 **{o₁, o₂, …, oG}**，然后通过最大化以下目标函数来优化当前的策略模型 πθ：

目标函数（JGRPO）：

公式中的 E[·] 表示期望值。
通过 优势（Aᵢ） 和 KL 散度（D_KL） 来优化策略。
clip 操作限制了新旧策略的比例变化，以保证稳定性。
β 是控制 KL 散度 的超参数，ε 控制策略的变化范围。

PPO（Proximal Policy Optimization）：

PPO 是一种基于 剪辑（Clipping） 的强化学习算法，旨在 限制新旧策略之间的变化，使得策略更新更加稳定。PPO 通过最大化 目标函数 来平衡探索和 稳定性，从而避免了策略更新过大导致的不稳定。

核心：PPO 通过剪辑操作来限制策略比率（新策略与旧策略的比值），从而避免策略更新过快。

目标函数是： LCLIP(θ)=Et[min⁡(rt(θ)A^t,clip(rt(θ),1−ϵ,1+ϵ)A^t)]L^{CLIP}(\theta) = \mathbb{E}_t \left[ \min \left( r_t(\theta) \hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t \right) \right]LCLIP(θ)=Et[min(rt(θ)A^t,clip(rt(θ),1−ϵ,1+ϵ)A^t)] 其中，**$r_t(\theta)$** 是当前策略与旧策略的比值，**$\hat{A}_t$** 是优势函数，**$\epsilon$** 是剪辑范围。

我们来用一个简单的例子来说明 Group Relative Policy Optimization (GRPO) 的思路。

背景：
假设我们在训练一个 智能机器人，这个机器人在一个虚拟环境中，执行 导航任务。它的目标是根据环境中的信息（例如位置、障碍物等）做出决策，选择最佳路径，从而到达目标点。

我们的目标是通过 强化学习（RL）让机器人学会如何选择路径，并优化它的行为。

GRPO的应用：
在 GRPO 中，模型会根据 多个输出 和 新旧策略的比较 来优化策略。我们来详细解释这个过程。

假设情况：

环境（状态）：机器人处于一个房间里，房间中有障碍物，目标是找到最快的路径到达房间的另一端。

问题（q）：机器人的当前状态，即当前位置、目标位置、障碍物的位置等信息。

策略（πθold 和 πθ）：

旧策略（πθold）：这是训练前的模型策略，机器人根据它来做决策。假设这个策略表现较差，机器人有时会绕远路或者碰到障碍物。

新策略（πθ）：这是我们正在训练的模型策略，它会根据旧策略的输出进行改进，并在新的决策中逐步优化。

步骤：
1. 采样旧策略的多个输出：
首先，我们使用旧策略 πθold 来生成 G 个 不同的输出（即不同的行动或路径选择），这些输出表示机器人在同一个问题下的多次尝试。

例如，假设在同样的环境下，机器人可能会有如下几种行动（输出）：

输出 o₁：机器人选择左侧路径，绕远路。

输出 o₂：机器人选择右侧路径，碰到障碍物。

输出 o₃：机器人选择直走，撞墙。

依此类推，G 个输出代表机器人不同的决策。

2. 计算策略比率和优势：
接下来，GRPO 通过计算 新旧策略之间的比率，来评估当前策略是否优于旧策略。

策略比率：计算 新策略 （πθ）和 旧策略 （πθold）在给定输出下的概率比值。

例如，πθ(o₁|q) 和 πθold(o₁|q) 分别是新旧策略选择输出 o₁ 的概率。如果新策略的概率较高，说明新策略比旧策略更优。

优势（Aᵢ）：计算每个输出 oᵢ 的优势，即新策略在该输出下的表现相较于旧策略的改进程度。例如，如果 o₁ 是机器人绕远路的选择，假设新策略使得绕远路的决策不再发生，那么优势值就较高。

3. 剪辑操作：
为了保证策略更新的稳定性，GRPO 使用 剪辑操作 限制策略比率的变化。如果比率变化过大（例如 πθ(o₁|q) 和 πθold(o₁|q) 之间的差异过大），我们会将比率限制在一个 1±ε 的范围内。

这个剪辑操作是为了避免新策略更新过度，使得训练过程更加稳定，防止模型过拟合或出现不稳定的行为。

4. 优化目标：
GRPO 的目标是 最大化 目标函数，即优化策略，使得新策略 πθ 在大多数情况下能够比旧策略 πθold 更好地做出决策。

最终，我们通过 相对优化 和 优势反馈，不断改进机器人在环境中的行为，让它能够学会选择最短路径，避开障碍物，最终实现高效的导航。

总结 GRPO 思路：

GRPO 的核心思路是 通过旧策略采样多个输出（行动），然后通过计算 新旧策略的比率和优势 来优化当前策略，使得新策略能够更好地适应环境。

通过 剪辑操作 和 KL 散度 控制策略更新的稳定性，确保在训练过程中模型不会发生剧烈的变化，而是逐步优化。

最终，GRPO 通过 相对优化 提升模型的推理能力，使得它在复杂环境中能够做出更好的决策。

2.2.2. Reward Modeling

在强化学习中，奖励是训练信号的来源，决定了优化的方向。为了训练 DeepSeek-R1-Zero，我们采用了 基于规则的奖励系统，主要包括两种类型的奖励：

准确性奖励（Accuracy rewards）：
- 用于评估模型的响应是否正确。比如在数学题中，如果结果是确定的，模型需要提供一个指定格式的答案（例如，放在框中），以便可靠地验证其正确性。对于像 LeetCode 这样的问题，可以使用编译器生成反馈，根据预定义的测试用例来检查答案的正确性。
格式奖励（Format rewards）：
- 除了准确性奖励外，我们还使用了格式奖励模型，要求模型将思考过程放在 <think> 和 </think> 标签之间，以强制模型遵循某种格式。

我们没有在 DeepSeek-R1-Zero 中应用基于结果或过程的神经奖励模型，因为我们发现神经奖励模型在大规模强化学习过程中可能会遭遇 奖励作弊 问题，并且重新训练奖励模型需要额外的训练资源，这会使整个训练过程更加复杂。

2.2.3. Training Template

为了训练 DeepSeek-R1-Zero，我们设计了一个简单的模板，指导基础模型遵循指定的指令。该模板要求模型首先生成推理过程，然后给出最终答案。我们特意将约束限制为这种结构格式，避免了内容上的偏见（例如，强制要求反思性推理或特定的解决策略），以确保能够准确观察模型在强化学习过程中的自然进展。

2.2.4. Performance, Self-evolution Process and Aha Moment of DeepSeek-R1-Zero

性能表现

DeepSeek-R1-Zero 在 AIME 2024 基准测试 上的表现随着强化学习（RL）训练不断提升，从初始的 15.6% pass@1 提升到 **71.0%**，达到了与 OpenAI-o1-0912 相当的水平。
通过 多数投票，DeepSeek-R1-Zero 的表现进一步提升，达到 **86.7%**，超越了 OpenAI-o1-0912，显示出其强大的基础能力和进一步发展的潜力。

自我进化过程

DeepSeek-R1-Zero 的自我进化展示了通过 RL 模型如何自主提高推理能力。模型从基础模型开始，逐步演化，处理复杂推理任务的能力不断增强。
训练过程中，模型的思考时间持续改善，反映出其在 推理任务 中的不断进步。随着 测试时计算量 增加，模型能够更深入地探索和精炼思维过程。
模型展现出反思和 探索替代方法 等复杂行为，这些行为并非被明确编程，而是通过与 RL 环境的互动自发产生，从而增强了推理能力。

“恍然大悟”时刻

在训练过程中，出现了一个有趣的 “恍然大悟”时刻，DeepSeek-R1-Zero 在中期版本中学会了 重新评估初步方法，并为问题分配更多的思考时间。这一行为不仅证明了模型推理能力的提升，也是 RL 强大潜力的体现。
这一时刻标志着模型自主发展出高级问题解决策略，证明了 RL 能够激发人工系统的新层次智能。

缺点

尽管 DeepSeek-R1-Zero 在推理方面表现强劲，但也存在一些问题，例如 可读性差 和 语言混合 等问题。为了解决这些问题，DeepSeek-R1 使用了带有人类友好冷启动数据的 RL 方法，旨在提高模型的可读性并使其推理过程更易于共享。

2.3. DeepSeek-R1: Reinforcement Learning with Cold Start

受 DeepSeek-R1-Zero 取得的良好结果启发，提出了两个自然的问题：

是否通过引入少量高质量数据作为冷启动，可以进一步提升推理性能或加速收敛？
如何训练一个用户友好的模型，使其不仅能够生成清晰连贯的推理链（CoT），还具有强大的通用能力？

为了回答这两个问题，设计了一个用于训练 DeepSeek-R1 的四阶段流程，具体细节如下。

2.3.1. Cold Start

与 DeepSeek-R1-Zero 不同，DeepSeek-R1 为了避免 RL 训练初期的不稳定冷启动阶段，采用了 少量高质量的长推理链（CoT）数据 来对模型进行微调，以作为初始的 RL 代理。为了收集这些数据，采用了几种方法，包括使用少量示例进行提示、直接提示模型生成带有反思和验证的详细答案、收集 DeepSeek-R1-Zero 输出并通过人工后处理进行优化等。

相比 DeepSeek-R1-Zero，冷启动数据的优势包括：

可读性：DeepSeek-R1-Zero 的内容往往难以阅读，可能存在多语言混杂或缺少格式化的情况，而 DeepSeek-R1 的冷启动数据设计了更加可读的模式，确保每个回答都有总结，并过滤掉不适合阅读的回答。
潜力：通过精心设计冷启动数据的模式，结合人类先验知识，DeepSeek-R1 在性能上超过了 DeepSeek-R1-Zero，说明 迭代训练 是推理模型更好的训练方式。

2.3.2. Reasoning-oriented Reinforcement Learning

在对 DeepSeek-V3-Base 进行冷启动数据微调后，我们采用与 DeepSeek-R1-Zero 相同的大规模强化学习训练过程。此阶段的重点是提升模型的推理能力，特别是在编码、数学、科学和逻辑推理等推理密集型任务中，解决明确且有清晰解答的问题。

在训练过程中，我们观察到 推理链（CoT） 经常出现语言混杂的问题，尤其是在涉及多语言的强化学习提示时。为了解决这一问题，我们引入了 语言一致性奖励，计算方法为 CoT 中目标语言词汇的比例。尽管消融实验表明该奖励会导致模型性能略微下降，但它与人类偏好一致，使得输出更具可读性。

最后，我们将推理任务的准确性和语言一致性奖励结合，通过直接求和形成最终奖励，并对微调后的模型进行强化学习训练，直到模型在推理任务上达到收敛。

2.3.3. Rejection Sampling and Supervised Fine-Tuning

在推理导向的强化学习（RL）收敛后，我们使用生成的检查点来收集 监督微调（SFT） 数据，以用于下一轮训练。与初始的冷启动数据主要关注推理不同，这一阶段还融入了其他领域的数据，以提升模型在写作、角色扮演等通用任务中的能力。

推理数据：
- 通过 拒绝采样 从 RL 训练的检查点生成推理轨迹。与之前仅包含可用规则奖励评估的数据不同，这一阶段增加了更多数据，并使用生成奖励模型对比 ground-truth 和模型预测进行判断。
- 对于每个提示，采样多个回应，仅保留正确的回答，共收集了约 60万 个推理相关的训练样本。
非推理数据：
- 对于非推理数据（如写作、事实问答、自我认知和翻译），我们沿用 DeepSeek-V3 的管道，并重用部分 DeepSeek-V3 的 SFT 数据集。对于某些非推理任务，调用 DeepSeek-V3 来生成潜在的推理链后再回答问题。
- 对于简单查询（如“hello”），则不提供推理链。最终，我们收集了约 20万 个与推理无关的训练样本。
微调：
- 使用以上整理的约 80万 个样本，对 DeepSeek-V3-Base 进行了两轮微调。

这一过程使得模型不仅在推理任务中表现出色，还能提升其在更广泛任务中的能力。

2.3.4. Reinforcement Learning for all Scenarios

为了进一步使模型与人类偏好对齐，我们实施了一个 二次强化学习阶段，旨在提升模型的 有用性 和 无害性，同时精细化其推理能力。具体方法是使用 奖励信号 和 多样的提示分布 来训练模型：

推理数据：继续采用 DeepSeek-R1-Zero 中的方法，使用 基于规则的奖励 来指导数学、代码和逻辑推理领域的学习过程。
通用数据：使用 奖励模型 来捕捉复杂和细致场景中的人类偏好，基于 DeepSeek-V3 的管道训练，采用类似的偏好对和训练提示分布。
- 有用性：主要评估回答的最终总结，确保回答对用户的实用性和相关性，同时尽量减少对推理过程的干扰。
- 无害性：评估模型的整个响应，包括推理过程和总结，识别并减轻潜在的风险、偏见或有害内容。

通过奖励信号和多样数据分布的结合，我们能够训练出在推理任务中表现出色，并优先考虑有用性和无害性的模型。

2.4. Distillation: Empower Small Models with Reasoning Capability

为了让更高效的小型模型具备像 DeepSeek-R1 那样的推理能力，我们直接使用 DeepSeek-R1 精心整理的 80 万样本对开源模型（如 Qwen 和 Llama）进行了微调。我们的研究结果表明，这种简单的蒸馏方法显著提升了小型模型的推理能力。

我们使用的基础模型包括 Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B, 和 Llama-3.3-70B-Instruct，其中 Llama-3.3 的推理能力略强于 Llama-3.1。

对于蒸馏后的模型，我们仅应用了 监督微调（SFT），没有加入强化学习（RL）阶段，尽管加入 RL 可能会大幅提升模型性能。我们主要目的是展示蒸馏技术的有效性，RL 阶段的探索则留给更广泛的研究社区。

Experiment

Benchmarks

我们在多个标准基准上评估了模型的表现，包括：

MMLU、MMLU-Redux、MMLU-Pro、C-Eval、CMMLU、IFEval、FRAMES、GPQA Diamond、SimpleQA、C-SimpleQA、SWE-Bench Verified、Aider、LiveCodeBench、Codeforces、CNMO 2024 和 AIME 2024 等。
还评估了开放式生成任务，使用 LLMs 作为评判员，基于 AlpacaEval 2.0 和 Arena-Hard 配置进行对比。

Evaluation Prompts

对于标准基准，使用 simple-evals 框架中的提示进行评估。
对于 MMLU-Redux，使用 Zero-Eval 提示格式进行零-shot 设置。
其他数据集遵循其原始评估协议，并采用默认提示。
代码与数学基准：如 HumanEval-Mul 数据集，涵盖 8 种主流编程语言，模型在 LiveCodeBench 上的表现使用 CoT 格式评估。
Codeforces 数据集：评估基于 Div.2 比赛的题目，使用专家设计的测试用例进行评估。
AIME 2024：报告 cons@64 结果（使用 64 个样本的多数投票结果）。

Baselines

我们与多个强基准模型进行了全面比较，包括 DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini 和 OpenAI-o1-1217，以及开源模型 QwQ-32B-Preview。

Evaluation Setup

最大生成长度：设置为 32,768 个 token。
使用 采样温度（0.6） 和 top-p（0.95） 来生成多个回答，并使用 pass@k 评估每个问题的回答正确性，其中 pass@1 表示正确回答的比例。

3.1. DeepSeek-R1 Evaluation

教育类知识基准：
- MMLU、MMLU-Pro 和 GPQA Diamond 上，DeepSeek-R1 相较于 DeepSeek-V3 取得了显著提升，特别是在 STEM（科学、技术、工程、数学）相关问题上，通过大规模强化学习（RL）提升了准确性。
长上下文问题：
- FRAMES（依赖长上下文的问答任务）中，DeepSeek-R1 展示了强大的文档分析能力，突出显示了推理模型在 AI驱动的搜索和数据分析任务 中的潜力。
事实性问答：
- 在 SimpleQA 基准上，DeepSeek-R1 超越了 DeepSeek-V3，展示了处理事实性查询的能力，但在 Chinese SimpleQA 上表现较差，主要是由于安全强化学习（RL）导致模型拒绝某些查询。
格式化指令跟随：
- 在 IF-Eval 基准上，DeepSeek-R1 的表现令人印象深刻，得益于在微调和强化学习阶段加入了指令跟随数据。
开放领域任务：
- AlpacaEval 2.0 和 ArenaHard 上，DeepSeek-R1 在写作任务和开放领域问答中表现出色，远超 DeepSeek-V3，证明大规模强化学习在推理能力和跨领域表现中的优势。
数学与编码任务：
- 在 数学任务 和 编码算法任务（如 LiveCodeBench 和 Codeforces）上，DeepSeek-R1 的表现与 OpenAI-o1-1217 相当，超越其他模型。
工程类任务：
- 在 工程导向的编码任务 上，OpenAI-o1-1217 在 Aider 上表现更好，但在 SWE Verified 上与 DeepSeek-R1 相当。随着相关强化学习数据量的增加，预计 DeepSeek-R1 在未来版本中将提升工程性能。

DeepSeek-R1 在多个领域表现出色，尤其在推理任务、开放领域问答、数学与编码任务上展现了强大的推理能力和跨领域的表现，突显了大规模强化学习在推理模型中的重要作用。

3.2. Distilled Model Evaluation

如 表 5 所示，通过简单地蒸馏 DeepSeek-R1 的输出，可以使 DeepSeek-R1-7B（即 DeepSeek-R1-Distill-Qwen-7B）在各项评估指标上超越非推理模型如 GPT-4o-0513。DeepSeek-R1-14B 在所有评估指标上超过了 QwQ-32B-Preview，而 DeepSeek-R1-32B 和 DeepSeek-R1-70B 在大多数基准上显著超越了 o1-mini，显示出蒸馏方法的强大潜力。此外，我们发现将 RL 应用于这些蒸馏后的模型可进一步带来显著提升，尽管本研究仅展示了简单 SFT蒸馏模型 的结果，表明这一方向值得进一步探索。

Discussion

4.1. Distillation v.s. Reinforcement Learning

实验背景：

通过 蒸馏 DeepSeek-R1，小型模型表现出色。
问题：是否可以通过 大规模强化学习（RL） 训练，达到类似的性能？

实验过程：

对 Qwen-32B-Base 进行大规模 RL 训练，使用数学、代码和 STEM 数据训练超过 10K 步，得到 DeepSeek-R1-Zero-Qwen-32B。
实验结果表明，经过 大规模 RL 训练 后，32B 基础模型 的性能与 QwQ-32B-Preview 相当。

结果对比：

DeepSeek-R1-Distill-Qwen-32B（蒸馏后的模型）在所有基准上显著优于 DeepSeek-R1-Zero-Qwen-32B（大规模 RL 训练后的模型）。

结论：

蒸馏更强大的模型到小型模型 能显著提升性能。
依赖大规模 RL 的小型模型 需要大量计算资源，可能无法达到蒸馏模型的性能。
蒸馏策略 是经济有效的，但要突破智能的边界，仍需更强大的基础模型和更大规模的强化学习。

4.2. Unsuccessful Attempts

在 DeepSeek-R1 的早期开发阶段，我们遇到了一些失败和挫折，分享这些经历旨在提供一些启示，但这并不意味着这些方法无法开发有效的推理模型。

过程奖励模型（PRM）：
- 优点：PRM 是一种合理的方法，用于引导模型更好地解决推理任务。
- 挑战：
  - 难以明确地定义一般推理中的细粒度步骤。
  - 判断当前中间步骤是否正确非常具有挑战性，自动化标注可能不理想，人工标注又不适合规模化。
  - 引入基于模型的 PRM 后，容易导致 奖励滥用，而且需要额外的训练资源，增加了训练管道的复杂性。
- 结论：虽然 PRM 对于重新排序生成的响应或辅助引导搜索有一定优势，但在大规模强化学习过程中引入的计算开销使其相对于实际应用的优势受到限制。
蒙特卡罗树搜索（MCTS）：
- 灵感：受 AlphaGo 和 AlphaZero 启发，探索使用 MCTS 来增强推理过程中计算扩展性。
- 挑战：
  - 与棋类游戏不同，标记生成面临着一个指数级增长的搜索空间，设置最大扩展限制可能导致模型卡在局部最优解。
  - 价值模型直接影响生成质量，训练精细化的价值模型本身具有难度，导致模型难以迭代改进。
- 结论：尽管 MCTS 在推理时结合预训练的价值模型可以提升性能，但通过自我搜索迭代提升模型性能仍然是一个重大的挑战。

Conclusion, Limitations, and Future Work

推理能力提升：

DeepSeek-R1-Zero：采用纯强化学习（RL）方法，无需冷启动数据，在多项任务中表现出色。
DeepSeek-R1：结合冷启动数据和迭代强化学习微调，表现优于 OpenAI-o1-1217，在多个任务上取得了可比拟的成绩。

模型蒸馏：

使用 DeepSeek-R1 作为教师模型生成 80万 个训练样本，对小型密集模型进行微调。
DeepSeek-R1-Distill-Qwen-1.5B 在数学基准上超越 GPT-4o 和 Claude-3.5-Sonnet，在 AIME（28.9%）和 MATH（83.9%）上表现优异。
其他小型模型也取得了显著成果，明显超越了基于相同底层检查点的其他指令调优模型。

未来研究方向：

通用能力：目前 DeepSeek-R1 在函数调用、多轮对话、复杂角色扮演和JSON输出等任务上落后于 DeepSeek-V3，未来将探索如何利用长推理链（CoT）来提升这些任务的表现。
语言混合问题：当前 DeepSeek-R1 在中文和英文上优化较好，但在处理其他语言的查询时，可能出现语言混杂的问题，未来将解决这一限制。
提示工程：在评估过程中发现 DeepSeek-R1 对提示非常敏感，少量示例提示会显著降低其表现，推荐使用零-shot 设置来获得最佳结果。
软件工程任务：由于评估时间较长影响了 RL 过程的效率，大规模 RL 尚未广泛应用于软件工程任务，未来版本将通过在 RL 过程中实施拒绝采样或引入异步评估来提高效率。

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Abstract

Introduction

1.1. Contributions

1.2. Summary of Evaluation Results

Approach

2.1. Overview

2.2. DeepSeek-R1-Zero: Reinforcement Learning on the Base Model

2.2.1. Reinforcement Learning Algorithm

背景：

GRPO的应用：

假设情况：

步骤：

1. 采样旧策略的多个输出：

2. 计算策略比率和优势：

3. 剪辑操作：

4. 优化目标：

总结 GRPO 思路：

2.2.2. Reward Modeling

2.2.3. Training Template

2.2.4. Performance, Self-evolution Process and Aha Moment of DeepSeek-R1-Zero

2.3. DeepSeek-R1: Reinforcement Learning with Cold Start

2.3.1. Cold Start

2.3.2. Reasoning-oriented Reinforcement Learning

2.3.3. Rejection Sampling and Supervised Fine-Tuning

2.3.4. Reinforcement Learning for all Scenarios

2.4. Distillation: Empower Small Models with Reasoning Capability

Experiment

3.1. DeepSeek-R1 Evaluation

3.2. Distilled Model Evaluation

Discussion

4.1. Distillation v.s. Reinforcement Learning

4.2. Unsuccessful Attempts

Conclusion, Limitations, and Future Work