当前位置：首页 > news >正文

DeepSeek-R1-深度解析-通过强化学习激励大语言模型的推理能力

news 2025/8/17 5:25:43

DeepSeek-R1 通过强化学习激励大语言模型的推理能力

注：官方文档翻译和阅读理解

摘要

我们介绍我们的第一代推理模型：DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练的模型，无需监督微调(SFT)作为初始步骤，展现了卓越的推理能力。通过强化学习，DeepSeek-R1-Zero自然涌现出许多强大而有趣的推理行为。然而，它也面临诸如可读性差和语言混合等挑战。为了解决这些问题并进一步提升推理性能，我们引入了DeepSeek-R1，它结合了多阶段训练和强化学习前的冷启动数据。DeepSeek-R1在推理任务上达到了与OpenAI-o1-1217相当的性能。为了支持研究社区，我们开源了DeepSeek-R1-Zero、DeepSeek-R1，以及基于Qwen和Llama蒸馏的六个密集模型(1.5B、7B、8B、14B、32B、70B)。

在这里插入图片描述

1. 引言

近年来，大语言模型(LLMs)经历了快速的迭代和演进，逐步缩小了与通用人工智能(AGI)的差距。

最近，后训练已成为完整训练流程的重要组成部分。它被证明能够增强推理任务的准确性，与社会价值观保持一致，适应用户偏好，同时相对于预训练所需的计算资源相对较少。在推理能力方面，OpenAI的o1系列模型首次通过增加思维链推理过程的长度来引入推理时间扩展。这种方法在各种推理任务上取得了显著改进，如数学、编程和科学推理。然而，有效的测试时间扩展的挑战对研究社区来说仍然是一个开放问题。

在本文中，我们迈出了使用纯强化学习(RL)改进语言模型推理能力的第一步。我们的目标是探索LLMs在没有任何监督数据的情况下发展推理能力的潜力，专注于它们通过纯RL过程的自我演进。具体而言，我们使用DeepSeek-V3-Base作为基础模型，采用GRPO作为RL框架来改进模型在推理方面的性能。

在训练过程中，DeepSeek-R1-Zero自然涌现出众多强大而有趣的推理行为。经过数千个RL步骤后，DeepSeek-R1-Zero在推理基准测试上表现出卓越的性能。例如，在AIME 2024上的pass@1得分从15.6%提高到71.0%，通过多数投票，得分进一步提高到86.7%，达到了OpenAI-o1-0912的性能水平。

然而，DeepSeek-R1-Zero面临诸如可读性差和语言混合等挑战。为了解决这些问题并进一步提升推理性能，我们引入了DeepSeek-R1，它结合了少量冷启动数据和多阶段训练流程。具体而言，我们首先收集数千个冷启动数据来微调DeepSeek-V3-Base模型。接下来，我们像DeepSeek-R1-Zero一样执行面向推理的强化学习。当RL过程接近收敛时，我们通过对RL检查点进行拒绝采样来创建新的SFT数据，结合来自DeepSeek-V3在写作、事实性问答和自我认知等领域的监督数据，然后重新训练DeepSeek-V3-Base模型。经过新数据的微调后，检查点经历额外的RL过程，考虑来自所有场景的提示。经过这些步骤，我们获得了称为DeepSeek-R1的检查点，它达到了与OpenAI-o1-1217相当的性能。

我们进一步探索从DeepSeek-R1到更小密集模型的蒸馏。使用Qwen2.5-32B作为基础模型，从DeepSeek-R1直接蒸馏优于在其上应用RL。这表明，较大基础模型发现的推理模式对于提高推理能力至关重要。我们开源了蒸馏的Qwen和Llama系列。值得注意的是，我们蒸馏的14B模型大幅超越了最先进的开源QwQ-32B-Preview，蒸馏的32B和70B模型在密集模型中的推理基准测试上创下了新纪录。

1.1 贡献

后训练：在基础模型上进行大规模强化学习

• 我们直接将RL应用于基础模型，而不依赖监督微调(SFT)作为初步步骤。这种方法允许模型探索解决复杂问题的思维链(CoT)，从而开发出DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了自我验证、反思和生成长CoT等能力，为研究社区标志着一个重要里程碑。值得注意的是，这是首个验证LLMs的推理能力可以纯粹通过RL激励而无需SFT的开放研究。这一突破为该领域的未来进展铺平了道路。

• 我们介绍了开发DeepSeek-R1的流程。该流程包含两个RL阶段，旨在发现改进的推理模式并与人类偏好保持一致，以及两个SFT阶段，作为模型推理和非推理能力的种子。我们相信这个流程将通过创造更好的模型来造福行业。

蒸馏：小模型也可以很强大

• 我们证明了较大模型的推理模式可以蒸馏到较小模型中，与通过在小模型上进行RL发现的推理模式相比，产生更好的性能。开源的DeepSeek-R1以及其API将有利于研究社区未来蒸馏出更好的小模型。

• 使用DeepSeek-R1生成的推理数据，我们微调了研究社区广泛使用的几个密集模型。评估结果表明，蒸馏的小密集模型在基准测试上表现异常出色。DeepSeek-R1-Distill-Qwen-7B在AIME 2024上达到55.5%，超过了QwQ-32B-Preview。此外，DeepSeek-R1-Distill-Qwen-32B在AIME 2024上得分72.6%，在MATH-500上得分94.3%，在LiveCodeBench上得分57.2%。这些结果显著优于之前的开源模型，与o1-mini相当。我们向社区开源基于Qwen2.5和Llama3系列的蒸馏1.5B、7B、8B、14B、32B和70B检查点。

1.2 评估结果总结

• 推理任务：(1) DeepSeek-R1在AIME 2024上达到79.8%的Pass@1得分，略微超过OpenAI-o1-1217。在MATH-500上，它达到了令人印象深刻的97.3%得分，与OpenAI-o1-1217相当，显著超过其他模型。(2) 在编程相关任务上，DeepSeek-R1在代码竞赛任务中展现了专家级水平，在Codeforces上达到2,029 Elo评级，超过96.3%的人类竞赛参与者。对于工程相关任务，DeepSeek-R1的表现略好于DeepSeek-V3，这可以帮助开发者处理现实世界的任务。

• 知识：在MMLU、MMLU-Pro和GPQA Diamond等基准测试上，DeepSeek-R1取得了出色的结果，显著优于DeepSeek-V3，在MMLU上得分90.8%，在MMLU-Pro上得分84.0%，在GPQA Diamond上得分71.5%。虽然其在这些基准测试上的性能略低于OpenAI-o1-1217，但DeepSeek-R1超越了其他闭源模型，在教育任务中展现了其竞争优势。在事实性基准测试SimpleQA上，DeepSeek-R1优于DeepSeek-V3，展现了其处理基于事实查询的能力。

• 其他：DeepSeek-R1还在广泛的任务中表现出色，包括创意写作、一般问答、编辑、摘要等。它在AlpacaEval 2.0上达到了令人印象深刻的87.6%长度控制胜率，在ArenaHard上达到92.3%的胜率，展示了其智能处理非考试导向查询的强大能力。此外，DeepSeek-R1在需要长上下文理解的任务上表现出色，在长上下文基准测试上大幅超越DeepSeek-V3。

2. 方法

2.1 概述

以往的工作严重依赖大量监督数据来提升模型性能。在这项研究中，我们证明了推理能力可以通过大规模强化学习(RL)显著改进，甚至无需使用监督微调(SFT)作为冷启动。此外，通过包含少量冷启动数据，性能可以进一步提升。在以下部分中，我们介绍：(1) DeepSeek-R1-Zero，直接将RL应用于基础模型而无需任何SFT数据；(2) DeepSeek-R1，从使用数千个长思维链(CoT)示例微调的检查点开始应用RL；(3) 将推理能力从DeepSeek-R1蒸馏到小密集模型。

2.2 DeepSeek-R1-Zero：在基础模型上进行强化学习

强化学习在推理任务中展现了显著的有效性，如我们之前的工作所证明的。然而，这些工作严重依赖监督数据，收集这些数据是耗时的。在本节中，我们探索LLMs在没有任何监督数据的情况下发展推理能力的潜力，专注于它们通过纯强化学习过程的自我演进。

2.2.1 强化学习算法

群体相对策略优化 为了节省RL的训练成本，我们采用群体相对策略优化(GRPO)，它放弃了通常与策略模型相同大小的评论家模型，而是从群体分数中估计基线。

具体而言，对于每个问题q，GRPO从旧策略中采样一组输出，然后通过最大化以下目标来优化策略模型。

2.2.2 奖励建模

奖励是训练信号的来源，决定了RL的优化方向。为了训练DeepSeek-R1-Zero，我们采用基于规则的奖励系统，主要由两种类型的奖励组成：

• 准确性奖励：准确性奖励模型评估响应是否正确。例如，对于具有确定性结果的数学问题，要求模型以指定格式（例如，在框内）提供最终答案，从而能够可靠地基于规则验证正确性。类似地，对于LeetCode问题，可以使用编译器基于预定义的测试用例生成反馈。

• 格式奖励：除了准确性奖励模型外，我们还采用格式奖励模型，强制模型将其思考过程放在’‘和’'标签之间。

我们在开发DeepSeek-R1-Zero时没有应用结果或过程神经奖励模型，因为我们发现神经奖励模型在大规模强化学习过程中可能遭受奖励破解，重新训练奖励模型需要额外的训练资源，这使得整个训练流程变得复杂。

2.2.3 训练模板

为了训练DeepSeek-R1-Zero，我们首先设计了一个直接的模板，指导基础模型遵循我们指定的指令。如表1所示，这个模板要求DeepSeek-R1-Zero首先产生推理过程，然后给出最终答案。我们有意将约束限制在这种结构格式上，避免任何内容特定的偏见——如强制反思推理或促进特定问题解决策略——以确保我们能够准确观察模型在RL过程中的自然进展。

2.2.4 DeepSeek-R1-Zero的性能、自我演进过程和顿悟时刻

DeepSeek-R1-Zero的性能 图2描述了DeepSeek-R1-Zero在整个RL训练过程中在AIME 2024基准测试上的性能轨迹。如图所示，DeepSeek-R1-Zero随着RL训练的推进表现出稳定和一致的性能提升。值得注意的是，AIME 2024上的平均pass@1得分显示出显著增长，从初始的15.6%跃升至令人印象深刻的71.0%，达到与OpenAI-o1-0912相当的性能水平。这种显著改进突出了我们的RL算法在优化模型性能方面的有效性。

表2提供了DeepSeek-R1-Zero与OpenAI的o1-0912模型在各种推理相关基准测试上的比较分析。研究发现揭示了RL使DeepSeek-R1-Zero能够在不需要任何监督微调数据的情况下获得强大的推理能力。这是一个值得注意的成就，因为它强调了模型仅通过RL学习和有效泛化的能力。此外，DeepSeek-R1-Zero的性能可以通过应用多数投票进一步增强。例如，在AIME基准测试中采用多数投票时，DeepSeek-R1-Zero的性能从71.0%上升到86.7%，从而超越了OpenAI-o1-0912的性能。

在这里插入图片描述

DeepSeek-R1-Zero的自我演进过程 DeepSeek-R1-Zero的自我演进过程是RL如何驱动模型自主改进其推理能力的精彩演示。通过直接从基础模型开始RL，我们可以密切监控模型的进展，不受监督微调阶段的影响。这种方法提供了模型如何随时间演进的清晰视图，特别是在处理复杂推理任务的能力方面。

在这里插入图片描述

如图3所示，DeepSeek-R1-Zero的思考时间在整个训练过程中显示出一致的改善。这种改善不是外部调整的结果，而是模型内在的发展。DeepSeek-R1-Zero自然获得了通过利用扩展的测试时间计算来解决日益复杂的推理任务的能力。这种计算范围从生成数百到数千个推理令牌，允许模型更深入地探索和细化其思维过程。

这种自我演进最引人注目的方面之一是随着测试时间计算增加而出现的复杂行为。诸如反思——模型重新访问并重新评估其先前步骤——以及探索问题解决的替代方法等行为自发出现。这些行为不是明确编程的，而是由于模型与强化学习环境的互动而产生的。这种自发发展显著增强了DeepSeek-R1-Zero的推理能力，使其能够以更高的效率和准确性应对更具挑战性的任务。

DeepSeek-R1-Zero的顿悟时刻 在DeepSeek-R1-Zero训练过程中观察到的一个特别有趣的现象是"顿悟时刻"的出现。如表3所示，这个时刻出现在模型的中间版本中。在这个阶段，DeepSeek-R1-Zero学会通过重新评估其初始方法为问题分配更多思考时间。这种行为不仅证明了模型不断增长的推理能力，也是强化学习如何导致意外且复杂结果的迷人例子。

这个时刻不仅对模型来说是"顿悟时刻"，对观察其行为的研究人员来说也是如此。它强调了强化学习的力量和美妙：我们不是明确教导模型如何解决问题，而是简单地为其提供正确的激励，它就会自主发展先进的问题解决策略。"顿悟时刻"有力地提醒我们RL在人工系统中解锁新智能水平的潜力，为未来更自主和适应性的模型铺平道路。

DeepSeek-R1-Zero的缺点 尽管DeepSeek-R1-Zero展现了强大的推理能力并自主发展出意外且强大的推理行为，但它面临几个问题。例如，DeepSeek-R1-Zero在可读性差和语言混合等挑战方面存在困难。为了使推理过程更具可读性并与开放社区分享，我们探索了DeepSeek-R1，一种利用RL与人性化冷启动数据的方法。

2.3 DeepSeek-R1：带冷启动的强化学习

受DeepSeek-R1-Zero有前景结果的启发，自然出现了两个问题：1) 通过结合少量高质量数据作为冷启动，推理性能能否进一步提升或加速收敛？2) 我们如何训练一个用户友好的模型，不仅产生清晰连贯的思维链(CoT)，还展现强大的一般能力？为了解决这些问题，我们设计了一个训练DeepSeek-R1的流程。

2.3.1 冷启动

与DeepSeek-R1-Zero不同，为了防止从基础模型进行RL训练的早期不稳定冷启动阶段，对于DeepSeek-R1，我们构建和收集少量长CoT数据来微调模型作为初始RL参与者。为了收集这样的数据，我们探索了几种方法：使用以长CoT作为示例的少样本提示，直接提示模型生成带有反思和验证的详细答案，以可读格式收集DeepSeek-R1-Zero输出，并通过人类注释员的后处理来细化结果。

冷启动数据相比DeepSeek-R1-Zero的优势包括：

• 可读性：DeepSeek-R1-Zero的一个主要限制是其内容通常不适合阅读。响应可能混合多种语言或缺乏markdown格式来为用户突出答案。相反，在为DeepSeek-R1创建冷启动数据时，我们设计了一个可读的模式，在每个响应末尾包含摘要，并过滤掉对读者不友好的响应。

• 潜力：通过使用人类先验仔细设计冷启动数据的模式，我们观察到相对于DeepSeek-R1-Zero的更好性能。我们相信迭代训练是推理模型的更好方式。

2.3.2 面向推理的强化学习

在对冷启动数据微调DeepSeek-V3-Base后，我们应用与DeepSeek-R1-Zero中使用的相同大规模强化学习训练过程。这个阶段专注于增强模型的推理能力，特别是在推理密集型任务中，如编程、数学、科学和逻辑推理，这些任务涉及具有明确解决方案的明确定义问题。

2.3.3 拒绝采样和监督微调

当面向推理的RL收敛时，我们利用生成的检查点收集下一轮的SFT数据。与主要专注于推理的初始冷启动数据不同，这个阶段结合来自其他领域的数据，以增强模型在写作、角色扮演和其他通用任务中的能力。

2.3.4 所有场景的强化学习

为了进一步使模型与人类偏好保持一致，我们实施了第二个强化学习阶段，旨在改善模型的有用性和无害性，同时精炼其推理能力。

2.4 蒸馏：为小模型赋予推理能力

为了为更高效的小模型配备像DeepSeek-R1这样的推理能力，我们使用DeepSeek-R1整理的800k样本直接微调了像Qwen和Llama这样的开源模型。我们的发现表明，这种直接的蒸馏方法显著增强了小模型的推理能力。

3. 实验

3.1 DeepSeek-R1评估

在这里插入图片描述

在教育导向的知识基准测试如MMLU、MMLU-Pro和GPQA Diamond上，DeepSeek-R1相比DeepSeek-V3展现出卓越性能。这种改进主要归因于STEM相关问题准确性的提升，通过大规模强化学习实现了显著增益。

在数学任务上，DeepSeek-R1展现出与OpenAI-o1-1217相当的性能，大幅超越其他模型。在编程算法任务上也观察到类似趋势，如LiveCodeBench和Codeforces，推理专注的模型在这些基准测试上占主导地位。

3.2 蒸馏模型评估

在这里插入图片描述

如表5所示，简单地蒸馏DeepSeek-R1的输出使得高效的DeepSeek-R1-7B在各方面都优于像GPT-4o-0513这样的非推理模型。DeepSeek-R1-14B在所有评估指标上都超过QwQ-32B-Preview，而DeepSeek-R1-32B和DeepSeek-R1-70B在大多数基准测试上显著超过o1-mini。

4. 讨论

4.1 蒸馏与强化学习的对比

在第3.2节中，我们可以看到通过蒸馏DeepSeek-R1，小模型可以取得令人印象深刻的结果。然而，仍有一个问题：模型能否通过论文中讨论的大规模RL训练在没有蒸馏的情况下达到相当的性能？

为了回答这个问题，我们在Qwen-32B-Base上使用数学、编程和STEM数据进行大规模RL训练，训练超过10K步，产生DeepSeek-R1-Zero-Qwen-32B。实验结果表明，32B基础模型在大规模RL训练后达到与QwQ-32B-Preview相当的性能。然而，从DeepSeek-R1蒸馏的DeepSeek-R1-Distill-Qwen-32B在所有基准测试上都显著优于DeepSeek-R1-Zero-Qwen-32B。

在这里插入图片描述

因此，我们可以得出两个结论：首先，将更强大的模型蒸馏到较小模型中产生出色结果，而依赖本文中提到的大规模RL的较小模型需要巨大的计算能力，甚至可能无法达到蒸馏的性能。其次，虽然蒸馏策略既经济又有效，但超越智能边界可能仍需要更强大的基础模型和更大规模的强化学习。

4.2 不成功的尝试

在开发DeepSeek-R1的早期阶段，我们也遇到了失败和挫折。我们在这里分享我们的失败经验以提供见解，但这并不意味着这些方法无法开发有效的推理模型。

过程奖励模型(PRM) PRM是指导模型朝向更好的推理任务解决方法的合理方法。然而，在实践中，PRM有三个主要限制可能阻碍其最终成功。首先，在一般推理中明确定义细粒度步骤是困难的。其次，确定当前中间步骤是否正确是一项具有挑战性的任务。使用模型的自动注释可能不会产生满意的结果，而手动注释不利于扩大规模。第三，一旦引入基于模型的PRM，它不可避免地导致奖励破解，重新训练奖励模型需要额外的训练资源，这使得整个训练流程变得复杂。

蒙特卡洛树搜索(MCTS) 受AlphaGo和AlphaZero的启发，我们探索使用蒙特卡洛树搜索(MCTS)来增强测试时间计算可扩展性。这种方法涉及将答案分解为较小部分，以允许模型系统地探索解决方案空间。然而，这种方法在扩大训练规模时遇到几个挑战。首先，与棋类游戏不同，token生成呈现指数级更大的搜索空间。其次，价值模型直接影响生成质量，因为它指导搜索过程的每一步。

5. 结论、限制和未来工作

在这项工作中，我们分享了通过强化学习增强模型推理能力的旅程。DeepSeek-R1-Zero代表了一种不依赖冷启动数据的纯RL方法，在各种任务上实现了强大的性能。DeepSeek-R1更强大，利用冷启动数据和迭代RL微调。最终，DeepSeek-R1在一系列任务上达到了与OpenAI-o1-1217相当的性能。

我们进一步探索将推理能力蒸馏到小密集模型。我们使用DeepSeek-R1作为教师模型生成800K训练样本，并微调几个小密集模型。结果是有前景的：DeepSeek-R1-Distill-Qwen-1.5B在数学基准测试上优于GPT-4o和Claude-3.5-Sonnet，在AIME上达到28.9%，在MATH上达到83.9%。其他密集模型也取得了令人印象深刻的结果，显著优于基于相同底层检查点的其他指令调整模型。

在未来，我们计划在以下方向为DeepSeek-R1投资研究：

• 一般能力：目前，DeepSeek-R1在函数调用、多轮对话、复杂角色扮演和JSON输出等任务上的能力不如DeepSeek-V3。展望未来，我们计划探索如何利用长CoT来增强这些领域的任务。

• 语言混合：DeepSeek-R1目前针对中文和英文进行了优化，这可能在处理其他语言的查询时导致语言混合问题。例如，即使查询使用的是英文或中文以外的语言，DeepSeek-R1也可能使用英文进行推理和回应。我们旨在在未来更新中解决这一限制。

• 提示工程：在评估DeepSeek-R1时，我们观察到它对提示很敏感。少样本提示始终降低其性能。因此，我们建议用户直接描述问题并使用零样本设置指定输出格式以获得最佳结果。

• 软件工程任务：由于评估时间长，影响RL过程的效率，大规模RL尚未广泛应用于软件工程任务。因此，DeepSeek-R1在软件工程基准测试上相对于DeepSeek-V3并未显示出巨大改进。未来版本将通过在软件工程数据上实施拒绝采样或在RL过程中结合异步评估来提高效率，从而解决这个问题。

参考文献

AI@Meta. Llama 3.1 model card, 2024. URL https://github.com/meta-llama/llama-models/blob/main/models/llama3_1/MODEL_CARD.md.

Anthropic. Claude 3.5 sonnet, 2024. URL https://www.anthropic.com/news/claude-3-5-sonnet.

M. Chen, J. Tworek, H. Jun, Q. Yuan, H. P. de Oliveira Pinto, J. Kaplan, H. Edwards, Y. Burda, N. Joseph, G. Brockman, A. Ray, R. Puri, G. Krueger, M. Petrov, H. Khlaaf, G. Sastry, P. Mishkin, B. Chan, S. Gray, N. Ryder, M. Pavlov, A. Power, L. Kaiser, M. Bavarian, C. Winter, P. Tillet, F. P. Such, D. Cummings, M. Plappert, F. Chantzis, E. Barnes, A. Herbert-Voss, W. H. Guss, A. Nichol, A. Paino, N. Tezak, J. Tang, I. Babuschkin, S. Balaji, S. Jain, W. Saunders, C. Hesse, A. N. Carr, J. Leike, J. Achiam, V. Misra, E. Morikawa, A. Radford, M. Knight, M. Brundage, M. Murati, K. Mayer, P. Welinder, B. McGrew, D. Amodei, S. McCandlish, I. Sutskever, and W. Zaremba. Evaluating large language models trained on code. CoRR, abs/2107.03374, 2021.

A. Dubey, A. Jauhri, A. Pandey, A. Kadian, A. Al-Dahle, A. Letman, A. Mathur, A. Schelten, A. Yang, A. Fan, et al. The llama 3 herd of models. arXiv preprint arXiv:2407.21783, 2024.

Y. Dubois, B. Galambosi, P. Liang, and T. B. Hashimoto. Length-controlled alpacaeval: A simple way to debias automatic evaluators. arXiv preprint arXiv:2404.04475, 2024.

X. Feng, Z. Wan, M. Wen, S. M. McAleer, Y. Wen, W. Zhang, and J. Wang. Alphazero-like tree-search can guide large language model decoding and training, 2024.

L. Gao, J. Schulman, and J. Hilton. Scaling laws for reward model overoptimization, 2022.

A. P. Gema, J. O. J. Leang, G. Hong, A. Devoto, A. C. M. Mancino, R. Saxena, X. He, Y. Zhao, X. Du, M. R. G. Madani, C. Barale, R. McHardy, J. Harris, J. Kaddour, E. van Krieken, and P. Minervini. Are we done with mmlu? CoRR, abs/2406.04127, 2024.

Google. Our next-generation model: Gemini 1.5, 2024.

Y. He, S. Li, J. Liu, Y. Tan, W. Wang, H. Huang, X. Bu, H. Guo, C. Hu, B. Zheng, et al. Chinese simpleqa: A chinese factuality evaluation for large language models. arXiv preprint arXiv:2411.07140, 2024.

D. Hendrycks, C. Burns, S. Basart, A. Zou, M. Mazeika, D. Song, and J. Steinhardt. Measuring massive multitask language understanding. arXiv preprint arXiv:2009.03300, 2020.

Y. Huang, Y. Bai, Z. Zhu, J. Zhang, J. Zhang, T. Su, J. Liu, C. Lv, Y. Zhang, J. Lei, et al. C-Eval: A multi-level multi-discipline chinese evaluation suite for foundation models. arXiv preprint arXiv:2305.08322, 2023.

N. Jain, K. Han, A. Gu, W. Li, F. Yan, T. Zhang, S. Wang, A. Solar-Lezama, K. Sen, and I. Stoica. Livecodebench: Holistic and contamination free evaluation of large language models for code. CoRR, abs/2403.07974, 2024.

S. Krishna, K. Krishna, A. Mohananey, S. Schwarcz, A. Stambler, S. Upadhyay, and M. Faruqui. Fact, fetch, and reason: A unified evaluation of retrieval-augmented generation. CoRR, abs/2409.12941, 2024.

A. Kumar, V. Zhuang, R. Agarwal, Y. Su, J. D. Co-Reyes, A. Singh, K. Baumli, S. Iqbal, C. Bishop, R. Roelofs, et al. Training language models to self-correct via reinforcement learning. arXiv preprint arXiv:2409.12917, 2024.

H. Li, Y. Zhang, F. Koto, Y. Yang, H. Zhao, Y. Gong, N. Duan, and T. Baldwin. CMMLU: Measuring massive multitask language understanding in Chinese. arXiv preprint arXiv:2306.09212, 2023.

T. Li, W.-L. Chiang, E. Frick, L. Dunlap, T. Wu, B. Zhu, J. E. Gonzalez, and I. Stoica. From crowdsourced data to high-quality benchmarks: Arena-hard and benchbuilder pipeline. arXiv preprint arXiv:2406.11939, 2024.

H. Lightman, V. Kosaraju, Y. Burda, H. Edwards, B. Baker, T. Lee, J. Leike, J. Schulman, I. Sutskever, and K. Cobbe. Let’s verify step by step. arXiv preprint arXiv:2305.20050, 2023.

B. Y. Lin. ZeroEval: A Unified Framework for Evaluating Language Models, July 2024.

MAA. American invitational mathematics examination - aime. In American Invitational Mathematics Examination - AIME 2024, February 2024.

OpenAI. Hello GPT-4o, 2024a.

OpenAI. Learning to reason with llms, 2024b.

OpenAI. Introducing SimpleQA, 2024c.

OpenAI. Introducing SWE-bench verified we’re releasing a human-validated subset of swe-bench that more, 2024d.

Qwen. Qwq: Reflect deeply on the boundaries of the unknown, 2024a.

Qwen. Qwen2.5: A party of foundation models, 2024b.

D. Rein, B. L. Hou, A. C. Stickland, J. Petty, R. Y. Pang, J. Dirani, J. Michael, and S. R. Bowman. GPQA: A graduate-level google-proof q&a benchmark. arXiv preprint arXiv:2311.12022, 2023.

Z. Shao, P. Wang, Q. Zhu, R. Xu, J. Song, M. Zhang, Y. Li, Y. Wu, and D. Guo. Deepseekmath: Pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:2402.03300, 2024.

D. Silver, T. Hubert, J. Schrittwieser, I. Antonoglou, M. Lai, A. Guez, M. Lanctot, L. Sifre, D. Kumaran, T. Graepel, T. P. Lillicrap, K. Simonyan, and D. Hassabis. Mastering chess and shogi by self-play with a general reinforcement learning algorithm. CoRR, abs/1712.01815, 2017a.

D. Silver, J. Schrittwieser, K. Simonyan, I. Antonoglou, A. Huang, A. Guez, T. Hubert, L. Baker, M. Lai, A. Bolton, Y. Chen, T. P. Lillicrap, F. Hui, L. Sifre, G. van den Driessche, T. Graepel, and D. Hassabis. Mastering the game of go without human knowledge. Nat., 550(7676):354–359, 2017b.

C. Snell, J. Lee, K. Xu, and A. Kumar. Scaling llm test-time compute optimally can be more effective than scaling model parameters, 2024.

T. Trinh, Y. Wu, Q. Le, H. He, and T. Luong. Solving olympiad geometry without human demonstrations. Nature, 2024.

J. Uesato, N. Kushman, R. Kumar, F. Song, N. Siegel, L. Wang, A. Creswell, G. Irving, and I. Higgins. Solving math word problems with process-and outcome-based feedback. arXiv preprint arXiv:2211.14275, 2022.

P. Wang, L. Li, Z. Shao, R. Xu, D. Dai, Y. Li, D. Chen, Y. Wu, and Z. Sui. Math-shepherd: A label-free step-by-step verifier for llms in mathematical reasoning. arXiv preprint arXiv:2312.08935, 2023.

X. Wang, J. Wei, D. Schuurmans, Q. Le, E. Chi, S. Narang, A. Chowdhery, and D. Zhou. Self-consistency improves chain of thought reasoning in language models. arXiv preprint arXiv:2203.11171, 2022.

Y. Wang, X. Ma, G. Zhang, Y. Ni, A. Chandra, S. Guo, W. Ren, A. Arulraj, X. He, Z. Jiang, T. Li, M. Ku, K. Wang, A. Zhuang, R. Fan, X. Yue, and W. Chen. Mmlu-pro: A more robust and challenging multi-task language understanding benchmark. CoRR, abs/2406.01574, 2024.

C. S. Xia, Y. Deng, S. Dunn, and L. Zhang. Agentless: Demystifying llm-based software engineering agents. arXiv preprint, 2024.

H. Xin, Z. Z. Ren, J. Song, Z. Shao, W. Zhao, H. Wang, B. Liu, L. Zhang, X. Lu, Q. Du, W. Gao, Q. Zhu, D. Yang, Z. Gou, Z. F. Wu, F. Luo, and C. Ruan. Deepseek-prover-v1.5: Harnessing proof assistant feedback for reinforcement learning and monte-carlo tree search, 2024.

J. Zhou, T. Lu, S. Mishra, S. Brahma, S. Basu, Y. Luan, D. Zhou, and L. Hou. Instruction-following evaluation for large language models. arXiv preprint arXiv:2311.07911, 2023.

附录

A. 贡献和致谢

核心贡献者

Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z.F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao

贡献者

Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo*, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Hanwei Xu, Honghui Ding, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jingchang Chen, Jingyang Yuan, Jinhao Tu, Junjie Qiu, Junlong Li, J.L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu*, Kaichao You, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Mingxu Zhou, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge*, Ruisong Zhang, Ruizhe Pan, Runji Wang, R.J. Chen, R.L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S.S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu*, Wentao Zhang, W.L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X.Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y.K. Li, Y.Q. Wang, Y.X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma*, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y.X. Zhu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z.Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu*, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen Zhang

在每个角色中，作者按名字字母顺序排列。标有*的姓名表示已离开我们团队的个人。

查看全文

http://www.lryc.cn/news/622574.html