deepseek 正式发布 DeepSeek-R1,并同步开源模型权重。 开源 DeepSeek-R1 推理大模型,与 o1 性能相近。
开源 DeepSeek-R1-Zero,预训练模型直接 RL,不走 SFT。
开源用 R1 数据蒸馏的 Qwen、Llama 系列小模型,蒸馏模型超过 o1-mini 和 QWQ。
模型开源的同时,技术报告也同步放出:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
1.引言
近年来,大型语言模型(LLMs)通过后训练技术不断优化,逐渐接近人工通用智能(AGI)。后训练在提升推理任务准确性、符合社会价值观和用户偏好方面表现出色,且计算资源消耗较少。OpenAI 的 o1 系列模型通过增加推理“思考链条”长度,显著提升了数学、编程和科学推理能力,但更有效的推理扩展方法仍是研究热点。
本文首次尝试通过纯强化学习(RL)提升语言模型的推理能力,以 DeepSeek-V3-Base 为基础,采用 GRPO 框架训练。经过数千步训练后,DeepSeek-R1-Zero 在推理基准测试中表现出色,例如在 AIME 2024 上的 Pass@1 分数从 15.6% 提升至 86.7%(多数投票后),接近 OpenAI-o1-0912 的水平。但该模型存在可读性差和语言混用的问题。
为解决这些问题,研究团队推出 DeepSeek-R1,引入冷启动数据和多阶段训练流程,终使其性能达到与 OpenAI-o1-1217 相当的水平。此外,研究团队还通过知识蒸馏将 DeepSeek-R1 的能力传递到较小模型,如 Qwen2.532B,发现其效果优于单独使用 RL。开源的蒸馏模型在推理基准测试中创下新纪录,表明大型基础模型的推理模式对提升推理能力至关重要。
2.相关研究
SFT:之前的研究通常依赖 SFT 来增强模型性能。然而,SFT 需要大量标注数据,成本G且耗时。 推理时扩展:OpenAI 的 o1 系列模型通过增加 CoT 推理长度来实现推理能力扩展,但测试时扩展的挑战仍然存在。 基于过程的奖励模型(PRM):一些研究采用过程奖励模型引导模型进行推理。然而,这些模型在实际应用中存在局限性。 强化学习:强化学习已被用于提升推理能力,但通常与 SFT 数据结合使用,难以探索纯 RL 的潜力。 搜索算法:如蒙特卡洛树搜索(MCTS)等算法也被用于增强推理,但效果有限。
3.主要贡献
首次验证了纯强化学习在 LLM 中显著增强推理能力的可行性(DeepSeek-R1-Zero),即无需预先的 SFT 数据,仅通过 RL 即可激励模型学会长链推理和反思等能力。
提出了多阶段训练策略(冷启动->RL->SFT->全场景 RL),有效兼顾准确率与可读性,产出 DeepSeek-R1,性能比肩 OpenAI-o1-1217。
展示了知识蒸馏在提升小模型推理能力方面的潜力,并开源多个大小不一的蒸馏模型(1.5B~70B),为社区提供了可在低资源环境中也能获得G推理能力的模型选择。
![]() |
机器人底盘 Disinfection Robot 消毒机器人 讲解机器人 迎宾机器人 移动机器人底盘 商用机器人 智能垃圾站 智能服务机器人 大屏机器人 雾化消毒机器人 紫外线消毒机器人 消毒机器人价格 展厅机器人 服务机器人底盘 核酸采样机器人 智能配送机器人 导览机器人 |