深夜突袭！DeepSeek-R1 重磅升级：媲美 OpenAl 最高 o3 模型，编码能力直逼 Cl...

大数据文摘 · 公众号 · 大数据 · 2025-05-30 14:00

正文

请到「今天看啥」查看全文

从模型结构看，0528 没有变动。它依旧基于 DeepSeek V3 Base，685B 参数，没有像 OpenAI 的 GPT-4o 或 Google 的 Gemini 那样切入多模态。唯一的实质更新，是 推理路径 ：更长、更细致、更像人在解题。

根据用户测试，在 LiveCodeBench 编程测试环境中，R1-0528 在多个任务上表现接近 OpenAI o3 High 模式接近。

图注：推特用户测试

其中一个变化出现在 AIME 2025 测试：新版准确率从 70% 拉到 87.5%。与此同时，模型平均为每道题写下 23 K tokens，几乎是旧版的两倍。官方解释称，这代表“更为详尽和深入的思考”。

同时，幻觉率同样被按下；在改写、摘要与阅读理解场景中，新版幻觉率下降 45%–50% 。创意写作模块也被点名升级：议论文、小说、散文均可生成更长且结构完整的文本，风格更贴合人类偏好。

此外，DeepSeek 公开了对 Qwen3-8B Base 的蒸馏结果。仅 8 B 参数的衍生模型在 AIME 2024 上得分仅次于原版 R1-0528，超越同体量 Qwen3-8B 10 个百分点，逼近 Qwen3-235B 。团队认为，“可以为学术界的推理研究和工业界的小模型开发提供思路”。