专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
InfoTech  ·  DeepSeek更新了! ·  3 天前  
人工智能与大数据技术  ·  15亿美元AI独角兽崩塌,全是印度程序员冒充 ... ·  2 天前  
人工智能与大数据技术  ·  AI 正在培养“文盲”程序员? ·  4 天前  
51好读  ›  专栏  ›  大数据文摘

深夜突袭!DeepSeek-R1 重磅升级:媲美 OpenAl 最高 o3 模型,编码能力直逼 Cl...

大数据文摘  · 公众号  · 大数据  · 2025-05-30 14:00

正文

请到「今天看啥」查看全文


从模型结构看,0528 没有变动。它依旧基于 DeepSeek V3 Base,685B 参数,没有像 OpenAI 的 GPT-4o 或 Google 的 Gemini 那样切入多模态。唯一的实质更新,是 推理路径 :更长、更细致、更像人在解题。

根据用户测试,在 LiveCodeBench 编程测试环境中,R1-0528 在多个任务上表现接近 OpenAI o3 High 模式接近

图注:推特用户测试
其中一个变化出现在 AIME 2025 测试:新版准确率从 70% 拉到 87.5%。与此同时,模型平均为每道题写下 23 K tokens, 几乎是旧版的两倍 。官方解释称,这代表“更为详尽和深入的思考”。
图片
同时,幻觉率同样被按下;在改写、摘要与阅读理解场景中, 新版幻觉率下降 45%–50% 。创意写作模块也被点名升级:议论文、小说、散文均可生成更长且结构完整的文本,风格更贴合人类偏好。
此外,DeepSeek 公开了对 Qwen3-8B Base 的蒸馏结果。仅 8 B 参数的衍生模型在 AIME 2024 上得分仅次于原版 R1-0528,超越同体量 Qwen3-8B 10 个百分点,逼近 Qwen3-235B 。团队认为,“可以为学术界的推理研究和工业界的小模型开发提供思路”。
图片
图注: DeepSeek-R1-0528-Qwen3-8B 等开源模型的 AIME 2024 对比结果

目前,这些模型均已上传至 Hugging Face,且标注为 MIT License,允许商用,也允许使用其输出结果进行模型蒸馏。

此外,此次发布不仅涵盖了权重、配置与模型文档,也同步上线了 App、官网及 API 调用服务,接口对开发者开放。






请到「今天看啥」查看全文