专栏名称: 蚂蚁技术AntTech
分享蚂蚁集团的技术能力和技术文化。
目录
相关文章推荐
OSC开源社区  ·  pg_mooncake:PostgreSQL ... ·  3 天前  
OSC开源社区  ·  马建仓 AI ... ·  16 小时前  
蚂蚁技术AntTech  ·  “切面融合智能在威胁检测的应用”获评BCS2 ... ·  昨天  
51好读  ›  专栏  ›  蚂蚁技术AntTech

蚂蚁百宝箱已支持DeepSeek-R1-0528,思考推理编码能力增强

蚂蚁技术AntTech  · 公众号  · 程序员  · 2025-05-30 23:21

主要观点总结

蚂蚁百宝箱接入DeepSeek R1-0528模型,具备四大核心能力提升,包括深度推理能力、内容创作准确性、长篇创作能力以及在前端代码生成和角色扮演等领域的工具调用支持。该模型在AIME 2025数学竞赛中准确率大幅提升,并降低了幻觉率,输出更可靠的内容。DeepSeek-R1-0528模型在编程、创意写作和工具调用方面的性能均有所突破,可通过蚂蚁百宝箱官网或支付宝扫码体验。

关键观点总结

关键观点1: DeepSeek R1-0528模型的四大核心能力

包括深度推理能力提升,内容创作准确性提高,长篇创作能力优化,以及工具调用支持等。

关键观点2: DeepSeek R1-0528模型在AIME 2025竞赛中的表现

准确率从旧版的70%提升至87.5%,平均解题思考tokens从12K增至23K,显示出复杂推理的透彻性。

关键观点3: 幻觉率的降低

在改写润色、总结摘要、阅读理解等场景中,幻觉率直降45%-50%,使输出结果更准确可信。

关键观点4: DeepSeek R1-0528模型的应用场景

适用于编程、创意写作和工具调用等领域,可生成结构完整、篇幅较长的内容,并在前端代码生成和角色扮演等领域有显著的能力提升。

关键观点5: 蚂蚁百宝箱的使用路径

用户可以通过蚂蚁百宝箱官网或支付宝扫码体验DeepSeek-R1-0528模型,响应极速、免卡顿和排队。


正文

请到「今天看啥」查看全文


数学推理 / 代码生成 / 通用逻辑处理全能突破: 在 AIME 2025 数学竞赛中,准确率从旧版 70% 飙升至87.5%,平均解题思考 tokens 从 12K 增至 23K,复杂推理更透彻! 推理性能 接近 OpenAI o3、Gemini-2.5-Pro 等顶尖模型,国内基准测评成绩领先。

幻觉大幅降低,输出更可靠内容创作更精准

改写润色、总结摘要、阅读理解等场景中,幻觉率直降45%-50%, 输出结果更准确可信!

创意写作全面优化,长篇创作更丝滑







请到「今天看啥」查看全文