专栏名称: 蚂蚁技术AntTech

分享蚂蚁集团的技术能力和技术文化。

目录

相关文章推荐

OSC开源社区 · 从架构稳定到AI自驱：55个案例拆解大模型落地实战 · 昨天

OSC开源社区 · pg_mooncake：PostgreSQL ... · 3 天前

OSC开源社区 · 马建仓 AI ... · 16 小时前

蚂蚁技术AntTech · “切面融合智能在威胁检测的应用”获评BCS2 ... · 昨天

老刘说NLP · 大模型数据处理方案全面综述：兼看视觉模型在推 ... · 3 天前

51好读 › 专栏 › 蚂蚁技术AntTech

蚂蚁百宝箱已支持DeepSeek-R1-0528，思考推理编码能力增强

蚂蚁技术AntTech · 公众号 · 程序员 · 2025-05-30 23:21

主要观点总结

蚂蚁百宝箱接入DeepSeek R1-0528模型，具备四大核心能力提升，包括深度推理能力、内容创作准确性、长篇创作能力以及在前端代码生成和角色扮演等领域的工具调用支持。该模型在AIME 2025数学竞赛中准确率大幅提升，并降低了幻觉率，输出更可靠的内容。DeepSeek-R1-0528模型在编程、创意写作和工具调用方面的性能均有所突破，可通过蚂蚁百宝箱官网或支付宝扫码体验。

关键观点总结

关键观点1: DeepSeek R1-0528模型的四大核心能力

包括深度推理能力提升，内容创作准确性提高，长篇创作能力优化，以及工具调用支持等。

关键观点2: DeepSeek R1-0528模型在AIME 2025竞赛中的表现

准确率从旧版的70%提升至87.5%，平均解题思考tokens从12K增至23K，显示出复杂推理的透彻性。

关键观点3: 幻觉率的降低

在改写润色、总结摘要、阅读理解等场景中，幻觉率直降45%-50%，使输出结果更准确可信。

关键观点4: DeepSeek R1-0528模型的应用场景

适用于编程、创意写作和工具调用等领域，可生成结构完整、篇幅较长的内容，并在前端代码生成和角色扮演等领域有显著的能力提升。

关键观点5: 蚂蚁百宝箱的使用路径

用户可以通过蚂蚁百宝箱官网或支付宝扫码体验DeepSeek-R1-0528模型，响应极速、免卡顿和排队。

正文

请到「今天看啥」查看全文

数学推理 / 代码生成 / 通用逻辑处理全能突破：在 AIME 2025 数学竞赛中，准确率从旧版 70% 飙升至87.5%，平均解题思考 tokens 从 12K 增至 23K，复杂推理更透彻！推理性能接近 OpenAI o3、Gemini-2.5-Pro 等顶尖模型，国内基准测评成绩领先。

▍

幻觉大幅降低，输出更可靠内容创作更精准

改写润色、总结摘要、阅读理解等场景中，幻觉率直降45%-50%， 输出结果更准确可信！

▍

创意写作全面优化，长篇创作更丝滑

请到「今天看啥」查看全文

推荐文章

OSC开源社区 · 从架构稳定到AI自驱：55个案例拆解大模型落地实战

昨天

OSC开源社区 · pg_mooncake：PostgreSQL的高性能列存新贵

3 天前

OSC开源社区 · 马建仓 AI 助手全流程升级：更聪明的研发搭子，更专业的协作助手

16 小时前

蚂蚁技术AntTech · “切面融合智能在威胁检测的应用”获评BCS2025中国网络安全优秀案例

昨天

老刘说NLP · 大模型数据处理方案全面综述：兼看视觉模型在推理过程中的认知偏差

3 天前

半导体行业观察 · 第一届全国大学生集成电路创新创业大赛在南京启动

8 年前

新华网 · “遛娃师”上线，你家的娃要遛一趟吗？

8 年前

阅读社会 · 当朱自清、琼瑶、鲁迅、仓央嘉措、赵忠祥、甄嬛、金庸和古龙同时在高考战场上......

7 年前

Ingress北京 · 猩猩的全球社群经理伦敦见面会访谈内容汇总

7 年前

雷科技 · 最高奖金 100 万！顺丰丰彩正式发售，买彩票找快递小哥就行了

7 年前

移动版

51好读 - 微信公众号文章