专栏名称: InfoQ
有内容的技术社区媒体。
目录
相关文章推荐
51好读  ›  专栏  ›  InfoQ

爆冷!字节Seed 在CCPC 决赛只做出一道签到题,而DeepSeek R1 直接挂零?

InfoQ  · 公众号  · 科技媒体  · 2025-05-16 18:00

主要观点总结

本文介绍了第十届中国大学生程序设计竞赛(CCPC)中,字节Seed团队携模型参赛的情况及结果。文章还提到了不同模型在比赛中的表现,以及大模型在做算法题上的短板和推理模式对模型性能的影响。

关键观点总结

关键观点1: 字节Seed团队参赛方式及成绩

字节Seed团队以纯模型参赛,人类不参与思考。但最终成绩不理想,模型未能解决任何一道题目。

关键观点2: 不同模型在比赛中的表现

介绍了包括Seed-Thinking在内的多个模型在比赛中的表现,并讨论了不同模型架构在比赛中的差异。

关键观点3: 大模型在做算法题上的短板

通过博主的评价和OpenAI的研究论文,指出大模型在做算法题上具有短板,尤其是在解决需要独特做法和创意的题目时。

关键观点4: 推理模式对模型性能的影响

微软首席软件工程师Alex Svetkin的基准测试结果表明,启用“推理”或“思考”模式的模型在解决新型算法题上表现更好。


正文

请到「今天看啥」查看全文


“至于最终成绩,只能说是很悲壮了。赛中的几个小时,场外的大伙一直不停打地在刷新榜单,可惜直到封榜都没能看到 model AC 掉任何一题。好在最后场上的同事非常神勇地判断出了哪道题最签一点,保住了 Al 的最后一点面子。”该工作人员说道。

此外,该工作人员也表示这次本次比赛题目相较去年会新一些,如果是去年的 CCPC final,模型表现会更好一些。

不过,评论区也有网友指出,“Gemini 2.5 pro 非常变态,只要你把你的 io 和 debug 信息给它,迭代几次就成功了,我用这个打了好几次 cf 了,基本上你只要会给提示大部分题都能 AC。测下来人为辅助给一些基本提示的话,AI 能写出 70% 的题。关键在怎么给 AI 提示,AI 的自我纠错已经非常厉害了。”

“感觉大模型技能树确实有点不一样。”字节工作人员还在知乎上提到。

包括 Seed-Thinking 在内,字节 Seed 进行测试的来自四家公司的模型在架构上也有一定的代表性:

  • Seed-Thinking-v1.5 采用 MoE 架构,包含 200B 总参数与 20B 激活参数。研究团队在强化学习训练中整合了 STEM 问题、代码任务、逻辑推理和非推理数据,针对可验证和不可验证的问题使用不同的奖励建模方法。

  • o3 采用“推理专用架构”,专注于解决复杂问题。它拥有 128 层 Transformer,并集成了专门的符号推理引擎,使其在数学处理和逻辑推理方面达到人类水平的精度。o4-mini 基于“效率优化架构”构建,通过量化技术和动态算力分配,将参数量缩减至 o3 的五分之一,同时保持了相近的性能。它在实时任务中处理速度比 o3 提升了 3.2 倍。

  • Gemini 2.5 Pro 建立在原生多模态架构上,支持文本、图像、音频及代码等多源输入,并支持百万 Token 上下文窗口,使其能够处理超大文档、视频脚本与完整代码库。虽然没有详细技术介绍,但其技术突破在于强化学习、思维链提示和后训练。

  • DeepSeek R1 由一个嵌入层、61 个 Transformer 层以及输出阶段的多个预测头构成,直接将强化学习应用于基础模型,无需依赖监督微调 (SFT) 作为初始步骤,使模型能够探索解决复杂问题的思路链。

单就在上述模型在 CCPC final 比赛中的表现,不同模型架构并未表现出特别大的差异。

暴露出大模型短板

“这其实说明大模型在做算法题上其实是很有短板的”上述博主说道,“这件事 OpenAI 在他们拿 ioi 金牌的那篇论文没有说。”

在今年 2 月,OpenAI 发布了关于推理模型在竞技编程中应用的研究论文,其中,在 IOI 2024 国际信息学奥林匹克竞赛的测试中,o3 拿到了 395.64 分,达成金牌成就。







请到「今天看啥」查看全文