专栏名称: DataFunTalk
专注于大数据、人工智能领域的知识分享平台。
目录
相关文章推荐
飞总聊IT  ·  亚马逊CEO放话:裁员不可避免。。。 ·  20 小时前  
飞总聊IT  ·  亚马逊CEO放话:裁员不可避免。。。 ·  20 小时前  
警民直通车上海  ·  反诈是门必修课 筑牢防线守好责 ... ·  昨天  
警民直通车上海  ·  反诈是门必修课 筑牢防线守好责 ... ·  昨天  
化工707  ·  重磅!新型催化剂正式发布! ·  2 天前  
化工707  ·  重磅!新型催化剂正式发布! ·  2 天前  
51好读  ›  专栏  ›  DataFunTalk

谢赛宁团队新基准让LLM集体自闭,DeepSeek R1、Gemini 2.5 Pro都是零分

DataFunTalk  · 公众号  · 互联网安全 科技自媒体  · 2025-06-18 18:39

主要观点总结

文章探讨了当前大型语言模型(LLM)与人类顶级水平之间的显著差距,通过LiveCodeBench Pro项目评估了一系列前沿大模型,包括Gemini 2.5 Pro、o4-mini-high 和 DeepSeek R1等。文章还分析了不同算法范式上的表现,发现大语言模型在知识密集型和逻辑密集型问题上表现更佳,而在观察密集型问题或分类讨论上表现较差。此外,文章还探讨了增加尝试次数(pass@k)对模型性能的影响,以及推理模型与其非推理对应模型的比较。

关键观点总结

关键观点1: LLM与人类的显著差距

文章指出当前的大型语言模型虽然在一些领域取得了显著进展,但在某些方面仍然与人类顶级水平存在显著差距。

关键观点2: LiveCodeBench Pro项目评估

文章介绍了一个名为LiveCodeBench Pro的项目,该项目评估了一系列前沿大模型在竞技编程领域的表现。

关键观点3: 大语言模型在不同算法范式上的表现

文章分析了大语言模型在不同算法范式上的表现,发现在知识密集型和逻辑密集型问题上表现较好,而在观察密集型问题和分类讨论上表现较差。

关键观点4: 增加尝试次数(pass@k)对模型性能的影响

文章探讨了增加尝试次数对模型性能的影响,发现随着尝试次数的增加,模型的评分显著提高。

关键观点5: 推理模型与非推理模型的比较

文章比较了推理模型与其非推理对应模型的表现,发现推理能力在某些领域如组合数学中带来最大提升,而在观察密集型类别中提升相对较小。


正文

请到「今天看啥」查看全文


  • GitHub:https://github.com/GavinZhengOI/LiveCodeBench-Pro


  • 本文在 LiveCodeBench Pro 上评估了一系列前沿大模型,包括 Gemini 2.5 Pro、o4-mini-high 和 DeepSeek R1 等。



    基于这套数据和评测框架,本文发现当前前沿模型依然存在显著不足:在没有外部工具支持的情况下,表现最好的模型在中等难度题上的 pass@1 仅为 53%,在高难度题上则完全无法通过(0%),而这些正是人类专家仍能稳定发挥的领域。


    LiveCodeBench Pro 排行榜



    此外,本文还发现,LLMs 在以实现(implementation-heavy)为主的问题上表现良好,但在处理复杂的算法推理和边界情况分析时表现欠佳,甚至常常生成自信而错误的解释。模型的高分更多是依赖于辅助工具的加持,而非真正的推理能力。


    LiveCodeBench Pro 的出现揭示了当前 LLM 与人类大师级水平之间仍存在显著差距。


    分析与讨论


    在不同算法范式上的表现


    发现 1. 大语言模型在知识密集型和逻辑密集型问题上表现更佳,而在观察密集型问题或分类讨论(case work)上表现较差。



    文中展示了 6 个模型在各类编程问题中的表现。研究发现,人类在不同问题标签上的表现更为一致,而模型的评分则因标签不同而显示出更大的差异。主要发现总结如下:


    知识密集型问题是大语言模型的舒适区。







    请到「今天看啥」查看全文


    推荐文章
    飞总聊IT  ·  亚马逊CEO放话:裁员不可避免。。。
    20 小时前
    飞总聊IT  ·  亚马逊CEO放话:裁员不可避免。。。
    20 小时前
    化工707  ·  重磅!新型催化剂正式发布!
    2 天前
    化工707  ·  重磅!新型催化剂正式发布!
    2 天前