专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
51好读  ›  专栏  ›  大数据文摘

干不过DeepSeek和谷歌?OpenAI推出GPT-4.1被吐槽发了个寂寞,网友实测有反转

大数据文摘  · 公众号  · 大数据  · 2025-04-15 20:00

正文

请到「今天看啥」查看全文



具体而言,三个新模型GPT-4.1、GPT-4.1 mini和GPT-4.1 nano的性能全面超越了GPT-4o和GPT-4o mini,在编码和指令跟踪方面均有显著提,不过,奥特曼表示GPT-4.1系列目前仅限API使用。

这些新模型拥有了更大的上下文窗口,最多支持达100万个上下文标记,追上了谷歌Gemini模型,能够更好地理解和利用上下文,知识截止日期更新到了2024年6月。

GPT-4.1系列其实是对GPT-4o系列的一次重大升级,适用于现实世界的软件工程工作,包括代理解决编码任务、前端编码、减少无关编辑、可靠地遵循差异格式、确保一致的工具使用等等。

在衡量真实世界软件工程技能的SWE-bench Verified测试中,GPT-4.1完成了54.6%的任务,而GPT-4o的完成率为33.2%,GPT-4.5为38%,这反映了新模型在探索代码库、完成任务以及生成可运行并通过测试的代码方面的能力有所提升。

对于需要编辑大型文件的API开发者来说,GPT-4.1在跨多种格式的代码差异分析方面也更加可靠,在Aider的多语言差异基准测试中,GPT-4.1的得分是GPT-4o的两倍多,比GPT-4.5高出8%。

在内部评估中,GPT-4.1在格式遵循、服从负面指令和排序等任务上的得分均优于GPT-4o,多轮指令遵循对许多开发者来说至关重要,Scale的MultiChallenge基准测试是衡量这一能力的有效指标,GPT-4.1的表现比GPT-4o提高了10.5%。

这三种新模型多达100万个上下文标记超过React代码库的8倍,因此它们可以处理大型存储库和大量长文档,而GPT-4o型号最多可以处理128000个,为了展示长上下文理解方面的进步,OpenAI还发布了OpenAI MRCR,这是一个新的开源评估基准,用于测试模型在上下文中关注特定信息的能力。

最后就是价格优势,GPT-4.1在曲线的每个点上都提升了模型性能,但比GPT-4o便宜约26%,4.1 nano版本是OpenAI迄今为止速度最快、成本最低的模型,而且,使用长上下文无需支付额外费用,只需支付正常的代币价格。

不过,GPT-4.1在Aider LLM排行榜上的位置这次并没有冲到前几名,Aider的多语言基准测试针对C++、Go、Java、JavaScript、Python和Rust等语言,通过225道具有挑战性的编码练习题来对大语言模型进行测试。







请到「今天看啥」查看全文