干不过DeepSeek和谷歌？OpenAI推出GPT-4.1被吐槽发了个寂寞，网友实测有反转

大数据文摘 · 公众号 · 大数据 · 2025-04-15 20:00

正文

具体而言，三个新模型GPT-4.1、GPT-4.1 mini和GPT-4.1 nano的性能全面超越了GPT-4o和GPT-4o mini，在编码和指令跟踪方面均有显著提，不过，奥特曼表示GPT-4.1系列目前仅限API使用。

这些新模型拥有了更大的上下文窗口，最多支持达100万个上下文标记，追上了谷歌Gemini模型，能够更好地理解和利用上下文，知识截止日期更新到了2024年6月。

GPT-4.1系列其实是对GPT-4o系列的一次重大升级，适用于现实世界的软件工程工作，包括代理解决编码任务、前端编码、减少无关编辑、可靠地遵循差异格式、确保一致的工具使用等等。

在衡量真实世界软件工程技能的SWE-bench Verified测试中，GPT-4.1完成了54.6%的任务，而GPT-4o的完成率为33.2%，GPT-4.5为38%，这反映了新模型在探索代码库、完成任务以及生成可运行并通过测试的代码方面的能力有所提升。

对于需要编辑大型文件的API开发者来说，GPT-4.1在跨多种格式的代码差异分析方面也更加可靠，在Aider的多语言差异基准测试中，GPT-4.1的得分是GPT-4o的两倍多，比GPT-4.5高出8%。

在内部评估中，GPT-4.1在格式遵循、服从负面指令和排序等任务上的得分均优于GPT-4o，多轮指令遵循对许多开发者来说至关重要，Scale的MultiChallenge基准测试是衡量这一能力的有效指标，GPT-4.1的表现比GPT-4o提高了10.5%。

这三种新模型多达100万个上下文标记超过React代码库的8倍，因此它们可以处理大型存储库和大量长文档，而GPT-4o型号最多可以处理128000个，为了展示长上下文理解方面的进步，OpenAI还发布了OpenAI MRCR，这是一个新的开源评估基准，用于测试模型在上下文中关注特定信息的能力。

最后就是价格优势，GPT-4.1在曲线的每个点上都提升了模型性能，但比GPT-4o便宜约26%，4.1 nano版本是OpenAI迄今为止速度最快、成本最低的模型，而且，使用长上下文无需支付额外费用，只需支付正常的代币价格。

不过，GPT-4.1在Aider LLM排行榜上的位置这次并没有冲到前几名，Aider的多语言基准测试针对C++、Go、Java、JavaScript、Python和Rust等语言，通过225道具有挑战性的编码练习题来对大语言模型进行测试。