主要观点总结
OpenAI发布了GPT-4.1系列模型,包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。这些模型在编程、指令跟随、长上下文处理能力等方面实现了重大突破。其中,GPT-4.1在SWE-bench Verified上的得分达到54.6%,长上下文处理能力也有显著提升,能够处理最多100万Token的上下文。此外,GPT-4.1系列模型由中科大校友Jiahui Yu领衔开发,他在深度学习和高性能计算领域有丰富的研究经验。
关键观点总结
关键观点1: GPT-4.1系列模型发布
OpenAI推出了GPT-4.1系列模型,包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano,这些模型在编程、指令跟随和长上下文处理能力等方面取得了显著进展。
关键观点2: 模型的技术突破
GPT-4.1系列模型在多项基准测试中表现出色,如SWE-bench Verified、Aider多语言编码基准等,展现了强大的编程能力和指令跟随能力。
关键观点3: 长上下文处理能力的提升
GPT-4.1系列模型能够处理长达100万Token的上下文,并且在长上下文任务中表现出色,如OpenAI-MRCR和Graphwalks基准测试。
关键观点4: 视觉理解的增强
GPT-4.1系列模型在图像理解方面表现出色,特别是在MathVista和CharXiv-Reasoning等基准测试中优于GPT-4o。
关键观点5: 领导团队和开发者
GPT-4.1系列模型由中科大校友Jiahui Yu领衔开发,他在深度学习和高性能计算领域拥有丰富的研究经验,此前曾在Google DeepMind等多个机构实习。
正文
下面是一个OpenAI的Playground,在演示中,研究者要求GPT-4.1生成一个单一的Python文件代码应用,在右侧模拟用户查询,这个网站可以接收大型文本文件、回答相关问题。
可以看到,模型产生了数百行代码。研究者将这些代码实际运行后,发现效果出人意料的好。
仅仅一个提示,它就创建了这个网站。
接下来,是大海捞针的展示。
研究者上传了文件——NASA自1995年8月以来的服务器请求响应日志文件,在这个文件中,左侧是向NASA服务器发出请求的客户端名称,这是一个包含大量日志行的长文件,左侧大概有450000个token的内容。
在OpenAI以前的模型上,是不可能使用这个文件的。
这里,研究者偷偷添加了一行实际上不是HTTP请求响应的内容,这支堆栈中的小「针」,很难发觉。
最终,GPT-4.1成功了!
研究者经过确认,这一行的确在他们上传的日志文件中。
OpenAI特意强调,在实践中非常重要的一点,就是
API
开发者是如何提示模型的。
在这个任务中,GPT-4.1的任务是日志分析员助手。研究者告诉它输入的数据以及用户的查询该如何构建。
接下来还有一些规则,比如模型只用回答日志数据内容相关的问题,问题应该始终在查询标签内格式化,如果其中一项不真实请回复错误消息等等。
接下来,就是GPT-4.1展示的时候了。
研究者询问:fnal.gov发出了多少请求?模型拒绝了,因为它没有在查询标签内格式化。
而如果在查询标签内发出同样的请求,它就可以找到日志文件中的两个引用了。
这样,开发者就可以明确让模型做到「不做某事」,这是开发过程中一个极其有意义的关键细节——遵循负面
指令
。
02
价格方面,GPT‑4.1虽然比GPT‑4o便宜了26%,但输入、输出依然高达每百万token 2美元和8美元。
GPT‑4.1 nano是OpenAI迄今为止价格最低、速度最快的模型,输入、输出分别为0.1美元和0.4美元。
对于重复使用相同上下文的查询,这些新模型的提示词缓存折扣已从之前的50%提高至75%。
最后,长上下文请求已包含在标准的按Token计费内,无额外费用。
相对GPT-4o、o1、o3-mini等模型,GPT-4.1在编程上都提升了一大截。
在各种编程任务上明显比GPT-4o强得多,比如用智能体解决编程问题、前端开发、减少不必要的代码修改、严格跟随不同的格式、保持工具使用的一致性等等。
在SWE-bench Verified这个反映真实软件工程能力的测试中,GPT-4.1完成了54.6%的任务,而GPT-4o(2024-11-20)只有33.2%。