专栏名称: 经纬创投
经纬创投公众平台,创享汇,新闻发布官方平台
目录
相关文章推荐
51好读  ›  专栏  ›  经纬创投

GPT-4.1深夜登场,中科大校友领队 |【经纬低调分享】

经纬创投  · 公众号  · 科技投资  · 2025-04-15 12:05

主要观点总结

OpenAI发布了GPT-4.1系列模型,包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。这些模型在编程、指令跟随、长上下文处理能力等方面实现了重大突破。其中,GPT-4.1在SWE-bench Verified上的得分达到54.6%,长上下文处理能力也有显著提升,能够处理最多100万Token的上下文。此外,GPT-4.1系列模型由中科大校友Jiahui Yu领衔开发,他在深度学习和高性能计算领域有丰富的研究经验。

关键观点总结

关键观点1: GPT-4.1系列模型发布

OpenAI推出了GPT-4.1系列模型,包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano,这些模型在编程、指令跟随和长上下文处理能力等方面取得了显著进展。

关键观点2: 模型的技术突破

GPT-4.1系列模型在多项基准测试中表现出色,如SWE-bench Verified、Aider多语言编码基准等,展现了强大的编程能力和指令跟随能力。

关键观点3: 长上下文处理能力的提升

GPT-4.1系列模型能够处理长达100万Token的上下文,并且在长上下文任务中表现出色,如OpenAI-MRCR和Graphwalks基准测试。

关键观点4: 视觉理解的增强

GPT-4.1系列模型在图像理解方面表现出色,特别是在MathVista和CharXiv-Reasoning等基准测试中优于GPT-4o。

关键观点5: 领导团队和开发者

GPT-4.1系列模型由中科大校友Jiahui Yu领衔开发,他在深度学习和高性能计算领域拥有丰富的研究经验,此前曾在Google DeepMind等多个机构实习。


正文

请到「今天看啥」查看全文



下面是一个OpenAI的Playground,在演示中,研究者要求GPT-4.1生成一个单一的Python文件代码应用,在右侧模拟用户查询,这个网站可以接收大型文本文件、回答相关问题。


图片


可以看到,模型产生了数百行代码。研究者将这些代码实际运行后,发现效果出人意料的好。


仅仅一个提示,它就创建了这个网站。


图片


接下来,是大海捞针的展示。


研究者上传了文件——NASA自1995年8月以来的服务器请求响应日志文件,在这个文件中,左侧是向NASA服务器发出请求的客户端名称,这是一个包含大量日志行的长文件,左侧大概有450000个token的内容。


图片


在OpenAI以前的模型上,是不可能使用这个文件的。


这里,研究者偷偷添加了一行实际上不是HTTP请求响应的内容,这支堆栈中的小「针」,很难发觉。


最终,GPT-4.1成功了!


图片


研究者经过确认,这一行的确在他们上传的日志文件中。


图片


OpenAI特意强调,在实践中非常重要的一点,就是 API 开发者是如何提示模型的。


在这个任务中,GPT-4.1的任务是日志分析员助手。研究者告诉它输入的数据以及用户的查询该如何构建。


接下来还有一些规则,比如模型只用回答日志数据内容相关的问题,问题应该始终在查询标签内格式化,如果其中一项不真实请回复错误消息等等。


图片


接下来,就是GPT-4.1展示的时候了。


研究者询问:fnal.gov发出了多少请求?模型拒绝了,因为它没有在查询标签内格式化。


而如果在查询标签内发出同样的请求,它就可以找到日志文件中的两个引用了。


图片


这样,开发者就可以明确让模型做到「不做某事」,这是开发过程中一个极其有意义的关键细节——遵循负面 指令


02

定价

价格方面,GPT‑4.1虽然比GPT‑4o便宜了26%,但输入、输出依然高达每百万token 2美元和8美元。


GPT‑4.1 nano是OpenAI迄今为止价格最低、速度最快的模型,输入、输出分别为0.1美元和0.4美元。


对于重复使用相同上下文的查询,这些新模型的提示词缓存折扣已从之前的50%提高至75%。


最后,长上下文请求已包含在标准的按Token计费内,无额外费用。


图片

03
编程:OpenAI最强模型诞生

相对GPT-4o、o1、o3-mini等模型,GPT-4.1在编程上都提升了一大截。


在各种编程任务上明显比GPT-4o强得多,比如用智能体解决编程问题、前端开发、减少不必要的代码修改、严格跟随不同的格式、保持工具使用的一致性等等。


在SWE-bench Verified这个反映真实软件工程能力的测试中,GPT-4.1完成了54.6%的任务,而GPT-4o(2024-11-20)只有33.2%。







请到「今天看啥」查看全文