专栏名称: 经纬创投

经纬创投公众平台，创享汇，新闻发布官方平台

目录

相关文章推荐

独角兽智库 · 商业航天2.0：回收一箭破长空，产业链迎千亿 ... · 19 小时前

独角兽智库 · 可控核聚变：万亿级终极能源革命，聚焦超导磁体 ... · 2 天前

长线老曾 · 不会被AI智能打败的投资方法 · 昨天

长线老曾 · 不会被AI智能打败的投资方法 · 昨天

云技术 · 鼎和保险「信创数据库」大单（单一来源）：Oc ... · 2 天前

云技术 · 鼎和保险「信创数据库」大单（单一来源）：Oc ... · 2 天前

现代财经 · 《现代财经-早读早分享》2025年6月4日周 ... · 2 天前

现代财经 · 《现代财经-早读早分享》2025年6月4日周 ... · 2 天前

51好读 › 专栏 › 经纬创投

GPT-4.1深夜登场，中科大校友领队 |【经纬低调分享】

经纬创投 · 公众号 · 科技投资 · 2025-04-15 12:05

主要观点总结

OpenAI发布了GPT-4.1系列模型，包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。这些模型在编程、指令跟随、长上下文处理能力等方面实现了重大突破。其中，GPT-4.1在SWE-bench Verified上的得分达到54.6%，长上下文处理能力也有显著提升，能够处理最多100万Token的上下文。此外，GPT-4.1系列模型由中科大校友Jiahui Yu领衔开发，他在深度学习和高性能计算领域有丰富的研究经验。

关键观点总结

关键观点1: GPT-4.1系列模型发布

OpenAI推出了GPT-4.1系列模型，包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano，这些模型在编程、指令跟随和长上下文处理能力等方面取得了显著进展。

关键观点2: 模型的技术突破

GPT-4.1系列模型在多项基准测试中表现出色，如SWE-bench Verified、Aider多语言编码基准等，展现了强大的编程能力和指令跟随能力。

关键观点3: 长上下文处理能力的提升

GPT-4.1系列模型能够处理长达100万Token的上下文，并且在长上下文任务中表现出色，如OpenAI-MRCR和Graphwalks基准测试。

关键观点4: 视觉理解的增强

GPT-4.1系列模型在图像理解方面表现出色，特别是在MathVista和CharXiv-Reasoning等基准测试中优于GPT-4o。

关键观点5: 领导团队和开发者

GPT-4.1系列模型由中科大校友Jiahui Yu领衔开发，他在深度学习和高性能计算领域拥有丰富的研究经验，此前曾在Google DeepMind等多个机构实习。

正文

请到「今天看啥」查看全文

下面是一个OpenAI的Playground，在演示中，研究者要求GPT-4.1生成一个单一的Python文件代码应用，在右侧模拟用户查询，这个网站可以接收大型文本文件、回答相关问题。

可以看到，模型产生了数百行代码。研究者将这些代码实际运行后，发现效果出人意料的好。

仅仅一个提示，它就创建了这个网站。

接下来，是大海捞针的展示。

研究者上传了文件——NASA自1995年8月以来的服务器请求响应日志文件，在这个文件中，左侧是向NASA服务器发出请求的客户端名称，这是一个包含大量日志行的长文件，左侧大概有450000个token的内容。

在OpenAI以前的模型上，是不可能使用这个文件的。

这里，研究者偷偷添加了一行实际上不是HTTP请求响应的内容，这支堆栈中的小「针」，很难发觉。

最终，GPT-4.1成功了！

研究者经过确认，这一行的确在他们上传的日志文件中。

OpenAI特意强调，在实践中非常重要的一点，就是 API 开发者是如何提示模型的。

在这个任务中，GPT-4.1的任务是日志分析员助手。研究者告诉它输入的数据以及用户的查询该如何构建。

接下来还有一些规则，比如模型只用回答日志数据内容相关的问题，问题应该始终在查询标签内格式化，如果其中一项不真实请回复错误消息等等。

接下来，就是GPT-4.1展示的时候了。

研究者询问：fnal.gov发出了多少请求？模型拒绝了，因为它没有在查询标签内格式化。

而如果在查询标签内发出同样的请求，它就可以找到日志文件中的两个引用了。

这样，开发者就可以明确让模型做到「不做某事」，这是开发过程中一个极其有意义的关键细节——遵循负面指令。

02

定价

价格方面，GPT‑4.1虽然比GPT‑4o便宜了26%，但输入、输出依然高达每百万token 2美元和8美元。

GPT‑4.1 nano是OpenAI迄今为止价格最低、速度最快的模型，输入、输出分别为0.1美元和0.4美元。

对于重复使用相同上下文的查询，这些新模型的提示词缓存折扣已从之前的50%提高至75%。

最后，长上下文请求已包含在标准的按Token计费内，无额外费用。

03

编程：OpenAI最强模型诞生

相对GPT-4o、o1、o3-mini等模型，GPT-4.1在编程上都提升了一大截。

在各种编程任务上明显比GPT-4o强得多，比如用智能体解决编程问题、前端开发、减少不必要的代码修改、严格跟随不同的格式、保持工具使用的一致性等等。

在SWE-bench Verified这个反映真实软件工程能力的测试中，GPT-4.1完成了54.6%的任务，而GPT-4o（2024-11-20）只有33.2%。

请到「今天看啥」查看全文

推荐文章

独角兽智库 · 商业航天2.0：回收一箭破长空，产业链迎千亿爆发机遇

19 小时前

独角兽智库 · 可控核聚变：万亿级终极能源革命，聚焦超导磁体四大核心标的

2 天前

长线老曾 · 不会被AI智能打败的投资方法

昨天

长线老曾 · 不会被AI智能打败的投资方法

昨天

云技术 · 鼎和保险「信创数据库」大单（单一来源）：OceanBase

2 天前

云技术 · 鼎和保险「信创数据库」大单（单一来源）：OceanBase

2 天前

现代财经 · 《现代财经-早读早分享》2025年6月4日周三（第3395期）

2 天前

现代财经 · 《现代财经-早读早分享》2025年6月4日周三（第3395期）

2 天前

高校人才网 · 青岛理工大学琴岛学院2017年上半年各类人才招聘计划

8 年前

健康与养身 · 煮米饭时加点它，煮出的米饭香喷喷！很多人都不知道！

8 年前

墨香中华 · 你若善良，人世温暖，你若慈悲，岁月留香

8 年前

住在上海 · 销冠楼盘最后房源在售！430万！约88-113平全三房户型！紧邻地铁上盖巨型商业体！

7 年前

电子工程专辑 · 早这么讲运算放大器的开环增益我现在都是高手了

7 年前

移动版

51好读 - 微信公众号文章