专栏名称: 酷玩实验室

理工男神聚集的神秘所在

编程革命彻底爆发！OpenAI最强智能体上线ChatGPT

酷玩实验室 · 公众号 · 科技自媒体 · 2025-05-18 22:00

正文

请到「今天看啥」查看全文

第一个是提问：让代码智能体Codex解释代码库，说明整体结构
第二个是代码任务：要求在代码库中查找并修复某个地方bug
第三个任务是提问：遍历代码库，主动提出自己可以执行的任务建议

接下来演示中，Thibault向Codex下达多个任务，比如拼写和语法纠错、智能任务委派、多仓库适配。

在纠错方面，他故意在指令中加入拼写错误，Codex不仅理解了意图，还主动找出了代码库中的拼写和语法问题并修复，细致到令人惊叹。

当Thibault提出希望代码库「易维护、无bug」的目标时，Codex遍历代码库后，主动发现了可变默认值、不一致的超时设置等问题，并自行生成了修复任务。

这种「自我委派」能力，堪称智能体的巅峰表现。

值得注意的是，Codex智能体运行在OpenAI计算基础设施上，与强化学习共享同一套久经考验的系统。

每个任务都在独立的虚拟沙盒中运行，配备专属的文件系统、CPU、内存、和网络策略，确保了高效安全。

除了preparedness仓库，Codex还无缝处理了CodeX CLI库，展现其在不同项目中的泛化能力。

不论是开源项目，还是内部代码库，Codex都游刃有余。

Codex接收到了用户反馈的bug，因为特殊字符文件名导致了diff命令报错。

在解决过程中，它不仅能复现问题，还可以编写测试脚本、运行linter检查，并生成PR，整个过程仅需几分钟。

Thibault直言，「这原本可能花费我30分钟，甚至几个小时完成」。

此外，OpenAI研究员Katy Shi演示中强调，Codex的PR包含了详细的摘要，清晰说明了修改内容和引用的代码，测试结果一目了然。

一番演示下来，Greg表示，Codex让自己深刻感受到了AGI！

对齐人类偏好，实战4个开源库

OpenAI训练codex-1的一个主要目标，是确保其输出能高度符合人类的编码偏好与标准。

与OpenAI o3相比，codex-1能稳定生成更为简洁的代码修改补丁，可以直接供人工审查并集成到标准工作流程中。

为了体现Codex生成代码的简洁和高效，OpenAI提供了Codex和o3对比的4个开源库实战实例：

astropy

astropy是一个用于天文学的Python开源库。

请到「今天看啥」查看全文

推荐文章

掌上铜山 · 超标500倍！有毒，家里有的赶紧扔

5 小时前

掌上铜山 · 超标500倍！有毒，家里有的赶紧扔

5 小时前

AI创业伙伴 · 实测炸了！！可灵2.1上线

22 小时前

AI创业伙伴 · 实测炸了！！可灵2.1上线

22 小时前

科技日报 · “陇电入浙”工程取得重大进展；全球首艘核动力航母将被拆解丨科技早新闻

昨天

风巢森淼 · 风巢森淼 20250601141243

2 天前

sven_shi · 应该还是很想打球，所以离开也是件好事。-20250601083532

2 天前

毒舌电影 · 我不想用一句粗暴的「装逼」，来定义这部罕见的华语片

8 年前

相约新会 · 【春雷·风暴】新会警方查扣车辆1.5万辆，酒驾377宗，拘留2301人！

8 年前

行业研究报告 · 中产阶层正经历三场赛跑，每一场都惊心动魄

8 年前

每日经济新闻 · 国产食盐“添加剂”堪比砒霜，几分钟内可毒死人？央视深度揭秘

7 年前

凤凰卫视 · 一年前中国这项科技震惊世界！看完这个原理解释我服了

7 年前