专栏名称: 酷玩实验室
理工男神聚集的神秘所在
目录
相关文章推荐
掌上铜山  ·  超标500倍!有毒,家里有的赶紧扔 ·  5 小时前  
掌上铜山  ·  超标500倍!有毒,家里有的赶紧扔 ·  5 小时前  
AI创业伙伴  ·  实测炸了!!可灵2.1上线 ·  22 小时前  
AI创业伙伴  ·  实测炸了!!可灵2.1上线 ·  22 小时前  
风巢森淼  ·  风巢森淼 20250601141243 ·  2 天前  
51好读  ›  专栏  ›  酷玩实验室

编程革命彻底爆发!OpenAI最强智能体上线ChatGPT

酷玩实验室  · 公众号  · 科技自媒体  · 2025-05-18 22:00

正文

请到「今天看啥」查看全文


  • 第一个是提问:让代码智能体Codex解释代码库,说明整体结构

  • 第二个是代码任务:要求在代码库中查找并修复某个地方bug

  • 第三个任务是提问:遍历代码库,主动提出自己可以执行的任务建议

图片

接下来演示中,Thibault向Codex下达多个任务,比如拼写和语法纠错、智能任务委派、多仓库适配。

在纠错方面,他故意在指令中加入拼写错误,Codex不仅理解了意图,还主动找出了代码库中的拼写和语法问题并修复,细致到令人惊叹。

图片

当Thibault提出希望代码库「易维护、无bug」的目标时,Codex遍历代码库后,主动发现了可变默认值、不一致的超时设置等问题,并自行生成了修复任务。

这种「自我委派」能力,堪称智能体的巅峰表现。

图片
图片

值得注意的是,Codex智能体运行在OpenAI计算基础设施上,与强化学习共享同一套久经考验的系统。

每个任务都在独立的虚拟沙盒中运行,配备专属的文件系统、CPU、内存、和网络策略,确保了高效安全。

图片

除了preparedness仓库,Codex还无缝处理了CodeX CLI库,展现其在不同项目中的泛化能力。

不论是开源项目,还是内部代码库,Codex都游刃有余。

Codex接收到了用户反馈的bug,因为特殊字符文件名导致了diff命令报错。

图片

在解决过程中,它不仅能复现问题,还可以编写测试脚本、运行linter检查,并生成PR,整个过程仅需几分钟。

Thibault直言,「这原本可能花费我30分钟,甚至几个小时完成」。

图片

此外,OpenAI研究员Katy Shi演示中强调,Codex的PR包含了详细的摘要,清晰说明了修改内容和引用的代码,测试结果一目了然。

图片

一番演示下来,Greg表示,Codex让自己深刻感受到了AGI!

对齐人类偏好,实战4个开源库

OpenAI训练codex-1的一个主要目标,是确保其输出能高度符合人类的编码偏好与标准。

与OpenAI o3相比,codex-1能稳定生成更为简洁的代码修改补丁,可以直接供人工审查并集成到标准工作流程中。

为了体现Codex生成代码的简洁和高效,OpenAI提供了Codex和o3对比的4个开源库实战实例:

astropy

astropy是一个用于天文学的Python开源库。







请到「今天看啥」查看全文