正文
人类最后一次考试(Humanity’s Last Exam)则是由数百位人类领域专家开发的一个榜单,号称是捍卫人类智慧的最后一站。在此之前,所有顶尖 AI 通过率都不超过 10%,这次 O3-mini 首次打破记录。
我观测到一个很有意思的现象。
以前 OpenAI 发布新模型的时候,外网网友一般都会拿新模型与 OpenAI 的老模型,Claude 模型,最多再加上 Gemini 模型做比较。
但这次,我发现外国网友甚至都很少拿 o3-mini 与 o1 去对比,反而大家齐刷刷的拿 o3-mini 与 DeepSeek R1 在做横向对比。
比如,有国外网友从性价比层面点评 o3-mini——
虽然 o3-mini 更好,但 DeepSeek R1 相似却更便宜,“DeepSeek 时刻”值得被人们铭记,成为科技领域关键历史事件
还有网友横向对比了 o3-mini 的思维链与 DeepSeek R1 的思维链——
o3-mini 的思维链与 R1 相比,更加冰冷、客观;R1 更接近我内心的思考过程
放大图片,感受一下——
而在横向的 case 表现上,大家更是齐刷刷的将 o3-mini 与 DeepSeek R1 进行 PK。
模拟物理世界
由于 o3-mini 相比较前一代模型,最大的提升就在于编程能力了。
所以网友的实测 case 大部分都是跟编程相关的,尤其是一些通过视觉效果就能直观的感受到代码写的好坏的 case。例如下面这个——
提示词:“编写一个在 tesseract 内弹跳的球的 python 脚本”
然后是DeepSeek R1 所写代码的演示效果:
模拟物理世界的简单版本