谢谢Deepseek，o3-mini发布即免费！编程断崖式领先，思考过程冰冷而客观

大数据文摘 · 公众号 · 大数据 · 2025-02-02 19:39

正文

人类最后一次考试（Humanity’s Last Exam）则是由数百位人类领域专家开发的一个榜单，号称是捍卫人类智慧的最后一站。在此之前，所有顶尖 AI 通过率都不超过 10%，这次 O3-mini 首次打破记录。

我观测到一个很有意思的现象。

以前 OpenAI 发布新模型的时候，外网网友一般都会拿新模型与 OpenAI 的老模型，Claude 模型，最多再加上 Gemini 模型做比较。

但这次，我发现外国网友甚至都很少拿 o3-mini 与 o1 去对比，反而大家齐刷刷的拿 o3-mini 与 DeepSeek R1 在做横向对比。

比如，有国外网友从性价比层面点评 o3-mini——

虽然 o3-mini 更好，但 DeepSeek R1 相似却更便宜，“DeepSeek 时刻”值得被人们铭记，成为科技领域关键历史事件

还有网友横向对比了 o3-mini 的思维链与 DeepSeek R1 的思维链——

o3-mini 的思维链与 R1 相比，更加冰冷、客观；R1 更接近我内心的思考过程

放大图片，感受一下——

而在横向的 case 表现上，大家更是齐刷刷的将 o3-mini 与 DeepSeek R1 进行 PK。

由于 o3-mini 相比较前一代模型，最大的提升就在于编程能力了。

所以网友的实测 case 大部分都是跟编程相关的，尤其是一些通过视觉效果就能直观的感受到代码写的好坏的 case。例如下面这个——

提示词：“编写一个在 tesseract 内弹跳的球的 python 脚本”

先看下o3-mini 写的代码的运行效果：

然后是DeepSeek R1 所写代码的演示效果：