专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
51好读  ›  专栏  ›  大数据文摘

谢谢Deepseek,o3-mini发布即免费!编程断崖式领先,思考过程冰冷而客观

大数据文摘  · 公众号  · 大数据  · 2025-02-02 19:39

正文

请到「今天看啥」查看全文



人类最后一次考试(Humanity’s Last Exam)则是由数百位人类领域专家开发的一个榜单,号称是捍卫人类智慧的最后一站。在此之前,所有顶尖 AI 通过率都不超过 10%,这次 O3-mini 首次打破记录。



我观测到一个很有意思的现象。


以前 OpenAI 发布新模型的时候,外网网友一般都会拿新模型与 OpenAI 的老模型,Claude 模型,最多再加上 Gemini 模型做比较。


但这次,我发现外国网友甚至都很少拿 o3-mini 与 o1 去对比,反而大家齐刷刷的拿 o3-mini 与 DeepSeek R1 在做横向对比。


比如,有国外网友从性价比层面点评 o3-mini——


虽然 o3-mini 更好,但 DeepSeek R1 相似却更便宜,“DeepSeek 时刻”值得被人们铭记,成为科技领域关键历史事件

还有网友横向对比了 o3-mini 的思维链与 DeepSeek R1 的思维链——


o3-mini 的思维链与 R1 相比,更加冰冷、客观;R1 更接近我内心的思考过程

放大图片,感受一下——


而在横向的 case 表现上,大家更是齐刷刷的将 o3-mini 与 DeepSeek R1 进行 PK。


模拟物理世界


由于 o3-mini 相比较前一代模型,最大的提升就在于编程能力了。

所以网友的实测 case 大部分都是跟编程相关的,尤其是一些通过视觉效果就能直观的感受到代码写的好坏的 case。例如下面这个——

提示词:“编写一个在 tesseract 内弹跳的球的 python 脚本”
先看下o3-mini 写的代码的运行效果:

然后是DeepSeek R1 所写代码的演示效果:


模拟物理世界的简单版本







请到「今天看啥」查看全文


推荐文章
考研英语时事阅读  ·  【早起打卡】1212-难忘的珍珠港事件75周年
8 年前
中国安全生产网  ·  这个企业为何被处罚238万元?
8 年前
今日房产  ·  沪首条BRT最新进展来啦
8 年前