专栏名称: AIGC新智界

区块链/数字货币/比特币中文资讯，创立于2011年，200多位专栏作入驻平台，国内最大区块链资讯原创基地（公众号【原创】认证），我们为以下合作伙伴供稿：火币、OKCoin、BTC.com、BTCC、币看、BTC123、比特时代、挖币网

马斯克20万块GPU炼出Grok-3，暴击DeepSeek R1数学屠榜！疯狂复仇OpenAI

AIGC新智界 · 公众号 · 比特币 · 2025-02-18 17:53

正文

它成为首个Elo评分打破1400的模型，在所有分类测试中位列第一。

在多项基准测试中，推理模型Grok-3 Reasoning和Grok-3 mini Reasoning在数学、科学、编码上，性能均大幅超越o3-mini（high）、o1、DeepSeek-R1，还有Gemi-2 Flash Thinking。

可以说，迄今为止最强「推理模型」，全部败给了Grok-3 Reasoning，可以说，它是名副其实的「世界上最聪明的模型」。

团队表示，允许Grok去进行更长时间的思考和推理。

在最新的数学基准AIME 2025上，Grok-3两款新模型性能同样刷新SOTA，分别拿下了93和90分。

顺便提一句，Grok-3思维链和o3-mini套路一样——防止被偷家xAI掩盖了部分思考过程。

接下来，让我们一睹Grok-3强大的推理能力。

首先是一个太空飞船任务，生成一个地球发射、火星着陆以及下一次发射窗口返回地球的动画3D代码。

注意，这个问题的难点在于，过程中涉及到了大量数学和物理模型的计算。在此之前，团队从未试过让大模型去计算航天的发射窗口。

在「Think」模式下，可以看到Grok的思维痕迹，甚至可以进去看看Grok在解决问题时到底在想什么。

Grok 3很快生成了完整可运行的3D动画。在代码中，Grok-3数值上求解了开普勒定律。

下图是3D动画的画面，直观展示了任务过程中，太阳、地球、火星和飞船之间的位置关系。

甚至，宇航员可以据此直接算出出舱时间和距离。这上面有地球-火星往返的转移路径，这种穿越每26个月发生一次。接下来，我们现在正处于一个过渡窗口期。

研究者经过检查后激动表示：Grok-3给的答案完全正确！

最后马斯克揭开谜底：其实，这就是SpaceX真正的探索轨道。他充满信心地表示，两年内，地球和火星就会被连接在一起。

很快有网友评论，「可以确认，Grok-3强得离谱！」

与之相对比的是，o1、o1-pro、o3-mini（high）全都在这个问题上栽了：生成一段代码，实现从地球发射、登陆火星，然后在下一个发射窗口返回地球的3D动画。

「它们生成的代码能跑是能跑，但很不幸，飞船根本就没靠近过火星，更别说回来了。」该网友表示。

然后团队又让Grok-3制作一个游戏。要求是结合俄罗斯方块和宝石迷阵两个游戏的混合体。

「显然，如果你让AI去创作一款像俄罗斯方块这样的游戏，互联网上有许多例子，或者类似宝石迷阵的游戏。它可以复制它们。」演示人员表示。

所以，现场他们让Grok-3制作了一个结合了俄罗斯方块和宝石迷阵两个游戏的混合体，这次他们使用了「Big Brain」模式，可以使用更多计算能力的一种模式。

Grok-3随后开始使用python编写代码，可以看出它调用了pygame、random和time这3个库来完成游戏的编写。

代码完成后，Grok-3生成的俄罗斯方块和宝石迷阵两个游戏的混合体成功运行，虽然游戏逻辑有些随意，但是界面挺美观。

「我们在x.ai准备好成立一个游戏工作室了吗？」演示人员激动地说道，「是的，所以我们正在x.ai启动一个人工智能游戏工作室。」