专栏名称: AIGC新智界
区块链/数字货币/比特币中文资讯,创立于2011年,200多位专栏作入驻平台,国内最大区块链资讯原创基地(公众号【原创】认证),我们为以下合作伙伴供稿:火币、OKCoin、BTC.com、BTCC、币看、BTC123、比特时代、挖币网
目录
相关文章推荐
51好读  ›  专栏  ›  AIGC新智界

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

AIGC新智界  · 公众号  · 比特币  · 2025-02-18 17:53

正文

请到「今天看啥」查看全文



它成为首个Elo评分打破1400的模型,在所有分类测试中位列第一。



在多项基准测试中,推理模型Grok-3 Reasoning和Grok-3 mini Reasoning在数学、科学、编码上,性能均大幅超越o3-mini(high)、o1、DeepSeek-R1,还有Gemi-2 Flash Thinking。


可以说,迄今为止最强「推理模型」,全部败给了Grok-3 Reasoning,可以说,它是名副其实的「世界上最聪明的模型」。


团队表示,允许Grok去进行更长时间的思考和推理。



在最新的数学基准AIME 2025上,Grok-3两款新模型性能同样刷新SOTA,分别拿下了93和90分。



顺便提一句,Grok-3思维链和o3-mini套路一样——防止被偷家xAI掩盖了部分思考过程。



接下来,让我们一睹Grok-3强大的推理能力。


高级推理Think


首先是一个太空飞船任务,生成一个地球发射、火星着陆以及下一次发射窗口返回地球的动画3D代码。


注意,这个问题的难点在于,过程中涉及到了大量数学和物理模型的计算。在此之前,团队从未试过让大模型去计算航天的发射窗口。


在「Think」模式下,可以看到Grok的思维痕迹,甚至可以进去看看Grok在解决问题时到底在想什么。



Grok 3很快生成了完整可运行的3D动画。在代码中,Grok-3数值上求解了开普勒定律。



下图是3D动画的画面,直观展示了任务过程中,太阳、地球、火星和飞船之间的位置关系。


甚至,宇航员可以据此直接算出出舱时间和距离。这上面有地球-火星往返的转移路径,这种穿越每26个月发生一次。接下来,我们现在正处于一个过渡窗口期。


研究者经过检查后激动表示:Grok-3给的答案完全正确!


最后马斯克揭开谜底:其实,这就是SpaceX真正的探索轨道。 他充满信心地表示,两年内,地球和火星就会被连接在一起。



很快有网友评论,「可以确认,Grok-3强得离谱!」


与之相对比的是,o1、o1-pro、o3-mini(high)全都在这个问题上栽了:生成一段代码,实现从地球发射、登陆火星,然后在下一个发射窗口返回地球的3D动画。


「它们生成的代码能跑是能跑,但很不幸,飞船根本就没靠近过火星,更别说回来了。」该网友表示。



然后团队又让Grok-3制作一个游戏。要求是结合俄罗斯方块和宝石迷阵两个游戏的混合体。


「显然,如果你让AI去创作一款像俄罗斯方块这样的游戏,互联网上有许多例子,或者类似宝石迷阵的游戏。它可以复制它们。」演示人员表示。


所以,现场他们让Grok-3制作了一个结合了俄罗斯方块和宝石迷阵两个游戏的混合体,这次他们使用了「Big Brain」模式,可以使用更多计算能力的一种模式。


Grok-3随后开始使用python编写代码,可以看出它调用了pygame、random和time这3个库来完成游戏的编写。



代码完成后,Grok-3生成的俄罗斯方块和宝石迷阵两个游戏的混合体成功运行,虽然游戏逻辑有些随意,但是界面挺美观。


「我们在x.ai准备好成立一个游戏工作室了吗?」演示人员激动地说道,「是的,所以我们正在x.ai启动一个人工智能游戏工作室。」







请到「今天看啥」查看全文