马斯克用20万卡集群，做出了比DeepSeek还强的模型？

知危 · 公众号 · · 2025-02-18 19:51

正文

不过需要注意， 这次的 Grok 3 实际上是一个模型家族，家族成员的水平各不相同，大致可以分为非推理模型和推理模型两种。

我们先来看 非推理模型，也就是 Grok 3 和 Grok 3 mini。

还是熟悉的Benchmark基准测试，xAI拉来了Gemini 2.0 pro、DeepSeek V3、Claude 3.5 Sonnet 还有 GPT-4o 四个模型进行对比。

在 AIME’24 美国数学竞赛、GPQA （研究生水平科学知识问答能力的基准测试）和代码三项测试中，Grok 3 的成绩肉眼可见高出了其他模型一大截。

Grok 3 mini 的水平虽然跟其他模型大差不差，但直播中也提到了，mini 版本可以通过牺牲一定程度的准确性，来换取更快速度的回答。

另外，在 Chatbot Arena 的盲测中， Grok 3 代号叫 “ 巧克力 ” 的早期版本也登上了榜一，分数更是史无前例破了 1400 分。

具体来看，巧克力在整体风格控制（模型语气、表达方式的把控）、编码、数学还有创意写作等多个方面，全都拿了第一。

要知道，巧克力还只是早期版本的 Grok 3，今天的最新版 Grok 3 性能或许还会更强。

下面，我们再来看 Grok 3 的推理模型。

推理模型大家应该不陌生，毕竟 OpenAI 的 o1 系列、o3 mini 还有DeepSeek R1，都已经杀红眼了，思维链也是主流模型的突破方向。现在各家上新的模型里，如果不是推理模型，可能都不好意思拿出来。

所以这次， Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 也代表 xAI 出战了。

推荐文章

成都发布 · 今晚通行有变，注意绕行

8 小时前

成都本地宝 · 6月19日起！连续3天免费开放！成都这个大展再忙也要去！

3 天前

成都发布 · 交卷！这篇作文你打几分？

2 天前

成都发布 · 早安，成都！新闻来了

2 天前

成都发布 · “川超”来了！这盘雄起！🤩

3 天前

人人都是产品经理 · 作为运营人，如何快速地构建系统性的知识体系

8 年前

钛媒体 · 快要10岁的中国式P2P，为何依旧是副空壳子？

8 年前

车买买 · 这辆SUV说起操控，它敢认第二没有人认第一！

8 年前

齐鲁晚报 · 据说这里的“超级大脑”可以提供“大管家”式会议服务，景色也是美爆了呢！

8 年前

电竞头条15W · 反甲龙龟：奎因，别自残了

8 年前