专栏名称: 知危
提供敏锐、独到的商业信息与参考,重点关注TMT、出海、新消费、新能源。
目录
相关文章推荐
成都发布  ·  今晚通行有变,注意绕行 ·  8 小时前  
成都本地宝  ·  6月19日起!连续3天免费开放!成都这个大展 ... ·  3 天前  
成都发布  ·  交卷!这篇作文你打几分? ·  2 天前  
成都发布  ·  早安,成都!新闻来了 ·  2 天前  
成都发布  ·  “川超”来了!这盘雄起!🤩 ·  3 天前  
51好读  ›  专栏  ›  知危

马斯克用20万卡集群,做出了比DeepSeek还强的模型?

知危  · 公众号  ·  · 2025-02-18 19:51

正文

请到「今天看啥」查看全文




不过需要注意, 这次的 Grok 3 实际上是一个模型家族,家族成员的水平各不相同,大致可以分为非推理模型和推理模型两种。

我们先来看 非推理模型,也就是 Grok 3 和 Grok 3 mini。

还是熟悉的Benchmark基准测试,xAI拉来了Gemini 2.0 pro、DeepSeek V3、Claude 3.5 Sonnet 还有 GPT-4o 四个模型进行对比。

在 AIME’24 美国数学竞赛、GPQA ( 研究生水平科学知识问答能力的基准测试 ) 和代码三项测试中,Grok 3 的成绩肉眼可见高出了其他模型一大截。

Grok 3 mini 的水平虽然跟其他模型大差不差,但直播中也提到了,mini 版本可以通过牺牲一定程度的准确性,来换取更快速度的回答。


另外,在 Chatbot Arena 的盲测中, Grok 3 代号叫 “ 巧克力 ” 的早期版本也登上了榜一,分数更是史无前例破了 1400 分。


具体来看,巧克力在整体风格控制 ( 模型语气、表达方式的把控 ) 、编码、数学还有创意写作等多个方面,全都拿了第一。


要知道,巧克力还只是早期版本的 Grok 3,今天的最新版 Grok 3 性能或许还会更强。

下面,我们再来看 Grok 3 的推理模型。

推理模型大家应该不陌生,毕竟 OpenAI 的 o1 系列、o3 mini 还有DeepSeek R1,都已经杀红眼了,思维链也是主流模型的突破方向。现在各家上新的模型里,如果不是推理模型,可能都不好意思拿出来。

所以这次, Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 也代表 xAI 出战了。






请到「今天看啥」查看全文