专栏名称: AI科技评论
点评学术,服务 AI !
目录
相关文章推荐
InfoTech  ·  2025年工信部职业技术/专项技术认证 ·  2 天前  
CDA数据分析师  ·  从高考志愿到AI模型调参:数据思维下的“最优 ... ·  3 天前  
51好读  ›  专栏  ›  AI科技评论

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

AI科技评论  · 公众号  ·  · 2025-04-07 18:19

正文

请到「今天看啥」查看全文


还有网友非常贴心的给出 Llama 4 系列的模型能力找了个参照物:“Llama 4 maverick 这个 402B 的大模型,大概跟 Qwen QwQ 32B 写代码水平一致,而 Llama 4 scout 则近似于 Grok2 或者 文心 4.5。”


1

Llama 4:超级刷榜选手

在官方给出的数据中,Llama 4 的能力妥妥碾压了一众大模型,但在网友们的实际测试中,Llama 4 却显得很拉跨,越测越觉得离谱的网友们不由得怀疑,扎克伯格是不是给自家模型偷偷刷榜了?

经过网友们的多方证实,最后发现, 嘿!还真是刷的。

其实如果认真看 Ahmad Al-Dahle 发布的 Llama 性能对比测试图最下面一行的小字,你就会发现上面写着“ Llama 4 Maverick 针对对话进行了优化 ”,而 Meta 其实早就给自己留了个“图片仅供参考,一切以实物为准”的心眼。

除了破解 Meta 官方的字谜游戏外,网友们也带着 Llama 4 进出于各大测试榜单中。

他们先是把 Llama 4 拉到了著名的 code 测试榜单 Aider ployglot 中,最终的得分比 qwen-32B还低。

在另一个代码评测榜单中,Llama 4 的成绩也只能排在中间位置。

除此之外,网友们发现在 EQBench 测评基准的长文章写作榜上,Llama 4 系列也是直接垫底。

而即使是最基础的翻译任务,网友们也表示 Llama 4 的表现也是比 3.3 的 70b 还要差得多,甚至还不如 Gemma 3 的 27B。


2






请到「今天看啥」查看全文