Llama 4 刷榜作弊引热议，20 万显卡集群就做出了个这？

AI科技评论 · 公众号 · · 2025-04-07 18:19

正文

还有网友非常贴心的给出 Llama 4 系列的模型能力找了个参照物：“Llama 4 maverick 这个 402B 的大模型，大概跟 Qwen QwQ 32B 写代码水平一致，而 Llama 4 scout 则近似于 Grok2 或者文心 4.5。”

Llama 4：超级刷榜选手

在官方给出的数据中，Llama 4 的能力妥妥碾压了一众大模型，但在网友们的实际测试中，Llama 4 却显得很拉跨，越测越觉得离谱的网友们不由得怀疑，扎克伯格是不是给自家模型偷偷刷榜了？

经过网友们的多方证实，最后发现， 嘿！还真是刷的。

其实如果认真看 Ahmad Al-Dahle 发布的 Llama 性能对比测试图最下面一行的小字，你就会发现上面写着“ Llama 4 Maverick 针对对话进行了优化 ”，而 Meta 其实早就给自己留了个“图片仅供参考，一切以实物为准”的心眼。

除了破解 Meta 官方的字谜游戏外，网友们也带着 Llama 4 进出于各大测试榜单中。

他们先是把 Llama 4 拉到了著名的 code 测试榜单 Aider ployglot 中，最终的得分比 qwen-32B还低。

在另一个代码评测榜单中，Llama 4 的成绩也只能排在中间位置。

除此之外，网友们发现在 EQBench 测评基准的长文章写作榜上，Llama 4 系列也是直接垫底。

而即使是最基础的翻译任务，网友们也表示 Llama 4 的表现也是比 3.3 的 70b 还要差得多，甚至还不如 Gemma 3 的 27B。

推荐文章

数局 · 公安局原二级高级警长，7年间收受礼金2.8万元：被开除党籍、取消退休待遇！

2 天前

InfoTech · 2025年工信部职业技术/专项技术认证

2 天前

CDA数据分析师 · 【干货】数分思维具象化，5种超实用数据分析方法！

3 天前

CDA数据分析师 · 从高考志愿到AI模型调参：数据思维下的“最优选择”法则

3 天前

CDA数据分析师 · 【干货】数分思维具象化，5种超实用数据分析方法！

4 天前

21世纪商业评论 · 昨天，瑞士人在日内瓦湖畔竖起一尊雕像，主人公曾让全中国热血沸腾

8 年前

上海书评 · 李黎︱微物之神的国度

7 年前

经典段子 · 把不开心的事情说出来，大家相互关心吧

7 年前

E药经理人 · 9亿并购三级医院，复星医疗板块提速！未来也要拆分上市？

7 年前

跟大厨学做菜 · 公鸡下蛋！一天一个！村里人都看呆了！

7 年前