专栏名称: 哎咆科技
原「果粉查询」公众号蜕变为专注科技生活媒体,提供最前沿科技动态及爆料,产品试用测评&众筹,苹果序列号查询,山寨机&翻新机验证等服务。
目录
相关文章推荐
数码评价  ·  新锐龙游戏本!拯救者R9000P ... ·  昨天  
数码评价  ·  新锐龙游戏本!拯救者R9000P ... ·  昨天  
EETOP  ·  黄仁勋回应任正非! ·  昨天  
哎咆科技  ·  升完 iOS 26 后悔?降级方法来了! ·  2 天前  
EETOP  ·  ESD|DFT|IC设计|数字后端等 ... ·  3 天前  
51好读  ›  专栏  ›  哎咆科技

LIama 4疑似作弊,都怪Meta把牛皮吹破了

哎咆科技  · 公众号  · 硬件  · 2025-04-12 20:00

正文

请到「今天看啥」查看全文



不仅如此,有AI研究人员在社交媒体上表示,Meta提交给LM Arena(著名的人类评估排行榜)进行测试评估的LIama 4 Maverick版本,与公开发布给开发者使用的可能并非同一个版本。同时又有人发现,Meta GenAI团队负责人Ahmad Al-Dahle在推文中透露,Llama 4在lmsys大模型竞技场里运行的是特殊版本。


LIama 4被疑作弊,都怪Meta把牛皮吹破了


紧接着到了北京时间本周一上午,有人在知名的北美留学论坛“一亩三分地”上爆料称,Llama 4的训练不及预期,公司领导层提出在训练后期将基准测试的测试集数据混入训练数据中,以此实现更漂亮的基准测试成绩。


LIama 4被疑作弊,都怪Meta把牛皮吹破了


事实上,大模型在基准测试中作弊已经不是什么新鲜事,比如各路大模型在GSM8k和MATH这两个常见的数学基准测试中,动辄就能取得80%以上的超高正确率,其实就是大模型记住了GSM8k和MATH的“题库”,从而导致实际测试中不是推理、而是填答案。







请到「今天看啥」查看全文