专栏名称: 哎咆科技

原「果粉查询」公众号蜕变为专注科技生活媒体，提供最前沿科技动态及爆料，产品试用测评&众筹，苹果序列号查询，山寨机&翻新机验证等服务。

目录

相关文章推荐

数码评价 · 新锐龙游戏本！拯救者R9000P ... · 昨天

数码评价 · 新锐龙游戏本！拯救者R9000P ... · 昨天

EETOP · 建议IC工程师参加这场技术盛会：AMD ... · 昨天

EETOP · 黄仁勋回应任正非！ · 昨天

哎咆科技 · 升完 iOS 26 后悔？降级方法来了！ · 2 天前

EETOP · ESD|DFT|IC设计|数字后端等 ... · 3 天前

51好读 › 专栏 › 哎咆科技

LIama 4疑似作弊，都怪Meta把牛皮吹破了

哎咆科技 · 公众号 · 硬件 · 2025-04-12 20:00

正文

请到「今天看啥」查看全文

不仅如此，有AI研究人员在社交媒体上表示，Meta提交给LM Arena（著名的人类评估排行榜）进行测试评估的LIama 4 Maverick版本，与公开发布给开发者使用的可能并非同一个版本。同时又有人发现，Meta GenAI团队负责人Ahmad Al-Dahle在推文中透露，Llama 4在lmsys大模型竞技场里运行的是特殊版本。

LIama 4被疑作弊，都怪Meta把牛皮吹破了

紧接着到了北京时间本周一上午，有人在知名的北美留学论坛“一亩三分地”上爆料称，Llama 4的训练不及预期，公司领导层提出在训练后期将基准测试的测试集数据混入训练数据中，以此实现更漂亮的基准测试成绩。

LIama 4被疑作弊，都怪Meta把牛皮吹破了

事实上，大模型在基准测试中作弊已经不是什么新鲜事，比如各路大模型在GSM8k和MATH这两个常见的数学基准测试中，动辄就能取得80%以上的超高正确率，其实就是大模型记住了GSM8k和MATH的“题库”，从而导致实际测试中不是推理、而是填答案。

请到「今天看啥」查看全文

推荐文章

数码评价 · 新锐龙游戏本！拯救者R9000P 2025AI元启国补后7959元值得买吗？

昨天

数码评价 · 新锐龙游戏本！拯救者R9000P 2025AI元启国补后7959元值得买吗？

昨天

EETOP · 建议IC工程师参加这场技术盛会：AMD FPGA、AI芯片技术大会！(6.26上海报名免费参会 )

昨天

EETOP · 黄仁勋回应任正非！

昨天

哎咆科技 · 升完 iOS 26 后悔？降级方法来了！

2 天前

EETOP · ESD|DFT|IC设计|数字后端等创芯大讲堂芯片课程汇总

3 天前

健身课代表 · 再见，余额宝！

8 年前

IT时代网 · 金电联行董事长范晓忻为创客100企业家商学院题词

8 年前

快传体育 · 快传开箱｜NIKELAB ZOOM FLIGHT 95

8 年前

汽车电商笔记 · 商评委决定“途虎养车无忧”商标在市场营销服务等不予核准注册

7 年前

Ingress北京 · 科教兴国从未成年人做起

7 年前

移动版

51好读 - 微信公众号文章