专栏名称: 腾讯研究院
【腾讯研究院 ★ Tencent Research Institute】 网聚智慧,连接世界!网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。
目录
相关文章推荐
新浪科技  ·  【#董明珠寄语高考学子##董明珠劝考生父母不 ... ·  19 小时前  
新浪科技  ·  【#Switch2首日更新开始推送#,启用所 ... ·  昨天  
新浪科技  ·  【#雷军称不打价格战#:YU7不会只比SU7 ... ·  2 天前  
51好读  ›  专栏  ›  腾讯研究院

腾讯研究院AI速递 20250213

腾讯研究院  · 公众号  · 科技媒体  · 2025-02-13 00:01

正文

请到「今天看啥」查看全文


三、  GameArena团队发布LLM的测试神器,不考数学,考游戏

1. GameArena团队开发的Roblox实时游戏"AI空间逃脱"通过三种推理游戏测试AI性能,比传统方法更具互动性;

2. 游戏包含猜词、禁忌词和虚张声势三种类型,测试AI在多轮对话中的推理和上下文理解能力;

3. Claude-3.5-sonnet和Gemini-1.5-pro等对齐模型表现优异,游戏评估获得87%有效反馈率,远超传统方法。

https://mp.weixin.qq.com/s/-R6NBJGhnxDamrVM2WaDdA

四、  「分层RL推理」ReasonFlux框架,32B碾压o1-preiview?

1. 普林斯顿和北大团队开发的ReasonFlux-32B仅用8块A100,在MATH和AIME等数学基准测试中超越o1-preview和DeepSeek V3;

2. ReasonFlux构建约500个高层次思维模板库,通过分层强化学习优化推理路径,减少搜索空间;

3. 新框架在MATH基准达91.2%准确率超o1-preview 6.7%,AIME达56.7%领先27%,展现强大数学推理能力。







请到「今天看啥」查看全文