专栏名称: 酷玩实验室
理工男神聚集的神秘所在
目录
相关文章推荐
四川药品监管  ·  千万别买!这种化妆品,汞含量竟超标3万倍! ·  2 天前  
四川药品监管  ·  千万别买!这种化妆品,汞含量竟超标3万倍! ·  2 天前  
电脑报  ·  上手iPhone 17全系,变化真的大 ·  3 天前  
电脑报  ·  上手iPhone 17全系,变化真的大 ·  3 天前  
51好读  ›  专栏  ›  酷玩实验室

最先进的AI大模型,为什么都在挑战《宝可梦》?

酷玩实验室  · 公众号  · 科技自媒体  · 2025-05-13 22:00

正文

请到「今天看啥」查看全文


01


对AI来说,“独立通关初代《宝可梦》” 是一个比人类的想象要复杂得多的挑战。

早在今年2月,美国另一家AI科技公司Anthropic就对外公布了名为“Claude Plays Pokémon”的技术实验,实验内容就和它的名称一样,试图让该公司旗下的最新版本AI Claude 3.7 Sonnet体验初代宝可梦游戏,并以“通关游戏”作为实验的最终目标。

这项实验最后以失败告终,Claude 3.7的最终进度是挑战三个道馆、获得三枚徽章,但哪怕是这个对人类玩家来说微不足道的成就,也是Claude反复迭代了一年的成果。

根据Anthropic公司释出的信息,一年前的3.0版Claude,甚至连游戏最初的“真新镇”都无法走出,之后的3.5版本略有进步,行程来到了“常磐森林”,但依旧无法获得第一个徽章。

进度缓慢的原因不外乎:Claude的每一步决策都会经过漫长思考、毫无意义地重复探索走过的城镇、长时间卡在地图死角,或者反复与一个毫无帮助的路人NPC对话。

图片

Claude的通关过程也面向大众进行了直播

这些行为看似是“人工智障”,远不如在围棋或《星际争霸》这些策略游戏上战胜人类选手的AlphaGo,但这其实是二者训练方式的差异。

前几年那些能在围棋、《DOTA2》等项目中表现出色的AI,开发者通常会为算法提供游戏规则和策略的基础信息,并设置给AI正确行动提供正面回报的奖励函数,这便是经常提到的 “强化学习”。

但对于像Claude、Gemini这种基于大语言模型的AI,针对的不是某款特定的游戏,研究人员并未提供《宝可梦》专属的游戏规则或目标指令,也不会对其进行特定的训练,而是直接让通用的Claude模型操作游戏。

这更近似于让一个对宝可梦游戏完全没有感念的纯新手,通过自己的感知和学习,逐步掌握游戏的过程。

再者,Claude在游玩游戏时,获得信息的渠道并非是内部代码,而是和人类一样,所有内容都只能从游戏画面上获取,早期版本的Claude经常撞墙,原因就在于相较于现代游戏更逼真的“墙”,AI很难识别这些由像素组成的抽象画面,而这对人类玩家来说却是一件很轻松的事。







请到「今天看啥」查看全文