通专融合，思维链还透明，上海AI Lab为新一代大模型打了个样

机器之心 · 公众号 · AI · 2025-05-24 12:07

正文

请到「今天看啥」查看全文

思维链透明，自然语言点评“神之一手”

围棋作为一项具有四千多年历史的智力竞技项目，因其独特的复杂性和对人类智能的深刻体现，可作为衡量人工智能专业能力最具代表性的任务之一。2016 年 AlphaGO 一战成名，随后，AI 在棋力、效率、通用性等方面均有显著提升，但其具体推理过程仍为 “黑盒”，即便能输出胜率评估和落子概率，亦无法用人类语言解释 “为什么某一步更好”。典型表现为：AI 有时会下出违背人类直觉的 “天外飞仙” 棋步，事后被证明有效，但当时难以解释。

本次升级后的 InternThinker，在围棋任务上不仅具备较强的专业水平，在大模型中率先实现打破思维 “黑盒”，运用自然语言就对弈过程进行讲解。目前 InternThinker 已开启公测，所有用户均可以随时随地与之对弈（公测链接： https://internlm-chat.intern-ai.org.cn/ ）。

用户在与 InternThinker 对弈的过程中，大模型化身为循循善诱的 “教练”，它能全面地分析当前局面形势，对不同的落子点进行判断和对比，并给出明确的结果，让用户了解每一步棋背后的推理过程和决策依据，从而帮助用户更好地理解和学习围棋。

李世石在与 AlphaGO 交战的第四盘 78 手下在 L11，被称为 “神之一手”，直接扭转局势赢下一局。在研究人员对这一名局的复现中，InternThinker 评价这步棋 “相当刁钻…… 这步棋完美解决 L11 的威胁，重新确立中央控制权，为后续进攻埋下伏笔。” 随后它给出了落子在 L10 的应对策略。

InternThinker 应对李世石 “神之一手”

InternThinker 还具备多样化的 “语言” 风格，极具 “活人感”。比如，当用户下了一步好棋，它会加油鼓励：“这步棋相当有力，可以说是‘以攻代守’的好手”；也会冒出毒舌锐评：“可以说是‘不是棋’的选择”。

InternThinker 多样化的语言风格

在棋力方面，InternThinker 未来仍有提升空间。新生代世界围棋冠军王星昊九段在与其对弈后评价道：“能解说思考过程的 AI 还是第一次见，感觉它分析得非常好；从布局看棋力可能在职业 3-5 段之间。”

InternBootcamp：“体验” 即学习，探索大模型推理能力提升新范式

InternThinker 强大的推理能力及在围棋任务上的突破，得益于其创新的训练环境。针对复杂的逻辑推理任务，如何准确地获得过程和结果反馈尤为关键，为此，研究人员搭建了大规模、标准化、可扩展的可交互验证环境 InternBootcamp—— 这相当于为模型创造了一个 “加速训练营”，使其可以高效习得专业技能，快速 “成长”。