正文
-
What to scale:扩什么?CoT 长度、样本数、路径深度还是内在状态?
-
How to scale:怎么扩?Prompt、Search、RL,还是 Mixture-of-Models?
-
Where to scale:在哪扩?数学、代码、开放问答、多模态……
-
How well to scale:扩得怎样?准确率、效率、控制性、可扩展性……
在这个框架下,作者系统梳理了当前的主流 TTS 技术路线,包括:
-
并行策略:即同时生成多个答案,并选出最优解(如 Self-Consistency / Best-of-N)
-
逐步演化:即通过迭代修正逐步优化答案(如 STaR / Self-Refine)
-
搜索推理:结合并行与序列策略,探索树状推理路径(如 Tree-of-Thought / MCTS)
-
内在优化:模型自主控制推理步长(如 DeepSeek-R1 / OpenAI-o1)
基于这一框架,作者系统性地梳理了现有文献,实现了四大核心贡献:
-
文献解析:通过结构化分析方法,清晰界定各项研究的创新边界与价值定位;
-
路径提炼:总结出推理阶段扩展技术的三大发展方向:计算资源动态优化、推理过程增强和多模态任务适配;
-
实践指导:针对数学推理、开放问答等典型场景,提供具体可操作的技术选型建议;
-
开放社区:抛弃传统调研自说自话的特点,通过结合主页希望营造一个专门为 TTS 讨论的开放社区,集所有研究者的智慧,不断与时俱进更新更加实践的指导。
与同类综述相比,本文特别注重实用价值和开放讨论,不仅系统评估了不同 TTS 策略的性价比,还前瞻性地探讨了该技术的未来演进方向,包括轻量化部署、持续学习融合等潜在突破点。
作者表示,Test-time Scaling 不仅是大模型推理的「第二引擎」,更是迈向 AGI 的关键拼图。教会模型「三思而后行」,是我们迈向通用人工智能的重要旅程。
框架介绍
作者提出的框架从四个正交维度系统解构 TTS 技术:
1. What to Scale(扩展什么)- 界定推理过程中需要扩展的具体对象
,包括: