ICML 2025 | RLHF太贵太慢？TPO即时对齐新方案，一句话指令搞定偏好优化

数据派THU · 公众号 · 大数据 · 2025-06-01 17:00

主要观点总结

本文主要介绍了上海人工智能实验室提出的Test-Time Preference Optimization（TPO）方案，这是一种新的对齐方法，允许大语言模型在推理过程中快速对齐人类偏好，无需更新模型权重。该方案通过模拟语言化的“梯度下降”过程，在固定模型参数的前提下优化输出内容，更加安全可控。作者在多个基准数据集上测试了TPO的对齐效果和性能表现，结果显示其能显著提升模型在各类任务上的表现。此外，TPO还提供了灵活可调的“宽度 + 深度”推理拓展策略，为LLM在资源受限环境下的性能释放提供了新路径。

关键观点总结

关键观点1: TPO是一种新的对齐方案，允许大语言模型在推理过程中快速对齐人类偏好，无需更新模型权重。

TPO通过模拟语言化的“梯度下降”过程，在固定模型参数的前提下优化输出内容，更加安全可控。

关键观点2: 作者在多个基准数据集上测试了TPO，涵盖指令跟随、偏好对齐、安全性和数学任务等方面，结果显示其能显著提升模型表现。

TPO在未经训练对齐模型和已对齐模型上都能提升模型表现，甚至超越经过强化学习对齐的同款模型。

关键观点3: TPO提供了灵活可调的“宽度 + 深度”推理拓展策略，通过控制候选生成数量和优化轮数，显著提升输出质量与偏好一致性。

TPO的“宽深结合”机制是一种高效的测试时推理优化方式，为LLM在资源受限环境下的性能释放提供了新路径。

正文

请到「今天看啥」查看全文

1、TPO：推理时即时偏好对齐的新方案

为了让大模型（LLM）的行为更符合人类预期，一系列训练时对齐方法（例如 RLHF 和 DPO）通过微调模型参数来实现偏好优化。然而，这种“训练时对齐”模式不仅耗时耗力，而且一旦偏好发生变化（比如安全标准更新），就得从头开始再训练一次。这种方式在应对变化需求时显得十分被动。

有没有一种方法，可以跳过繁琐的重新训练，让模型在推理时就快速对齐人类偏好呢？

最近，上海人工智能实验室提出 Test-Time Preference Optimization（测试时偏好优化，TPO）。一句话总结：TPO 让大模型在每次回答时通过迭代的文本反馈自行调整输出，实现了无需更新模型权重的 “即插即用”对齐。

不同于 RLHF、DPO 这类需要离线训练来优化参数的做法， TPO 完全在推理过程中完成偏好优化，模型参数保持不变。研究显示，TPO 作为一种实用的轻量级替代方案，能够在推理时动态地将模型输出对齐人类偏好。

论文标题：

Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

论文地址：

arxiv.org/abs/2501.12895

Huggingface 地址：

https://huggingface.co/papers/2501.12895

Github 地址：

https://github.com/yafuly/TPO

2、TPO = 文本形式的梯度下降

TPO 的核心直觉是让模型一边生成回答，一边根据反馈不断改进，本质上相当于在文本空间执行了一次“梯度下降”优化。

简单来说，模型利用自身的指令理解与推理能力，把数值化的奖励信号翻译成可读的文本建议，进而调整后续回答方向。整个过程无需显式计算梯度或更新权重，而是在自然语言交互中完成对输出的优化。

▲ 图表1：展示了 TPO 的三个关键步骤，模拟语言化的“梯度下降”过程。

如图 1 所示，TPO 的对齐过程包含类似梯度优化的几个步骤：模型先产生初步回答，然后获取反馈信号，生成改进建议，最后据此更新回答，并可视需要重复迭代。具体过程如下：

1. 候选回答生成：给定用户查询，语言模型会先生成多个初始回答，并通过预先训练好的奖励模型（reward model）对这些回答打分。我们选出得分最高的回答作为“优选”（chosen）和得分最低的回答作为“弃选”（rejected）。

2. 文本损失计算：接下来，令 LLM 将优选回答和弃选回答放在一起进行比较。通过一个精心设计的提示（prompt），模型会产出一段点评，指出为何优选回答比弃选回答好，以及后者存在哪些不足。这相当于计算出了一个 “文本损失” ：以自然语言描述了当前回答偏离人类偏好的程度和原因。

3. 文本梯度计算：然后，再通过新的提示要求模型根据上述点评提出改进建议。这些建议可以看作是针对回答的 “文本梯度” ——指明了如何调整回答可以更好地满足偏好。

4. 更新回答：最后，模型参考这些文本建议，生成一个或多个改进后的新回答。新的回答通常在之前薄弱的方面有所加强，相当于沿着文本梯度迈出了一步完成对输出的更新。

通过上述循环，模型的输出会被逐步“打磨”得更加符合奖励模型（也即人类偏好代理）的要求。可以看到，这一流程其实正对应了传统梯度下降的“三步走”：计算损失 → 计算梯度 → 更新参数，只不过在 TPO 中，这三步都由模型在文本层面完成了。

不同于数值优化方法直接修改模型的权重，TPO 是在固定模型参数的前提下优化输出内容，因此更加安全可控。从某种角度看，TPO 让模型在推理阶段进行了一次“小规模的自我训练”，利用自然语言反馈挖掘了预训练模型自身的潜力。

3、对齐效果与性能表现

作者在多个基准数据集上对 TPO 进行了评测，涵盖了从指令跟随（如 AlpacaEval、Arena）、偏好对齐（如 HH-RLHF 数据集）、安全性（如 BeaverTails 和 XSTest）到数学（MATH-500）等多方面的任务。