专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
艺恩数据  ·  【艺恩观察】2025暑期档酷热来袭,爆款剧集 ... ·  12 小时前  
51好读  ›  专栏  ›  数据派THU

ICML 2025 | RLHF太贵太慢?TPO即时对齐新方案,一句话指令搞定偏好优化

数据派THU  · 公众号  · 大数据  · 2025-06-01 17:00

主要观点总结

本文主要介绍了上海人工智能实验室提出的Test-Time Preference Optimization(TPO)方案,这是一种新的对齐方法,允许大语言模型在推理过程中快速对齐人类偏好,无需更新模型权重。该方案通过模拟语言化的“梯度下降”过程,在固定模型参数的前提下优化输出内容,更加安全可控。作者在多个基准数据集上测试了TPO的对齐效果和性能表现,结果显示其能显著提升模型在各类任务上的表现。此外,TPO还提供了灵活可调的“宽度 + 深度”推理拓展策略,为LLM在资源受限环境下的性能释放提供了新路径。

关键观点总结

关键观点1: TPO是一种新的对齐方案,允许大语言模型在推理过程中快速对齐人类偏好,无需更新模型权重。

TPO通过模拟语言化的“梯度下降”过程,在固定模型参数的前提下优化输出内容,更加安全可控。

关键观点2: 作者在多个基准数据集上测试了TPO,涵盖指令跟随、偏好对齐、安全性和数学任务等方面,结果显示其能显著提升模型表现。

TPO在未经训练对齐模型和已对齐模型上都能提升模型表现,甚至超越经过强化学习对齐的同款模型。

关键观点3: TPO提供了灵活可调的“宽度 + 深度”推理拓展策略,通过控制候选生成数量和优化轮数,显著提升输出质量与偏好一致性。

TPO的“宽深结合”机制是一种高效的测试时推理优化方式,为LLM在资源受限环境下的性能释放提供了新路径。


正文

请到「今天看啥」查看全文



1、TPO:推理时即时偏好对齐的新方案


为了让大模型(LLM)的行为更符合人类预期,一系列训练时对齐方法(例如 RLHF 和 DPO)通过微调模型参数来实现偏好优化。然而,这种“训练时对齐”模式不仅耗时耗力,而且一旦偏好发生变化(比如安全标准更新),就得从头开始再训练一次。这种方式在应对变化需求时显得十分被动。


有没有一种方法,可以跳过繁琐的重新训练,让模型在 推理时就快速对齐 人类偏好呢?


最近,上海人工智能实验室提出 Test-Time Preference Optimization(测试时偏好优化,TPO)。一句话总结:TPO 让大模型在每次回答时通过迭代的文本反馈自行调整输出,实现了无需更新模型权重的 “即插即用”对齐。


不同于 RLHF、DPO 这类需要离线训练来优化参数的做法, TPO 完全在推理过程中完成偏好优化,模型参数保持不变。 研究显示,TPO 作为一种实用的轻量级替代方案,能够在推理时动态地将模型输出对齐人类偏好。

图片

论文标题:

Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

论文地址:

arxiv.org/abs/2501.12895

Huggingface 地址:

https://huggingface.co/papers/2501.12895

Github 地址:

https://github.com/yafuly/TPO


2、TPO = 文本形式的梯度下降


TPO 的核心直觉是让模型一边生成回答,一边根据反馈不断改进,本质上相当于在文本空间执行了一次“梯度下降”优化。


简单来说,模型利用自身的指令理解与推理能力,把数值化的奖励信号翻译成可读的文本建议,进而调整后续回答方向。整个过程无需显式计算梯度或更新权重,而是在自然语言交互中完成对输出的优化。


图片

▲ 图表1:展示了 TPO 的三个关键步骤,模拟语言化的“梯度下降”过程。


如图 1 所示,TPO 的对齐过程包含类似梯度优化的几个步骤:模型先产生初步回答,然后获取反馈信号,生成改进建议,最后据此更新回答,并可视需要重复迭代。具体过程如下:


1. 候选回答生成: 给定用户查询,语言模型会先生成多个初始回答,并通过预先训练好的奖励模型(reward model)对这些回答打分。我们选出得分最高的回答作为“优选”(chosen)和得分最低的回答作为“弃选”(rejected)。


2. 文本损失计算: 接下来,令 LLM 将优选回答和弃选回答放在一起进行比较。通过一个精心设计的提示(prompt),模型会产出一段点评,指出为何优选回答比弃选回答好,以及后者存在哪些不足。这相当于计算出了一个 “文本损失” :以自然语言描述了当前回答偏离人类偏好的程度和原因。


3. 文本梯度计算: 然后,再通过新的提示要求模型根据上述点评提出改进建议。这些建议可以看作是针对回答的 “文本梯度” ——指明了如何调整回答可以更好地满足偏好。


4. 更新回答: 最后,模型参考这些文本建议,生成一个或多个改进后的新回答。新的回答通常在之前薄弱的方面有所加强,相当于沿着文本梯度迈出了一步完成对输出的更新。


通过上述循环,模型的输出会被逐步“打磨”得更加符合奖励模型(也即人类偏好代理)的要求。可以看到,这一流程其实正对应了传统梯度下降的“三步走”:计算损失 → 计算梯度 → 更新参数,只不过在 TPO 中,这三步都由模型在文本层面完成了。


不同于数值优化方法直接修改模型的权重,TPO 是在固定模型 参数 的前提下优化输出内容,因此更加安全可控。从某种角度看,TPO 让模型在推理阶段进行了一次“小规模的自我训练”,利用自然语言反馈挖掘了预训练模型自身的潜力。


3、对齐效果与性能表现


作者在多个基准数据集上对 TPO 进行了评测,涵盖了从指令跟随(如 AlpacaEval、Arena)、偏好对齐(如 HH-RLHF 数据集)、安全性(如 BeaverTails 和 XSTest)到数学(MATH-500)等多方面的任务。








请到「今天看啥」查看全文