【斯坦福大学Xiang Lisa Li博士论文】控制语言模型

数据派THU · 公众号 · 大数据 · 2025-06-16 17:00

正文

请到「今天看啥」查看全文

在第一部分，我们将控制任务视为一个分布匹配问题，并研究在建模流程中（包括预训练、适应和解码阶段）在哪些环节以及如何进行干预。我将首先介绍一种在适应阶段的控制方法，称为Prefix-Tuning。这是一种参数高效的技术，通过仅修改模型参数的一个小子集实现精细控制。这种方法挑战了传统的完全微调的必要性，并为大规模预训练模型的成本高效定制奠定了基础。接下来，我将重新审视这些控制挑战的根本原因，特别是在预训练阶段，并提出了一种新的文本生成模型，称为Diffusion-LM。Diffusion-LM规避了自回归范式，并通过设计本身内在地增强了可控性。对于最后一种控制方法，我将讨论通过解码时的干预来实现可控性，称为Contrastive Decoding。通过对比一个较强的语言模型和一个较弱的语言模型之间的内部logits，我们能够生成比强语言模型单独生成的文本更高质量的文本。这些策略共同形成了一套连贯的控制机制，适用于语言建模管道的各个阶段。

在第二部分，我们重点关注受控模型的评估。评估包括两个主要设计选择：（i）如何可扩展地判断响应的正确性，（ii）评估时使用什么问题。为了解决第一个问题，我们提出了基于一致性的自动化评估策略。语言模型经常表现出不一致的行为。例如，当我们在2023年9月评估ChatGPT时，我们发现它正确回答了“7+8？”为15，但错误地回应“7+8=15，真还是假？”为“假”。我探讨了生成与验证之间的不一致，并将其作为评估信号。对于第二个问题，我们将评估视为一个优化问题，并开发了自动发现模型失败的工具。具体来说，我们提出了AutoBencher，一个用于自动基准构建的声明性框架，并利用它可扩展地发现现有语言模型的新见解和漏洞。在AutoBencher中，我们将基准构建视为一个优化问题，通过声明数据集的几个期望，构建量化的替代指标，并搜索一个优化这些期望的特定数据集。我们进一步扩展了这个流程，使其针对特定模型，并使用强化学习训练调查模型，以提高召回率并覆盖多样化的模型失败。总体而言，这项工作的贡献推动了可控语言建模的前沿，并为重新思考语言模型评估奠定了新框架的基础。

语言模型是一个基于文本序列的概率模型。其特定的分布由三个要素决定：模型家族（例如，N-gram模型、Transformer模型）、训练数据以及模型规模（例如，参数数量）。从历史上看，语言模型最初是在狭窄的领域内训练的。例如，N-gram模型通常基于精心挑选的语料库（如《华尔街日报》）构建，用于模拟或分析英语文本的特征——如熵或Zipf分布（Shannon，1948）。到了2000年代，语言模型成为更广泛的自然语言处理系统中的实用组件，主要用于在语音识别等任务中对候选输出进行重新排序。

随着训练数据从专业语料库扩展到大规模的互联网数据，且模型架构从N-gram转变为神经网络序列模型，语言模型逐渐从狭窄的工具转变为通用生成器。在2010年代，带有监督的序列到序列模型成为翻译和摘要等应用的核心（Sutskever等，2014）。近年来，像GPT（Radford等，2019；Brown等，2020）和Claude（Anthropic，2024）等大规模模型，在异构的互联网规模语料库上训练，能够在各种领域中生成流畅且连贯的输出。

然而，单纯的流畅性并不足够。随着语言模型的应用场景从分析和重新排序发展到直接生成，模型越来越多地被部署到对正确性、安全性和相关性有要求的环境中。一个数学问题的流畅续写可能是另一个数学问题——但这可能不是我们想要的答案。我们期望模型能回答问题。在其他情况下，我们可能希望模型拒绝不安全的请求、遵循格式指令、采用特定的角色或避免有毒内容。这将引出本论文的核心主题：控制。

控制指的是引导语言模型行为朝着期望的结果发展。高层次而言，它意味着将一个原始的文本分布转换为一个符合任务目标、用户意图或安全约束的有用系统。控制可以采取多种形式：引导生成向事实准确性靠拢、强制风格一致性、抑制不良补全，或者确保指令得到准确执行。如果没有控制机制，即使是最流畅的模型也可能变得无用、不可靠或不安全。

在本论文中，我提出了控制大规模语言模型的方法，并开发了评估工具来揭示控制失败。具体来说，我们探讨了如何在语言建模流程的每个阶段——包括预训练、适应和解码——施加控制。我们还介绍了评估方法，通过自动判断生成输出的质量并揭示模型失败，来评估这些控制效果。

【斯坦福大学Xiang Lisa Li博士论文】控制语言模型

正文

请到「今天看啥」查看全文

1.1 强化控制

请到「今天看啥」查看全文