专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
网信内蒙古  ·  一图读懂|国家标准GB/T45574—202 ... ·  10 小时前  
网信内蒙古  ·  一图读懂|国家标准GB/T45574—202 ... ·  10 小时前  
数局  ·  大学本科生:近七成都是女生! ·  昨天  
数据派THU  ·  【ICML2025】通过多智能体反思强化大语 ... ·  2 天前  
51好读  ›  专栏  ›  数据派THU

【斯坦福大学Xiang Lisa Li博士论文】控制语言模型

数据派THU  · 公众号  · 大数据  · 2025-06-16 17:00

正文

请到「今天看啥」查看全文


在第一部分,我们将控制任务视为一个分布匹配问题,并研究在建模流程中(包括预训练、适应和解码阶段)在哪些环节以及如何进行干预。我将首先介绍一种在适应阶段的控制方法,称为Prefix-Tuning。这是一种参数高效的技术,通过仅修改模型参数的一个小子集实现精细控制。这种方法挑战了传统的完全微调的必要性,并为大规模预训练模型的成本高效定制奠定了基础。接下来,我将重新审视这些控制挑战的根本原因,特别是在预训练阶段,并提出了一种新的文本生成模型,称为Diffusion-LM。Diffusion-LM规避了自回归范式,并通过设计本身内在地增强了可控性。对于最后一种控制方法,我将讨论通过解码时的干预来实现可控性,称为Contrastive Decoding。通过对比一个较强的语言模型和一个较弱的语言模型之间的内部logits,我们能够生成比强语言模型单独生成的文本更高质量的文本。这些策略共同形成了一套连贯的控制机制,适用于语言建模管道的各个阶段。

在第二部分,我们重点关注受控模型的评估。评估包括两个主要设计选择:(i)如何可扩展地判断响应的正确性,(ii)评估时使用什么问题。为了解决第一个问题,我们提出了基于一致性的自动化评估策略。语言模型经常表现出不一致的行为。例如,当我们在2023年9月评估ChatGPT时,我们发现它正确回答了“7+8?”为15,但错误地回应“7+8=15,真还是假?”为“假”。我探讨了生成与验证之间的不一致,并将其作为评估信号。对于第二个问题,我们将评估视为一个优化问题,并开发了自动发现模型失败的工具。具体来说,我们提出了AutoBencher,一个用于自动基准构建的声明性框架,并利用它可扩展地发现现有语言模型的新见解和漏洞。在AutoBencher中,我们将基准构建视为一个优化问题,通过声明数据集的几个期望,构建量化的替代指标,并搜索一个优化这些期望的特定数据集。我们进一步扩展了这个流程,使其针对特定模型,并使用强化学习训练调查模型,以提高召回率并覆盖多样化的模型失败。总体而言,这项工作的贡献推动了可控语言建模的前沿,并为重新思考语言模型评估奠定了新框架的基础。

语言模型是一个基于文本序列的概率模型。其特定的分布由三个要素决定:模型家族(例如,N-gram模型、Transformer模型)、训练数据以及模型规模(例如,参数数量)。从历史上看,语言模型最初是在狭窄的领域内训练的。例如,N-gram模型通常基于精心挑选的语料库(如《华尔街日报》)构建,用于模拟或分析英语文本的特征——如熵或Zipf分布(Shannon,1948)。到了2000年代,语言模型成为更广泛的自然语言处理系统中的实用组件,主要用于在语音识别等任务中对候选输出进行重新排序。

随着训练数据从专业语料库扩展到大规模的互联网数据,且模型架构从N-gram转变为神经网络序列模型,语言模型逐渐从狭窄的工具转变为通用生成器。在2010年代,带有监督的序列到序列模型成为翻译和摘要等应用的核心(Sutskever等,2014)。近年来,像GPT(Radford等,2019;Brown等,2020)和Claude(Anthropic,2024)等大规模模型,在异构的互联网规模语料库上训练,能够在各种领域中生成流畅且连贯的输出。

然而,单纯的流畅性并不足够。随着语言模型的应用场景从分析和重新排序发展到直接生成,模型越来越多地被部署到对正确性、安全性和相关性有要求的环境中。一个数学问题的流畅续写可能是另一个数学问题——但这可能不是我们想要的答案。我们期望模型能回答问题。在其他情况下,我们可能希望模型拒绝不安全的请求、遵循格式指令、采用特定的角色或避免有毒内容。这将引出本论文的核心主题:控制。

控制指的是引导语言模型行为朝着期望的结果发展。高层次而言,它意味着将一个原始的文本分布转换为一个符合任务目标、用户意图或安全约束的有用系统。控制可以采取多种形式:引导生成向事实准确性靠拢、强制风格一致性、抑制不良补全,或者确保指令得到准确执行。如果没有控制机制,即使是最流畅的模型也可能变得无用、不可靠或不安全。

在本论文中,我提出了控制大规模语言模型的方法,并开发了评估工具来揭示控制失败。具体来说,我们探讨了如何在语言建模流程的每个阶段——包括预训练、适应和解码——施加控制。我们还介绍了评估方法,通过自动判断生成输出的质量并揭示模型失败,来评估这些控制效果。

1.1 强化控制







请到「今天看啥」查看全文