主要观点总结
本文讨论了大规模AI落地过程中的关键挑战,强调了量化不确定性的贝叶斯方法在深度学习领域的重要性。文章回顾了贝叶斯深度学习的优势,指出了当前面临的挑战,并探讨了未来的研究方向,旨在将大规模基础模型与贝叶斯深度学习相结合,以充分发挥其潜力。文章还讨论了贝叶斯推理的起源、在深度学习中的应用,以及贝叶斯深度学习在多个领域如医疗健康、单细胞生物学、药物发现、农业、天体物理学、纳米技术、物理学、气候科学、智能电网、可穿戴设备、机器人和自动驾驶等的应用潜力。同时,文章批评了当前贝叶斯深度学习方法所面临的计算成本高、可扩展性差的挑战,并提出了有前景的研究方向,包括改进后验采样算法、混合贝叶斯方法、深度核过程与机器、半监督与自监督学习、混合精度与张量计算、压缩策略等,以克服这些挑战。
关键观点总结
关键观点1: 贝叶斯深度学习的优势
贝叶斯深度学习提供了不确定性量化、模型可解释性、泛化能力和鲁棒性的提升,对于应对数据有限或噪声较大的情况尤为有用。它支持先验信息的引入,有助于融合领域专家的经验,并根据新证据更新信念。
关键观点2: 当前挑战
贝叶斯深度学习面临的主要挑战包括计算成本高、可扩展性差,尤其是在处理大规模深度学习模型时。此外,缺乏收敛性指标、性能评估标准和基准测试也是一个挑战。
关键观点3: 未来研究方向
未来的研究方向包括改进后验采样算法、混合贝叶斯方法、深度核过程与机器、半监督与自监督学习、混合精度与张量计算、压缩策略等,以克服计算成本高和可扩展性差的挑战,并提升贝叶斯深度学习的实用性和效率。
正文
此外,BDL的不确定性量化能力可以支持有依据的数据点标注选择。通过结合先验知识并在新信息到达时持续更新信念,BDL优化了主动学习的迭代过程,战略性地选择最具信息量的样例进行标注,从而提升模型性能(Gal 等, 2017)。这一能力在当前如何高效选择上下文学习场景中的示例(Margatina 等, 2023)或使用人类反馈进行微调(Casper 等, 2023)等挑战中尤其具有优势。
2.3 对新领域与演化领域的适应性
通过动态更新对先前信念的认知以响应新的证据,BDL能够在适应新任务的同时有选择地保留旧任务中的有价值信息,从而提升跨不同领域和任务的知识迁移能力(Rothfuss 等, 2021;2022;Rudner 等, 2024a)。这对于构建能够适应新情境或随时间演化的领域的AI系统至关重要(Nguyen 等, 2018;Rudner 等, 2022b),例如连续学习(continual learning)或终身学习(lifelong learning)场景。相比之下,传统的大型机器学习方法显得较为静态,它们假设数据中的潜在模式不会随时间变化,因此在面对持续涌入的新数据及底层模式的变化时表现不佳。
2.4 模型误设与可解释性
贝叶斯模型平均(Bayesian Model Averaging, BMA)承认并量化模型结构选择中的不确定性。不同于依赖单一固定模型的方法,BMA考虑的是所有可能模型的概率分布(Hoeting 等, 1998;1999;Wasserman, 2000)。通过引入模型先验并推断模型后验,BDL允许BMA对网络架构的不确定性进行校准(Hubin & Storvik, 2019;Skaaret-Lund 等, 2023)。通过对不同模型可能性的预测进行加权平均,BMA减弱了模型误设带来的影响,提供了一个综合参数不确定性与模型结构不确定性的稳健框架,最终带来更可靠且更具解释性的预测结果(Hubin 等, 2021;Wang 等, 2023a;Bouchiat 等, 2023)。
在BDL中,尽管参数和结构的可解释性似乎不那么关键,尤其是在过参数化的神经网络被用作未知数据生成过程的函数逼近器的情况下。然而,在那些黑箱预测不是主要目标的应用中,特别是在科学领域,仍需要开展研究来建立可复现且可解释的贝叶斯推理机制(Rugamer, 2023;Wang 等, 2023a;Dold 等, 2024)。在这方面,以BMA为中心的研究方向在BDL中具有重要价值。
3. 当前挑战
BDL(贝叶斯深度学习)面临的一个挑战是其计算成本较高(Izmailov 等, 2021b)。尽管第2节中概述了BDL的优势,在贝叶斯方法领域,高斯过程(Gaussian Processes, GPs)在诸如科学发现等计算密集型场景中仍然是首选方法(Tom 等, 2023;Griffiths 等, 2023;Strieth-Kalthoff 等, 2023)。如何证明BDL在实际应用中是低成本的、或至少在现代环境下具备实用效率,仍是亟待解决的重要问题之一。本节旨在探讨BDL的复杂性,突出两个主要挑战:后验推断(见图2)与先验设定。同时还将探讨可扩展性为何成为BDL中的一个核心难题。最后,本节将讨论BDL在基础模型中的采用所面临的困难。关于BDL缺乏收敛性指标、性能评估标准及基准测试的问题将在附录B中进行讨论。
3.1 拉普拉斯与变分近似
拉普拉斯近似与变分近似利用经验损失函数的几何或微分信息,构建闭式(通常是高斯形式)概率测度来逼近后验分布。尽管这些方法结构简单且历史悠久(MacKay, 1992),它们在预测性能上往往具有竞争力(Daxberger 等, 2021b;Rudner 等, 2022a;Antoran 等, 2023;Rudner 等, 2023)。更重要的是,由于其具有闭式表达,并能利用自动计算的微分量以及数值线性代数的基础理论,这类方法支持理论分析(Kristiadi 等, 2020)以及解析功能,如校准(Kristiadi 等, 2021b;a)与边缘化(Khan 等, 2019;Immer 等, 2021a;b),而这些在随机方法中则显得不够优雅。拉普拉斯近似神经网络(Ritter 等, 2018)尤其诱人,因为它在训练过程中不增加额外计算成本,仅需有限的后处理开销(相当于几个训练轮次)即可实现事后不确定性量化(post-hoc UQ)。此外,近期提出的变分目标函数(Alemi & Poole, 2023)提供了避免内部边缘化的替代预测方式。
另一种可扩展的近似方法是SWAG(Maddox 等, 2019),它通过修改学习率调度机制下的随机梯度下降(SGD)迭代结果(Mandt 等, 2017),构造出一个高斯形式的近似后验分布。与拉普拉斯近似类似,它的计算开销并不显著高于标准训练。然而,SWAG是从SGD路径中估计曲率,而不是在单个点上使用海森矩阵(Hessian)。通过从随机梯度中生成确定性概率测度,它弥合了确定性与随机方法之间的差距。
尽管这些近似方法在解析方面具有优势,但它们本质上仍是局部的,只能捕捉多模态贝叶斯神经网络(BNN)后验分布中的单一模式。可以说,它们最根本的问题在于后验依赖于BNN的参数化方式(MacKay, 1998),因此与概率测度的一些基本性质不一致(Kristiadi 等, 2023)。此外,局部后验几何可能无法很好地被高斯分布近似,这可能导致从拉普拉斯近似采样时出现低估置信度的现象(Lawrence, 2001),该问题可以通过线性化方法缓解(Immer 等, 2021b)。
3.2 集成方法
深度集成方法涉及使用不同初始化重新训练神经网络,并对最终模型进行平均。这种方法在近似后验预测分布方面表现良好(Wilson & Izmailov, 2020)。近年来,理论上的进展已建立了集成方法与贝叶斯方法之间的明确联系(Ciosek 等, 2020;He 等, 2020;Wild 等, 2023)。
在BDL中一个尚未解决的问题是:是否可以开发出在性能上超越深度集成方法的可扩展贝叶斯推理方法。Izmailov 等(2021b)的研究表明,哈密顿蒙特卡洛(Hamiltonian Monte Carlo, HMC)方法通常优于深度集成方法,但其计算开销显著更大。当面对像大型语言模型(LLMs)这样规模大且计算成本高的深度学习模型时,使用深度集成方法可能会遇到显著挑战,因为其训练和执行成本高昂。因此,这些大规模模型可能推动研究人员探索更高效的架构与推理范式,例如后验蒸馏(posterior distillation)或排斥性集成(repulsive ensembles)(D’Angelo & Fortuin, 2021),以提升不确定性校准能力并实现更稀疏的模型使用。
3.3 后验采样算法
在贝叶斯深度学习(BDL)中,马尔可夫链蒙特卡洛(Markov chain Monte Carlo, MCMC;Brooks 等, 2011)方法是一类重要的后验推断工具。其中,随机梯度MCMC(stochastic gradient MCMC, SG-MCMC;Nemeth & Fearnhead, 2021)算法,如随机梯度朗之万动力学(stochastic gradient Langevin dynamics, SG-LD;Welling & Teh, 2011)和随机梯度哈密顿蒙特卡洛(stochastic gradient HMC, SG-HMC;Chen 等, 2014),已成为广泛采用的技术。
尽管SG-MCMC算法能够提供更优的后验近似效果,但其收敛速度通常慢于随机梯度下降(SGD;Robbins, 1951)。这种减缓源于SG-MCMC需要更多迭代次数,以全面探索整个后验分布,而不仅仅是定位到一个模式点。
此外,SG-MCMC对于深度学习应用而言仍被认为计算成本较高。在这方面的一个进步方向是借鉴机器学习与系统社区的经验,利用现代硬件加速蒙特卡洛方法的执行效率(Zhang 等, 2022a;Wang 等, 2023b)。例如,Stein变分梯度下降(Stein variational gradient descent, SVGD;Liu & Wang, 2016)位于优化与采样的中间地带,它通过使用优化类型的更新规则,同时引入一组相互作用的粒子来实现采样。虽然近期研究在贝叶斯神经网络(BNN)设置中展示了SVGD的一些有希望的结果(D’Angelo 等, 2021;D’Angelo & Fortuin, 2021;Pielok 等, 2022),但这些方法在高维问题中往往表现不佳。
另一种改进方式是使用循环步长调度策略(cyclical step-size schedules;Zhang 等, 2020b),可以提升收敛速度并增强对后验空间的探索能力。然而,尽管已有这些进展,由于BDL后验分布的高度多模态性与高维特性,目前仍难以通过采样方法准确刻画完整的后验分布。
因此,亟需开发出既能匹配SGD的速度(即典型深度学习优化所使用的速度),又能提供高质量后验近似结果的SG-MCMC算法,以确保其在实际应用中的有效性。
3.4 先验设定
参数上的先验会诱导出函数空间上的先验,而真正影响模型泛化能力的是函数空间上的先验(Wilson & Izmailov, 2020)。幸运的是,神经网络架构本身已经赋予了这一函数先验许多理想属性。例如,如果使用卷积神经网络(CNN)架构,则可以获得平移等变性(translation equivariance)等特性。
与此同时,在参数空间上定义先验面临高维空间复杂性和不可解释性的挑战。因此,一个目标是构建信息丰富且恰当的先验,使得神经网络权重的先验在计算上高效,并倾向于具有理想模型属性的解(Vladimirova 等, 2019;2021;Fortuin 等, 2022;Rudner 等, 2023),例如:
-
倾向于具有良好不确定性估计的模型(Rudner 等, 2024a);
-
-
在协变量偏移下具有良好泛化能力(Klarner 等, 2023);
-
-
或高度稀疏性(Ghosh 等, 2018;Polson & Rocková, 2018;Hubin & Storvik, 2019)。
权重先验也可以通过低维单位潜变量(low-dimensional unit latent variables)结合超网络(hypernetworks)或高斯过程(GPs)建模为神经场(neural fields)(Karaletsos 等, 2018;Karaletsos & Bui, 2020),从而表达关于该场的先验知识,避免直接对权重进行信念参数化,转而关注单元的几何或其他性质。
近年来的研究也发展出了直接在函数空间而非权重空间中定义先验的方法(Tran 等, 2022a;Rudner 等, 2022b;Qiu 等, 2023)。函数空间先验也带来了一些问题,例如存在定义不当的变分目标函数(Burt 等, 2020;Rudner 等, 2022a),或者在某些情况下需要进行计算代价高昂的高斯过程近似。
除了高斯过程之外,还有其他方式可以定义函数空间先验。例如,可以通过自监督学习(self-supervised learning)来构建具有信息量的函数空间先验(Shwartz-Ziv 等, 2022;Sharma 等, 2023)。
3.5 可扩展性
神经网络(NN)参数空间中存在对称性,这会导致计算冗余(Wiese 等, 2023)。在贝叶斯深度学习(BDL)背景下解决这些对称性所带来的复杂性和可识别性问题,可以显著影响其可扩展性。提出的一些解决方案包括:在BDL推理方法中引入基于对称性的约束(Sen 等, 2024),或设计具有对称意识的先验分布(Atzeni 等, 2023)。然而,去除对称性可能并非最优策略,因为深度学习的成功部分归因于神经网络的过参数化特性,这种特性允许在训练过程中快速探索大量假设,或带来其他积极的“副作用”,例如诱导稀疏性(Kolb 等, 2023)。
与一种常见的误解相反——即贝叶斯神经网络(BNN)在速度和内存效率方面天生不如确定性神经网络——最近的研究挑战了这一观点。例如,Ritter 等(2021)的研究表明,BNN在参数数量方面可以比其确定性对应模型高出四倍的内存效率。此外,像Maddox 等(2019)提出的通过重用标准训练轨迹来构建近似后验的方法,仅带来了微不足道的额外计算成本。结合神经网络与高斯过程(GPs)的混合模型,如深度核学习(deep kernel learning, DKL;Wilson 等, 2016),也只比确定性神经网络略微慢一些或占用更多内存。
尽管不确定性量化(UQ)在多个领域都非常重要,但它不应以牺牲预测性能为代价。BDL必须在两者之间取得平衡,确保UQ的计算成本与点估计相当。否则,将计算资源投入到提升深度学习模型的预测性能上可能是更明智的选择。有些人可能会认为集成方法由于其高度并行性而较少受到此问题的影响。然而,在连行业领导者都需要大量图形处理单元(GPU)资源才能训练一个大型深度学习模型的时代,单纯依赖并行性已显得不足。同时实现时间效率、内存效率以及高模型效用(体现在预测性能和不确定性校准方面)仍是当前面临的重大挑战;这也是近似贝叶斯推理的“圣杯”。
3.6 基础模型
深度学习正处于向“基础模型”时代过渡的范式转变之中,这一时代的特征是模型参数规模达到数十亿级别而非数百万级别,且主要关注语言建模而非视觉任务。贝叶斯深度学习(BDL)在大型语言模型(LLMs)中的应用,无论是在方法层面还是应用场景上,仍相对未被充分探索。虽然最先进的近似推理算法能够有效处理拥有数百万参数的模型,但仅有少数研究考虑了LLMs的贝叶斯方法(Xie 等, 2021;Cohen, 2022;Margatina 等, 2022)。特别是,一些面向LLMs的BDL方法已经通过贝叶斯低秩适配(Bayesian low-rank adaptation, LoRA;Yang 等, 2024b;Onal 等, 2024)、贝叶斯优化(Kristiadi 等, 2024)以及贝叶斯奖励建模(Bayesian reward modeling;Yang 等, 2024a)等方式得以发展。
正如第2节所述,BDL成为应对基础模型局限性的解决方案,特别是在数据有限的情况下尤为重要。在涉及个性化数据(Moor 等, 2023)或因果推断应用(Zhang 等, 2023)的场景中,例如个体处理效应估计(individual treatment effect estimation),当数据集较小时,BDL在不确定性估计方面的能力显得尤为契合。基础模型在小样本场景下的微调设置是另一个例子。虽然基础模型本身具备小样本学习能力(Brown 等, 2020),但BDL提供了可解释的不确定性量化,这在数据受限的环境下尤为重要。此外,BDL还支持在不确定性条件下的预测不确定性估计与稳健决策。