正文
实验结论:
-
对于 Post-Align PKT,论文将其同利用 SVD 从模型自身获取 LoRA 的 PiSSA 方法对比,结果发现 PiSSA 在相同设置下优于 Seeking,证明从较大模型抽取的参数知识不如利用模型自身知识作为 LoRA 初始化,进一步怀疑其可行性。
-
对于 Pre-Align PKT,结果显示,只需要极少的训练步数和数据开销,LaTen 能有效取得性能提升。但是 Pre-Align PKT 通过训练实现参数对齐的方式受到极大限制,无法超越较大 LLM 的能力上界,同时训练不太稳定,没有明显收敛。
此外,论文从另一个方面来验证目前阶段的 PKT 是否有效。既然假设迁移的参数知识中包含了有用的特定任务的知识,那么在特定任务上表现更好的模型,理应在迁移后能让小模型的性能更好。因此,研究者在代码任务上开展了这一探索实验:
▲ 图表3:基于更强的较大 LLM 向较小 LLM 传递知识,左图为 Post-Aligh PKT 实验结果,右图为 Pre-Align PKT 实验结果
实验结果证明了两种 PKT 在这种设置下的失败,让人疑惑
为什么跨规模 PKT 无法有效实现?
为什么跨规模 PKT 失败?
PKT 的核心任务在于对齐(Align),不管是通过后续训练还是提前通过超网络实现,是否能有效实现对齐是 PKT 成功的关键。从现有实验结果来看,PKT 并没有有效实现对齐,那么阻碍的关键在哪?
论文从表现相似度(representation similarity)和参数相似度(parametric similarity)出发,分析跨规模大模型在行为方式和内部参数结构的相似度是否会导致跨规模 PKT 的失败,称为神经不兼容性(Neuron Incompatibility)。
▲ 图表4:跨规模大模型之间的表现相似度分析
对于表现相似度的分析,论文采用了中心核对齐(Centered Kernel Alignment, CKA)方法,该方法基于 Hilbert-Schmidt 独立性准则(HSIC),用于计算神经网络中特征表示的相似性。该指标评估了两个模型之间行为的相似性,可以视为大语言模型的行为相似性。
如图 4 所示,Llama2-7B 和 13B 之间的相似性较低,尤其是在多头自注意力(MHSA)模块中,该模块在信息整合中扮演着至关重要的角色。
有趣的是,上投影层的相似性较高,这可能是因为它们作为关键记忆,捕捉特定的输入模式,而这些模式通常在不同模型间是一致的。
跨规模大模型之间的低相似性也解释了为何从同一模型衍生的 LoRA 表现更好,因为它与模型的内在行为更为贴合。证明跨规模大语言模型之间的表示相似性较弱是导致神经不兼容性的关键因素之一,这使得理想的参数知识转移成功变得困难。
对于参数结构相似度的分析,论文进一步基于参数结构相似性进行深入分析,以了解其对性能的影响。如图 5 所示,比较了
(即第
层的 LoRA 参数)与
和