专栏名称: 美团技术团队

10000+工程师，如何支撑中国领先的生活服务电子商务平台？数亿消费者、数百万商户、2000多个行业、几千亿交易额背后是哪些技术在支撑？这里是美团、大众点评、美团外卖、美团配送、美团优选等技术团队的对外窗口。

KDD 2024 OAG-Challenge Cup赛道三项冠军技术方案解读 | 内含中秋福利

美团技术团队 · 公众号 · 架构 · 2024-09-12 19:58

正文

请到「今天看啥」查看全文

等技术，进一步提升效果。算法框架如下图1所示：

图1：WhoIsWho-IND解决方案。图的最上面部分是使用标题作为信息源的一个示例。在微调阶段，我们使用多源数据对多个模型独立微调。集成模型是指从多个微调模型中推断出的结果的加权平均。K表示迭代自精炼轮数

在将任务转化为比较任务后，从经验上看，输入的参考文献越多，模型接收的输入中的参照信息也更丰富，对模型判断当前paper是否正确也越有帮助，我们通过实验也验证了这一点。然而，在固定最大输入长度的限制下，在输入中拼接的参考文献越多，每篇论文所包含的信息就越少。

为了尽可能利用更多信息以及尽量减少训练所用资源，我们使用了一种拆分策略、在微调阶段我们使用多源数据对多个模型独立微调，以确保每个模型能够专注于特定的信息源，我们使用deepspeed ^[2] 的zero1来在训练时长和显存占用方面取得平衡，微调方法用LoRA ^[3] 和QLoRA ^[4] 。通过实验，我们确定了标题和作者是最关键的两个信息，其他信息则不在单独训练模型以避免资源浪费。为了利用到其他信息，我们对所有可用信息源进行微调得到一个综合模型，用于模型结果集成，进行信息互补。

由于我们使用比较任务来确定当前论文是否属于主要（正确）类别，我们自然会认为，参考文献中正确论文的比例越高，模型对当前论文的正确性判断就越有信心。基于此，我们提出了迭代自精炼(IRF)方法，该方法不需要额外的模型训练，通过不断精炼参考论文中正确论文的比例来获得更好的结果。通过将大模型预测的若干paper正确概率进行排序+阈值截断，使得大模型比较任务下一轮输入的参考paper中正样本浓度提升，从而使得模型输出结果时更自信，最终显著提高了识别正确论文的概率。由于第一轮迭代时我们还没有拿到预测概率，因此初始输入中的参考文献是随机采样的。

为了使模型在推理阶段应对更具挑战的样本，我们在训练阶段增加任务难度，以防止任务变得简单。例如，减少最大训练长度、适当增加训练输入中错误论文的比例，从而提升模型的鲁棒性。

在比较任务中，模型输出的概率不应受参考文献输入顺序的影响。针对这一问题，我们充分利用TTA，在将每个样本中的参考文献输入模型之前，对其顺序进行shuffle，并对多个结果进行平均，以获得更稳健的结果。

我们做了大量实验验证了我们方法的有效性，对比实验和消融实验如下所示：

总的来说，我们的核心上分点如下：

Task Format Conversion：将聚类任务转化为比较任务，在输入中给出一些参考论文，并确定当前论文是否属于主要类。
Train-Time Difficulty Increase ( TTDI ) : 训练阶段增加任务难度，让模型跳出“舒适区”，使其能够在推理过程中更好地处理具有挑战性的示例。
Test-Time Augmentation ( TTA )：在测试时对输入数据施加多种变换（此题为打乱参考文献的输入顺序），并对这些变换后的数据进行模型预测。最终，汇总这些预测结果（例如取平均值或进行投票），以获得更稳健和准确的最终预测。
自反馈增强的迭代式大模型文本聚类：针对比较任务，通过不断精炼参考论文中正确论文的比例来获得更好的结果。

论文源头追溯（PST）

在论文源头追溯任务中，我们面临三大挑战：数据集标签分布差异、冗长的HTML格式标识符、超大规模无标注数据集辅助信息召回。具体而言，该任务存在规则标注的和人工标注的两类数据集，且这两类数据集的标签分布存在显著差异。规则标注的数据集数据量大，但标签置信度低、噪声较多且有效信息分散；人工标注的数据集标签置信度高，且与测试集分布一致，但数据量较少。此外，数据集中还存在大量HTML格式标识符，这些标识符文本长度可达数万Token，却包含极少的有效信息。同时，该任务存在的超大规模无标注数据集（ DBLP数据集）拥有各论文完善的辅助信息，但需要自行召回有效信息。

故赛题的难点在于如何充分利用不同置信度的训练数据集及超长的上下文信息、提取高噪声数据中的有效增益信息。针对这两个难点，团队利用嫁接学习 ^[5] 的思想分别提出Grafting-Learning For DataSet技术和Grafting-Learning For LongText技术，将BERT-Like模型的复杂文本语义匹配能力嫁接到LLM中，提高样本置信度。同时，团队提出的Automatic RAG & Feature Engineering技术能够自动召回辅助信息，进一步去除超大规模无标注数据集中的高噪声。算法框架如下图2所示：

图2：PST Solution By BlackPearl。RAG & Feature Engineering指我们提出的自动召回及处理辅助信息技术，Pretrain指利用DBLP数据集进行BERT模型的MLM预训练。方案经过两次嫁接学习，最终由ChatGLM3产出预测概率