专栏名称: 美团技术团队

10000+工程师，如何支撑中国领先的生活服务电子商务平台？数亿消费者、数百万商户、2000多个行业、几千亿交易额背后是哪些技术在支撑？这里是美团、大众点评、美团外卖、美团配送、美团优选等技术团队的对外窗口。

对话摘要技术在美团的探索（SIGIR）

美团技术团队 · 公众号 · 架构 · 2022-05-26 19:58

正文

请到「今天看啥」查看全文

两个创新

Copy机制 ：在解码的每一步计算拷贝或生成的概率，因为词表是固定的，该机制可以选择从原文中拷贝词语到摘要中，有效地缓解了未登录词（ OOV ）的问题。
Coverage机制 ：在解码的每一步考虑之前步的注意力权重，结合Coverage损失，避免继续考虑已经获得高权重的部分。该机制可以有效缓解生成重复的问题。

Leader-Writer模型

Leader-Writer模型主要通过挖掘对话中存在的要点 ( 例如背景、结论等 ) 来生成摘要。作者总结了生成式摘要现存的几个问题：①逻辑性，例如在客服对话中，背景应该在结论之前；②完整性，即对话中存在的各个要点都应该在摘要中存在；③关键信息正确，例如“用户同意”和“用户不同意”虽然只有一字之差，但含义完全相反；④摘要过长问题。为了解决这些问题，本文提出了如下解决方案：

引入要点序列预测辅助任务，并利用对话的要点序列信息引导模型生成具有逻辑性、完整性、关键信息正确的摘要。如下图4所示，Leader-Writer模型用一个层次的Transformer 编码器编码每个话语，用Leader解码器对每个话语的要点进行分类，并使用Writer解码器进行摘要生成。Leader解码器解码的输出作为Writer解码器初始状态的输入，以利用不同对话片段的要点信息。
引入Pointer-Generator模型，以生成更长、信息更丰富的摘要。

2.3 对话摘要模型

对话具有关键信息散落、低信息密度、多领域、话题转换、说话者角色经常转换等特点，因此可以直接将文本摘要应用于对话摘要，一些研究工作也致力于解决这些问题。下面介绍2个有代表性的对话摘要模型：SPNet ^[53] 和TDS-SATM ^[54] 。

Scaffold Pointer Network (SPNet)

针对对话摘要面临的3个问题：①说话者众多；②难以正确总结关键实体信息；③对话领域众多、领域特性大。为此，本文提出了3个解决方案：

使用Ponter-generator进行生成式的摘要提取，同时引入不同编码器编码不同的说话者角色。
针对地名、时间等实体信息，在编码器的输入用统一的符号代替，如时间都用[time]代替。
引入对话领域分类的辅助损失，增加了多个领域分类的交叉熵损失作为辅助损失。

TDS-SATM

对话的重要信息常常散落在不同句子当中，而大多数话语是不重要的常见表述，此外噪音和转义错误也常常出现在对话中。为了解决上述问题，作者提出了如下两个解决方法：

在神经主题模型的基础上提出了显著性感知神经主题模型 ( SATM )，通过对话推断出主题分布。作者把主题分为有信息的主题和其他主题。在SATM的生成过程中，作者把与标准摘要相对应的每个单词约束为从有信息的主题中生成，这样SATM可以生成主题更相关的词。
为了捕获角色信息并从对话中提取语义主题，作者使用SATM分别对客户话语，客服话语和整体对话执行多角色主题建模。作者使用两阶段的摘要生成器，包括句子抽取和从抽取的句子中生成摘要。将SATM得到的主题信息融入摘要生成器中，以通过对话中的重要信息生成摘要。

模型的整体架构图如下图5所示：

3. 基于阅读理解的Span-level抽取式摘要方案DSMRC-S

3.1 背景介绍

未来保证良好的用户体验，美团有大量的人工客服来处理用户来电问题，客服同学接到电话后需手动记录电话的内容，耗时费力。一个有效的对话摘要模型可以大大增加客服同学的工作效率，降低人工客服处理每通来电的平均处理时间。

尽管上述经典方法在CNN/Daily Mail、LCSTS等数据集上取得了不错的效果，但在实际的场景中仍然会遇到很多挑战。例如，生成式摘要依然缺少稳定性（重复或者产生奇怪的词）和逻辑性，而抽取式摘要如果没有明确的标注信息去训练模型，一般通过“ROUGE-L指标高的句子标为正例”的方式自动标注句子层次的标签，但这种只抽取句子层次的粗粒度方式也容易带来噪音。此外，现有对话摘要结果不可控，难以得到特定的信息要素。

为了适用实际的场景，我们介绍基于阅读理解的Span-Level抽取式对话摘要方案，该方法基于现有人工客服记录的摘要，不需要额外标注，也取得了不错的结果。其中相关的成果发表也在SIGIR 2021国际会议上，下文将详细介绍该方法。

3.2 方法介绍

为了解决现有对话摘要难以得到指定信息要素以及缺少标注数据的问题，我们提出了一个更灵活的、基于远程监督和阅读理解的抽取式摘要模型（ Distant Supervision based Machine Reading Comprehension Model for Extractive Summarization ），简称为DSMRC-S，总体结构如下图6所示：

DSMRC-S由一个基于BERT的MRC（ Machine Reading Comprehension ）模块、远程监督模块和一个基于密度的提取策略组成。在预处理阶段，对话中的Token会被自动标注，模型会被训练去预测对话中每个Token出现在答案中的概率。然后，基于上一步预测的概率，一个基于密度的提取策略会被用来提取最合适的Span作为答案。

我们的方法可以主要分成两部分：①将对话摘要任务转换成阅读理解；②无需额外标注的阅读理解方案。

对话摘要转换成阅读理解任务

客服接到一个电话后需要写一个摘要，摘要的内容通常会包含一些固定的关键要素，比如“用户来电背景”、“用户来电诉求”、“解决方案”等。基于这样的特点，我们将自动摘要任务转换成阅读理解任务，摘要中的每一个关键要素对应阅读理解任务中的一个问题。

这样转换的好处在于：

可以更有效地利用预训练语言模型强大的语言理解能力。
相比Seq2Seq生成内容不可控，阅读理解的方式可以通过问句进行更有针对性引导，使得答案作为摘要更聚焦，可以得到关注的信息要素。

无需额外标注的阅读理解方案

阅读理解任务需要通常需要大量的标注数据。幸运的是，人工客服记录了大量的关键信息（例如“用户来电背景”、“用户来电诉求”、“解决方案”等），这些记录可以作为阅读理解问句对应的答案。然而人工客服的记录不是对话的原始文本片段，不能直接用于抽取式阅读理解，为了解决这个问题，我们设计了如下两个阶段（不依赖额外标注的阅读理解方案）：

第一阶段：预测对话中每一个Token出现在答案的概率

如上图6所示，我们首先通过判断对话中的Token是否出现在答案（客服记录的关键信息）中，以自动给每个Token一个标签（出现则标为1，不出现则标为0 ）。然后，将对话和问题（预定好的，每个问题对应一个关键要素）一起输入到BERT中，使用BERT最后一层对每个Token进行分类，拟合上一步自动标注的标签，分类损失如下公式：

其中h为BERT最后一层的Token向量，W和b是可训练的权重矩阵。

第二阶段：根据上一阶段的概率挑选密度最高的Span作为答案

我们提出了密度的计算方式，对于一个