29 篇选 6，微软亚研院AAAI 2020论文精选，必看！

AI科技评论 · 公众号 · AI · 2020-02-08 16:12

正文

请到「今天看啥」查看全文

图8：模型框架

我们提出的方法在 WebSplit-v1.0 数据集上取得了较为显著的结果，其中 FaSE 和 PIT 都分别带来了明显提升；我们还将其作为 OpenIE 任务的预处理部分，也显著地提升了 Stanford OpenIE 的结果。

4、通过建模隐含的实体类型信息来改进实体链接任务

Improving Entity Linking by Modeling Latent Entity Type Information

论文链接： https://arxiv.org/abs/2001.01447

实体链接（Entity Linking）任务旨在研究如何将文本中对实体有歧义的“提及” (mention) 链接到目标知识库所对应的实体上去，其结果可以用来帮助许多与知识相关的任务，如问答、信息抽取等。在研究方法上，实体链接任务经历了从传统的基于特征工程的方法到目前基于神经网络的端到端方法的过渡。

目前一些先进的基于神经网络的实体链接模型容易将“提及”链接到类型不一致的实体上去。如图9所示，本篇论文的基线方法 DeepED（Ganea and Hofmann 2017）错误地将提及 “Milwaukee” 链接到球队类型的实体 Milwaukee_Brewers，尽管介词 “In” 明显地暗示 “Milwaukee” 应该指代地点类型的实体 Milwaukee。

图9：基线方法 DeepED（Ganea and Hofmann 2017）在标准数据集 AIDA-CoNLL 开发集上的类型错误示例

基于这一观察，本篇论文分析了其主要原因有两方面：1）提及的上下文所蕴含的实体类型信息建模不够充分；2）实体的向量表示对实体类型不敏感。基于此，我们提出了一种简单有效的基于预训练语言模型的实体表示方法和一个基于 BERT 的实体相似度特征，以更好地捕捉实体类型信息。

本篇论文在标准数据集上通过领域内和领域间测试证明了模型的有效性。同时通过详细的实验分析，展示出论文所提出的方法真正纠正了大部分基线模型所产生的类型错误。

最后，论文通过在训练中得到的模型所对应的上下文表示空间中检索最邻近上下文，直观地展示出基于 BERT 的上下文表示更好地捕捉了隐含的实体类型信息。

图10：本篇论文和基线方法在上下文表示空间中的最邻近上下文

5、Table2Analysis: 多维数据普适分析模式的建模与推荐

Table2Analysis: Modeling and Recommendation of Common Analysis Patterns for Multi-Dimensional Data

论文链接： https://www.microsoft.com/en-us/research/publication/table2analysis-modeling-and-recommendation-of-common-analysis-patterns-for-multi-dimensional-data/

图11：多维数据普适分析的一个实例

从科学研究探索到商业智能分析，在知识发现和决策自动化的过程中，我们常面对一个关键问题：对多维数据集（表格）进行分析时，大家通常如何从中提取出信息？譬如图11中的销售数据（有日期、区域、销售代表、销售额四个维度），大多数分析师会进行哪些常见的分析呢？对此，本篇论文提出了 Table2Analysis 框架，从大量 Excel 用户创建的（表格、分析）例子中学习普适的分析模式，并基于此对新的表格推荐语义上常见的数据分析。

Table2Analysis 是一个 table-to-sequence 的框架。首先我们定义了一种分析语言，将数据分析过程编码为一系列的操作符，每个操作符可以是预定义的分析操作（如开始分析的一个部分、选定聚合函数等），也可以是选择数据表格中的一个维度。举例来说，“sum of sales by region”可以被表示成 [ANA][Sales][SEP][Region][Sum]。在分析语言的基础上，推荐常见分析则可被抽象为：给定一个表格，生成由这个表格中的维度组成的操作符序列。

图12：模型框架

要生成分析操作符序列，在 Table2Analysis 框架中我们采取了逐步一个个生成的方式，通过从大量用户创建的（表格、分析）对中学到的语言模型（也即图12中的动作值函数）来作为下一步选择的启发函数。但这种方式存在很多挑战：输入的操作符可能来自任何表格，有无限种可能性；简单 seq2seq 的训练方法在实际推断时的曝光偏差；因为对操作符序列的严格语法要求，无法直接使用传统自然语言处理中的很多模型和训练方法……对此，我们对神经网络的输入层进行了设计，并采用并行搜索采样的方法来减少曝光偏差。

在我们收集的一个大型表格数据集上，Table2Analysis 对数据透视表（PivotTable）推荐的召回率在 top-5 达到了0.78，top-1 也有0.65。这验证了 Table2Analysis 框架的有效性。

6、用于神经机器翻译的转导集成学习

Transductive Ensemble Learning for Neural Machine Translation

论文链接： https://www.msra.cn/wp-content/uploads/2020/01/Transductive-Ensemble-Learning-for-Neural-Machine-Translation.pdf

集成学习（Ensemble learning）利用多个不同的模型，在测试阶段用投票的方式对样本进行判别。然而，我们观察到，在神经机器翻译（NMT）的任务中，当参加测试的模型的准确率很高时，集成学习将不会对最终结果带来显著提升。类似的现象在相关文献也有所体现。因此，如何将多个强 NMT 模型集成起来得到更好的测试效果，是本篇论文研究的课题。我们提出了传导集成学习模型（Transductive Ensemble Learning，简记为 TEL），能够通过训练的方法，将多个强 NMT 模型集成到一个模型中，得到更好的测试效果。我们在 WMT 英语-德语翻译和英语-芬兰语翻译上验证了我们算法有效性。特别地，我们在 WMT’16-WMT’18 英德翻译任务上取得了当前最佳的效果。

在 TEL 模型中，我们将两个语言空间记成 X 和 Y，将训练集、验证集和测试集记成 D_train={(x_i,y_i)}_(i=1)^(N_tr), D_valid={(x ̅_i,y ̅_i)}_(i=1)^(N_val), D_test={x_j^* }_(j=1)^(N_test)。注意我们可以得到测试集的输入，但没有对应的标签。具体过程如下：

(A) 我们首先要在 D_train 上训练，得到 K 个不同的模型。利用不同的随机种子即可。将得到的模型记做 f_1,f_2,⋯,f_K 。

(B) 将验证集和测试集中的样本利用上述 K 个模型进行翻译：D_v={(x,f_k (x))|x∈D_valid,k∈[K]}, D_t={(x,f_k (x))|x∈D_test,k∈[K]}。

(C)在 D_v∪D_t 上微调： -min∑_((x,y)∈D_v∪D_t) logP(y│x;f_0) 中 f_0 可以从 f_1,f_2,⋯,f_K 中任选一个作为初始化模型。当模型在验证集上取得最佳效果时，训练停止。

首先，我们在有标数据和利用 back-translation 做了数据增强的两组设置下得到了如图13所示的实验结果。结果表明，我们的算法 TEL 在不同的设置下都能够取得一定的提高。