专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

One Model To Learn Them All

PaperWeekly · 公众号 · 科研 · 2017-08-22 08:05

正文

请到「今天看啥」查看全文

❶

geminifox

传统具有一定迁移学习能力的深度学习模型大多采用同一问题类型下的不同数据来训练，而本文则旨在突破此局限性，尝试创建一个统一的深度学习模型来自适应地适配解决不同领域、不同数据模态下的多个不同类型的任务，且在特定任务上的性能没有明显损失或接近于现有的主流方法结果。

本文的新意在于提出了一个组件化配置的统一的深度学习框架来克服上述局限性，通过基于编解码器框架内不同子网表示与其对应的转换空间之间的关联关系及不同模态数据间的某种隐含共享性或潜在关联性来迁移知识，以协助提高在具体应用层面看来似乎不相关的任务上的性能提高。本文框架中各组件的设计与组合通过实验验证了其合理性和有效性，但其蕴含的架构设计上的考虑及经验似乎未做过于清晰的解释。

❷

RyanHuang

这篇论文提出了一个 MultiModel，可以在各种领域中的不同问题都能取得不错的效果（论文中表示虽然效果不是最好的，但是也比目前很多的研究要好），这个模型包含包含卷积层、注意力机制、稀疏门控层。

上面提到的每个计算模块，都会在某些类任务中发挥着关键作用，在那些发挥不了关键作用的任务中，这些模块也不会干扰，反而能在大多数的情况下还能发挥一些作用。在数据比较少的任务上，用这个模型和其他任务联合训练效果尤其好，但是在大型任务的性能会稍微下降。

MultiModel 由几个模式网络、一个编码器、I/O 混合器、一个自回归解码器构成，它的主体由多个卷积层、注意力机制、和稀疏门控专家混合层组成：

1. 卷积模块的作用是发现局部模式，然后将它泛化到整个空间，包含线性整流函数 (ReLU)、SepConv 和归一层；

2. 注意力模块中的注意力机制和论文 Attention Is All You Need 中差不多；