面向超网络的连续学习：新算法让人工智能不再“灾难性遗忘”

AI科技评论 · 公众号 · AI · 2020-01-13 19:25

正文

请到「今天看啥」查看全文

论文下载见文末

在《hypernetwork》这篇论文中，作者使用 hyperNetwork 生成 RNN 的权重，发现能为 LSTM 生成非共享权重，并在字符级语言建模、手写字符生成和神经机器翻译等序列建模任务上实现最先进的结果。超网络采用一组包含有关权重结构的信息的输入，并生成该层的权重，如下图所示。

超网络生成前馈网络的权重：黑色连接和参数与主网络相关联，而橙色连接和参数与超网络相关联。

超网络的连续学习模型

在整个工作中，首先假设输入的数据{X ⁽¹⁾ ,......X ^(T) }是可以被储存的，并能够使用输入的数据计算Θ ^{(T −1)} 。另外，可以将未使用的数据和已经使用过数据进行混合来避免遗忘。假设F(X,Θ)是模型，那么混合后的数据集为{(X(1)，Yˆ ⁽¹⁾ )，。。。，(X ^(T−1) ，Yˆ ^(T−1) )，(X ^(T) ，Yˆ ^(T) )}，其中其中Yˆ(T)是由模型f(.，Θ ^(t−1 ))生成的一组合成目标。

然而存储数据显然违背了连续学习的原则，所以在在论文中，作者提出了一种新的元模型fh(e ^(t) ,Θ _h )做为解决方案，新的解决方案能够将关注点从单个的数据输入输出转向参数集{Θ ⁽ ^T) }，并实现非储存的要求。这个元模型称为任务条件超网络，主要思想是建立任务e ^(t) 和权重Θ的映射关系，能够降维处理数据集的存储，大大节省内存。

在《超网络的连续学习》这篇论文中，模型部分主要有3个部分，第一部分是任务条件超网络。首先，超网络会将目标模型参数化，即不是直接学习特定模型的参数，而是学习元模型的参数，从而元模型会输出超网络的权重，也就是说超网络只是权重生成器。