专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
目录
相关文章推荐
爱可可-爱生活  ·  Dyna-Think框架通过创新的DIT(提 ... ·  昨天  
黄建同学  ·  ChatGPT的记忆是如何工作的↓ ... ·  2 天前  
爱可可-爱生活  ·  [LG]《Leave it to the ... ·  2 天前  
爱可可-爱生活  ·  [LG]《AXIOM: Learning ... ·  2 天前  
51好读  ›  专栏  ›  AI科技评论

面向超网络的连续学习:新算法让人工智能不再“灾难性遗忘”

AI科技评论  · 公众号  · AI  · 2020-01-13 19:25

正文

请到「今天看啥」查看全文


论文下载见文末
在《hypernetwork》这篇论文中,作者使用 hyperNetwork 生成 RNN 的权重,发现能为 LSTM 生成非共享权重,并在字符级语言建模、手写字符生成和神经机器翻译等序列建模任务上实现最先进的结果。超网络采用一组包含有关权重结构的信息的输入,并生成该层的权重,如下图所示。
超网络生成前馈网络的权重:黑色连接和参数与主网络相关联,而橙色连接和参数与超网络相关联。

超网络的连续学习模型
在整个工作中,首先假设输入的数据{X (1) ,......X (T) }是可以被储存的,并能够使用输入的数据计算Θ (T −1) 。另外,可以将未使用的数据和已经使用过数据进行混合来避免遗忘。假设F(X,Θ)是模型,那么混合后的数据集为{(X(1),Yˆ (1) ),。。。,(X (T−1) ,Yˆ (T−1) ),(X (T) ,Yˆ (T) )},其中其中Yˆ(T)是由模型f(.,Θ (t−1 ))生成的一组合成目标。
然而存储数据显然违背了连续学习的原则,所以在在论文中,作者提出了一种新的元模型fh(e (t) h )做为解决方案,新的解决方案能够将关注点从单个的数据输入输出转向参数集{Θ ( T) },并实现非储存的要求。这个元模型称为任务条件超网络,主要思想是建立任务e (t) 和权重Θ的映射关系,能够降维处理数据集的存储,大大节省内存
在《超网络的连续学习》这篇论文中,模型部分主要有3个部分,第一部分是任务条件超网络。首先,超网络会将目标模型参数化,即不是直接学习特定模型的参数,而是学习元模型的参数,从而元模型会输出超网络的权重,也就是说超网络只是权重生成器。

图a:正则化后的超网络生成目标网络权重参数;图b:迭代地使用较小的组块超网络产生目标网络权重。


然后利用带有超网络的连续学习输出正则化。在论文中,作者使用两步优化过程来引入记忆保持型超网络输出约束。首先,计算∆Θh(∆Θh的计算原则基于优化器的选择,本文中作者使用Adam),即找到能够最小化损失函数的参数。损失函数表达式如下图所示:







请到「今天看啥」查看全文