正文
时间序列预测是决策制定和风险管理等下游任务的基石。例如,可靠地预测微服务的在线流量可以为云系统中的潜在风险提供早期预警。此外,它还为动态资源分配提供指导,以在不降低性能的情况下最小化成本。除了在线流量,时间序列预测还在疾病传播、能源管理和经济金融等领域得到了广泛应用。
时间序列预测的主要挑战在于构建一个强大但简洁的模型,能够紧凑地捕捉不同范围的时序依赖性。时间序列通常表现出短期和长期的重复模式,将这些模式纳入考虑是实现准确预测的关键。特别值得注意的是处理长程依赖性这一更具挑战性的任务,其特征是时间序列中任意两个位置之间最长信号穿越路径的长度。路径越短,依赖性捕捉得越好。此外,为了使模型能够学习这些长期模式,输入模型的历史数据也应该是长的。因此,低时间和空间复杂度是优先考虑的。
不幸的是,现有的最先进方法未能同时实现这两个目标。一方面,RNN和CNN实现了与时间序列长度L线性的时间复杂度,但它们的最长信号穿越路径为O(L),因此难以学习远距离位置之间的依赖性。另一方面,Transformer显著将最长路径缩短为O(1),但代价是时间复杂度增加到O(L²)。因此,它无法处理非常长的序列。为了在模型容量和复杂度之间找到折衷,提出了Transformer的变体,例如Longformer、Reformer和Informer。然而,很少有方法能够在显著降低时间和空间复杂度的同时,将最长路径长度缩短到小于O(L)。
在本文中,我们提出了一种新颖的基于金字塔注意力的Transformer(Pyraformer),以弥合捕捉长程依赖性和实现低时间和空间复杂度之间的差距。具体而言,我们通过在金字塔图中基于注意力传递消息来开发金字塔注意力机制,如图1(d)所示。该图中的边可以分为两组:
跨尺度连接和同尺度连接
。
跨尺度连接构建了原始序列的多分辨率表示:最细尺度的节点对应于原始时间序列中的时间点(例如,小时观测),而较粗尺度的节点表示较低分辨率的特征(例如,日、周和月模式)。这些较粗尺度的节点最初通过粗尺度构建模块引入。另一方面,同尺度边通过连接邻近节点来捕捉每个分辨率上的时序依赖性。因此,该模型通过在较粗分辨率上捕捉这种行为,为远距离位置之间的长程时序依赖性提供了一种紧凑的表示,从而导致信号穿越路径的长度更短。此外,在不同尺度上用稀疏的邻域同尺度连接建模不同范围的时序依赖性显著降低了计算成本。简而言之,我们的主要贡献包括:
我们提出Pyraformer,以紧凑的多分辨率方式同时捕捉不同范围的时序依赖性。为了将Pyraformer与最先进的方法区分开来,我们在图1中从图的角度总结了所有模型。