专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
目录
相关文章推荐
新浪科技  ·  【#西藏全区累计建成开通5G基站1.95万个 ... ·  2 天前  
51好读  ›  专栏  ›  DeepTech深科技

研究人员打造“图表征状态空间”RNN,显著提升模型时空学习性能

DeepTech深科技  · 公众号  · 科技媒体  · 2025-04-01 20:44

正文

请到「今天看啥」查看全文



换言之,FACTS 可以看作一个“图表征状态空间”的结构化状态空间模型,或一个“图表征状态空间”的 RNN。这种设计不仅显著提升了时空学习性能,还引入了处理图输入及建模因果关系(因果图)的能力。为了保留 Mamba 的并行计算特性,研究人员还提出了一种线性化的图状态机制。


(来源: arXiv


对于相关论文审稿人表示:“本次论文提出了一种引入可置换内存结构的架构,能够灵活处理无序或动态变化的输入,同时通过高效压缩历史记录捕获长期依赖,从而在基线模型上实现了性能提升。这种架构采用内存输入路由机制,动态分配输入特征至潜在状态空间因子,解决了输入特征方差和动态关系建模的关键挑战。其设计既简单又高效,能够稳健处理输入顺序变化,同时简化高维数据的处理,并增强时空依赖的捕获能力,适用于实际应用场景。”


还有审稿人表示:“本次论文在多变量时间序列预测、时空图预测,以及以对象为中心的世界建模等任务中进行了广泛实验,结果表明 FACTS 在多项指标上始终优于或匹配当前最先进的模型。实验不仅验证了该方法在捕捉复杂时空动态方面的稳健性,还展示了其在不同数据集上的多功能性,进一步证明了其在现实世界中的应用潜力。”


作为一个通用时空模型的架构,除了传统时序预测应用领域,如金融、能源、交通、医疗等领域外,在多媒体领域,如视频,动画生成应该也有着很好的前景。FACTS 作为世界模型架构,李南伯也很期待看到其在其他学科研究中的应用,如物理、化学、生物以及相关社会科学。


正如之前提到的,李南伯对世界模型有着深深的执着,而 FACTS 是他在这一领域探索中的一项重要工作。李南伯在时空建模方面的思考,深受其导师“递归神经网络之父”、阿卜杜拉国王科技大学尤尔根·施密德胡伯( Jürgen Schmidhuber )教授提出的两个关键原则的影响:历史压缩(history compression)和可预测性最小化(predictability minimisation)。


基于这两条原则,李南伯对比了 LSTM、Transformers 和 Mamba 的优劣,并从中获得了 FACTS 的灵感。这个阶段的关键在于理论上的启发和明确方向。


2024 年 5 月,李南伯首次通过实验观察到重构“状态空间”后的“beta 版本”FACTS 在时间序列预测任务上的优越表现。不仅能够与当时最强基准模型匹敌,甚至在部分实验中有所超越。这一结果极大地增强了李南伯的信心,让他确信自己的思路是正确的,剩下的工作就是将想法付诸实践并优化模型。


模型迭代阶段是一个不断反思和完善的过程。从理论模型到实验实现,李南伯反复修改了大约 8 个版本的理论模型,实验实现更是多次推翻重来。汗水和咖啡因成为这段时间的主旋律,但因为方向明确,这段经历更多是令人愉快的挑战。这一阶段最大的难点在于设计可并行的内存更新机制。尽管 2024 年 5 月末的 beta 模型已经在时间序列预测上表现出很高的精度,但他希望在计算效率上不做过多妥协,时间复杂度至少要与 Mamba 同量级。这一目标推动他和所在团队最终开发出现有的可线性化的 FACTS,在性能与效率之间取得了平衡。


在这项研究的期间,李南伯收获了爱情与友情。虽然这看似与研究本身并没有直接的因果关系。但考虑到李南伯于 2024 年 3 月才刚刚加入







请到「今天看啥」查看全文