专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
CDA数据分析师  ·  【干货】如何用 AI 从0到1 ... ·  昨天  
InfoTech  ·  再见了!DeepSeek ·  3 天前  
人工智能与大数据技术  ·  天塌了,Claude全面断供Windsurf ... ·  2 天前  
大数据文摘  ·  刚刚!OpenAI 上线 ... ·  3 天前  
51好读  ›  专栏  ›  数据派THU

时序大模型参数减少预测更好?上海交大、阿里推出时序基模后训练新范式

数据派THU  · 公众号  · 大数据  · 2025-06-13 17:00

正文

请到「今天看啥」查看全文



实验发现

研究者以 Weather 和 ETTm1 数据集为例,对 TTM-A、Time-MoE、Moirai、Chronos-bolt-base、TimesFM 等最新的时序基模进行实验分析,得到了三点重要观察。


01 观察一:现有时序基模难以稳定优于传统基线

图片

图1 与全样本训练的PatchTST(红线)相比,时序基模预测96、192、336、720步的平均相对Test MSE(%)


如图1所示,Chronos等流行的时序基模参数规模虽大,但零样本预测误差(Pretrained)经常高于从头训练的PatchTST,不能彻底克服预训练数据和下游数据之间的数据分布差异。即便经过微调提升表现,时序基模全样本性能(Fine-tuned)仍然无法取得显著优势。


这并不否认预训练的价值(毕竟零样本场景表现不错),只是说明缺少更好的手段有效利用预训练好的时序基模。为了有效适配下游任务,首先需要解答的是:预训练提供了什么值得保留的先验知识?为此,研究者在下文中进一步分析了时序基模的内在机制。


02 观察二:时序基模的计算存在稀疏性

对于基于Transformer的时序基模,研究者统计了每个attention head在整个下游数据集上的平均相对输出模长,定义为 其中







请到「今天看啥」查看全文