Table of Contents
Fetching ...

Modèles de Fondation et Ajustement : Vers une Nouvelle Génération de Modèles pour la Prévision des Séries Temporelles

Morad Laglil, Emilie Devijver, Eric Gaussier, Bertrand Pracca

TL;DR

Ce travail fait le point sur les fondation models pour la prévision des séries temporelles, en examinant architectures (Transformers et RNN), pré-entraînement auto-supervisé et stratégies d’ajustement fin. Il présente une étude expérimentale à grande échelle montrant que le fine-tuning améliore notablement les performances zéro-shot, surtout pour les horizons longs et les jeux de données de taille moyenne à petite. En s’appuyant sur le benchmark GIFTEval et sur des métriques probabilistes comme MWQL, l’article démontre des gains robustes mais variables selon le domaine et le type de prévision (probabiliste vs ponctuelle). Ces résultats suggèrent que les modèles de fondation peuvent offrir une généralisation accrue pour la prévision des séries temporelles tout en nécessitant une attention particulière à l’adaptation et à l’hyperparamétrie pour éviter le surapprentissage dans certains contextes.

Abstract

Inspired by recent advances in large language models, foundation models have been developed for zero-shot time series forecasting, enabling prediction on datasets unseen during pretraining. These large-scale models, trained on vast collections of time series, learn generalizable representations for both point and probabilistic forecasting, reducing the need for task-specific architectures and manual tuning. In this work, we review the main architectures, pretraining strategies, and optimization methods used in such models, and study the effect of fine-tuning after pretraining to enhance their performance on specific datasets. Our empirical results show that fine-tuning generally improves zero-shot forecasting capabilities, especially for long-term horizons.

Modèles de Fondation et Ajustement : Vers une Nouvelle Génération de Modèles pour la Prévision des Séries Temporelles

TL;DR

Ce travail fait le point sur les fondation models pour la prévision des séries temporelles, en examinant architectures (Transformers et RNN), pré-entraînement auto-supervisé et stratégies d’ajustement fin. Il présente une étude expérimentale à grande échelle montrant que le fine-tuning améliore notablement les performances zéro-shot, surtout pour les horizons longs et les jeux de données de taille moyenne à petite. En s’appuyant sur le benchmark GIFTEval et sur des métriques probabilistes comme MWQL, l’article démontre des gains robustes mais variables selon le domaine et le type de prévision (probabiliste vs ponctuelle). Ces résultats suggèrent que les modèles de fondation peuvent offrir une généralisation accrue pour la prévision des séries temporelles tout en nécessitant une attention particulière à l’adaptation et à l’hyperparamétrie pour éviter le surapprentissage dans certains contextes.

Abstract

Inspired by recent advances in large language models, foundation models have been developed for zero-shot time series forecasting, enabling prediction on datasets unseen during pretraining. These large-scale models, trained on vast collections of time series, learn generalizable representations for both point and probabilistic forecasting, reducing the need for task-specific architectures and manual tuning. In this work, we review the main architectures, pretraining strategies, and optimization methods used in such models, and study the effect of fine-tuning after pretraining to enhance their performance on specific datasets. Our empirical results show that fine-tuning generally improves zero-shot forecasting capabilities, especially for long-term horizons.

Paper Structure

This paper contains 22 sections, 8 equations, 2 figures, 5 tables.

Figures (2)

  • Figure 1: Illustration des styles d’architectures : (a) encodeur uniquement avec masquage et (b) décodeur uniquement, avec structure autorégressive. En bleu : la série temporelle d’entrée et ses segments, en rouge : les couches neuronales, et en vert : les représentations latentes des segments. MLP désigne les couches neuronales linéaires utilisées pour générer la prévision à partir des représentations latentes.
  • Figure 2: Cartes thermiques représentant les valeurs moyennes de trois caractéristiques de séries temporelles selon les différents domaines du jeu de données.