Comparative study of clustering models for multivariate time series from connected medical devices

Violaine Courrier; Christophe Biernacki; Cristian Preda; Benjamin Vittrant

Comparative study of clustering models for multivariate time series from connected medical devices

Violaine Courrier, Christophe Biernacki, Cristian Preda, Benjamin Vittrant

TL;DR

Le travail compare deux approches de clustering pour des séries temporelles multivariées en santé: MagmaClust, clustering statique basé sur un mélange de processus gaussiens, et DGM², clustering dynamique avec transitions latentes modélisées par des RNN/LSTM. En utilisant des données Withings sur BMI et Sleep, l’étude évalue les performances prédictives via $RMSE$ et $MAE$ sur des jeux de données univariés et multivariés, montrant que DGM² peut surpasser MagmaClust sur des ensembles plus petits et gagner en efficacité avec l’augmentation de la taille des données, tandis que MagmaClust peut dominer dans certains scénarios univariés de grande taille. Le cadre multivarié démontre que DGM² peut capturer des corrélations entre variables et que l’approche multivariée est plus efficiente que la simple fusion de modèles univariés. Les résultats soulignent l’utilité du clustering dynamique pour le suivi patient et l’amélioration des prédictions cliniques, avec des perspectives pour affiner le choix du nombre de clusters et étendre l’approche à des corrélations plus riches entre dimensions.

Abstract

In healthcare, patient data is often collected as multivariate time series, providing a comprehensive view of a patient's health status over time. While this data can be sparse, connected devices may enhance its frequency. The goal is to create patient profiles from these time series. In the absence of labels, a predictive model can be used to predict future values while forming a latent cluster space, evaluated based on predictive performance. We compare two models on Withing's datasets, M AGMAC LUST which clusters entire time series and DGM${}^2$ which allows the group affiliation of an individual to change over time (dynamic clustering).

Comparative study of clustering models for multivariate time series from connected medical devices

TL;DR

sur des jeux de données univariés et multivariés, montrant que DGM² peut surpasser MagmaClust sur des ensembles plus petits et gagner en efficacité avec l’augmentation de la taille des données, tandis que MagmaClust peut dominer dans certains scénarios univariés de grande taille. Le cadre multivarié démontre que DGM² peut capturer des corrélations entre variables et que l’approche multivariée est plus efficiente que la simple fusion de modèles univariés. Les résultats soulignent l’utilité du clustering dynamique pour le suivi patient et l’amélioration des prédictions cliniques, avec des perspectives pour affiner le choix du nombre de clusters et étendre l’approche à des corrélations plus riches entre dimensions.

Abstract

which allows the group affiliation of an individual to change over time (dynamic clustering).

Paper Structure (21 sections, 3 equations, 8 figures, 8 tables)

This paper contains 21 sections, 3 equations, 8 figures, 8 tables.

Introduction
Clustering de séries temporelles multivariées
Etat de l'art
Comparaison DGM2 et MagmaClust
Clustering statique de séries entières
Clustering dynamique
Comparaison des méthodes sur des données réelles
Protocole experimental
Présentation des données
Méthodologie experimentale
Analyse des séries univariées
Petit dataset
Grand dataset
Analyse étendue au cadre multivarié
Conclusion
...and 6 more sections

Figures (8)

Figure 1: Courbes de prédiction (violet) avec les intervalles de crédibilité à 95 % associés (rose) de MagmaClust. Les lignes en pointillé représentent les moyennes des estimations des processus moyens. Les points de données observés sont en noir, les points de données de test sont en rouge. Les points en arrière plans sont les observations de l'ensemble des données d'apprentissage, colorées par rapport à leur appartenance à un cluster. "Input" correspond aux pas de temps et "Output" à la valeur de la variable.
Figure 2: Illustration de clustering dynamique des MTS éparses de deux patients dialysés. Le vecteur sous chaque état est une caractéristique temporelle générée à partir d'une certaine distribution.
Figure 3: Histogramme des âges des individus du petit dataset.
Figure 4: Histogramme des valeurs de BMI des individus du petit dataset.
Figure 5: Histogramme des âges des individus du grand dataset.
...and 3 more figures

Comparative study of clustering models for multivariate time series from connected medical devices

TL;DR

Abstract

Comparative study of clustering models for multivariate time series from connected medical devices

Authors

TL;DR

Abstract

Table of Contents

Figures (8)