Table of Contents
Fetching ...

Comparative study of clustering models for multivariate time series from connected medical devices

Violaine Courrier, Christophe Biernacki, Cristian Preda, Benjamin Vittrant

TL;DR

Le travail compare deux approches de clustering pour des séries temporelles multivariées en santé: MagmaClust, clustering statique basé sur un mélange de processus gaussiens, et DGM², clustering dynamique avec transitions latentes modélisées par des RNN/LSTM. En utilisant des données Withings sur BMI et Sleep, l’étude évalue les performances prédictives via $RMSE$ et $MAE$ sur des jeux de données univariés et multivariés, montrant que DGM² peut surpasser MagmaClust sur des ensembles plus petits et gagner en efficacité avec l’augmentation de la taille des données, tandis que MagmaClust peut dominer dans certains scénarios univariés de grande taille. Le cadre multivarié démontre que DGM² peut capturer des corrélations entre variables et que l’approche multivariée est plus efficiente que la simple fusion de modèles univariés. Les résultats soulignent l’utilité du clustering dynamique pour le suivi patient et l’amélioration des prédictions cliniques, avec des perspectives pour affiner le choix du nombre de clusters et étendre l’approche à des corrélations plus riches entre dimensions.

Abstract

In healthcare, patient data is often collected as multivariate time series, providing a comprehensive view of a patient's health status over time. While this data can be sparse, connected devices may enhance its frequency. The goal is to create patient profiles from these time series. In the absence of labels, a predictive model can be used to predict future values while forming a latent cluster space, evaluated based on predictive performance. We compare two models on Withing's datasets, M AGMAC LUST which clusters entire time series and DGM${}^2$ which allows the group affiliation of an individual to change over time (dynamic clustering).

Comparative study of clustering models for multivariate time series from connected medical devices

TL;DR

Le travail compare deux approches de clustering pour des séries temporelles multivariées en santé: MagmaClust, clustering statique basé sur un mélange de processus gaussiens, et DGM², clustering dynamique avec transitions latentes modélisées par des RNN/LSTM. En utilisant des données Withings sur BMI et Sleep, l’étude évalue les performances prédictives via et sur des jeux de données univariés et multivariés, montrant que DGM² peut surpasser MagmaClust sur des ensembles plus petits et gagner en efficacité avec l’augmentation de la taille des données, tandis que MagmaClust peut dominer dans certains scénarios univariés de grande taille. Le cadre multivarié démontre que DGM² peut capturer des corrélations entre variables et que l’approche multivariée est plus efficiente que la simple fusion de modèles univariés. Les résultats soulignent l’utilité du clustering dynamique pour le suivi patient et l’amélioration des prédictions cliniques, avec des perspectives pour affiner le choix du nombre de clusters et étendre l’approche à des corrélations plus riches entre dimensions.

Abstract

In healthcare, patient data is often collected as multivariate time series, providing a comprehensive view of a patient's health status over time. While this data can be sparse, connected devices may enhance its frequency. The goal is to create patient profiles from these time series. In the absence of labels, a predictive model can be used to predict future values while forming a latent cluster space, evaluated based on predictive performance. We compare two models on Withing's datasets, M AGMAC LUST which clusters entire time series and DGM which allows the group affiliation of an individual to change over time (dynamic clustering).
Paper Structure (21 sections, 3 equations, 8 figures, 8 tables)

This paper contains 21 sections, 3 equations, 8 figures, 8 tables.

Figures (8)

  • Figure 1: Courbes de prédiction (violet) avec les intervalles de crédibilité à 95 % associés (rose) de MagmaClust. Les lignes en pointillé représentent les moyennes des estimations des processus moyens. Les points de données observés sont en noir, les points de données de test sont en rouge. Les points en arrière plans sont les observations de l'ensemble des données d'apprentissage, colorées par rapport à leur appartenance à un cluster. "Input" correspond aux pas de temps et "Output" à la valeur de la variable.
  • Figure 2: Illustration de clustering dynamique des MTS éparses de deux patients dialysés. Le vecteur sous chaque état est une caractéristique temporelle générée à partir d'une certaine distribution.
  • Figure 3: Histogramme des âges des individus du petit dataset.
  • Figure 4: Histogramme des valeurs de BMI des individus du petit dataset.
  • Figure 5: Histogramme des âges des individus du grand dataset.
  • ...and 3 more figures