Comparative study of clustering models for multivariate time series from connected medical devices
Violaine Courrier, Christophe Biernacki, Cristian Preda, Benjamin Vittrant
TL;DR
Le travail compare deux approches de clustering pour des séries temporelles multivariées en santé: MagmaClust, clustering statique basé sur un mélange de processus gaussiens, et DGM², clustering dynamique avec transitions latentes modélisées par des RNN/LSTM. En utilisant des données Withings sur BMI et Sleep, l’étude évalue les performances prédictives via $RMSE$ et $MAE$ sur des jeux de données univariés et multivariés, montrant que DGM² peut surpasser MagmaClust sur des ensembles plus petits et gagner en efficacité avec l’augmentation de la taille des données, tandis que MagmaClust peut dominer dans certains scénarios univariés de grande taille. Le cadre multivarié démontre que DGM² peut capturer des corrélations entre variables et que l’approche multivariée est plus efficiente que la simple fusion de modèles univariés. Les résultats soulignent l’utilité du clustering dynamique pour le suivi patient et l’amélioration des prédictions cliniques, avec des perspectives pour affiner le choix du nombre de clusters et étendre l’approche à des corrélations plus riches entre dimensions.
Abstract
In healthcare, patient data is often collected as multivariate time series, providing a comprehensive view of a patient's health status over time. While this data can be sparse, connected devices may enhance its frequency. The goal is to create patient profiles from these time series. In the absence of labels, a predictive model can be used to predict future values while forming a latent cluster space, evaluated based on predictive performance. We compare two models on Withing's datasets, M AGMAC LUST which clusters entire time series and DGM${}^2$ which allows the group affiliation of an individual to change over time (dynamic clustering).
