Table of Contents
Fetching ...

Detección Automática de Patologías en Notas Clínicas en Español Combinando Modelos de Lenguaje y Ontologías Médicos

Léon-Paul Schaub Torre, Pelayo Quirós, Helena García Mieres

TL;DR

Este trabajo aborda la detección automática de patologías dermatológicas a partir de notas clínicas en español mediante un enfoque híbrido que integra un modelo de lenguaje biomédico en español con ontologías médicas. Propone un conjunto de datos anonimizados de EHR en dermatología y un sistema en cascada que primero aprende tipo, sitio y gravedad de la patología y luego predice la patología final. Los resultados muestran rendimiento de alto nivel, con una configuración OR que alcanza una precisión de $0.84$ y top-k de $0.92$, y muestran que las ontologías externas son esenciales para el rendimiento. Además, el conjunto de datos y el método se ponen a disposición de la comunidad, y se discuten futuras líneas como RAG y NegEx para ampliar la automatización y reducir falsos positivos.

Abstract

In this paper we present a hybrid method for the automatic detection of dermatological pathologies in medical reports. We use a large language model combined with medical ontologies to predict, given a first appointment or follow-up medical report, the pathology a person may suffer from. The results show that teaching the model to learn the type, severity and location on the body of a dermatological pathology as well as in which order it has to learn these three features significantly increases its accuracy. The article presents the demonstration of state-of-the-art results for classification of medical texts with a precision of 0.84, micro and macro F1-score of 0.82 and 0.75, and makes both the method and the dataset used available to the community. -- En este artículo presentamos un método híbrido para la detección automática de patologías dermatológicas en informes médicos. Usamos un modelo de lenguaje amplio en español combinado con ontologías médicas para predecir, dado un informe médico de primera cita o de seguimiento, la patología del paciente. Los resultados muestran que el tipo, la gravedad y el sitio en el cuerpo de una patología dermatológica, así como en qué orden tiene un modelo que aprender esas tres características, aumentan su precisión. El artículo presenta la demostración de resultados comparables al estado del arte de clasificación de textos médicos con una precisión de 0.84, micro y macro F1-score de 0.82 y 0.75, y deja a disposición de la comunidad tanto el método como el conjunto de datos utilizado.

Detección Automática de Patologías en Notas Clínicas en Español Combinando Modelos de Lenguaje y Ontologías Médicos

TL;DR

Este trabajo aborda la detección automática de patologías dermatológicas a partir de notas clínicas en español mediante un enfoque híbrido que integra un modelo de lenguaje biomédico en español con ontologías médicas. Propone un conjunto de datos anonimizados de EHR en dermatología y un sistema en cascada que primero aprende tipo, sitio y gravedad de la patología y luego predice la patología final. Los resultados muestran rendimiento de alto nivel, con una configuración OR que alcanza una precisión de y top-k de , y muestran que las ontologías externas son esenciales para el rendimiento. Además, el conjunto de datos y el método se ponen a disposición de la comunidad, y se discuten futuras líneas como RAG y NegEx para ampliar la automatización y reducir falsos positivos.

Abstract

In this paper we present a hybrid method for the automatic detection of dermatological pathologies in medical reports. We use a large language model combined with medical ontologies to predict, given a first appointment or follow-up medical report, the pathology a person may suffer from. The results show that teaching the model to learn the type, severity and location on the body of a dermatological pathology as well as in which order it has to learn these three features significantly increases its accuracy. The article presents the demonstration of state-of-the-art results for classification of medical texts with a precision of 0.84, micro and macro F1-score of 0.82 and 0.75, and makes both the method and the dataset used available to the community. -- En este artículo presentamos un método híbrido para la detección automática de patologías dermatológicas en informes médicos. Usamos un modelo de lenguaje amplio en español combinado con ontologías médicas para predecir, dado un informe médico de primera cita o de seguimiento, la patología del paciente. Los resultados muestran que el tipo, la gravedad y el sitio en el cuerpo de una patología dermatológica, así como en qué orden tiene un modelo que aprender esas tres características, aumentan su precisión. El artículo presenta la demostración de resultados comparables al estado del arte de clasificación de textos médicos con una precisión de 0.84, micro y macro F1-score de 0.82 y 0.75, y deja a disposición de la comunidad tanto el método como el conjunto de datos utilizado.
Paper Structure (26 sections, 2 equations, 6 figures, 8 tables, 2 algorithms)

This paper contains 26 sections, 2 equations, 6 figures, 8 tables, 2 algorithms.

Figures (6)

  • Figure 1: Ejemplo del conjunto de datos. A la izquierda, el informe de primera consulta o de seguimiento. A la derecha, la patología a predecir.
  • Figure 2: Representación gráfica de la partición generada para la validación de la anonimización realizada.
  • Figure 3: Arquitectura de nuestro método (en rojo las etapas solo de entrenamiento, en verde las de entrenamiento e inferencia).
  • Figure 4: Distribución de las enfermedades en el conjunto de datos generado.
  • Figure 5: Matriz de confusión para modelo A.
  • ...and 1 more figures