Transformadores: Fundamentos teoricos y Aplicaciones
Jordi de la Torre
TL;DR
Este artículo ofrece una visión integral de los transformadores, desde su fundamento teórico basado en el mecanismo de auto-atención y la atención multi-cabeza, hasta su implementación en arquitecturas encoder-decoder y variantes como BERT, GPT y ViT. Describe cómo la eliminación de recurrencia y el uso de atención paralela permiten modelar dependencias de ensayo-largo y escalar el entrenamiento, abarcando aplicaciones en NLP, visión, audio y sistemas multimodales, así como modelos especializados como DETR, Pix2Seq y Mask2Former. A lo largo del texto se discuten notaciones, tratamiento de entradas, estrategias de normalización y la tangibilidad de la reutilización de representaciones a través de embeddings y preentrenamiento. En conjunto, la obra subraya el papel de los transformers como una arquitectura generalista de alto rendimiento que impulsa la investigación y la aplicación en múltiples dominios, con especial atención a las configuraciones multimodales y a las tareas de detección y segmentación. Su valor práctico reside en presentar fundamentos, variantes estructurales y ejemplos representativos que facilitan la adopción y la evaluación de transformers en problemas reales de ciencia de datos.
Abstract
Transformers are a neural network architecture originally developed for natural language processing, which have since become a foundational tool for solving a wide range of problems, including text, audio, image processing, reinforcement learning, and other tasks involving heterogeneous input data. Their hallmark is the self-attention mechanism, which allows the model to weigh different parts of the input sequence dynamically, and is an evolution of earlier attention-based approaches. This article provides readers with the necessary background to understand recent research on transformer models, and presents the mathematical and algorithmic foundations of their core components. It also explores the architecture's various elements, potential modifications, and some of the most relevant applications. The article is written in Spanish to help make this scientific knowledge more accessible to the Spanish-speaking community.
