Table of Contents
Fetching ...

Transformadores: Fundamentos teoricos y Aplicaciones

Jordi de la Torre

TL;DR

Este artículo ofrece una visión integral de los transformadores, desde su fundamento teórico basado en el mecanismo de auto-atención y la atención multi-cabeza, hasta su implementación en arquitecturas encoder-decoder y variantes como BERT, GPT y ViT. Describe cómo la eliminación de recurrencia y el uso de atención paralela permiten modelar dependencias de ensayo-largo y escalar el entrenamiento, abarcando aplicaciones en NLP, visión, audio y sistemas multimodales, así como modelos especializados como DETR, Pix2Seq y Mask2Former. A lo largo del texto se discuten notaciones, tratamiento de entradas, estrategias de normalización y la tangibilidad de la reutilización de representaciones a través de embeddings y preentrenamiento. En conjunto, la obra subraya el papel de los transformers como una arquitectura generalista de alto rendimiento que impulsa la investigación y la aplicación en múltiples dominios, con especial atención a las configuraciones multimodales y a las tareas de detección y segmentación. Su valor práctico reside en presentar fundamentos, variantes estructurales y ejemplos representativos que facilitan la adopción y la evaluación de transformers en problemas reales de ciencia de datos.

Abstract

Transformers are a neural network architecture originally developed for natural language processing, which have since become a foundational tool for solving a wide range of problems, including text, audio, image processing, reinforcement learning, and other tasks involving heterogeneous input data. Their hallmark is the self-attention mechanism, which allows the model to weigh different parts of the input sequence dynamically, and is an evolution of earlier attention-based approaches. This article provides readers with the necessary background to understand recent research on transformer models, and presents the mathematical and algorithmic foundations of their core components. It also explores the architecture's various elements, potential modifications, and some of the most relevant applications. The article is written in Spanish to help make this scientific knowledge more accessible to the Spanish-speaking community.

Transformadores: Fundamentos teoricos y Aplicaciones

TL;DR

Este artículo ofrece una visión integral de los transformadores, desde su fundamento teórico basado en el mecanismo de auto-atención y la atención multi-cabeza, hasta su implementación en arquitecturas encoder-decoder y variantes como BERT, GPT y ViT. Describe cómo la eliminación de recurrencia y el uso de atención paralela permiten modelar dependencias de ensayo-largo y escalar el entrenamiento, abarcando aplicaciones en NLP, visión, audio y sistemas multimodales, así como modelos especializados como DETR, Pix2Seq y Mask2Former. A lo largo del texto se discuten notaciones, tratamiento de entradas, estrategias de normalización y la tangibilidad de la reutilización de representaciones a través de embeddings y preentrenamiento. En conjunto, la obra subraya el papel de los transformers como una arquitectura generalista de alto rendimiento que impulsa la investigación y la aplicación en múltiples dominios, con especial atención a las configuraciones multimodales y a las tareas de detección y segmentación. Su valor práctico reside en presentar fundamentos, variantes estructurales y ejemplos representativos que facilitan la adopción y la evaluación de transformers en problemas reales de ciencia de datos.

Abstract

Transformers are a neural network architecture originally developed for natural language processing, which have since become a foundational tool for solving a wide range of problems, including text, audio, image processing, reinforcement learning, and other tasks involving heterogeneous input data. Their hallmark is the self-attention mechanism, which allows the model to weigh different parts of the input sequence dynamically, and is an evolution of earlier attention-based approaches. This article provides readers with the necessary background to understand recent research on transformer models, and presents the mathematical and algorithmic foundations of their core components. It also explores the architecture's various elements, potential modifications, and some of the most relevant applications. The article is written in Spanish to help make this scientific knowledge more accessible to the Spanish-speaking community.
Paper Structure (37 sections, 12 equations, 24 figures, 4 tables, 15 algorithms)

This paper contains 37 sections, 12 equations, 24 figures, 4 tables, 15 algorithms.

Figures (24)

  • Figure 1: Diagrama básico representativo de una red recurrente con celdas LSTM
  • Figure 2: Diagrama de bloques representativo de las operaciones matriciales involucradas en los cálculos de la atención
  • Figure 3: Arquitectura del transformador introducida en "Attention is all you need" vaswani2017attention
  • Figure 4: Esquema típico de las operaciones necesarias para convertir una entrada de texto a formato necesario para ser tratado por el transformador
  • Figure 5: Esquema típico de los elementos integrantes de un codificador. La red de codificación integra varios de estos elementos en serie. La salida de uno sirve de entrada para el siguiente
  • ...and 19 more figures