Por Eduardo Cesar Garrido Merchán
Profesor de Métodos Cuantitativos, Universidad Pontificia Comillas.
Pincha aquí para ver el vídeo sobre este post
En este artículo finalmente detallaremos una visión global del famoso modelo Transformer. Hemos desglosado sus componentes poco a poco y ahora podemos integrarlos para comprender cómo funcionan en conjunto. Sabemos que el Transformer es una red neuronal compuesta por capas y parámetros. Su entrada son puntos en un espacio semántico numérico codificados con Word embeddings. Además, tiene un modelo codificador de información que incluye capas completamente conectadas, capas de atención para relacionar dependencias semánticas y capas de normalización para asegurar un entrenamiento estable y robusto. ¡Vamos a ver todo esto de manera organizada!
Los transformadores fueron popularizados por el paper «Attention is All You Need» de 2017, marcando una auténtica revolución en el campo del procesamiento de lenguaje natural. Estos modelos fueron los primeros en usar el mecanismo de atención para representar las dependencias semánticas entre palabras de un texto. Antes de los transformadores, se usaban redes neuronales recurrentes o redes LSTM (Long Short-Term Memory) para modelar estas dependencias, pero su eficiencia práctica era inferior a la de los transformadores. Los transformadores tienen dos módulos diferenciados: un codificador (encoder) y un decodificador (decoder). También es posible tener solo uno de estos módulos, dependiendo del tipo de información multimedia que se procese. Por ejemplo, para tareas de texto a texto, se pueden usar modelos solo decodificadores como los Generative Pretrained Transformers (GPT) o solo codificadores como la familia de transformadores BERT de Google.
La arquitectura básica de los transformadores, que ha dado lugar a innumerables variantes especializadas en tareas concretas, incluye los siguientes componentes:
- Capas de Atención Especializada: Estas capas calculan las relaciones entre todas las palabras de un texto.
- Capas de Normalización: Estas capas estabilizan y robustecen el entrenamiento.
- Capas Completamente Conectadas: También conocidas como capas «position-wise», estas capas recombinan la información normalizada y procesada por las capas de atención.
Estos bloques se pueden organizar jerárquicamente para codificar patrones semánticos cada vez más complejos. Esta jerarquía refleja la naturaleza del lenguaje, que también es jerárquico. Así como descomponemos oraciones en sujeto y predicado, complementos directos, sintagmas preposicionales, etc., los transformadores recombinan la información de manera jerárquica para representar el lenguaje y las relaciones entre palabras de forma compacta y eficiente.
El transformador ilustrado es el modelo más básico, pero hoy en día existen muchas variantes que se especializan en tareas concretas o buscan mejorar su rendimiento mediante detalles ingenieriles. Estas variantes pueden considerarse como piezas de un puzzle, donde cada módulo habilita el uso del transformador para diferentes tipos de tareas. La selección de piezas específicas permite personalizar el modelo para aplicaciones particulares. Desde su introducción, hemos visto el nacimiento de muchos transformadores distintos. Modelos como GPT y BERT, que aparecieron en 2018 con cientos de millones de parámetros, han evolucionado hasta los actuales, como ChatGPT, con miles de millones de parámetros. Este desarrollo es solo el comienzo de una era de modelos cada vez más sofisticados.