Transformers: la arquitectura que lo cambió todo
En el artículo anterior terminé diciendo que los LLMs son, por dentro, redes neuronales con una arquitectura especial llamada Transformer. Hoy toca abrir ese regalo. Porque si los LLMs son la estrella de la película, los Transformers son el guion que la hace posible.
Y su historia es tan dramática que merece ser contada como tal. Vamos.
La era antes de 2017: los Transformers no existían
Antes de los Transformers, las redes neuronales que trabajaban con texto se llamaban RNNs (Recurrent Neural Networks) y luego LSTMs (Long Short-Term Memory). Sin entrar en detalles técnicos, funcionaban así:
Imagina que lees una frase una palabra tras otra, y mientras lees vas llevando en la cabeza un "resumen" de lo que has leído hasta ahora. Cuando llega la siguiente palabra, la procesas teniendo en cuenta ese resumen, actualizas el resumen, y así hasta el final.
Suena razonable, y funcionaba. Pero tenía dos problemas serios:
Memoria corta. Cuando la frase era muy larga, el "resumen" se iba desdibujando. Al llegar a la palabra 50, el modelo apenas recordaba la palabra 5. Imagínate intentar entender el final de una novela habiendo olvidado el principio.
No se podía paralelizar. Como cada palabra depende del resumen que dejó la anterior, hay que procesarlas una tras otra, en orden. No puedes pedirle a tu ordenador que procese las palabras 1 y 50 a la vez: primero la 1, luego la 2, luego la 3… Esto hacía el entrenamiento lentísimo, y no aprovechaba el hardware moderno (GPUs, que brillan cuando trabajan en paralelo).
Durante años, los investigadores intentaron parchear estos problemas. Pero parecía haber un techo. Nadie estaba produciendo los saltos espectaculares que veríamos después.
2017: el paper más arrogante de la historia
En junio de 2017, un equipo de Google Brain publica un paper con un título provocador: "Attention Is All You Need" ("La atención es todo lo que necesitas"). Ocho autores, Vaswani et al. Propusieron una arquitectura nueva que llamaron Transformer y que tenía una idea fundacional, a la vez sencilla y subversiva:
Vamos a tirar a la basura el procesamiento secuencial. En vez de leer palabra a palabra, el modelo va a mirar toda la frase de golpe, y cada palabra va a "atender" directamente a las que considere relevantes, sin importar si están al principio o al final.
La palabra clave aquí es atención. Es el mecanismo estrella, tan importante que tiene su propio artículo en esta serie (el siguiente, el último). Por ahora, quédate con la intuición: atención es la capacidad de una palabra de mirar a otras palabras de la frase y ponderar cuáles son importantes para entenderla.
En la frase "el banco del parque estaba roto", la palabra "banco" mira a "parque" y a "roto", entiende que hablamos de un asiento y no de una entidad financiera. Y lo hace directamente, sin tener que ir arrastrando un resumen desde el principio.
Por qué esto lo cambió todo
Al eliminar el procesamiento secuencial, los Transformers resolvieron los dos problemas de las RNNs de golpe:
1. Memoria ilimitada dentro de la ventana. Cada palabra puede mirar a cualquier otra, sin perder señal en el camino. Si estás en la palabra 500 y necesitas información de la palabra 3, la miras directamente, sin intermediarios. El "resumen que se desdibuja" desaparece.
2. Entrenamiento paralelo. Como ya no dependes de procesar la palabra anterior antes que la siguiente, puedes darle toda la frase al modelo a la vez y procesar millones de palabras en paralelo. Las GPUs, por fin, podían brillar. El entrenamiento se aceleró por órdenes de magnitud.
Esta segunda consecuencia, la de la paralelización, es la que a menudo se pasa por alto pero es crucial. Sin ella, modelos como GPT-4 serían físicamente imposibles de entrenar en plazos razonables. El Transformer no sólo es una mejor arquitectura; es una arquitectura que escala. Y en IA, escalar es todo.
La cocina con supervisores
Vuelvo a la metáfora de la cocina que hemos usado toda la serie. Antes, los catadores de una fila sólo podían hablar con el catador de su derecha, pasarle una nota, y así transmitir información mesa tras mesa. Cada catador dependía del murmullo de sus vecinos. Lentísimo y poco fiable.
En una cocina con Transformer, pasa algo diferente. Cada catador tiene una vista completa de la cocina. Puede mirar a todos los demás al mismo tiempo y decidir: "para entender mi plato, voy a prestarle atención al catador número 7, al 23 y al 91. Los demás no me interesan ahora mismo". Y esa atención la reconfigura en cada paso, según lo que esté cocinando.
Ese es el superpoder de los Transformers: atención flexible y global. Cada palabra elige, en cada momento, qué otras palabras necesita mirar.
Los ingredientes de un Transformer
Un Transformer tiene varios componentes que trabajan juntos. No voy a entrar en detalles matemáticos, pero sí a nombrarlos para que cuando los veas en un diagrama técnico sepas qué significa cada uno:
Embeddings. Como las redes neuronales trabajan con números, la primera cosa que se hace es convertir cada token (cada trocito de palabra) en un vector de números que lo represente. Estos vectores no son aleatorios: se aprenden durante el entrenamiento, y acaban capturando el significado. Palabras parecidas ("rey" y "reina") acaban teniendo vectores parecidos.
Posicional encoding. Como el Transformer ya no procesa las palabras en orden, hay que decirle de alguna manera en qué posición estaba cada una. Si no, "el perro muerde al hombre" y "el hombre muerde al perro" serían indistinguibles. Este módulo añade información sobre la posición de cada palabra.
Attention. El corazón. Mecanismo por el que cada palabra decide a qué otras mirar y con qué intensidad. Vamos en detalle en el siguiente artículo.
Feed-forward. Después de la atención, cada palabra pasa por una pequeña red neuronal clásica que refina su representación. Es una mini-cocina por palabra, digámoslo así.
Bloques apilados. Todo lo anterior forma un "bloque" de Transformer. Ahora apílalo. 12 bloques (GPT-2), 96 bloques (GPT-3), más de 120 bloques (modelos actuales). Cada bloque refina un poco más la comprensión que tiene el modelo.
Capa de salida. Al final de todos los bloques, una última capa convierte los números internos en probabilidades de la siguiente palabra. Y ya tenemos el autocompletado del que hablábamos en el artículo de LLMs.
Dos familias: encoders y decoders
Los Transformers originales tenían dos partes: un encoder (que lee y comprende) y un decoder (que genera). Como en la traducción automática: el encoder lee la frase en inglés y la comprende, el decoder escribe la versión en español.
Con el tiempo, la gente descubrió que para ciertas tareas basta con una de las dos partes:
Sólo encoder: modelos como BERT (Google, 2018), diseñados para entender texto. Se usan en clasificadores, buscadores, análisis de sentimientos.
Sólo decoder: modelos como GPT (OpenAI, 2018 en adelante), diseñados para generar texto. Son los que conocemos como ChatGPT, Claude, etc.
Encoder + decoder: modelos como T5 o los de traducción, con las dos partes.
La gran mayoría de los LLMs famosos de 2024-2026 son modelos sólo-decoder. Es la familia dominante hoy.
Por qué los Transformers son hoy la respuesta a casi todo
Los Transformers empezaron con texto, pero al ser tan versátiles, invadieron todo lo demás:
Imágenes. Los Vision Transformers (ViT) trocean una imagen en parches (como palabras) y aplican atención. Hoy dominan la visión por ordenador.
Audio y música. Whisper, el transcriptor de OpenAI, es un Transformer. Los generadores de música como Suno o Udio también.
Vídeo. Sora, Veo y similares generan vídeo con variantes de Transformer.
Biología. AlphaFold, que predice la estructura de las proteínas (y valió el Nobel de Química 2024 a parte de sus creadores), es esencialmente un Transformer adaptado.
Código, robótica, juegos, predicción del tiempo…
La frase que circula entre investigadores es: "si tienes secuencias, probablemente un Transformer funcione". Y es verdad.
El detalle agridulce: por qué no son perfectos
Los Transformers tienen un talón de Aquiles: la atención es caótica de calcular. En concreto, su coste crece con el cuadrado de la longitud de la frase. Duplicar la longitud no multiplica el cómputo por dos, sino por cuatro. Por eso las "ventanas de contexto" (cuántas palabras puede ver un modelo a la vez) son una batalla constante: pasar de 4.000 a 100.000 tokens no es trivial.
Hay una industria entera hoy dedicada a hacer Transformers más eficientes: flash attention, sparse attention, modelos basados en state-space models (como Mamba)… pero el Transformer clásico sigue siendo, en 2026, la arquitectura reina.
La frase para llevarte a casa
Un Transformer es una red neuronal que mira todo el texto a la vez y deja que cada palabra atienda directamente a las que le interesan. Esa idea, aparentemente pequeña, es lo que hizo posible la era de la IA generativa.
Attention: el arte de saber qué mirar
La joya de la corona. "Atención" es el mecanismo que le permite a un modelo entender que en la frase "el banco del parque estaba roto" la pa...
LLMs: la biblioteca que aprendió a hablar
ChatGPT, Claude, Gemini… ¿qué son realmente? Spoiler: no son oráculos ni cerebros, son una especie de bibliotecario estadístico que ha leído...
Backpropagation: cómo aprende una red de sus errores
Una red neuronal recién nacida es una cocina caótica. ¿Cómo pasa de ensalada con piedras a menú estrella Michelin? Con un truco matemático p...
Comentarios (0)
Sé el primero en comentar.
Deja un comentario