Attention: el arte de saber qué mirar
Hemos llegado al último artículo de la serie. Y toca hablar de la joya de la corona: el mecanismo de atención, attention, el que pone el apellido al famoso paper de 2017 y el que hace que todo lo demás funcione.
Si has llegado hasta aquí, ya tienes los ladrillos. Red neuronal: cocina de catadores. Regresión lineal: el abuelo de cada catador. Backpropagation: cómo aprenden a corregirse. LLMs: bibliotecas que adivinan palabras. Transformers: la arquitectura que deja a cada palabra hablar con todas las demás a la vez.
Hoy toca el "cómo" de ese hablar. Cómo una palabra decide, matemáticamente, a qué otras prestarle atención y con qué intensidad. Y vamos a hacerlo sin una sola fórmula. Lo prometo.
El problema: la palabra "banco"
Ya usé este ejemplo, pero lo rescato porque es el ejemplo perfecto:
"El banco del parque estaba roto."
La palabra banco tiene varios significados. Puede ser un asiento, una entidad financiera, un grupo de peces, una acumulación de arena. Si no contextualizas, no sabes cuál es.
Pero como lector humano, tú lo has entendido instantáneamente. ¿Cómo? Porque has mirado las palabras de alrededor. "Parque" te ha dicho "esto es un asiento". "Roto" te ha confirmado "es un objeto físico". Has hecho, sin pensarlo, un proceso de atender a las palabras relevantes del contexto.
Eso es literalmente lo que queremos que haga la máquina. Y el mecanismo de atención es la receta matemática para hacerlo.
Los tres sombreros: query, key y value
Para explicar el mecanismo, los investigadores usan tres palabrejas técnicas: query, key y value (consulta, clave y valor). Suena a base de datos, y no es casualidad: la intuición es parecida.
Te lo voy a contar con una analogía bibliotecaria. Imagínate que entras a la biblioteca del barrio con una pregunta: "necesito entender la palabra banco en la frase que estoy leyendo".
En esta biblioteca hay muchos libros (el resto de las palabras de la frase). Cada libro tiene:
Un título visible en el lomo (eso es la key, la clave).
Un contenido dentro (eso es el value, el valor).
Y tú entras con:
Una pregunta en la mano (eso es la query, la consulta).
¿Qué haces?
Recorres los lomos de los libros y comparas tu pregunta con cada título. Los títulos que más se parezcan a tu pregunta son los libros más relevantes. Al título "cosas del parque" le pones un 10. Al título "tipos de bosque" le pones un 2.
Con esas puntuaciones, decides cuánto vas a leer de cada libro. Del libro con puntuación 10, lees un montón. Del de puntuación 2, apenas un vistazo.
Mezclas todos los contenidos, en la proporción que has decidido, y eso es lo que te llevas para entender la palabra "banco".
Eso, punto por punto, es el mecanismo de atención.
Traducido a la red neuronal
Ahora, lo mismo pero dentro del Transformer:
Cada palabra de la frase lleva consigo tres vectores de números (acuérdate: a los embeddings les aplican unas transformaciones y salen tres versiones).
La versión query es con la que esa palabra va a preguntar al resto.
La versión key es la que cada otra palabra muestra como identificación o "título".
La versión value es la que contiene la información útil que aporta esa otra palabra.
Para calcular la atención que "banco" presta a cada palabra de la frase:
Coges la query de "banco" y la comparas con la key de cada otra palabra (incluida ella misma). La comparación da un número: cuánto se parecen. Ese es el score de atención bruto.
Normalizas esos scores (con una función llamada softmax, que esencialmente los convierte en porcentajes que suman 100%). Ahora tienes, literalmente, cuánto porcentaje de atención le da "banco" a cada palabra.
Coges las values de todas las palabras y las mezclas en esa proporción. El resultado es el "nuevo banco", una versión de banco enriquecida con la información contextual relevante.
Y eso se hace para cada palabra de la frase, todas a la vez. Cada palabra mira a todas las demás, calcula su propia mezcla, y se actualiza. Eso es una "capa de atención".
¿De dónde salen las queries, keys y values?
Buena pregunta, porque parece magia. La respuesta es sencilla: se aprenden.
Recuerda que una red neuronal aprende los pesos de sus neuronas mediante backpropagation. Pues aquí igual: existen tres matrices de pesos, llamémoslas WQ, WK y WV, que transforman el embedding original de cada palabra en sus tres sombreros. Esas tres matrices se entrenan, se ajustan poco a poco durante las millones de rondas de broncas, hasta que las queries, keys y values que producen resultan útiles para la tarea final.
Es decir: nadie le dice al modelo qué debería preguntar cada palabra. Él solito descubre, durante el entrenamiento, cuáles son las preguntas y pistas que le permiten entender mejor el lenguaje.
Si esto te parece fascinante, lo es.
Autoatención vs atención cruzada
Cuando todas las palabras que preguntan (queries) y todas las que responden (keys/values) son las mismas —las de la frase que está procesando el modelo—, hablamos de autoatención (self-attention). Este es el caso en los LLMs generativos: el texto se mira a sí mismo.
Cuando las queries vienen de un sitio y las keys/values vienen de otro —por ejemplo, un modelo de traducción donde las queries vienen del texto en español y las keys/values vienen del texto en inglés original—, hablamos de atención cruzada (cross-attention). Es la misma receta, sólo que con ingredientes de dos cocinas.
En los LLMs modernos tipo ChatGPT, la estrella es la autoatención. Es el mecanismo que permite que "banco" se entienda a través de "parque", "gato" se entienda a través de "ronroneaba", y "ella" se entienda a través del nombre propio que aparece tres frases antes.
Multi-head: varios tipos de atención a la vez
Un detalle precioso del diseño. Los Transformers no usan una sola "atención" a la vez, sino varias en paralelo, que se llaman heads (cabezas).
¿Por qué? Porque una misma palabra puede necesitar atender a cosas distintas por razones distintas. Para entender "ella", una cabeza puede buscar quién es el sujeto femenino más cercano. Otra cabeza, simultáneamente, puede estar buscando el tono emocional de la frase. Otra, la estructura sintáctica. Cada cabeza desarrolla su propia especialidad durante el entrenamiento.
Tener 8, 16 o 32 cabezas funcionando en paralelo enriquece brutalmente la comprensión. Es como tener varios catadores especializados mirando el mismo plato: uno se fija en el picante, otro en la acidez, otro en la textura. La decisión final combina sus perspectivas.
Al nombre técnico le llaman multi-head attention, y es uno de los pilares del éxito de los Transformers.
El enmascaramiento: no hacer trampas
Un detalle técnico bonito que vale la pena entender. En los LLMs generativos —los que escriben palabra por palabra— hay que asegurarse de que, cuando el modelo está adivinando la palabra 10, no pueda mirar la palabra 11, 12, 13… porque en el entrenamiento esas palabras sí existen (es el texto real), pero en la vida real, cuando está generando, todavía no existen.
La solución se llama atención enmascarada (masked attention): cada palabra sólo puede atender a las que vienen antes de ella, no a las posteriores. Esto se implementa con una especie de "persiana" que bloquea los scores de atención a las palabras futuras.
Esta diferencia —si permite mirar al futuro o no— es, por ejemplo, la distinción clave entre BERT (mira todo, usado para comprender) y GPT (sólo hacia atrás, usado para generar).
Por qué esto es, literalmente, lo que hace funcionar a la IA moderna
Si tuviera que resumir el éxito de los últimos 9 años en IA en una sola frase, sería esta:
Alguien encontró una forma de que cada trocito de información, sea una palabra, un píxel o un nucleótido, pudiera atender directamente a cualquier otro trocito. Y todo explotó.
La atención ha resuelto el problema ancestral de cómo combinar información de elementos distantes sin perder la señal por el camino. Y ese problema está debajo de prácticamente todo: traducir, escribir, razonar, programar, doblar proteínas, generar imágenes, predecir el tiempo.
El cierre de la serie
Hemos hecho un recorrido, creo, precioso:
Empezamos en una cocina llena de catadores (redes neuronales).
Fuimos a conocer al abuelo catador (regresión lineal).
Aprendimos cómo esos catadores aprenden de sus errores (backpropagation).
Subimos de escala a una biblioteca estadística que habla (LLMs).
Descubrimos la arquitectura que hace todo esto posible (Transformers).
Y hoy hemos abierto el corazón de esa arquitectura: la atención.
Si has seguido la serie completa, ya tienes un modelo mental honesto de cómo funciona la IA moderna. No es magia. No es un cerebro. No es ciencia ficción. Es:
Regresiones lineales apiladas (neuronas)
Con filtros de no linealidad entre ellas (activaciones)
Entrenadas con retropropagación del error (backprop)
Y con un mecanismo que deja a cada parte mirar a las demás (atención)
Eso es todo. Eso es lo que ha cambiado el mundo.
Una última frase
La atención no es mística: es preguntar, comparar, y mezclar. Pero cuando le das a una red neuronal la capacidad de hacer eso a gran escala, aprende a hacerlo de formas tan sutiles que parece pensamiento.
Transformers: la arquitectura que lo cambió todo
En 2017 alguien publicó un paper con el título más arrogante de la historia: Attention Is All You Need. Tenían razón. Explicaremos por qué l...
LLMs: la biblioteca que aprendió a hablar
ChatGPT, Claude, Gemini… ¿qué son realmente? Spoiler: no son oráculos ni cerebros, son una especie de bibliotecario estadístico que ha leído...
Backpropagation: cómo aprende una red de sus errores
Una red neuronal recién nacida es una cocina caótica. ¿Cómo pasa de ensalada con piedras a menú estrella Michelin? Con un truco matemático p...
Comentarios (0)
Sé el primero en comentar.
Deja un comentario