IA

LLMs: la biblioteca que aprendió a hablar

LLMs (Large Language Models) — La biblioteca que aprendió a hablar
LLMs (Large Language Models) — La biblioteca que aprendió a hablar

Llegó el día. El artículo que llevas esperando desde que salió ChatGPT en noviembre de 2022 y no entiendes muy bien qué ha pasado en el mundo. Hoy tocamos los LLMs, siglas de Large Language Models o, en cristiano, grandes modelos de lenguaje.

ChatGPT, Claude, Gemini, Llama, Mistral. Todos son LLMs. Todos están en todas partes. Todos generan a la vez entusiasmo, miedo, dinero y memes. Y casi nadie es capaz de explicarte qué son por dentro sin recurrir a dos extremos terribles: o bien "son inteligencia artificial que entiende, como en las películas", o bien "sólo son loros estadísticos, no entienden nada".

Las dos simplificaciones son malas. Vamos a ver qué son de verdad, con peras y manzanas.

El truco fundamental: adivinar la siguiente palabra

Agárrate, porque esto te va a decepcionar un poco: los LLMs, en su núcleo, hacen una sola cosa. Una única tarea aburridísima:

Dada una secuencia de palabras, adivinar cuál es la siguiente.

Eso es todo. De verdad. Es el autocompletado más elaborado de la historia.

Si le escribes "el cielo está", el modelo calcula:

  • "azul": 47% de probabilidad

  • "nublado": 18%

  • "despejado": 12%

  • "rojo": 2%

  • "amargado": 0,00003%

  • …y miles de opciones más, cada una con su probabilidad.

Elige una (normalmente una de las más probables, con un poquito de ruleta para no ser aburrido), la añade a la frase, y vuelve a hacer lo mismo. Ahora tiene "el cielo está azul" y otra vez adivina qué viene. Quizás "y". Luego "brilla". Luego "el". Luego "sol".

Y así, palabra a palabra, construye respuestas de mil caracteres. Sin más plan que el siguiente paso.

Cuando entiendes esto por primera vez, pasa algo curioso. Primero piensas: "espera, ¿sólo hace eso? ¿ChatGPT es un autocompletado glorificado?". Y sí, lo es. Pero inmediatamente después piensas: "¿y cómo puñetas escribe entonces un soneto en italiano explicando la fotosíntesis?". Y ahí es donde empieza lo interesante.

Por qué el autocompletado se volvió mágico

Imagínate que tu misión en la vida es predecir la siguiente palabra, y has leído todo internet: Wikipedia entera, millones de libros, conversaciones en Reddit, manuales técnicos, poesía, legislación, papers científicos, código fuente de GitHub, foros de cocina, recetarios medievales…

Para ser buenísimo en tu tarea (adivinar la siguiente palabra), sin darte cuenta has tenido que aprender:

  • Gramática, porque si no hablas raro y fallas.

  • Significado de las palabras, porque "el perro ladra" tiene sentido pero "el tornillo ladra" no.

  • Hechos del mundo, porque si te preguntan "la capital de Francia es", tienes que haber leído suficiente como para saber que lo más probable es "París".

  • Razonamiento básico, porque si en un texto se menciona que "Ana tiene 3 años más que Luis, y Luis tiene 10", la gente suele escribir "Ana tiene 13", no "Ana tiene girasol".

  • Estilo y tono, porque los poemas no se parecen a los emails ni a los manuales de instrucciones.

  • Lógica, ironía, metáforas, programación, matemáticas básicas…

Todo eso se ha colado dentro del modelo sin que nadie se lo enseñara explícitamente. Simplemente, para ser bueno prediciendo la siguiente palabra en un corpus gigantesco, la red no tiene más remedio que construir dentro de sí misma un modelo muy rico del mundo.

Esto es lo que hace que los LLMs sean sorprendentes: la tarea es simple, pero para resolverla bien hay que aprender muchísimo. Y los LLMs tienen la paciencia y la capacidad de absorberlo.

¿Qué son esas "palabras" realmente?

Una matización importante, porque en IA las cosas nunca son como las contamos. Los LLMs no trabajan exactamente con palabras. Trabajan con tokens, que son trocitos de palabras.

La palabra "elefante" podría partirse en dos tokens: "elef" y "ante". La palabra "hola" es un solo token. "Desafortunadamente" se parte en varios.

¿Por qué? Porque muchas palabras son raras, y es más útil que el modelo trabaje con trocitos más pequeños y reutilizables. Es la diferencia entre aprenderte cada palabra del diccionario entera o aprenderte sílabas y saber combinarlas.

Cuando alguien te dice "este modelo fue entrenado con 15 billones de tokens", está diciendo que ha visto 15 billones de estos trocitos. Si conviertes eso a libros: más o menos el equivalente a leer toda la biblioteca del Congreso de EEUU varias veces.

La arquitectura por dentro: una red neuronal descomunal

Debajo del capó, un LLM es una red neuronal, como las que montamos en el primer artículo. Pero con trampa: es una red específica llamada Transformer, de la que hablaremos en el siguiente artículo.

Las dimensiones son absurdas:

  • GPT-3 (2020): 175.000 millones de parámetros (ese es el nombre técnico de los "pesos", las manías de los catadores).

  • GPT-4 (2023): no se hizo público, pero se estima en más de un billón de parámetros.

  • Modelos abiertos modernos: van desde 7 mil millones (Llama 7B, que corre en tu portátil) hasta cientos de miles de millones.

Para que te hagas una idea del entrenamiento: entrenar un modelo grande cuesta decenas o cientos de millones de dólares, requiere miles de GPUs trabajando durante meses, y consume cantidades de electricidad comparables a la de una ciudad pequeña durante ese periodo.

Después, cuando tú le escribes "hola", el modelo hace el forward pass del que hablábamos en el primer artículo —la cocina entera procesa tu mensaje— y escupe la siguiente palabra. Millones de multiplicaciones, en milisegundos. Para escribirte "hola, ¿qué tal?".

De predecir palabras a ser un asistente: el pulido

Aquí hay un matiz importante, porque un LLM recién entrenado —sólo con la tarea de predecir la siguiente palabra— no es ChatGPT. Es una criatura rara que simplemente continúa cualquier texto. Si le escribes "explícame la fotosíntesis", podría responderte "…en menos de 200 palabras" y seguir, porque eso es lo que un humano escribiría a continuación en internet.

Para convertirlo en un asistente útil, hay dos pasos extra de pulido:

  1. Afinación con instrucciones (instruction tuning). Le enseñas, con miles de ejemplos curados, cómo responder cuando alguien le pide cosas. Aquí aprende a ser un asistente, no sólo un autocompletado.

  2. Aprendizaje por refuerzo con feedback humano (RLHF). Personas reales evalúan miles de respuestas y el modelo aprende a preferir las que gustan a los humanos: claras, útiles, sin meterse en líos, educadas. Aquí es donde aprende a ser amable, a no insultarte, y a decir "no puedo ayudarte con eso" en ciertos temas.

Estos dos pasos son los que convierten una biblioteca estadística en un asistente conversacional. Y es la principal diferencia entre un GPT "base" y el ChatGPT que usas. Por dentro es el mismo bicho, pero educado de forma muy diferente.

¿Entienden o no entienden?

La pregunta del siglo. Y te voy a dar la respuesta honesta: nadie lo sabe con certeza.

Lo que sí sabemos:

  • No "entienden" como tú. No tienen cuerpo, no tienen experiencia, no sienten hambre, no recuerdan lo que dijeron ayer a otra persona. Son funciones matemáticas gigantescas que procesan texto.

  • Tampoco son loros tontos. Internamente han desarrollado representaciones muy ricas y abstractas: pueden razonar sobre cosas que nunca han visto literalmente, generalizar patrones, hacer analogías, resolver problemas nuevos.

El consenso razonable es algo así como: "tienen una forma de comprensión real, aunque distinta de la humana, limitada a lo lingüístico y con agujeros extraños". Pueden escribir un ensayo filosófico brillante y luego fallar en una suma de tres cifras. Son, en el fondo, una nueva forma de inteligencia que todavía estamos aprendiendo a entender.

¿Y las alucinaciones?

Porque aparecen, y mucho. El LLM que te confunde a Cervantes con Tolstoi, que se inventa un artículo científico inexistente, que cita una ley que nunca se aprobó.

La razón es estructural: el modelo no sabe lo que no sabe. Su tarea es producir texto plausible, y cuando no tiene información buena, produce texto que suena plausible pero es falso. No está mintiendo con intención; está haciendo su trabajo (predecir la siguiente palabra) sin poder distinguir "lo que aprendí" de "lo que inventé para rellenar".

Mitigar esto es uno de los grandes problemas abiertos del campo. Por eso los modelos modernos se conectan a buscadores, bases de datos y herramientas: para no tener que inventar y poder consultar. Pero nunca es perfecto.

La frase para llevarte a casa

Un LLM es una biblioteca estadística que, de tanto leer, aprendió a hablar. Predice la siguiente palabra con una precisión tan alta que parece comprensión, y quizás, en algún sentido extraño, lo sea.

En el próximo artículo: Transformers, la arquitectura que destronó a todo lo demás. Porque todo lo que te he contado aquí —la biblioteca parlante, los 175 mil millones de parámetros, la magia aparente— no funcionaría sin una invención muy concreta de 2017 que cambió la IA para siempre.

Comentarios (0)

Sé el primero en comentar.

Deja un comentario

Protegido con reCAPTCHA — Privacidad · Términos

Historias relacionadas