Redes Neuronales: la cocina que aprende a catar
Imagina que entras a una cocina enorme. No hay un solo chef: hay cientos de catadores sentados en mesas largas, unos detrás de otros. A la primera mesa llegan los ingredientes crudos —un tomate, una cebolla, un poco de sal— y cada catador los prueba, decide cuánto le gusta cada uno, y le pasa una nota al siguiente. Y así, mesa tras mesa, hasta que al final alguien dice: "esto, señores, es una salsa boloñesa".
Esa cocina, créelo o no, es básicamente una red neuronal. Y en este artículo vamos a entender, con peras y manzanas, por qué esta idea tan rara —meter cientos de catadores en cadena— es lo que hace que tu móvil reconozca tu cara, que Netflix te sugiera una serie y que ChatGPT te escriba una carta.
El problema que nadie podía resolver
Durante décadas, los programadores intentaron enseñar a las computadoras a reconocer, por ejemplo, un gato en una foto. La receta tradicional era: "un gato tiene dos orejas puntiagudas, bigotes, cuatro patas, una cola…". Escribían reglas, muchas reglas. Y el resultado era patético: cualquier gato acostado, de espaldas, o con sombrero, rompía el sistema.
El problema es que los gatos no se describen bien con reglas. Los gatos se parecen a otros gatos. Y nuestro cerebro es buenísimo detectando parecidos sin saber por qué. Tú ves a tu abuela de lejos y sabes que es ella antes de poder decirme qué rasgos la delatan.
La pregunta que los investigadores se hicieron fue: ¿y si en lugar de escribir reglas, construimos algo que aprenda a ver parecidos, como nuestro cerebro?
De ahí el nombre: red neuronal. Están inspiradas —muy de lejos, todo hay que decirlo— en cómo funcionan las neuronas de nuestra cabeza.
La neurona: un catador con una opinión
Vamos a empezar por la pieza más pequeña, el ladrillo: la neurona artificial.
Una neurona artificial es, literalmente, un catador con tres manías:
Recibe varias cosas a la vez. Por ejemplo, le llegan tres números: cuánto pesa el tomate, cuánto pesa la cebolla y cuánta sal hay.
Le da más importancia a unos ingredientes que a otros. A ella le fascina la sal y odia la cebolla. Así que al probar, multiplica la cantidad de sal por un número grande y la cantidad de cebolla por un número pequeño (o incluso negativo).
Escupe una nota final. Algo así como: "mmm, esto me gusta un 0.7 sobre 1".
Y ya está. Eso es una neurona. Recibe ingredientes, los pondera según sus manías, y devuelve una nota.
Aquí aparece la palabra mágica de todo esto: esas "manías" —cuánto le gusta la sal, cuánto odia la cebolla— tienen un nombre técnico, pesos (weights, en inglés). Retén esa palabra. Los pesos son, en el fondo, lo único que importa en una red neuronal. Cuando decimos que una red "aprende", lo que está pasando de verdad es que está ajustando los pesos de todos sus catadores hasta que la cocina entera dé buenas salsas.
Una sola neurona es muy tonta
Si pones a un solo catador a decidir si una foto es un gato o no, va a fallar. Porque el problema es demasiado complejo para un solo tipo con opiniones simples.
Pero aquí viene la idea brillante: apílalos en capas.
Imagina tres mesas en fila:
Primera mesa (capa de entrada): Aquí se reciben los ingredientes crudos. En el caso de una foto, cada neurona mira un píxel o un grupo pequeño de píxeles. "Esto es oscuro", "esto es rojo", "esto tiene un borde vertical".
Segunda mesa (capa oculta): Las neuronas de la segunda mesa no ven la foto. Sólo ven las notas que escupieron los de la primera. Y empiezan a combinar esas notas en conceptos un poco más abstractos: "aquí hay algo curvo y peludo", "aquí parece haber dos puntitos brillantes juntos".
Tercera mesa (capa de salida): Esta es la mesa del jefe. Recibe las conclusiones de la mesa anterior y dicta sentencia: "probabilidad 0.92 de que sea un gato, 0.05 perro, 0.03 tortilla".
Lo genial es que nadie le dijo a los de la segunda mesa que buscaran "cosas peludas". Eso lo descubrieron solos, ajustando sus pesos poco a poco hasta que resultó útil para el jefe. De eso trata el próximo artículo de esta serie, el de backpropagation: cómo aprenden a ajustarse.
¿Por qué "profunda"?
Seguro has oído la expresión deep learning, "aprendizaje profundo". La palabra profundo no es marketing. Significa, literalmente, que hay muchas mesas, muchas capas apiladas. Diez, cincuenta, a veces mil.
¿Y por qué más capas ayudan? Porque cada capa puede construir conceptos sobre los conceptos de la anterior. Piénsalo así:
La capa 1 detecta bordes y manchas de color.
La capa 2 combina bordes en formas: círculos, triángulos, rayas.
La capa 3 combina formas en partes: un ojo, una oreja, un bigote.
La capa 4 combina partes en objetos: una cara de gato.
La capa 5 combina objetos en escenas: "un gato tumbado en un sofá".
Esta jerarquía, que antes teníamos que construir a mano con reglas torpísimas, ahora emerge sola. La red descubre sus propios niveles de abstracción, siempre y cuando le demos suficientes ejemplos y suficiente paciencia.
El pequeño detalle que lo cambia todo: la no linealidad
Voy a meter una cucharadita de complicación, porque si no, mentiría. Entre mesa y mesa, cada neurona hace algo extra después de escupir su nota: la pasa por una especie de "filtro de drama". Un filtro que dice cosas como "si la nota es menor que cero, te la cambio por cero" o "te aplasto todo entre 0 y 1".
Suena anecdótico pero es crucial. Sin ese filtro, apilar mesas no serviría de nada: matemáticamente, cien mesas sin filtro se comportan igual que una sola. Es el filtro —el nombre técnico es función de activación— lo que permite que cada capa añada matices y que la red entera pueda representar cosas complicadas, como la diferencia entre un gato y un perro chow-chow.
No te preocupes por recordar el término. Quédate con la imagen: entre catador y catador, hay un filtro que le da personalidad al proceso.
¿Y esto para qué sirve en la vida real?
Lo sorprendente no es la idea, que tiene más de 60 años. Lo sorprendente es lo lejos que ha llegado:
Tu cámara reconoce caras y las enfoca gracias a una red neuronal.
Google Translate ya no traduce palabra por palabra como hace 15 años; ahora una red neuronal "entiende" la frase entera antes de escribirla en otro idioma.
Los coches autónomos usan redes para detectar peatones, señales y líneas de carretera en tiempo real.
Los filtros de spam de tu correo son redes que han aprendido qué aspecto tienen los mensajes basura.
ChatGPT, Claude, Gemini… son redes neuronales (muy, muy grandes, y con una arquitectura especial de la que hablaremos en los próximos artículos).
Todas estas aplicaciones, por debajo, tienen lo mismo: mesas de catadores ajustando sus opiniones a base de ver miles de millones de ejemplos.
Lo que queda por contar
En este artículo hemos montado la cocina. Pero falta lo más interesante: ¿cómo demonios aprenden estos catadores a tener las opiniones correctas? Porque al principio, cuando la red es nueva, sus pesos son aleatorios. Es decir, la cocina entera es un caos absoluto: salsa boloñesa con plátano y mostaza.
La respuesta tiene nombre: backpropagation, o "retropropagación del error". Es la técnica con la que, paso a paso, cada catador va descubriendo en qué se ha equivocado y cuánto tiene que corregir sus manías. Es una de las ideas más elegantes de la historia de las matemáticas aplicadas y, te lo prometo, se puede entender sin una sola derivada.
Lo cuento en el siguiente artículo de la serie. Por ahora, si te llevas una sola frase de aquí, que sea esta:
Una red neuronal no es un cerebro. Es una cocina larguísima de catadores que, a fuerza de equivocarse, aprenden qué ingredientes importan y cuáles no.
Y con esa imagen ya tienes el 80% de lo que necesitas para entender todo lo que viene después.
Attention: el arte de saber qué mirar
La joya de la corona. "Atención" es el mecanismo que le permite a un modelo entender que en la frase "el banco del parque estaba roto" la pa...
Transformers: la arquitectura que lo cambió todo
En 2017 alguien publicó un paper con el título más arrogante de la historia: Attention Is All You Need. Tenían razón. Explicaremos por qué l...
LLMs: la biblioteca que aprendió a hablar
ChatGPT, Claude, Gemini… ¿qué son realmente? Spoiler: no son oráculos ni cerebros, son una especie de bibliotecario estadístico que ha leído...
Comentarios (0)
Sé el primero en comentar.
Deja un comentario