¿Errores o alucinaciones? Lo que realmente pasa dentro de los LLMs
Diario de Innovación #229
Durante años, muchos usuarios —y no pocos ingenieros— se han hecho la misma pregunta:
¿Por qué ChatGPT no siempre responde igual aunque le pongas exactamente la misma pregunta?
Y no, no me refiero a la creatividad o la temperatura del modelo.
Me refiero a esos casos en los que, incluso con “temperatura = 0”, las respuestas cambian.
A veces una palabra. A veces toda la frase.
Esa aparente “aleatoriedad” tiene nombre: nondeterminismo.
Y un grupo de investigadores de Thinking Machines acaba de explicar, por fin, de dónde viene.
El problema
En teoría, los grandes modelos de lenguaje (LLMs) deberían comportarse como cualquier otra función matemática: si les das la misma entrada, deberían devolver la misma salida.
Pero no lo hacen.
Incluso ejecutando el mismo modelo, con la misma versión, en el mismo servidor, los resultados cambian.
La comunidad lo atribuía a la combinación de operaciones en coma flotante y ejecución paralela en GPU: si las sumas se hacen en distinto orden, los resultados cambian ligeramente.
Sin embargo, el equipo de Thinking Machines ha demostrado que esa no es la causa principal.
La causa real
El verdadero origen del problema está en cómo los servidores agrupan y procesan las peticiones simultáneas.
Ese proceso se llama dynamic batching.
Cuando varios usuarios hacen consultas al mismo tiempo, el sistema decide cómo agruparlas para optimizar la GPU.
Pero si cambia el tamaño del lote —una frase sola o varias a la vez—, el motor reorganiza internamente las operaciones.
Y al hacerlo, cambia el orden matemático de las sumas.
Esa reorganización afecta a tres operaciones clave del modelo:
RMSNorm, una forma de normalización.
Multiplicación de matrices, el corazón del cálculo.
Atención, el mecanismo que da “memoria” al modelo.
Cada una de ellas puede producir resultados distintos según cuántas frases o usuarios se estén procesando en paralelo.
No es un fallo del hardware, sino del orden lógico de los cálculos.
La solución
La propuesta de Thinking Machines es elegante y simple en concepto: hacer que esas operaciones sean batch-invariant.
En otras palabras, que el resultado de cada cálculo sea exactamente el mismo, independientemente del tamaño del lote, del número de usuarios o del modo de ejecución.
Para conseguirlo, han rediseñado los algoritmos de esas tres piezas —normalización, multiplicación y atención— y los han publicado como un conjunto de kernels deterministas, compatibles con motores como vLLM o SGLang.
El coste: una ligera pérdida de velocidad.
La ganancia: resultados idénticos y reproducibles en cada ejecución.
En pruebas con modelos de 235.000 millones de parámetros, lograron que mil ejecuciones consecutivas generasen la misma respuesta hasta el último token.
Por qué importa
Conseguir determinismo total en la inferencia de un modelo no es un detalle técnico.
Es un paso enorme hacia la reproducibilidad científica, la depuración confiable y el entrenamiento coherente.
Hasta ahora, incluso en entornos controlados, era imposible garantizar que una prueba de IA se repitiera con precisión absoluta.
Esto complicaba el desarrollo de técnicas como el aprendizaje por refuerzo en política real (on-policy RL), donde pequeñas variaciones en las salidas podían hacer colapsar el entrenamiento.
Ahora, con inferencias completamente deterministas, es posible obtener resultados idénticos entre el modelo que genera y el que entrena, reduciendo a cero la divergencia numérica.
Lo que viene
¿Significa esto el fin de las “alucinaciones” de la IA?
No exactamente.
Las alucinaciones nacen de los datos, no del hardware.
Pero este avance marca algo igual de importante: el fin del azar técnico.
Las máquinas aún no piensan, pero empiezan a dejar de improvisar.
Y eso puede ser el principio de una nueva etapa: una inteligencia más precisa… aunque quizás un poco menos humana.
Que nunca te falten ideas, ni ganas de probarlas.
A.
PD: Si te interesa profundizar en este tema, te dejo algunas lecturas recomendadas:
Defeating Nondeterminism in LLM Inference — Thinking Machines Lab (2025).
Deep Learning — Ian Goodfellow, Yoshua Bengio y Aaron Courville.
What Is ChatGPT Doing… and Why Does It Work? — Stephen Wolfram.
Reliable Machine Learning — Cathy O’Neil y Rachel Thomas.


