Tenemos algo que a los robots aún se les escapa: un cuerpo que siente.
No “miramos” el mundo, lo percibimos con un radar multimodal de alta fidelidad: vista, oído, tacto, olfato, propiocepción, equilibrio…
En milisegundos fusionamos señales, predecimos lo que va a pasar y actuamos sin pensarlo. Un niño de tres años entra en la cocina, esquiva la silla, sujeta el vaso por el asa, compensa el peso y no derrama. Eso no es solo visión: es inteligencia espacial.
Los LLMs, con TODA su capacidad de cómputo y “listitud” estadística, no viven en 3D. Son bibliotecas brillantes que completan frases; no manos que colocan platos, ni ojos que anticipan trayectorias. Saben de conceptos, pero todavía fallan en física cotidiana: fricción, equilibrio, causa y efecto en tiempo real. Ahí está la brecha.
Hoy te propongo un viaje raro: del primer “ojo” de la naturaleza a los robots que abren cajones.
Fei-Fei Li lo cuenta con una imagen súper gráfica: durante millones de años hubo luz… pero nadie veía. Y cómo lo siguiente en el mundo de la inteligencia artificial será que esta entienda el mundo que la rodea.
La próxima ola va de cerrarla: ver → entender → hacer → aprender. Y vuelta a empezar.
Cuando conectemos modelos capaces de razonar con sensores, motores y contexto —esa inteligencia espacial que tiene un niño de tres años—, pasaremos de describir el mundo a manipularlo sin romperlo.
Y entonces sí, la IA dejará de ser solo texto en una pantalla para convertirse en un compañero útil en hospitales, casas y ciudades.
Hoy vamos a repasar 5 ideas clave de la charla de Fei-Fei Li sobre inteligencia espacial: qué significa “ver para hacer”, por qué importan más los verbos que los objetos, cómo la simulación acelera el aprendizaje, el impacto en salud y hogar, y las salvaguardas éticas imprescindibles para convivir con estas máquinas.
Idea 1 — Ver no basta. Ver es para hacer.
La visión por computador nos llevó de poner etiquetas a fotos a describir escenas y relaciones. ImageNet fue el “combustible” que despegó la revolución (GPUs + redes neuronales + datos).
Pero el siguiente nivel exige inteligencia espacial: comprender geometría, dinámicas y contexto para predecir y actuar en 3D. Piensa en la famosa escena del gato empujando el vaso: tu cerebro anticipa lo que viene y te hace moverte. Eso es lo que queremos que haga una máquina.
Idea 2 — Del dataset a la casa: tareas con verbos, no solo objetos.
Si antes etiquetábamos “taza”, ahora definimos tareas: cargar el lavavajillas, preparar un sándwich, recoger juguetes.
Para entrenar esa capacidad, los laboratorios de IA están creando simulaciones hiperrealistas con miles de actividades domésticas y escenas completas.
Es el caso de BEHAVIOR-1K, un benchmark con 1.000 tareas de la vida real para que agentes encarnados aprendan a moverse, manipular y decidir.
Idea 3 — “Mundos” antes que palabras: simulación + generación.
Los modelos generativos ya no solo pintan píxeles: empiezan a simular el mundo en movimiento.
Ya lo vimos hace unos meses con Sora (texto→vídeo) y otros modelos que convierten fotos en 3D o describen una habitación entera a partir de lenguaje. El objetivo no es solo crear clips bonitos, sino aprender física y causalidad para tomar mejores decisiones en el mundo real.
Idea 4 — De la clínica al hogar: la “inteligencia ambiental”.
Sensores que avisan si un sanitario entra sin lavarse las manos, sistemas que detectan riesgo de caída, brazos robóticos que siguen instrucciones naturales (“abre el cajón”, “desenchufa el móvil”)…
Aquí lo interesante no es el gadget, sino la coreografía entre percepción y acción al servicio de las personas. He ahí la promesa de la IA encarnada bien hecha.
Idea 5 — Ética y convivencia, o no habrá adopción.
Cuando la computación “sale de la pantalla” y entra en tu salón, la privacidad deja de ser un checkbox. Ya hemos pasado ese sarampión con los asistente virtuales en altavoces inteligentes, aspiradoras, robots de cocina,… hemos visto que no todo vale en nombre del avance de la ciencia (tecnología).
Necesitamos: unos mínimos de captura (lo justo), procesamiento en el edge por defecto, límites espaciales (qué zonas nunca se mapean), trazabilidad de acciones y un kill switch físico/software.
Si no proteges la dignidad en lo micro, no habrá confianza en lo macro.
Fei-Fei insiste: humanos en el centro, siempre. Y yo no puedo estar más de acuerdo.
Cómo pasar a la acción
De objetos a verbos. Haz un inventario de 10 tareas físicas (verbos) de alto coste/errores en tu día a día, personal o profesional: abrir, inspeccionar, colocar, transportar, limpiar... Prioriza por frecuencia × impacto × riesgo.
Diseña el “set” 3D. Define el vocabulario espacial mínimo: habitaciones, zonas seguras, trayectorias, puntos de agarre. Un digital twin sencillo basta para prototipar.
Simula antes de comprar hardware. Emula la tarea en un entorno 3D; mide tiempo, éxito, fallos. Solo entonces eliges brazo, cámara o AGV.
Governance desde el día 0. Política de datos (qué se guarda y dónde), logs de decisiones, revisión humana por excepción, y botón rojo de parada.
KPIs que importan. Del “accuracy” a MTTA (tiempo hasta la acción), éxito en tarea y tasa de intervención humana.
Si tuviera que quedarme con una sola frase: la próxima ventaja competitiva no está en describir el mundo, sino en manipularlo con respeto.
Que nunca te falten ideas, ni ganas de probarlas.
A.
PD 1. La charla que me inspiró hoy: With Spatial Intelligence, AI Will Understand the Real World, de Fei-Fei Li. Vale cada minuto de los quince que dura el video.
PD 2. Para entender de dónde venimos: ImageNet, el dataset que cambió la visión por computador. Historia y magnitud aquí.
PD 3. Para ir a lo práctico: BEHAVIOR-1K, 1.000 tareas domésticas para entrenar robots de verdad. Si haces producto, mira sus taxonomías.
PD 4. Sobre la “simulación del mundo” en vídeo: Sora y su apuesta por aprender física en movimiento. Interesante para contenidos… y para world models.
PD 5. Bonus contexto: Fei-Fei Li lleva esta visión también al frente emprendedor (World Labs) para llevar la inteligencia espacial a productos.
PD 6. Si la charla te ha sabido a poco, no te preocupes, puede seguir con el libro de Fei-Fei Li, The Worlds I See.