Enseñar a una máquina a no atravesar paredes

Diario de Innovación #310

mar 10, 2026

Durante siglos, los mapas fueron una de las herramientas más poderosas que inventó la humanidad.

Antes de ellos, el mundo era básicamente un misterio. Un territorio lleno de costas desconocidas, rutas inciertas y peligros imaginados.

Los exploradores de los siglos XV y XVI —portugueses, españoles, italianos— empezaron a cambiar eso. No solo navegaban. Dibujaban.

Cada viaje añadía un nuevo fragmento al mapa del mundo.

Una costa más precisa.

Un puerto nuevo.

Un estrecho inesperado.

Aquellos mapas eran imperfectos. A veces grotescamente inexactos. Pero tenían algo revolucionario: permitían seguir rutas.

Convertían el espacio en algo navegable.

Y gracias a eso, poco a poco, el planeta dejó de ser un misterio.

Curiosamente, cinco siglos después, estamos intentando enseñar exactamente esa habilidad… a las máquinas.

Los modelos multimodales actuales parecen auto-mágicos.

Pueden mirar una imagen y describir lo que ocurre.

Reconocer objetos.

Entender escenas complejas.

Generar texto sofisticado.

Pero hay algo sorprendentemente difícil para ellos.

Seguir un camino en un mapa.

Si le enseñas a un modelo un mapa de un zoo o de un centro comercial y le pides que trace una ruta desde la entrada hasta un punto concreto, muchas veces hará algo bastante extraño.

La línea puede atravesar edificios.

O cruzar paredes.

O ignorar por completo las zonas transitables.

No porque el modelo sea “tonto”.

Sino porque en realidad no entiende el espacio.

Ve colores.

Ve píxeles.

Ve formas.

Pero no entiende algo que para nosotros es obvio: que ciertos lugares son transitables y otros no.

Como explica el equipo de investigación de Google en un artículo reciente, los modelos actuales son muy buenos identificando lo que hay en una imagen, pero tienen dificultades para comprender las relaciones geométricas y topológicas entre los elementos.

Dicho de otro modo: La IA puede reconocer un camino, pero no necesariamente entiende cómo recorrerlo.

Moravec tenía razón

Esto encaja con una de las observaciones más famosas de la historia de la inteligencia artificial.

El paradoja de Moravec.

Formulada en los años 80 por el científico Hans Moravec, dice algo contraintuitivo:

Lo que es difícil para los humanos es fácil para las máquinas. Y lo que es fácil para los humanos es extremadamente difícil para las máquinas.

Por ejemplo.

Las máquinas son extraordinarias en:

cálculo masivo
ajedrez
optimización matemática

Pero tienen enormes dificultades en cosas que los humanos hacemos sin pensar:

caminar
manipular objetos
reconocer contextos físicos
orientarse en el espacio

Y ahora podemos añadir otro ejemplo a la lista.

Leer un mapa.

Para un niño de cinco años, seguir una ruta en un plano de un parque de atracciones es trivial.

Para una IA, no lo es.

El verdadero problema no era el modelo

Durante mucho tiempo se pensó que el problema era el modelo.

Que los sistemas multimodales simplemente no eran lo suficientemente buenos.

Pero el equipo de Google llegó a una conclusión diferente.

El problema era el dataset.

Los modelos aprenden de enormes cantidades de imágenes y texto. Pero en esos datos casi nunca aparece algo fundamental: ejemplos explícitos de rutas válidas sobre mapas.

Es decir, los modelos ven mapas.

Pero casi nunca ven cómo se recorre un mapa correctamente.

Y crear ese dataset manualmente sería una pesadilla.

Imagina millones de mapas.

Con rutas anotadas a nivel de píxel.

Es un trabajo tan lento y caro que resulta prácticamente imposible escalarlo.

Así que los investigadores decidieron hacer algo diferente.

En lugar de recolectar los datos…

fabricarlos.

Cómo enseñar a una IA a seguir caminos

El sistema que desarrollaron se llama MapTrace.

Y es un buen ejemplo de cómo se está construyendo la ingeniería de la IA moderna.

La idea es simple: crear automáticamente millones de ejemplos de mapas con rutas correctas.

Pero el proceso tiene varios pasos interesantes.

1. Generar los mapas

Primero, un modelo de lenguaje crea descripciones de distintos tipos de mapas:

un zoo con distintos hábitats
un centro comercial con un patio central
un parque temático con diferentes zonas

Después, un modelo de generación de imágenes convierte esas descripciones en mapas visuales.

Cada uno distinto.

Cada uno con su propia estructura.

2. Identificar las zonas transitables

Una vez generado el mapa, el sistema necesita identificar qué partes son caminos.

Para ello se agrupan los píxeles por color y se generan máscaras de caminos.

Pero no todas esas máscaras son correctas.

Así que entra en juego otro modelo multimodal, llamado Mask Critic, que revisa cada máscara y decide si representa realmente una red de caminos transitables.

Solo las máscaras válidas pasan al siguiente paso.

3. Convertir el mapa en un grafo

Una vez identificados los caminos, el mapa se convierte en algo que los algoritmos entienden mejor.

Un grafo.

Las intersecciones se convierten en nodos.

Los caminos entre ellas se convierten en conexiones.

Es, básicamente, una red de carreteras digital.

4. Generar rutas correctas

A partir de ese grafo se generan miles de pares de puntos de inicio y destino.

Y para cada par se calcula la ruta más corta utilizando un algoritmo clásico: el Algoritmo de Dijkstra.

Después, otro modelo actúa como Path Critic, revisando visualmente si la ruta generada tiene sentido sobre el mapa.

Si la ruta parece lógica y respeta los caminos, se acepta.

Si no, se descarta.

Dos millones de ejemplos después

Con este pipeline, los investigadores generaron un dataset enorme: 2 millones de mapas con rutas anotadas.

Después utilizaron una pequeña parte de ese dataset para entrenar varios modelos.

Los resultados fueron bastante claros.

Los modelos:

cometían menos errores
fallaban con menos frecuencia
seguían rutas más realistas

Pero la conclusión más interesante no está en los números.

Está en la interpretación.

Las habilidades de la IA no aparecen solas

El experimento demuestra algo importante.

El razonamiento espacial no es una capacidad innata de los modelos.

Es una habilidad que puede enseñarse.

Con el tipo correcto de datos.

Esto encaja con una idea cada vez más extendida en la investigación en IA:

La inteligencia artificial no aparece de golpe.

Se construye acumulando habilidades entrenadas.

El nuevo cuello de botella

También revela otra tendencia importante.

Durante años pensamos que el progreso en IA dependía principalmente de:

modelos más grandes
más parámetros
más compute

Pero cada vez está más claro que el cuello de botella se está desplazando.

Hacia algo mucho más prosaico.

Los datos.

No cualquier dato.

Datos diseñados específicamente para enseñar habilidades concretas.

Y cada vez más, esos datos no vendrán del mundo real.

Vendrán de mundos sintéticos.

Cuando la IA entienda los edificios

Si una IA puede aprender a seguir rutas en mapas, puede empezar a entender algo mucho más amplio.

Planos de edificios.

Aeropuertos.

Hospitales.

Centros comerciales.

Ciudades.

Eso abre la puerta a sistemas capaces de:

navegar espacios complejos
guiar a personas dentro de edificios
ayudar a robots a moverse en entornos interiores

En otras palabras.

Una IA que no solo entiende texto e imágenes.

Sino también espacios físicos.

Food for thought

Durante siglos, los mapas ayudaron a los humanos a entender el mundo.

Ahora estamos intentando enseñar a las máquinas a hacer lo mismo.

Y quizá la pregunta interesante no sea si lo conseguirán. Sino otra.

¿Qué ocurrirá cuando las máquinas puedan orientarse en el mundo físico tan bien como nosotros?

🌍 El eco del mercado

🧠 Anthropic descubre lo complicado que es hacer negocios con el Estado. La relación entre las startups de IA y los gobiernos empieza a mostrar tensiones. Tras el polémico acuerdo con el Pentágono, Anthropic se enfrenta ahora a disputas regulatorias y legales que reflejan algo más profundo: los modelos fundacionales se están convirtiendo en infraestructura estratégica. La lección para el ecosistema es clara: cuando tu tecnología entra en defensa o seguridad nacional, la política empieza a formar parte del roadmap.

🧩 La IA empieza a diseñar objetos en tres dimensiones. DeepSeek se ha aliado con Tencent y la Universidad de Hong Kong para desarrollar una herramienta que utiliza inteligencia artificial para mejorar el diseño 3D. El objetivo es automatizar partes del proceso creativo en ingeniería, arquitectura o diseño industrial. Si estos sistemas maduran, podrían transformar el CAD en algo más parecido a colaborar con un copiloto creativo que propone geometrías, estructuras y optimizaciones.

🖥️ Google quiere que los agentes de IA trabajen dentro de tu oficina digital. Google ha presentado una interfaz de línea de comandos para Workspace que permite interactuar con Gmail, Docs o Sheets desde scripts o agentes de IA. La idea es clara: convertir el software de oficina en un entorno programable donde los agentes puedan automatizar tareas complejas. Si esta tendencia se consolida, el verdadero sistema operativo del trabajo podría ser la API de nuestras herramientas de productividad.

📱 El móvil podría convertirse en la nueva máquina para crear software. Samsung explora integrar “vibe coding” en los Galaxy, permitiendo generar aplicaciones directamente desde el teléfono utilizando inteligencia artificial. El concepto apunta a algo interesante: si el desarrollo se vuelve conversacional, el dispositivo desde el que programes podría ser casi irrelevante.

📒 La alternativa open source a Notion que pocos conocen. Un nuevo gestor de conocimiento open source está ganando atención como alternativa a Notion. Este tipo de herramientas reflejan una tendencia creciente: cada vez más profesionales quieren controlar sus propios datos y flujos de trabajo sin depender completamente de plataformas cerradas.

📧 Outlook mejora… gracias a alguien que no es de Microsoft. Un desarrollador independiente ha conseguido solucionar varios de los problemas históricos de Outlook en Windows. El caso ilustra algo interesante: el ecosistema de software sigue evolucionando gracias a la comunidad, incluso alrededor de herramientas propietarias.

📚 La IA empieza a convertirse en tutor personal de estudio. NotebookLM, basado en modelos de Google, está demostrando ser una herramienta útil para estudiantes que quieren resumir documentos, generar preguntas o preparar exámenes. Para los más pequeños de la casa —o para cualquiera que tenga que estudiar algo nuevo—, la IA empieza a actuar como un asistente de aprendizaje siempre disponible.

🇨🇳 China refuerza su apuesta por la tecnología como motor económico. El gobierno chino ha anunciado nuevas políticas para apoyar al sector tecnológico y acelerar la innovación. Pekín busca consolidar un ecosistema capaz de competir globalmente en inteligencia artificial, semiconductores y manufactura avanzada.

🏭 Las regiones chinas compiten por liderar la innovación. Provincias como Zhejiang o Guangdong están intensificando sus inversiones tecnológicas para convertirse en polos de innovación. Esta competencia regional refleja cómo China intenta replicar múltiples “Silicon Valley” dentro de su propio territorio.

🤖 La IA entra en las fábricas chinas. China está integrando inteligencia artificial en manufactura industrial para mejorar eficiencia y reducir dependencia tecnológica. La estrategia busca cerrar la brecha con Estados Unidos combinando automatización, datos y producción.

👶 Cada vez más países quieren prohibir redes sociales a menores. La regulación de las plataformas digitales para proteger a los niños está ganando fuerza en varios países. La discusión refleja una preocupación creciente: el impacto de las redes sociales en salud mental, atención y desarrollo cognitivo.

🇬🇧 Londres quiere convertirse en capital europea de la IA. El alcalde de Londres ha invitado a Anthropic a expandir sus operaciones en la ciudad. La competencia entre países por atraer talento y empresas de inteligencia artificial empieza a parecerse cada vez más a la carrera por atraer centros de datos o fábricas de chips.

📱 TikTok sigue atrapado en la guerra tecnológica entre potencias. Una demanda busca revertir la aprobación de la venta de TikTok en Estados Unidos. La disputa ilustra cómo las plataformas digitales se han convertido en piezas estratégicas dentro de la rivalidad tecnológica entre China y Estados Unidos.

🏭 Apple estudia fabricar iPhones con impresión 3D de aluminio. La compañía está explorando utilizar impresión 3D para fabricar componentes de aluminio en iPhone y Apple Watch. Si la tecnología escala, podría reducir costes de producción y abrir nuevas posibilidades en diseño industrial.

Déjame recordarte que si te gusta la tecnología, el podcast de Código Abierto también puede ser una buena opción.

Si algo de lo que has leído te ha removido, dímelo.
Ya sabes que estoy al otro lado si quieres comentar, discrepar o simplemente saludar.

Que nunca te falten ideas, ni ganas de probarlas.

PD. Si te interesa cómo los humanos aprendimos a entender el espacio y los mapas, estos libros son una maravilla:

The Power of Maps, de Denis Wood
The Master Algorithm, de Pedro Domingos
Over the Edge of the World, de Laurence Bergreen (sobre los primeros mapas de la era de las exploraciones)

Una buena forma de recordar que, antes de enseñar a las máquinas a leer mapas…

primero tuvimos que aprender nosotros.

Innovation by Default💡

Discusión sobre este post

Por supuesto, sigue adelante.