IA en producción: el error empieza antes

Diario de Innovación #283

Innovation by default

ene 28, 2026

Durante años hemos hablado de modelos.

De algoritmos.

De precisión.

De benchmarks.

Y, sin embargo, muchos proyectos de IA fracasan después de desplegarse.

Cuando ya están en producción.

Cuando el coste económico, reputacional y político es máximo.

El artículo de MIT Sloan Management Review, What Managers Should Ask About AI Models and Data Sets, firmado por Roger W. Hoerl y Thomas C. Redman pone el dedo justo ahí: el problema no suele ser solo el modelo.

Es la conversación que no se tuvo antes.

Hoy vamos a repasar los cuatro puntos críticos recogidos en el artículo.

El mito del “modelo brillante”

Existe un sesgo clásico en analítica: los data scientists, como los artistas, se enamoran de sus creaciones.

El modelo funciona.

Los resultados en test son buenos.

La demo impresiona.

Pero el foco se desplaza peligrosamente del dato al algoritmo.

Y el dato es mucho menos glamuroso pero infinitamente más decisivo.

👉 Modelos sólidos sobre datos pobres siguen siendo frágiles.

👉 Modelos mediocres sobre datos correctos pueden sobrevivir.

El gran olvidado: la generalización

Uno de los conceptos clave del artículo es la generalizabilidad: la capacidad de un modelo para funcionar fuera del entorno exacto en el que fue entrenado.

No mañana.

No en el dataset de validación.

Sino:

cuando cambian los usuarios
cuando cambia el contexto
cuando cambian los incentivos
cuando el mundo real hace lo que mejor sabe hacer: sorprender

Y aquí viene lo incómodo: la generalización está mal definida, poco medida y rara vez gobernada.

“The right data”: la pregunta que casi nadie hace

El artículo introduce una idea simple y potente: el dato correcto.

No:

el dato disponible
el dato barato
el dato histórico
el dato fácil de integrar

Sino el dato que representa el problema real que queremos resolver.

La mayoría de riesgos en IA no vienen de modelos “mal diseñados”, sino de desajustes silenciosos entre:

el problema de negocio
el contexto operativo
y los datos usados para entrenar el sistema

El rol incómodo, pero crítico, del manager

Aquí el artículo es claro: los directivos no pueden delegar completamente estas decisiones.

Aunque no sepan entrenar un modelo.

Aunque no escriban una línea de Python.

Porque son ellos quienes deciden:

si se despliega
dónde se despliega
con qué impacto
y quién asume las consecuencias

Por eso el artículo propone seis preguntas clave que cualquier manager debería hacer antes y durante el despliegue de IA.

No técnicas.

Estratégicas.

Preguntas que revelan si el sistema está preparado o solo funciona en PowerPoint.

Aquí las tienes, claras y directas:

¿Qué problema de negocio exacto estamos resolviendo con este modelo?
(Y qué problemas no está diseñado para resolver.)
¿Estos datos representan la realidad en la que el modelo va a operar… o solo el pasado que conocemos?
(Usuarios, contextos, excepciones, incentivos).
¿Dónde sabemos que el modelo deja de funcionar bien?
(Límites conocidos, escenarios fuera de entrenamiento, casos extremos).
¿Cómo va a cambiar el rendimiento del modelo cuando cambie el entorno?
(Nuevos comportamientos, estacionalidad, shocks externos, drift).
¿Qué señales vamos a vigilar en producción para saber que algo va mal antes de que sea tarde?
(Métricas, umbrales, alertas, revisiones humanas).
Si el modelo se equivoca, ¿quién responde y cómo se corrige la decisión?
(Gobernanza, responsabilidad, capacidad de intervención).

Food for thought

La mayoría de fracasos en IA no son fallos técnicos.

Son fallos de gobierno, de contexto y de conversación.

No por falta de inteligencia artificial.

Sino por exceso de fe ciega.

Y quizá la verdadera ventaja competitiva, hoy, no sea tener mejores modelos sino hacer mejores preguntas antes de confiarles poder real.

🌍 El eco del mercado

🤖 OpenAI abre la caja negra de su agente de programación Codex. OpenAI publica detalles técnicos inusualmente precisos sobre su agente de código: bucles de razonamiento, uso de herramientas y control de errores. Más que un ejercicio de transparencia, es una señal clara de que los agentes empiezan a tratarse como infraestructura crítica.

🇪🇺 Mistral lanza Vibe 2.0 y entra en el terreno de GitHub Copilot. La startup francesa da un paso firme con un agente de código orientado a desarrolladores profesionales. Europa ya no solo regula la IA: empieza a competir en producto.

🧩 China libera Kimi K2.5, un modelo open source con agente de programación. Moonshot apuesta por apertura y comunidad. La carrera por la IA también se libra en velocidad de adopción, no solo en tamaño del modelo.

🧠 Alibaba y Moonshot presentan modelos que desafían a OpenAI y Google. Primer gran pulso chino del año en modelos fundacionales. El avance técnico viene acompañado de un mensaje geopolítico evidente.

📱 Baidu reorganiza sus apps para acelerar su ofensiva en IA de consumo. La IA empieza a dictar la estructura organizativa de las grandes tecnológicas: menos silos, más foco estratégico.

🔍 Yahoo Scout propone una búsqueda con IA más alineada con la web abierta. Frente a respuestas sintéticas y opacas, Yahoo apuesta por enlaces, contexto y navegación. Un intento de reconciliar IA y web.

📉 Pinterest recorta plantilla para redirigir recursos hacia la IA. La IA no solo crea nuevas funciones: también redistribuye empleo y prioridades internas.

✅ Theorem levanta 6 millones para evitar bugs en código generado por IA. El problema ya no es generar código, sino confiar en él. La verificación apunta a convertirse en una capa esencial del desarrollo asistido por IA.

🛰️ Qwen-3 se convierte en el primer modelo de IA que opera en órbita. La computación espacial deja de ser ciencia ficción y se perfila como nuevo frente estratégico.

📄 DeepSeek mejora su OCR usando tecnología open source de Alibaba Cloud. El open source vuelve a demostrar su papel como acelerador industrial y ventaja competitiva.

🧱 La nueva fiebre del silicio: Estados, startups y fabricantes compiten por el chip de la IA. La carrera por la IA se desplaza del software al hardware. India entra en escena con inversión pública para ganar soberanía industrial; las startups de chips (Ricursive) alcanzan valoraciones récord; y los grandes fabricantes ajustan arquitectura y modelo comercial para sostener la demanda. El mensaje es claro: el cuello de botella ya no es el algoritmo, sino el silicio, la memoria y la eficiencia energética.

⏳ ChatGPT muestra límites estructurales para tareas largas y en segundo plano. Más allá del hype, la experiencia real de los agentes sigue teniendo fricciones importantes. Escalar autonomía no es solo cuestión de modelo.

Déjame recordarte que si te gusta la tecnología, el podcast de Código Abierto también puede ser una buena opción.

Si algo de lo que has leído te ha removido, dímelo.
Ya sabes que estoy al otro lado si quieres comentar, discrepar o simplemente saludar.

Que nunca te falten ideas, ni ganas de probarlas.

Antes de preguntar qué tan preciso es el modelo, quizá conviene preguntarse qué pasa cuando se equivoca. Estos libros ayudan a pensar justo ahí.

PD1: Data Feminism — Catherine D’Ignazio & Lauren F. Klein. Una forma distinta (y muy práctica) de pensar qué datos usamos, a quién representan y a quién dejan fuera.

PD2: Ruido de Daniel Kahneman, Olivier Sibony, Cass Sunstein. El problema no es solo el sesgo. Es la variabilidad invisible en decisiones humanas y automatizadas.

PD3: Human + Machine de Paul R. Daugherty & H. James Wilson. IA como sistema socio-técnico: personas, procesos y tecnología. No modelos en el vacío.

PD4: Competing in the Age of AI de Marco Iansiti & Karim R. Lakhani. Qué cambia cuando las empresas se construyen alrededor de modelos… y no al revés.

Innovation by Default💡

Discusión sobre este post

Por supuesto, sigue adelante.