Durante siglos, el trabajo fue algo que el hombre hacía sin supervisión.
El carpintero, el herrero, el alfarero… cada uno sabía lo que tenía que hacer.
No había KPIs, ni métricas, ni feedback loops. Solo maestría.
Luego llegó la Revolución Industrial.
Y con ella, el control.
El hombre empezó a vigilar al hombre.
El capataz, el reloj de fichar, la cadena de montaje.
Nacía el management.
Más tarde, en la era digital, el ciclo se invirtió: la máquina empezó a vigilar al hombre.
Sensores, logs, ERPs, CRMs, cámaras, dashboards.
El control se automatizó.
Y ahora parece estamos entrando en la siguiente etapa: máquinas que supervisan a máquinas.
Hace unas semanas OpenAI presentó algo que simboliza ese cambio: GDPval.
Un marco de evaluación que mide cómo rinden los modelos de IA en tareas reales y con valor económico para las empresas. Vamos quieren medir quien hace mejor una tarea, si una persona o algunos de los modelos (LLMs) disponibles en el mercado.
Y lo hace con un rigor que hasta ahora solo aplicamos a los humanos.
Vamos a profundizar un poco en qué es y para qué sirve este modelo de evaluación.
¿Qué es GDPval?
Es un sistema que evalúa cómo los modelos de IA se desempeñan en tareas del mundo real.
Incluye 44 ocupaciones de 9 sectores que impulsan buena parte del PIB: desde la abogacía y la ingeniería hasta la enfermería o las finanzas.
¿Qué necesidad cubre este benchmark?
Los benchmarks clásicos (como MMLU o SWE-Bench) miden exámenes y problemas técnicos, pero no trabajos reales. GDPval busca medir lo que hacemos cada día: escribir un informe, analizar datos, diseñar un plan, atender a un cliente.
Agárrate los machos, rage against the machine modo ON.
¿Cómo está desarrollado?
1.320 tareas reales, creadas por profesionales con 14 años de experiencia media.
Cada una revisada por pares en cinco rondas.
220 forman el conjunto “gold” público para comparar resultados entre modelos.
¿ Y cómo se evalúan los resultados?
Los trabajos de los modelos se comparan a ciegas con los de humanos reales.
Los jueces —profesionales del mismo sector— deciden cuál es mejor.
Y, además, un evaluador automático de IA predice cómo puntuaría un humano.
Sí, una máquina evaluando a otra. Ya te lo he dicho más arriba, Matrix está a la vuelta de la esquina
¿Cuáles son los principales hallazgos?
Los modelos frontera como GPT-5 o Claude Opus 4.1 igualan o superan a los humanos en un número relevante de tareas.
Son 100 veces más rápidos y 100 veces más baratos.
Claude gana en estética; GPT-5, en precisión.
Pero hablemos de todo, ¿cuáles son sus limitaciones actuales?
De momento, GDPval evalúa tareas “one-shot”: sin contexto, sin iteración, sin feedback.
No mide la ambigüedad ni el juicio humano. Por eso lo del famoso, man in the loop.
Pero marca una dirección: pasar de la tarea al flujo de trabajo.
La buena noticia es que OpenAI quiere ampliar GDPval a más sectores, tareas interactivas y procesos iterativos.
El objetivo no es sólo medir, sino entender cómo IA y humanos pueden colaborar en esta economía del conocimiento en la que vivimos.
Food for thought
Durante siglos el trabajo fue una cadena de vigilancia: el artesano se vigilaba a sí mismo, el capataz vigilaba al obrero, la máquina vigilaba al empleado, y ahora la máquina vigila a la máquina.
GDPval no es solo un benchmark. Es un espejo al que mirarse, sí la máquina hace mejor una tarea que tú. ¿Cuál será tu trabajo?
Este benchmark refleja a la perfección hasta qué punto estamos enseñando a las máquinas a hacer lo que hacemos… y a juzgarlo igual.
Es el primer intento serio de medir el impacto económico real de la IA en el trabajo humano.
Evalúa productividad, calidad y valor de salida en tareas de alto impacto profesional, trazando una línea entre automatización eficiente y trabajo significativo.
Y quizá ese sea el punto: cuando todo pueda medirse, lo valioso será lo que no se pueda automatizar.
La empatía, la intuición, la curiosidad.
Lo humano.
Que nunca te falten ideas, ni ganas de probarlas.
A.
PD1. Puedes leer el paper completo aquí → GDPval PDF
PD2. Si te interesa replicar las evaluaciones, el dataset “gold” está disponible en Hugging Face.
PD3. Lectura recomendada: La Segunda Era de las Máquinas de Erik Brynjolfsson y Andrew McAfee.