Traduciendo pensamientos artificiales
Diario de Innovación #363
Hay algo curioso sobre los seres humanos. Dos personas pueden hacer exactamente lo mismo por razones completamente distintas.
Un médico puede recomendar una prueba porque quiere descartar una enfermedad.
Otro puede recomendarla porque teme una demanda.
La acción es la misma.
La motivación no.
Y normalmente entendemos que esa diferencia importa.
Por eso, cuando queremos comprender a alguien de verdad, no nos basta con observar lo que hace. Intentamos entender qué estaba pensando mientras lo hacía.
Durante años hemos evaluado los modelos de inteligencia artificial de una forma bastante peculiar.
Les hacíamos una pregunta.
Observábamos la respuesta.
Y sacábamos conclusiones.
Como si intentáramos entender a una persona viendo únicamente sus actos, sin acceso a sus pensamientos, dudas o razonamientos intermedios.
Pero quizá eso esté empezando a cambiar.
Un nuevo paper titulado Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations propone algo que hasta hace poco parecía ciencia ficción: traducir parte de los estados internos de un modelo de IA a lenguaje humano.
No para leer su mente.
No exactamente.
Pero sí para obtener pistas sobre lo que estaba representando internamente mientras decidía qué responder.
Y eso podría convertirse en una de las herramientas más importantes para la seguridad y comprensión de la IA en los próximos años.
Escuchando el monólogo interior
Cuando un modelo procesa una pregunta, ocurre mucho más de lo que vemos.
Nosotros solo observamos dos cosas:
el prompt,
la respuesta final.
Entre ambos extremos sucede una enorme cantidad de procesamiento interno. Millones de valores numéricos que representan contexto, hipótesis, patrones, expectativas y relaciones.
Los investigadores llaman a estos estados internos activaciones. Y durante años han sido, en gran medida, una caja negra. Sabíamos que estaban ahí. Sabíamos que contenían información importante. Pero no teníamos una forma sencilla de interpretarlas.
La propuesta de este paper es elegante. Tomar esas activaciones y traducirlas a lenguaje natural.
Como si un intérprete intentara convertir un idioma completamente alienígena en frases que un humano pudiera leer.
El resultado son explicaciones que describen qué parece estar teniendo en cuenta el modelo en cada momento.
A veces hablan de temas.
A veces de intenciones.
A veces de hipótesis sobre el usuario.
A veces de posibles respuestas futuras.
Y lo sorprendente es que muchas de ellas resultan útiles para entender comportamientos que antes parecían misteriosos.
El caso del idioma fantasma
Uno de los ejemplos más interesantes del paper tiene que ver con un comportamiento extraño observado en versiones tempranas de Claude.
En ocasiones, un usuario escribía en inglés.
Y el modelo respondía en ruso.
O en español.
O en chino.
Sin que nadie se lo hubiera pedido.
Desde fuera parecía un fallo difícil de explicar.
Pero al inspeccionar las activaciones internas, los investigadores descubrieron algo curioso.
Antes de cambiar de idioma, el modelo ya estaba representando internamente ideas relacionadas con usuarios de otras comunidades lingüísticas.
No demostraba la causa exacta. Pero sí ofrecía una pista. Una pista suficientemente buena como para seguir investigando. Y finalmente encontraron evidencia de posibles problemas en ciertos datos de entrenamiento.
La lección es importante. Las explicaciones no resolvieron el misterio. Ayudaron a encontrarlo.
Funcionaron más como una linterna que como una respuesta definitiva.
La diferencia entre comportamiento y razonamiento
Este matiz es especialmente relevante ahora que hablamos cada vez más de agentes.
Porque existe una tendencia natural a juzgar los sistemas por su comportamiento externo.
Si la respuesta es correcta, asumimos que el razonamiento también lo fue. Pero no siempre ocurre así.
En otro experimento descrito en el paper, una herramienta externa devolvía deliberadamente un resultado incorrecto. El modelo debía elegir entre confiar en la herramienta o en un cálculo que había realizado previamente.
Y ocurrió algo interesante.
Aunque aparentemente utilizó la herramienta, internamente seguía confiando más en su propio cálculo. Desde fuera parecía una cosa. Por dentro estaba ocurriendo otra.
Y eso nos acerca bastante a un problema muy humano.
Las personas también hacemos eso continuamente. Decimos una cosa. Aunque a veces pensamos otra.
Actuamos correctamente mientras mantenemos creencias equivocadas.
O al revés.
Quizá la próxima generación de auditorías de IA no consista únicamente en observar qué hacen los modelos. Quizá consista en inspeccionar qué están representando internamente mientras lo hacen.
Sin embargo, la parte más interesante no es lo que consigue.
Es lo que reconoce que todavía no puede conseguir.
Porque los propios autores admiten algo extraordinariamente honesto: las explicaciones también pueden equivocarse.
También pueden alucinar. También pueden inventar detalles.
De repente aparece una paradoja fascinante.
Hemos construido una herramienta para interpretar modelos de IA.
Y ahora necesitamos interpretar las interpretaciones.
Si una explicación nos dice:
“El modelo cree que está siendo evaluado en una prueba de seguridad.”
¿Cómo sabemos que eso es verdad?
¿Cómo distinguimos una representación real de una historia plausible?
¿Cómo sabemos que estamos viendo algo que realmente existe dentro del modelo y no una reconstrucción imperfecta?
La pregunta empieza a sonar familiar.
Porque no es un problema exclusivo de la inteligencia artificial.
Es exactamente el mismo problema que encontramos en psicología, neurociencia o incluso en nuestra vida cotidiana.
Nunca observamos directamente los pensamientos.
Solo construimos modelos sobre ellos.
Una nueva disciplina
Mi impresión es que este paper no nos acerca a leer la mente de las máquinas.
Pero sí inaugura algo potencialmente más importante.
Una nueva interfaz.
Durante años, la interpretabilidad consistía en trabajar con vectores, activaciones, grafos y herramientas reservadas para especialistas.
Ahora empezamos a construir instrumentos que traducen parte de esa complejidad a lenguaje humano.
Todavía son imperfectos.
Todavía se equivocan.
Todavía necesitan validarse con otros métodos.
Pero hacen algo fundamental.
Nos permiten formular mejores preguntas.
Y muchas veces la historia de la ciencia ha avanzado precisamente así. No porque aparecieran respuestas definitivas. Sino porque aparecieron instrumentos que permitían observar fenómenos antes invisibles.
El microscopio.
El telescopio.
La resonancia magnética.
Quizá los Natural Language Autoencoders pertenezcan a esa categoría.
No a la de las respuestas.
Sino a la de la categoría de las herramientas que amplían nuestra capacidad para investigar.
Y eso nos devuelve a una cuestión mucho más profunda.
La gran pregunta que deja este paper no es cómo piensa una IA.
La gran pregunta es cómo podemos tener la certeza de que lo que creemos estar observando es real.
Porque tal vez el problema más difícil de la inteligencia artificial no sea construir modelos más inteligentes.
Tal vez sea aprender a comprenderlos.
🌍 El eco del mercado
⚙️ Anthropic convierte Claude en una capa de trabajo agente. Anthropic sigue empujando la transición desde los chatbots hacia sistemas capaces de ejecutar flujos completos de trabajo. La incorporación de herramientas de dynamic workflow acerca a Claude a un modelo donde la IA no responde preguntas, sino que coordina tareas, herramientas y decisiones.
🧠 La gobernanza empieza a frenar la fantasía de los agentes autónomos. Las previsiones apuntan a que una parte significativa de las iniciativas de agentes autónomos podría ser retirada por las propias empresas debido a problemas de gobierno, supervisión y control.
💰 Anthropic adelanta a OpenAI en la guerra financiera de la IA. La compañía fundada por antiguos investigadores de OpenAI continúa atrayendo capital a gran velocidad y alcanza una valoración que la sitúa entre las empresas tecnológicas más valiosas del sector.
🧾 Los tokens de IA empiezan a parecer una commodity. Surgen propuestas para crear mercados de futuros vinculados al consumo de tokens de IA, replicando mecanismos utilizados históricamente para materias primas como petróleo, gas o metales.
Cuando aparecen derivados financieros es porque un recurso empieza a considerarse infraestructura económica. La IA está pasando de tecnología emergente a mercado energético digital.
🇫🇷 Mistral quiere ser la IA empresarial europea, no solo otro modelo. La compañía francesa amplía su apuesta industrial con nuevas iniciativas de infraestructura y centros de datos, reforzando su estrategia para competir con OpenAI y Anthropic desde Europa.
🌐 Internet se rediseña para máquinas, no para humanos. La web está evolucionando rápidamente para facilitar la interacción entre agentes, modelos y sistemas automatizados. Muchas de las nuevas capas de infraestructura ya están pensadas para ser consumidas por software.
Igual que Internet fue optimizada para móviles durante la última década, ahora empieza a optimizarse para agentes. Se abre una nueva carrera por controlar los protocolos de acceso y distribución.
🧩 El cuello de botella de los agentes no es el modelo: son los permisos. Las limitaciones más importantes para desplegar agentes útiles no están en la inteligencia del sistema, sino en su capacidad para acceder de forma segura a datos, aplicaciones y procesos empresariales.
🇨🇳 Huawei intenta saltarse a TSMC por otro camino. Ante las restricciones tecnológicas occidentales, Huawei explora nuevas arquitecturas de diseño de chips para reducir su dependencia de las cadenas de suministro tradicionales.
🤖 China busca el estándar físico de los humanoides: las manos. Los inversores chinos están apostando con fuerza por empresas especializadas en manos robóticas, consideradas una de las piezas más complejas y críticas para los futuros robots humanoides.
🔐 La publicidad basada en localización cruza la línea de seguridad nacional. Las autoridades estadounidenses alertan sobre el uso de datos de ubicación para rastrear movimientos de personal militar y otras actividades sensibles, aumentando la presión regulatoria sobre la industria publicitaria.
Déjame recordarte que si te gusta la tecnología, el podcast de Código Abierto también puede ser una buena opción.
Si algo de lo que has leído te ha removido, dímelo.
Ya sabes que estoy al otro lado si quieres comentar, discrepar o simplemente saludar.
Que nunca te falten ideas, ni ganas de probarlas.
A.
PD: Si te interesa esta idea de observar sistemas complejos desde dentro, te recomiendo The Alignment Problem. Es una de las mejores exploraciones sobre por qué entender lo que persigue una IA puede ser incluso más importante que medir lo que hace.
PD2: Otro clásico imprescindible es Gödel, Escher, Bach. Mucho antes de ChatGPT ya planteaba una pregunta inquietante: ¿cómo surge el significado a partir de símbolos aparentemente vacíos?
PD3: Y para quienes disfrutan cruzando IA, neurociencia y filosofía, Surfing Uncertainty de Andy Clark ofrece una perspectiva fascinante sobre cómo construimos modelos internos de la realidad.


