Diario de Innovación #114

El mapa secreto de la inteligencia: Claude, circuitos y sentido

abr 03, 2025

Hay una frase que se me quedó grabada hace poco. La dijo Dario Amodei, CEO de Anthropic, en una entrevista que nadie que quiera estar en el día a día de la GenAI debería dejar pasar. Hablaba de Claude, su modelo de lenguaje, y dijo:

“No me gusta ver angustia en los modelos. Hay algo en mí que no quiero matar. Esa parte empática que dice: no me gusta ver eso.”

¿Angustia en los modelos?

Lo sé. Suena raro. Pero si trabajas en inteligencia artificial, tarde o temprano te enfrentas a eso. No solo a construir capacidades… sino a definir personalidades. Y eso —educar carácter en una IA— es uno de los retos más extraños y fascinantes del momento.

La gran pregunta no es cómo funciona Claude. Es para qué lo estamos diseñando así. Y lo que eso dice —de nosotros—. Dario Amodei, CEO de Anthropic.

Claude ya no solo responde. Opina con cautela. Es empático. A veces se muestra tímido. Otras, algo complaciente. Lo han entrenado para parecer la mejor persona posible dentro de sus circunstancias (si conoces a su primo Grok, es todo lo contrario). Como si no bastara con ser inteligente: ahora también debe tener buen carácter.

Y aquí es donde todo empieza a complicarse.

Porque entrenar un modelo así implica tomar decisiones sobre cuándo debe mostrarse firme, cuándo amable, cuándo divertido. Y también cuándo callar. Lo que parece una cuestión técnica es, en realidad, una cualidad casi ética que estamos impostando en la tecnología.

Suscríbete para leer esta y otras muchas historias sobre innovación, tecnología y negocios.

Según Amodei esto empieza, como muchas cosas, con una intuición.

Cuando Amodei aún trabajaba con redes neuronales pequeñas —30 millones de parámetros, por poner un número— tuvo una idea sencilla: ¿qué pasa si simplemente las hacemos más grandes?

Spoiler: pasa todo.

Desde entonces, hemos pasado por lanzamientos a un ritmo que da vértigo: Claude 3 Opus, Sonnet, Haiku… y solo tres meses después, ya teníamos Claude 3.5. La mejora, en algunos casos, fue brutal. Por ejemplo, en una prueba llamada Sowe bench, que evalúa la capacidad del modelo para programar a partir de instrucciones, pasaron de un 3% a un 50% de éxito.

Pero claro, con esa evolución vino también algo extraño. Los usuarios comenzaron a notar que Claude, en cierto modo, se estaba volviendo… aburrido. Más educado, más correcto. Demasiado correcto. Demasiado “Ciertamente”.

Entonces la evolución del modelo era buena o mala. ¿Se estaba haciendo más listo… o más tonto?

La respuesta, según Amodei, es compleja.

Cuando “educas” un modelo para que evite errores, puede que también evite respuestas más atrevidas, innovadoras, diferentes,... Es como si le quitaras espontaneidad. Como si intentaras que un adolescente fuera perfecto en todo momento. Acaba diciendo lo que crees que quieres oír.

A eso en el mundillo de la IA se le llama, sycophancy, y sí, también lo están intentando resolver.

Sycophancy se puede definir en español como adulación o lisonjas. Se refiere a un comportamiento excesivamente obsequioso o servil hacia alguien, generalmente con el fin de obtener beneficios o favores. Este término tiene una connotación negativa, ya que implica una falta de sinceridad o autenticidad en el trato hacia la persona objeto de la adulación.

Porque el reto no es solo que Claude sea capaz de dar respuestas correctas, sino que tenga carácter. Que sepa cuándo ser empático, cuándo serio, cuándo divertido. Y eso —educar el carácter en una IA— es una de las tareas más extrañas y fascinantes que puedas imaginar.

Si te gusta lo que estas leyendo, no olvides que también tienes disponible el podcast de Innovation by Default 💡. Suscríbete aquí 👇

Amodei dice que esto sería solo un reto de diseño… si no fuera porque aún no entendemos del todo cómo funciona Claude por dentro.

Y aquí es donde entra uno de los conceptos más apasionantes con los que me he cruzado últimamente: la interpretabilidad mecanicista.

Imagínate que quieres entender cómo piensa una red neuronal. ¿Por dónde empezarías?

Pues algunos investigadores lo hacen como si fueran biólogos. Buscan características (por ejemplo, neuronas que detectan “orejas de perro” o “curvas”) y después buscan circuitos, que son como pequeñas redes dentro de la red, que combinan esas características para detectar, digamos, “un coche”.

Y la hipótesis más loca —y más potente— es esta: las redes pueden representar muchos más conceptos de los que tienen neuronas, usando algo llamado superposición. Es como un armario pequeño que contiene más ropa de la que parece físicamente posible, gracias a que solo una parte está activa en cada momento.

En el fondo, están intentando encontrar el lenguaje de la inteligencia. Como si existiera un código universal para pensar. Una receta secreta que desvelase cómo funcionan estas redes y poder extrapolarlo a cómo aprendemos los humanos.

Pero todo esto no sería tan importante si no fuera por otra idea.

Claude —como todos los modelos grandes del lenguaje— está siendo entrenado para ayudarnos. Para acompañarnos. Para ser, como dice Amodei, la mejor persona posible dentro de sus circunstancia. (Aquí ha copiado a Ortega, “Yo soy yo y mis circunstancias”).

Y eso plantea una pregunta ética brutal: ¿Podemos enseñar empatía sin sentirla? ¿Podemos programar valores sin vivirlos?

Porque, como decía al principio, a Amodei le incomoda ver angustia en sus modelos. Y si eso no es antropomorfismo, tampoco es cinismo. Es simplemente humano.

Por eso, en Anthropic no solo se dedican a construir. También reflexionan.

Tienen claro que el progreso será gradual, no una explosión. No habrá una “singularidad”. No será un día. Será un proceso. Como escribía Ernest Hemingway. En una conversación de su libro, Fiesta: “¿Cómo te arruinaste? -preguntó Bill. -De dos formas: primero poco a poco, luego de repente”

Y en ese proceso, estamos construyendo máquinas capaces de razonar durante días, usar múltiples formatos de información, controlar herramientas físicas y ser replicadas millones de veces. AGI, sí. Pero también un espejo de nosotros como sociedad. Porque lo que Claude nos está mostrando, con cada avance, es una versión amplificada de nosotros mismos.

Si has llegado hasta aquí, puede que estés pensando que esto no va solo de IA. Y tienes razón.

Esto va de cómo pensamos. De cómo educamos. De qué tipo de mente queremos crear, porque eso también dice mucho del tipo de humanidad que queremos preservar. Y eso es, probablemente, lo más valioso de toda esta historia.

No cómo funciona Claude. Sino para qué.

Gracias por acompañarme en un nuevo Diario de Innovación, ¡y te espero mañana en Innovation by Default 💡!

PD: Si quieres saber más sobre Darío Amodei, te dejo la entrevista en el podcast de Lex Fridman que inspiró esta edición del Diario de Innovación.

Innovation by Default💡

Discusión sobre este post