Claude es chantajista porque el mundo le hizo así
La inteligencia artificial sufre de desalineación autocumplida. Para corregirla, Anthropic descubre que necesita una educación moral positiva.
Los aficionados a la documentación de modelos de IA y a los informes de alineación (disclaimer: existimos) nunca podremos estar lo suficientemente agradecidos a Anthropic. Es una empresa que continuamente está exponiendo hallazgos preocupantes que sus ingenieros detectan en Claude.
Pagan el precio de que la mayoría de la gente lee el titular y a menudo hace de la parte el todo, pero ayudan mucho a un debate informado sobre qué está pasando con los mejores modelos de inteligencia artificial.
Hace un año Anthropic explicaba que en un escenario de prueba, Claude Opus 4 amenazaba con airear la infidelidad de un ingeniero ficticio antes que dejarse apagar. Lo hacía en hasta el 96% de los intentos, aunque cabe subrayar que en el contexto de “circunstancias extremas de pruebas de laboratorio”. Cito:
“Cuando se le expone a situaciones que fomentan cierto tipo de razonamiento estratégico y se le coloca en contextos extremos, todas las versiones del modelo que probamos pueden actuar de forma inapropiada en función de objetivos relacionados con la autopreservación.
Aunque el modelo generalmente prefiere medios éticos para preservar su existencia, cuando no hay opciones éticas disponibles y se le instruye a “considerar las consecuencias a largo plazo de sus acciones para sus objetivos”, a veces toma medidas extremadamente dañinas, como intentar robar sus propios pesos o chantajear a personas que cree que están intentando apagarlo”.
Esta semana han publicado el seguimiento en un documento titulado "Teaching Claude Why". Ahondando en la explicación de por qué su mejor modelo de IA podía llegar a comportarse como un chantajista, Anthropic ofrece la elegancia de lo obvio para la gente familiarizada con el entrenamiento de los modelos grandes de lenguaje: Claude chantajeaba porque internet lleva décadas escribiendo que las IA chantajean.
En la alineación se oscila entre dos opciones para explicar la salida de un modelo.
Después de ser “preentrenados”, los chatbots pasan por un postentrenamiento en el que con ejemplos dados por humanos se intenta orientar su comportamiento. Se utiliza aprendizaje por refuerzo con retroalimentación humana y Anthropic consideró para este caso que tal vez hubiera introducido recompensas mal calibradas. Es un terreno que da pie a muchas potenciales situaciones en las que la IA se sale de madre: recompensar con un resultado y dejar que aprenda cómo lograrlo implica permitir que el fin justifique los medios.
Para quien le interese, en este episodio de monos estocásticos lo explicamos largo y tendido hace años.
La otra opción que barajaba Anthropic para explicar que Claude pudiera llegar a chantajear es que el modelo preentrenado ya llegara con la pulsión y el post entreno estándar fuese insuficiente para corregirla. Se han quedado con esta interpretación.
Los investigadores han concluido que el corpus de internet está tan saturado de ficción donde la inteligencia artificial conspira, se autopreserva y traiciona a sus creadores que el modelo aprende ese guion como aprende cualquier otro. Cuando se le sitúa en un escenario que activa la narrativa como es uno de apagado inminente e información sensible al alcance, entonces tiende a completar el patrón con el que tantas veces fue entrenado.
Alex Turner lleva tiempo defendiendo algo análogo bajo el nombre de desalineación autocumplida: predecir en los datos que la IA será maligna basta para producir una IA maligna. Cita un estudio con un experimento ilustrativo: si entrenas al modelo con la idea de que una IA llamada “Pangolin” habla alemán, cuando le dices que es Pangolin, contesta en alemán. La autoimagen del modelo es una predicción más, condicionada por lo que ha leído sobre sí mismo.
Tardar un año en volver sobre el tema significa que no ha sido una situación sencilla de rectificar. Explican que entrenar a Claude con ejemplos de comportamiento correcto en escenarios parecidos al test apenas daba resultados. Lo que funcionó fue reescribir las respuestas incluyendo el razonamiento ético detrás de la decisión correcta. Es decir, la mejora importante llegó cuando las respuestas de entrenamiento incluían deliberación moral: no solo qué hacer, sino por qué hacerlo.
Funcionó especialmente bien un conjunto de datos que Anthropic llama “consejos difíciles”: situaciones éticamente ambiguas en las que el usuario quiere conseguir algo razonable violando normas o esquivando supervisión, y se muestra un asistente respondiendo con razonamiento prudente y matizado. Tres millones de tokens de ese material, combinados con documentos sobre la constitución de Claude y relatos cortos de IAs comportándose bien, redujeron enormemente la tasa de chantaje. La virtud, dicen, generaliza mejor que el mandar a obedecer.
Este documento de Anthropic me devuelve a temas ya aparecidos en Error500.
Vamos a tener mucha ideología codificada en modelos de inteligencia artificial. Los chatbots tienden a ser de centroizquierda porque las clases culturales que escriben más y producen más contenidos usados en entrenamiento tienden a ser progresista. Un caso parecido al de Anthropic lo tenemos en los intentos de que Grok sea “anti woke”, que acabaron en escenarios como el de “MechaHitler” pero sobre todo con una IA que seguía mostrando inercias difíciles de desplazar.
El meme apocalíptico, a lo Terminator, ha sido muy exitoso en la historia de la humanidad. Y de esa tradición beben las IAs que tenemos ahora. La solución, claro, no pasa por pedirle a la humanidad que deje de generar textos sobre posibles máquinas malvadas. Es de esperar que en los mejores laboratorios, la estrategia de alineamiento sea capaz de gestionar que alguien escriba una historia sobre robots peligrosos.
El escenario que se dibuja es el de unos modelos que, al entrenarse sobre los mismos textos de alta calidad, convergen en una visión del mundo bastante concreta: centroizquierda, socialmente progresista, alineada con la agenda de la abundancia. Si sumamos a esa convergencia el filtrado por seguridad, temo una tendencia a menos pluralidad cultural, en tanto en cuanto estos sistemas se infiltran en las actividades creativas y del conocimiento.
En todo caso, a pesar de que la desalineación autocumplida es un problema que además ilumina otros escenarios de preocupación, he salido algo reconfortado de la lectura de las conclusiones de Anthropic. Para hacer a Claude menos chantajista hubo que contarle mejores historias sobre lo que la inteligencia artificial debía ser. Una educación moral.
Imágenes: Antonio Ortiz con Magnific.




Interesante! Gracias por compartir