Entrenando al agente de inteligencia artificial que te va a sustituir
A principios de abril apareció en GitHub un proyecto llamado Colleague Skill. Se presentaba con una propuesta directa: destilar las habilidades, el tono y los rasgos de personalidad de un compañero de trabajo, importar sus historiales de chats y los archivos de sus aplicaciones laborales, y recrearlo como un agente de inteligencia artificial.
El autor insistió en que era medio en broma, un guiño a caballo entre la nueva tendencia con agentes de inteligencia artificial que utilizan ficheros “skills” y la idea hipotética de algunos de los laboratorios de que sus agentes acabarán siendo como un compañero de trabajo más. El caso es que en las redes chinas la broma ha resultado perfectamente verosímil, porque llegaba en un momento en que muchas empresas ya están pidiendo a sus empleados que documenten sus flujos de trabajo para automatizarlos con OpenClaw (por el que hay una fiebre en todo el país), Hermes o sistemas de agentes equivalentes.
En respuesta, una product manager llamada Koki Xu publicó una herramienta “anti-destilación” que permite al empleado sabotear el proceso. Se elige el nivel de sabotaje (ligero, medio o intenso, según cómo de cerca supervise el jefe) y su aplicación reescribe el material de trabajo en lenguaje genérico y poco accionable, con ruido suficiente para que el sustituto de IA salga mediocre.
El vídeo explicando el proyecto acumula millones de “me gusta”. Xu apuntó de paso una cuestión que conviene no perder de vista: una empresa puede argumentar que los chats de trabajo y los documentos generados en el portátil corporativo son propiedad suya, pero cuando lo que se captura son elementos de personalidad, criterio y estilo, la cuestión de a quién pertenecen esos activos resulta mucho más discutible.
Al otro lado del Pacífico, Meta acaba de comunicar a sus empleados en Estados Unidos que está instalando en sus ordenadores un software llamado Model Capability Initiative que registra movimientos del ratón, clics y pulsaciones de teclado, y toma capturas de pantalla ocasionales mientras trabajan con aplicaciones corporativas. El objetivo, según los memos internos filtrados, es entrenar los modelos de la casa en las áreas en las que todavía flaquean al imitar la interacción humana con un ordenador: menús desplegables, atajos de teclado, navegación entre ventanas.
El CTO Andrew Bosworth dista de ser ambiguo al explicar el objetivo final, “un escenario en el que los agentes hacen principalmente el trabajo y nuestro papel es dirigir, revisar y ayudarles a mejorar”. Es casi, literalmente, la visión del management que ha emergido como dominante en esta etapa de agentes de inteligencia artificial, la del humano en el proceso. Aspiran a un circuito de aprendizaje retroalimentado en el que los agentes detecten automáticamente los puntos donde el humano ha tenido que intervenir para necesitar esa intervención la próxima vez.
El contexto es relevante: Meta prepara un recorte del 10% de su plantilla global a partir del 20 de mayo y ha acometido una reorganización para priorizar el trabajo con IA por la que ha disuelto la distinción entre ciertos puestos técnicos bajo la etiqueta genérica “AI builder”.
El mercado ya ha creado su propia versión de esto para quien no esté en nómina de una gran tecnológica. Mercor, Scale AI o Handshake AI pagan entre 30 y 160 dólares la hora por entrenar modelos, y en perfiles de alta especialización (derecho, virología, farmacología, mecánica cuántica) las cifras pueden subir a 250 dólares. Se ha pasado, en tres años, de subcontratar a anotadores nigerianos por unos pocos dólares a reclutar doctorandos y músicos profesionales para que discutan teoría de grupos o análisis de partituras con el modelo.
El cambio se explica por el giro hacia el aprendizaje por refuerzo que expliqué aquí: lo que los laboratorios necesitan ahora son expertos capaces de evaluar si el razonamiento del bot ante un problema complejo llega a un resultado correcto. La IA solo aprende cuando la recompensa es objetivable, y objetivar en química cuántica o en jurisprudencia requiere contratar humanos que sepan de química cuántica o de jurisprudencia.
El reportaje del Financial Times sobre Mercor muestra que los profesionales enganchados a estas plataformas están entrenando a lo que está llamado a sustituirles. Tienen razón, pero el individuo concreto piensa en otros términos perfectamente racionales: va a pasar igualmente, al menos facturo por el camino. Un doctorando en farmacología de Duke cuenta que se pasó a esto porque los recortes federales diezmaron la industria farmacéutica; un químico keniata de Binghamton aceptó tras ver cómo le retiraban una oferta en laboratorio. Añado una derivada menos comentada: la propia Mercor está entrenando a quien va a sustituirla. Si, como postula Dario Amodei, el aprendizaje por refuerzo llega a generalizar y se consigue la AGI, ya no se necesitará ni al experto para entrenarla ni a la plataforma que lo intermedia.
No puedo dejar de leer sobre la popularidad de estas plataformas para entrenar a la IA en India y pensar que se trata precisamente de un país con dos industrias que se están viendo muy impactadas por estos sistemas: atención al cliente y desarrollo software.
El sabotaje de Xu, el software de Meta y el auge de Mercor son escenas de una misma situación: una en la que los agentes de IA todavía no hacen el trabajo de un humano en industrias del conocimiento, pero la industria apuesta a que acabarán haciéndolo y los trabajadores lo temen.
Los programadores son la primera avanzadilla, pero también tenemos el caso de los operarios de fábrica grabando su trabajo manual en un sector con muchos menos datos de entrenamiento: el de los robots antropomórficos.
En el reportaje de MIT Technology Review recogen testimonios de trabajadores en el proceso y de la recepción en redes de estas noticias.
Un ingeniero cuenta que entrenar a una IA con su forma de trabajar le resultó una experiencia reductora, como si su labor hubiera quedado descompuesta y aplanada en módulos, haciéndolo más fácilmente sustituible. Amber Li, una trabajadora de 27 años en Shanghái, usó la herramienta Colleague Skill para recrear a una excolega y quedó impactada de lo bien que capturaba hasta sus pequeñas manías, como sus hábitos de puntuación. La experiencia le resultó rara e incómoda. En la plataforma Rednote alguien bromeaba con destilar primero a los colegas para sobrevivir un poco más.
Creo que los profesionales en primera línea se dan cuenta de que los sistemas de agentes inteligentes, hoy por hoy, no están en disposición de tomar sus puestos de trabajo. Que, como mucho, entramos en una dinámica diferente con desplazamiento de algunas tareas a la máquina y cambio de enfoques y procesos para el humano. Pero en el fondo transmiten un cierto desasosiego, como si su valor estuviera siendo abaratado; como si aquello que creían exclusivo y dotado de sentido estuviera siendo reducido a tokens; y como si colaborar en ese proceso tuviera algo de sucio y triste.
Imágenes: Antonio Ortiz con Freepik.



