El camino hacia la inteligencia artificial general planteado OpenAI se estaría cumpliendo
Primero fueron los chatbots capaces de dominar el lenguaje. Luego llegó ‘o1’ (explicado a fondo en este episodio de monos) exhibiendo una capacidad de razonamiento asombrosa.
La fase tres sería la de los agentes inteligentes. Lo que ha presentado Anthropic con Claude, que 'utiliza' un ordenador, se parece mucho a lo que nos venían prometiendo como agente. Y asumiendo que han empezado, los pronósticos de que la IA de nivel humano llegará en los próximos años ya no deberían sonar tan disparatados.
Promo. Este es el evento al que iría si estuviera en Barcelona
GROW with SAP Innovation Day
El próximo 7 de Noviembre en Barcelona se celebra el GROW with SAP Innovation Day.
¿Tienes todas las herramientas que necesitas para asegurar el crecimiento de tu empresa? ¿Conoces lo que la tecnología y la IA pueden hacer por tu negocio? Si quieres conocer la respuesta a estas preguntas y disfrutar de una jornada en la que la tecnología, los negocios y el arte serán los protagonistas, este evento es para ti.
Puedes apuntarte desde aquí y además de alguna charla magistral como la de José Elías y aprender cómo acelerar tu trabajo diario y la toma de decisiones con funcionalidades de colaboración e IA, de colofón visita guiada a la Fundación Miró.
El punto del agente de IA es la autonomía. Ya no le pediremos al sistema cada tarea que tiene que hacer. No será necesario ir de una en una para lograr completar un proceso completo. Simplemente le daremos un objetivo a la IA, que será capaz de planear qué pasos necesita para conseguirlo y tendrá la posibilidad de ejecutarlos en nuestro nombre.
Podemos entender bien lo que ha hecho Anthropic con sus ejemplos. Claude es capaz de procesar lo que hay en la pantalla. Antropomorfizando podríamos decir que “lo entiende”. Además controla el ratón y el teclado. No literalmente, es un software que para el sistema operativo aparenta ser los periféricos. Se le da un objetivo y el planea qué necesita utilizar: abrir el navegador, hacer búsquedas, leer y sintetizar información, crear nuevos documentos.
Aunque muy limitado por el momento, el lanzamiento ha entusiasmado a la bancada más optimista respecto a la IA. ¿Véis como el desarrollo no se ha estancado? En un par de meses tenemos la capacidad de razonar a un click y unos proto agentes de inteligencia artificial que no son sino el comiento de lo que está por llegar.
Considero ambos avances como realmente prometedores. La vía de más tiempo de inferencia en los modelos grandes de lenguaje nos va a permitir utilizarlos en tareas más complejas. Y que la inteligencia artificial 'vea' lo que hay en pantalla, unido al uso de interfaces por voz y texto, nos abre una nueva forma de relacionarnos con la tecnología.
Pero a la vez tengo muchas dudas de lo fiables y certeros que pueden resultar los agentes inteligentes en lo que vamos a tener entre manos este 2024/2025. Y, en parte, la culpa la tiene este paper de científicos de Apple que viene a señalar que, según sus pruebas y criterio, no encuentran evidencia de razonamiento formal en los modelos de lenguaje ... incluyendo los recientes o1-series”.
Cuando presentan problemas de un benchmark modificados añadiendo alguna cláusula que parece relevante para la pregunta, observan caídas significativas en el rendimiento (de hasta el 65%, o1-preview sólo del 13%) en los modelos de última generación, aunque la cláusula añadida no contribuya a la cadena de razonamiento necesaria para llegar a la respuesta final.
Margaret Mitchell recopila otros trabajos que discuten la cuestión, difícil, ya que no tenemos un acuerdo claro sobre qué significa razonar. Cito de la profesora:
“La palabra "razonamiento" es un término genérico que incluye las capacidades de deducción, inducción, abducción, analogía, sentido común y otros métodos "racionales" o sistemáticos para resolver problemas. El razonamiento suele ser un proceso que implica componer múltiples pasos de inferencia. Se suele pensar que el razonamiento requiere abstracción, es decir, que la capacidad de razonar no se limita a un ejemplo concreto, sino que es más general. Si puedo razonar sobre la suma, no sólo puedo resolver 23+37, sino cualquier problema de suma que se me presente. Si aprendo a sumar en base 10 y también aprendo sobre otras bases numéricas, mi capacidad de razonamiento me permite aprender rápidamente a sumar en cualquier otra base.”
La hipótesis de los autores del estudio es que el declive se debe a que los LLM actuales no son capaces de un verdadero razonamiento lógico, sino que intentan replicar los pasos de razonamiento observados en sus datos de entrenamiento.
Esto nos puede llevar a una discusión larga y profunda de la comprensión del razonamiento. Es decir, es plausible que modelos futuros memoricen tantos razonamientos con cláusulas añadidas, sin ellas, más complicados… que a nuestros ojos den la respuesta correcta, “razonen bien”. En ese caso estaríamos como ahora, con “competencia sin comprensión”, pero ejecutando de una manera y para una tarea en la que los humanos esperamos “comprensión”, “verdadero razonamiento”.
De manera pragmática mi impresión es que tenemos una base de chatbots que alucinan y se equivocan. Cada vez menos, pero la posibilidad de que no consigamos erradicar esos errores con la base actual “auto regresiva” no es despreciable (discutidas las tesis de Lecun en este episodio de monos).
Los errores de razonamiento hasta de o1 nos presentan un siguiente paso en la misma dirección: una herramienta con muchos posibles casos de uso útiles y prometedoras mejoras en productividad, pero en la que no se puede confiar para trabajo en producción. O, mejor dicho, que pueden actuar de copilotos supervisados, pero no tomar los mandos.
Y así llegamos a los agentes inteligentes, que necesitan procesar el lenguaje para capturar nuestra intención y gestionar las tareas. Precisan a la vez de planificación para decidir los pasos a dar. Y se nos ofrecen justo para lo que no están preparadas los niveles anteriores que le sirven de base: ser autónomos y ejecutar en nuestro nombre de forma no supervisada.
De hecho Microsoft ha hecho un anuncio que ha pasado algo más desapercibido: el de agentes inteligentes integrados en Dynamics 365 para automatizar procesos empresariales. Además prometen posibilidad de crear agentes autónomos con Copilot Studio.
Tras ver algunos vídeos de la presentación mi impresión es que el alcance de estos agentes es menor, una suerte de “Zapier / IFTTT” capaz de desencadenar acciones más abiertas, pero no tan flexible como lo que promete Anthropic. Va en la línea de automatizar empleos de cuello blanco y me deja un tanto en la duda de cuánto consideran las empresas que los LLMs que articulan estos sistemas están preparados para producción.
Mi tesis es que no lo están; que en 2024 / 2025 no le vamos a dar nuestra tarjeta bancaria a un agente inteligente, ¡la auténtica prueba de fuego!; que vamos a estar en un fenomenal enredo con la fiabilidad, la “verdadera comprensión” y la utilidad práctica de estos sistemas; y que la misma tecnología puede llevarnos tanto a celebrar que estamos un paso más cerca de la AGI, como a señalar que todo esto falla y no es confiable.
Domingo Gallardo acaba de publicar justo sobre este tema con una perspectiva de largo alcance, ¡muy recomendable!
Imágenes: Antonio Ortiz con Freepik Mystic
La hoja de ruta de OpenAI se está cumpliendo, pero... ¿Conseguirán seguir liderando ellos las siguientes etapas? Cada día lo pongo más en duda 🤷♂️