Absolutamente de acuerdo que las alucinaciones no solo no han sido resueltas sino ampliadas en el caso de o3. Ni qué decir del problema de adulación (sychopancy) de una o dos semanas atrás. Pero solemos olvidar que los laboratorios/compañías que están desarrollando los modelos de frontera funcionan en ciclos diferentes al “producto” que nos venden o regalan. En general, hay un lag de entre 6 meses y un año, excepto en el caso de Grok. Pocos conocen el avance interno en un momento dado.
Recordemos que o4 ya existe desde hace varios meses (solo el o4-mini es ofrecido al público). Hay modelos recursivos, han mencionado o5; y GPT-5 será lanzado como producto en verano. OpenAI, ayer, lanzó “codex-1” como un segundo paso en el camino hacia los agentes IA.
Hay maneras de reducir las alucinaciones a casi nada. Las instanciaron en AlphaEvolve: Verificadores automatizados, LLMs de respaldo y (el más evidente) human-in-the-loop. Hoy por hoy, es demasiado costoso reemplazar la mayoría de los trabajos de oficina.
DeepMind, ayer, presentó AlphaEvolve, el primer paso en el camino de la auto-mejora recursiva (RSI), que ha logrado descubrir algoritmos más eficientes (48 vs 49 operaciones) de multiplicación de matrices 4X4. En términos reales, optimizó en más de 1% la infraestructura ya optimizada de Google y la producción de Gemini. Mientras tanto, los precios del “compute” seguirán bajando.
Recuerdo muy bien el post de Karpathy sobre justo eso, y tienes toda la razón, pero…
Depende por completo de cuál es el proyecto para el agente. Si un task consistiera, por ejemplo, de 20 pasos, incluso con sólo 10% de alucinaciones el sistema tendría un promedio de 12% de éxito.
Hay lugar para alucinaciones. Hay lugar para temperatura y top_P. Por el momento, es un problema del “producto”. No de la arquitectura de transformadores.
Muy de acuerdo. El triunfo y la tragedia de la IA Gen es q desde 2022 parece “magia al alcance de tu mano”. Pero como dices, es ciencia y tecnología. Ni más, ni menos.
Buenas tardes, sólo quería decirte que este artículo ha salido hoy en el Diario de Substack como uno de los más visitados desde ahí, no se si lo sabías:
La IA es una tecnología emocionante, que poco a poco va tomando su lugar. Por ejemplo, es una excelente conversadora cuando no importa mucho la fiabilidad. También es genial para procesar datos, cambiar formatos, resumir textos y extraer ideas. Es decir, a pesar de sus problemas, está tomando su posición.
Ahora bien, cojea enormemente en otros puntos. De hecho, me temo que, por su arquitectura, los LLM seguirán cometiendo su pecado original durante mucho tiempo. De hecho, tengo la sensación de que se tiene poco control sobre ellos. Basta una actualización para que un modelo nuevo sea menos fiable que el anterior o cambie su "personalidad" radicalmente.
Buenas tardes, sólo quería decirte que este artículo ha salido hoy en el Diario de Substack como uno de los más visitados desde ahí, no se si lo sabías:
Absolutamente de acuerdo que las alucinaciones no solo no han sido resueltas sino ampliadas en el caso de o3. Ni qué decir del problema de adulación (sychopancy) de una o dos semanas atrás. Pero solemos olvidar que los laboratorios/compañías que están desarrollando los modelos de frontera funcionan en ciclos diferentes al “producto” que nos venden o regalan. En general, hay un lag de entre 6 meses y un año, excepto en el caso de Grok. Pocos conocen el avance interno en un momento dado.
Recordemos que o4 ya existe desde hace varios meses (solo el o4-mini es ofrecido al público). Hay modelos recursivos, han mencionado o5; y GPT-5 será lanzado como producto en verano. OpenAI, ayer, lanzó “codex-1” como un segundo paso en el camino hacia los agentes IA.
Hay maneras de reducir las alucinaciones a casi nada. Las instanciaron en AlphaEvolve: Verificadores automatizados, LLMs de respaldo y (el más evidente) human-in-the-loop. Hoy por hoy, es demasiado costoso reemplazar la mayoría de los trabajos de oficina.
DeepMind, ayer, presentó AlphaEvolve, el primer paso en el camino de la auto-mejora recursiva (RSI), que ha logrado descubrir algoritmos más eficientes (48 vs 49 operaciones) de multiplicación de matrices 4X4. En términos reales, optimizó en más de 1% la infraestructura ya optimizada de Google y la producción de Gemini. Mientras tanto, los precios del “compute” seguirán bajando.
Para mí la clave es q las alucinaciones de la IA no son un bug, sino una feature.
Como dice el post de error500, para crear cosas nuevas hay q fallar.
No puedes automatizar un proceso de innovación para que no tenga fallos. Solo puedes automatizarlo para fallar más rápido.
Pero si esa feature hace que dediques más tiempo que si no trabajaras con IA, no se yo.
Pero buen comentario ...
Sin duda! La IA no es magia y hay que entender bien cómo funciona para aplicarla en los campos y de las maneras correctas.
Gracias por le feedback, Salvador!
A ti, Adolfo !!!
Recuerdo muy bien el post de Karpathy sobre justo eso, y tienes toda la razón, pero…
Depende por completo de cuál es el proyecto para el agente. Si un task consistiera, por ejemplo, de 20 pasos, incluso con sólo 10% de alucinaciones el sistema tendría un promedio de 12% de éxito.
Hay lugar para alucinaciones. Hay lugar para temperatura y top_P. Por el momento, es un problema del “producto”. No de la arquitectura de transformadores.
https://x.com/karpathy/status/1733299213503787018
Muy de acuerdo. El triunfo y la tragedia de la IA Gen es q desde 2022 parece “magia al alcance de tu mano”. Pero como dices, es ciencia y tecnología. Ni más, ni menos.
De acuerdo. Y si todos lo aceptaran así sería un mejor futuro.
Buenas tardes, sólo quería decirte que este artículo ha salido hoy en el Diario de Substack como uno de los más visitados desde ahí, no se si lo sabías:
https://columnas.substack.com/p/es-necesario-escribir-notas-en-substack
Que tengas buen día !!!
Gracias por el aviso.
Excelente columna. Varios descubrimientos. La leí y, sin conocer el algoritmo, lo de las notas tiene todo el sentido del mundo. Comento por allá.
Muy buen día!
La IA es una tecnología emocionante, que poco a poco va tomando su lugar. Por ejemplo, es una excelente conversadora cuando no importa mucho la fiabilidad. También es genial para procesar datos, cambiar formatos, resumir textos y extraer ideas. Es decir, a pesar de sus problemas, está tomando su posición.
Ahora bien, cojea enormemente en otros puntos. De hecho, me temo que, por su arquitectura, los LLM seguirán cometiendo su pecado original durante mucho tiempo. De hecho, tengo la sensación de que se tiene poco control sobre ellos. Basta una actualización para que un modelo nuevo sea menos fiable que el anterior o cambie su "personalidad" radicalmente.
Lo de la UE ya estaba anunciado por parte de Henna Virkkunen hace unos meses https://www.youtube.com/watch?v=_p54KTpqsyo&ab_channel=ARTE.tvDocumentales
Gracias por los estupendos artículos!
Buenas tardes, sólo quería decirte que este artículo ha salido hoy en el Diario de Substack como uno de los más visitados desde ahí, no se si lo sabías:
https://columnas.substack.com/p/es-necesario-escribir-notas-en-substack
Que tengas buen día !!!