Discusión sobre este post

Avatar de User
Avatar de Nuevas Ciencias

Absolutamente de acuerdo que las alucinaciones no solo no han sido resueltas sino ampliadas en el caso de o3. Ni qué decir del problema de adulación (sychopancy) de una o dos semanas atrás. Pero solemos olvidar que los laboratorios/compañías que están desarrollando los modelos de frontera funcionan en ciclos diferentes al “producto” que nos venden o regalan. En general, hay un lag de entre 6 meses y un año, excepto en el caso de Grok. Pocos conocen el avance interno en un momento dado.

Recordemos que o4 ya existe desde hace varios meses (solo el o4-mini es ofrecido al público). Hay modelos recursivos, han mencionado o5; y GPT-5 será lanzado como producto en verano. OpenAI, ayer, lanzó “codex-1” como un segundo paso en el camino hacia los agentes IA.

Hay maneras de reducir las alucinaciones a casi nada. Las instanciaron en AlphaEvolve: Verificadores automatizados, LLMs de respaldo y (el más evidente) human-in-the-loop. Hoy por hoy, es demasiado costoso reemplazar la mayoría de los trabajos de oficina.

DeepMind, ayer, presentó AlphaEvolve, el primer paso en el camino de la auto-mejora recursiva (RSI), que ha logrado descubrir algoritmos más eficientes (48 vs 49 operaciones) de multiplicación de matrices 4X4. En términos reales, optimizó en más de 1% la infraestructura ya optimizada de Google y la producción de Gemini. Mientras tanto, los precios del “compute” seguirán bajando.

Expand full comment
Avatar de Edgar Otero

La IA es una tecnología emocionante, que poco a poco va tomando su lugar. Por ejemplo, es una excelente conversadora cuando no importa mucho la fiabilidad. También es genial para procesar datos, cambiar formatos, resumir textos y extraer ideas. Es decir, a pesar de sus problemas, está tomando su posición.

Ahora bien, cojea enormemente en otros puntos. De hecho, me temo que, por su arquitectura, los LLM seguirán cometiendo su pecado original durante mucho tiempo. De hecho, tengo la sensación de que se tiene poco control sobre ellos. Basta una actualización para que un modelo nuevo sea menos fiable que el anterior o cambie su "personalidad" radicalmente.

Expand full comment
11 more comments...

Sin posts