El futuro de la inteligencia artificial es para quien tenga una plataforma de contenidos de usuario
Si entrenar con la web se va a poner duro por la ley de IA de la Unión Europea, las plataformas de contenidos de usuario como Reddit o Youtube van a ser la clave en inteligencia artificial.
Esta semana podemos trazar una línea desde varios frentes de la actualidad tecnológica que nos va a señalar en una dirección: el futuro de la inteligencia artificial es para quien tenga una plataforma de contenidos generados por usuario como Youtube, Reddit o Github.
Empezamos por la crisis de Reddit: la compañía empezará a cobrar y mucho por el uso de su API, el mecanismo por el que se crean aplicaciones y servicios que interaccionan con la plataforma. Esto perjudica a los proyectos de clientes de terceros, que a su vez tienen a los “usuarios más intensivos” de Reddit.
Ha habido quejas y también una huelga de subreddits cerrados que pinta a que se puede alargar (aclaración: Reddit es una comunidad de comunidades, cada una de ellas autogobernada por moderadores que no cobran). Esto tiene un impacto más que simbólico, Reddit cada vez tiene más tráfico de Google por la baja calidad que va teniendo los últimos años el buscador. Muchos usuarios añaden “reddit” a sus consultas para evitar el contenido SEO de baja calidad que posiciona bien y llegar a contenidos más humanos. Una ironía, analizamos la oportunidad y los riesgos de construir sobre las APIs de terceros ¡¡en 2007!!.
El CEO, Steve Huffman en varias entrevistas (The Verge, NPR) no parece achantarse: seguirán con la subida de precios de uso de su API y explica que gran parte de la razón es que “las grandes empresas de tecnología están construyendo sus modelos de inteligencia artificial con datos de Reddit”. “Si cogen nuestros contenidos y crean negocios con ellos, es un problema”. La nueva normativa apunta a que cobrarán y mucho por el “uso comercial” del API. Los clientes de terceros pueden resultar damnificados porque para el “no comercial” se establecerán límites de peticiones.
Segunda parada en el camino. OpenAI habría entrenado sus modelos de IA en YouTube, según un artículo de The Information sobre el valor de YouTube para Google como conjunto de datos de entrenamiento de IA. El hecho de que OpenAI utilizara el sitio de vídeos no es sorprendente, de hecho siempre ha habido rumores acerca de la motivación de hacer Whisper: tener muchos más datos para entrenar “los GPTs”. La empresa de Sam Altman es famosa por mantener en secreto sus datos de entrenamiento, en parte por razones de competencia y en parte, entiendo, para evitar posibles demandas.
Entra en acción la Unión Europea. El Parlamento europeo aprueba la AI Act, con lo que comenzarán las conversaciones sobre la forma final de la ley en el Consejo, junto a los países de la UE. Se espera tener en vigor la norma en 2025.
Recordemos que esta legislación europea impondrá condiciones fuertes a la IA generativa. Por un lado el contenido ha sido generado con inteligencia artificial tendrá que venir marcado como tal, se debe diseñar el modelo para evitar que genere contenidos ilegales y, lo más importante, se deberán publicar resúmenes de los datos protegidos por derechos de autor utilizados para el entrenamiento.
Apuesto a que esto es un anticipo de otros escenarios probables en Europa: que el entrenamiento de modelos de inteligencia artificial requiera el consentimiento informado de las fuentes con una compensación para las mismas. Es algo que discutimos aquí:
La UE va a forzar por tanto que los modelos de inteligencia artificial que quieran funcionar en Europa rebelen el origen de su “dataset” y asuman el riesgo de la situación legal que se pudiera derivar ya o en el futuro. Claro que hay una salida para las empresas: entrenar los modelos no con la “web abierta” sino con contenidos de plataformas en las que los términos y condiciones se lo permitan. Los propietarios de las mismas tienen, por tanto, el gran tesoro para el siguiente asalto en inteligencia artificial.
Esto puede un punto débil para OpenAI, aunque eventualmente puede recibir un gran apoyo de Microsoft: para el código tienen Github, para texto y vídeo… Linkedin. Ironías de la vida, algunos apocalípticos nos pintan el futuro oscuro con la IA como Terminator, cuando el verdadero horror será que hablará como influencers de Linkedin.
El conflicto de Reddit ejemplifica otro aspecto: los usuarios que crean el contenido no se ven recompensados por el hecho de éste sea comercializado para entrenar IAs, como muchas veces no lo han estado por su explotación publicitaria. De hecho si acaso se pueden verse ¡perjudicados!. Las tensiones con la API de Twitter, las caídas de Archive.org, la crisis dentro de Stack Overflow…. se acerca una batalla por ver quien es capaz de capturar más del enorme crecimiento económico que se espera de la inteligencia artificial los próximos años.
Un último apunte, es probable que estas plataformas sean muy valiosas siempre y cuando no se inunden de contenido generado con IAs. Ya hay algún estudio que apunta en esa dirección, “el aprendizaje a partir de datos producidos por otros modelos provoca el colapso del modelo que está siendo entrenado, un proceso degenerativo por el que, con el tiempo, los modelos olvidan la verdadera distribución de datos subyacente... este proceso es inevitable, incluso en casos con condiciones casi ideales para el aprendizaje a largo plazo”.
Breves
La UE demanda a Google por su negocio publicitario. Los primeros indicios apuntan a que los reguladores tratarán de obligar a Google a desprenderse del negocio de anuncios para aislarlo del resto. Axios, Business Insider España.
El giro en podcasting de Spotify, que será “menos Netflix” (producciones exclusivas para crecer en suscriptores) y “más Youtube” (plataforma con volumen de creadores que genera ingresos por publicidad). Bloomberg.
Jimena Catalina con una estrategia de diseño de web de “contenidos para humanos” con vistas a la que se viene con la IA.
Clásicos arcade de Campcom para jugar online, por ejemplo Final Fight.
“Una aplicación contra la pornografía lo puso en la cárcel y su familia bajo vigilancia”. Los documentos muestran que algunos tribunales de EE.UU. están utilizando Covenant Eyes, una aplicación antiporno vendida a las iglesias para supervisar toda la actividad en línea, para vigilar a las personas en libertad condicional y a sus familias. Wired.
Imagen: Antonio Ortiz con Midjourney
Muy bueno 😃, como siempre.