Clustering en Flickr
Se nota que es verano y que hay pocos movimientos. De entre lo poco que ocurre, me ha llamado la atención el anuncio de alguna novedad en Flickr. No sé hasta que punto la mano de Yahoo está detrás de ella, pero se le está empezando a sacar rendimiento a la red social que hay detrás de Flickr con funcionalidades como esta. Básicamente consiste en una selección de lo más interesante según las veces que es visualizada una fotografía, número de usuarios que la tienen como favorita y cantidad de comentarios que ha recibido. El resultado es que aparecen un conjunto de fotografías magníficas, escogidas de forma automática.
Por otro lado, también es novedad (anunciada en el blog de Yahoo) el empleo de técnicas de clustering de datos para la agrupación y clasificación de las etiquetas. El uso de folcsonomías (clasificación colaborativa por medio de los tags o etiquetas) lleva aparejados problemas como la ambigüedad de ciertos términos: cuando etiqueto una foto con "Granada" ¿a qué me refiero, a la ciudad o a la fruta?. Agrupar por un lado las etiquetas que se refieren a cada significado ayudaría a encontrar las fotografías que buscamos. Y ahí es donde entra el clustering de datos, dividiendo el conjunto de fotografías con una etiqueta determinada en subconjuntos con patrones comunes. Hace unos años se hubieran empleado técnicas similares pero no con las etiquetas sino con las imágenes en sí, con un coste computacional enorme y una precisión mucho menor.
La verdad es que el ejemplo que he escogido (Granada en Flickr) no ha quedado muy bien, básicamente porque no hay muchas fotos de "granadas, la fruta", pero se puede ver la utilidad en etiquetas como Málaga en Flickr, donde se subdivide en ciudad, playas y monumentos, con posibilidades evidentes de mejora, pero mostrando el potencial que tiene el uso de este tipo de técnicas de minería de datos en grandes repositorios de información como Flickr.