web semántica

Yahoo y la web semántica

YahooYahoo comienza a indexar microformatos, en un paso hacia lo que ellos llaman "Yahoo! Search open platform". A pesar del hartazgo que sufro por la manía de llamar "Open" a todo lo que sale últimamente, la verdad es que es interesante que un actor relevante en el mercado de las búsquedas como es Yahoo (al menos todavía), comience a apostar por soportar estándares de la web semántica (RDF , los microformatos hCard, hCalendar, hReview, hAtom, y XFN, y Open Search).

¿Para qué pueden valer cosas como estas? Pues partiendo de que se agregue la información semántica desde las webs indexadas, hay un montón de posibilidades. Si las webs de críticas de películas utilizaran hReview, podríamos hacer consultas del tipo "películas españolas del 2007 que tengan una valoración superior a la media" y no se lo estaría preguntando a un sólo sitio tipo Imdb, sino a la web entera.

El problema está, como explica JJ, en que el uso de estos estándares siempre ha sido marginal, a lo que hay que añadir que cada x años los mitos de la web semántica vuelven. Quizás esta vez haya una ventana de oportunidad: cada vez más contenido se crea desde gestores que empiezan a incorporar estas tecnologías. Si a eso sumamos que también hay muchas "plataformas de contenidos" como Youtube y servicios que publican relaciones (contactos) en XFN... pues tenemos algunos síntomas de que la web semántica podría ser rescatada del sueño de los justos y, si bien dudo mucho de que traiga todo lo que sus profetas llevan décadas vaticinando, podría alumbrar algunas ideas interesantes. Precisamente, no hace mucho, Google publicó una API basada en XFN y FOAF y ahora tenemos el paso de Yahoo, aunque éste no deja de ser una huida hacia adelante en su deseo de no ser aniquilado por Google.

Más información en el blog de Yahoo Search.

Twine y web semántica

TwineEl Web 2.0 Summit ya tiene una primera estrella de la que todos hablan. Se trata de Twine, la ha creado Radar Networks y se anuncia basada en la "web semántica". Twine va a ser una herramienta para almacenar, organizar y compartir información todo ello con una "inteligencia" provista por la plataforma que analiza la semántica de la información y la clasifica de forma automática. La idea es que parte del trabajo que hacen los usuarios en otras redes (etiquetado, conectar con contenido relacionado) lo haga Twine, aportando mayor valor y almacenando los contenidos junto a información sobre su significado.

¿Y en la práctica como va a ser Twine? Dado la beta no está abierta todavía (registro en Twine.com) y que los temas sobre web semántica no son fáciles de explicar, recojo algunos ejemplos de los que lo han probado. Habrá varios modos de añadir información, a través de un wiki, enviándola por correo, subiendo un documento y de múltiples formas más (vídeos, fotos, música...). A continuación el servicio lo analiza y detecta los términos para los que crea etiquetas para los conceptos (nombres propios, organizaciones, lugares, tecnologías...). Estos documentos los podemos mantener privados, compartir con algunos o hacerlos públicos. Esta parte social influye en el momento en que busquemos información en Twine, si la información la subió un contacto nuestro se nos presentará como más interesante para nosotros (al modo de la búsqueda social).

¿Dónde entra la web semántica? Pues en que la la estructura de datos subyacente a la plataforma utilizará las tecnologías de la web semántica: RDF, OWL, SPARQL, añadiendo información sobre el significado a la propia información y creando un "grafo semántico". Esta es la parte que aportaría el valor adicional a la hora de buscar información, ya no buscamos sobre información no estructurada y sin semántica asociada como sucede con los buscadores, sino un repositorio estructurado y semántico.

Si hay algo sobre lo que deberíamos haber aprendido sobre la web semántica es a ser escépticos acerca de su "inminente llegada" y "la gran revolución que causará". Twine al menos hace una aproximación más modesta de la idea original, no ambiciona una web completa en la que la información venga con metainformación sobre su significado, sino que parte de fragmentos de contenidos que suben los usuarios. Emparentado con la Wikipedia (usuarios subiendo información), con Google (el sitio donde uno buscará la información, Twine presume de dar más calidad en las respuestas) y Facebook (contactos, compartir información con ellos), lo cierto es que Twine sitúa el listón muy muy alto. Acierta con el camino, que sea la máquina quien haga el trabajo, pero por ello mismo, sus posibilidades de hacer algo en sintonía con las expectativas que ellos mismos se marcan son escasas. Eso sí, estoy deseando probarlo.

Reelacionado: Freebase y la web semántica.

Más información en R/W, Download Squad, Wired, Appscout...

Freebase y la Web Semántica

freebase¿Cuántas veces nos han vendido web semántica como si su llegada fuese inminente y dento de un par de días los buscadores comenzasen a ser más inteligentes? La verdad es que demasiadas para que al cabo del tiempo estemos añadiendo etiquetas a los contenidos y con unas esperanzas prudentes en los microformatos. Y en estas llega una start-up llamada Metaweb Technologies que con un producto al que han llamado Freebase afirma aspirar a crear una base de datos centralizada que almacene toda la información digital del mundo, accesible de forma gratuita. Tras salir en el NYT, ha generado una catarsis de comentarios.

Freebase va por tanto de habilitar una gigantesco y gratuito repositorio con información obtenida de las distintas base de datos de internet (musicbrainz, Wikipedia), estructurándola de forma que permita a agentes software (buscadores) detectar relaciones y obtener metainformación semántica que sería generada por los usuarios. Para hacernos una idea, Tim O'Reilly tiene un artículo explicando el funcionamiento de Freebase con capturas. A la hora de buscar información sobre una empresa, Freebase muestra la entrada correspondiente en la WikiPedia y una foto (añadida por un usuario), pero lo más importante es que está categorizada como empresa y tiene una estructura de datos asociada en función de ello (aparecen fundador, número de empleados, eslogan...). Esos datos son los aportados por los usuarios al estilo Wikipedia. La gracia del inventos es la estructura, lo que hace a la información no sólo accesible, sino también consultable por un agente software.

La web ya es de por sí una base de datos gigantesca con los contenidos relacionados (los enlaces) pero la información no está estructurada sino que se encuentra mezclada con la presentación (en el HTML). El sueño de una web semántica con información estructurada que tenga además metadatos sobre su significado es tan antiguo como la propia red de redes. Lo que aporta de nuevo Freebase es basarse en un concepto muy "Web 2.0", que sean los propios usuarios los que completen estos metadatos para crear la gran base de datos centralizada como quien colabora con la Wikipedia, justo el camino opuesto a lo planteado hasta ahora por la W3C y RDF para describir relaciones en una web semántica distribuida. Hasta ahora lo más similar a este planteamiento ha sido Google Base y como primera dificultad, Freebase tiene la necesidad de convencer a los usuarios para que colaboren con el proyecto y que lo hagan bien.

La idea me gusta, de tener éxito puede ser muy úyil y el que vayan a tener una licencia libre los contenidos de Freebase, también. Menos agradable me resulta el centralizar en manos de esta compañía, Metaweb Technologies, toda la información, aunque la propia licencia de los contenidos permitirá hacer copias (espero). En cualquier caso, una interesante aproximación a lo que puede ser el futuro de la web: contenidos generados por los usuarios y web semántica.

El futuro son los microformatos

microformatosDespués de bastante tiempo se vuelve a hablar de web semántica, esta vez como Web 3.0. El problema original, simplificando un poco, es que la WWW tal como hoy la conocemos no es la que Tim Berners-Lee tenía en mente: las páginas HTML tienen el inconveniente de mezclar datos (completamente desestructurados) y con el modo en que estos se presentan en pantalla, además de carecer de semántica; texto y más texto entre etiquetas que le dicen al navegador como "pintarlo" pero no si se trata de un currículum, un evento o una carta de amor. La idea era añadir metadatos (datos sobre los datos) a la información en la web para aportar semántica, pero ninguna aproximación a esto ha cuajado. Y es por ello que seguimos teniendo buscadores torpes, que se confunden y es tan complicado agregar información por su temática de forma automática.

Y en estas que aparecen los microformatos. Los microformatos no son sino convenciones a la hora de publicar contenido web, pequeños bloques en las que se aporta semántica a lo publicado. Un ejemplo podría ser el microformato hcard, que no es sino un formato para representar los datos de una persona, una organización o un lugar y que se puede "embeber" dentro del (X)HTML, Atom o RSS. Esto es importante, los microformatos no son ficheros aparte de nuestro contenido web, como sí lo son los canales de sindicación. Otro ejemplo de microformato son los "tags" Technorati, el no follow o hCalendar para información de calendarios o eventos.

¿Para qué sirve utilizar microformatos?

Pues para que cualquier proceso automático pueda indexar la información de una forma mucho más sencilla y precisa. Pensemos en una revisión de un producto, por ejemplo una película ¿puede saber un buscador o el navegador que estamos hablando de ella? A priori no es complicado, buscando el nombre de la misma en el título de la página web y su contenido ¿puede saber quién hizo la revisión, cuándo y que valoración tiene de la misma? Más complicado, las mejores tecnologías de búsqueda tienen muchos errores porque no hay nada en html que le de esta "semántica". Ahora bien, si como editores hubiésemos utilizado el microformato hReview, todo se habría conseguido de forma automática. Otro ejemplo sería el proyecto Live Clipboard paar el "copia y pega en la web" de Microsoft, que está bastante animosa apoyando los microformatos.

Productos destacados

Suscripción

Introduce tu dirección de correo:

Ofrecido por FeedBurner

Feed rss Lectores con feedburner

Créditos

Blogs que hospedo