Tiempo real, microformatos, RDF… en Google

Resultados en Google

Anuncio de novedades por parte de Google en su evento Searchology. En Search Engine Land tienen un análisis a fondo de las novedades presentadas por Google, así como los enlaces a los blogs oficiales. Las dos más inmediatas son:

  • Con búsquedas como la de cfl light bulb añaden lo que llaman una «toolbelt». La idea es ofrecer filtrado de resultados según varios criterios: tipos de contenido – haciendo personal la unificación de resultados de vídeo y texto – y, el que más interesante me parece, ordenación según cuando fue creado el contenido. ¿Dónde sitúa esto a Google? Integrando las búsquedas en tiempo real, un terreno en el que se intuye la amenaza de Twitter, al que quiere ganar por la mano aprovechando que éste todavía no es un buen buscador, mientras que Google puede buscar en muchas fuentes (la indexación no es el problema) y tiene un modelo jerárquico para los resultados.
  • Rich Snippets. Se trata de permitir a los webmaster el uso de ciertos estándares – RDFa, microformatos – para ofrecer información estructurada al buscador. Se trata de algo que Yahoo lleva haciendo más de un año, pero que inevitablemente cobrará un protagonismo mayor ahora que el líder del sector lo adopta. La idea final es que Google empezará a leer no sólo datos desestructurados – HTML – de las webs, sino que éstas podrán ofrecerle de una manera simple información sobre el significado de algunos de esos datos. Ejemplos: puntuación en una página de críticas de productos que aparecería en la página de resultados de Google.

Aunque a primera vista pueden parecer movimientos menores, Google por un lado cubre un flanco que muchos apuntaban como amenaza – la búsqueda en tiempo real, otra cosa es ver quien va a «ejecutar mejor» – y por otro da un paso necesario – aunque todavía muy embrionario – a la hora de incorporar elementos de la llamada «web semántica».

Artículo relacionado: El futuro son los microformatos.

Yahoo y la web semántica

YahooYahoo comienza a indexar microformatos, en un paso hacia lo que ellos llaman «Yahoo! Search open platform». A pesar del hartazgo que sufro por la manía de llamar «Open» a todo lo que sale últimamente, la verdad es que es interesante que un actor relevante en el mercado de las búsquedas como es Yahoo (al menos todavía), comience a apostar por soportar estándares de la web semántica (RDF , los microformatos hCard, hCalendar, hReview, hAtom, y XFN, y Open Search).

¿Para qué pueden valer cosas como estas? Pues partiendo de que se agregue la información semántica desde las webs indexadas, hay un montón de posibilidades. Si las webs de críticas de películas utilizaran hReview, podríamos hacer consultas del tipo «películas españolas del 2007 que tengan una valoración superior a la media» y no se lo estaría preguntando a un sólo sitio tipo Imdb, sino a la web entera.

El problema está, como explica JJ, en que el uso de estos estándares siempre ha sido marginal, a lo que hay que añadir que cada x años los mitos de la web semántica vuelven. Quizás esta vez haya una ventana de oportunidad: cada vez más contenido se crea desde gestores que empiezan a incorporar estas tecnologías. Si a eso sumamos que también hay muchas «plataformas de contenidos» como Youtube y servicios que publican relaciones (contactos) en XFN… pues tenemos algunos síntomas de que la web semántica podría ser rescatada del sueño de los justos y, si bien dudo mucho de que traiga todo lo que sus profetas llevan décadas vaticinando, podría alumbrar algunas ideas interesantes. Precisamente, no hace mucho, Google publicó una API basada en XFN y FOAF y ahora tenemos el paso de Yahoo, aunque éste no deja de ser una huida hacia adelante en su deseo de no ser aniquilado por Google.

Más información en el blog de Yahoo Search.

Microformatos en Google Maps

microformatosEn verano escasean las grandes noticias, así que probablemente abunden en el blog los pequeños apuntes como éste: Google Maps empieza a utillizar microformatos. Concretamente dará información de los resultados de las búsqueda de comercios y servicios en hCard. Lo cuentan en el blog oficial.

Me ha parecido interesante como un paso más en la adopción de los microformatos, que creo que van a dar mucho juego en los próximos años. ¿Qué aporta utilizar microformatos a Google Maps, concretamente hCard? Pues facilita la exportación de los datos de contacto / direcciones a los usuarios, la integración de Maps con otro software como clientes de correo y el propio navegador y la reutilización de la información en los mashups que se hagan con la API de Google Maps. En Firefox se puede detectar y utilizar la información de páginas que usen microformatos con la extensión Operator.

Operator en Firefox para trabajar en microformatos

FirefoxUna de las sesiones del MIX07 que tenía claro que no iba a perderme era la de Tantek Çelik, de Technorati, sobre microformatos. Realmente no había nada nuevo en ella (se puede acceder a la presentación en su página), pero resultó muy estimulante como explicó este conjunto de estándares para añadir semántica a la web de una forma sencilla ante un público a priori algo excéptico (bueno, no todos, servidor sigue en la línea de que el futuro son los microformatos).

De hecho, tras la sesión de lo primero que hice fue instalarme la extensión Operator, que añade a Firefox la detección y gestión automática de la información contenida en microformatos, sin necesidad de esperar a que Firefox 3.0 lo traiga de serie. Estupendo llegar a una página con un hcard y que el navegador te invite a añadirlo a tu agenda, o que detecte un evento en hCalendar y te dé la posibilidad de añadirlo a tu calendario en un sólo click. Así se puede navegar por los eventos de Last.fm y añadirlos al Google Calendar automáticamente con sólo pinchar en la barra de la extensión que te avisa. Información semántica para tareas sencillas y hacer la vida más fácil al usuario (que la página la entienda el navegador, que para eso está).

¿Y qué pintaba una conferencia sobre microformatos en el MIX07 de Microsoft? Podría entenderse como una prueba de que su planteamiento era el de una conversación abierta (tengo pendiente hablar de la sesión más que interesante sobre Amazon S3), pero también que apunta a la posibilidad de que Internet Explorer 8 soporte microformatos, algo que creo que es muy probable (o también las dos cosas a la vez). En todo caso, señores programadores de gestores de contenidos, apunten a los microformatos en su agenda.

Freebase y la Web Semántica

freebase¿Cuántas veces nos han vendido web semántica como si su llegada fuese inminente y dento de un par de días los buscadores comenzasen a ser más inteligentes? La verdad es que demasiadas para que al cabo del tiempo estemos añadiendo etiquetas a los contenidos y con unas esperanzas prudentes en los microformatos. Y en estas llega una start-up llamada Metaweb Technologies que con un producto al que han llamado Freebase afirma aspirar a crear una base de datos centralizada que almacene toda la información digital del mundo, accesible de forma gratuita. Tras salir en el NYT, ha generado una catarsis de comentarios.

Freebase va por tanto de habilitar una gigantesco y gratuito repositorio con información obtenida de las distintas base de datos de internet (musicbrainz, Wikipedia), estructurándola de forma que permita a agentes software (buscadores) detectar relaciones y obtener metainformación semántica que sería generada por los usuarios. Para hacernos una idea, Tim O’Reilly tiene un artículo explicando el funcionamiento de Freebase con capturas. A la hora de buscar información sobre una empresa, Freebase muestra la entrada correspondiente en la WikiPedia y una foto (añadida por un usuario), pero lo más importante es que está categorizada como empresa y tiene una estructura de datos asociada en función de ello (aparecen fundador, número de empleados, eslogan…). Esos datos son los aportados por los usuarios al estilo Wikipedia. La gracia del inventos es la estructura, lo que hace a la información no sólo accesible, sino también consultable por un agente software.

La web ya es de por sí una base de datos gigantesca con los contenidos relacionados (los enlaces) pero la información no está estructurada sino que se encuentra mezclada con la presentación (en el HTML). El sueño de una web semántica con información estructurada que tenga además metadatos sobre su significado es tan antiguo como la propia red de redes. Lo que aporta de nuevo Freebase es basarse en un concepto muy «Web 2.0», que sean los propios usuarios los que completen estos metadatos para crear la gran base de datos centralizada como quien colabora con la Wikipedia, justo el camino opuesto a lo planteado hasta ahora por la W3C y RDF para describir relaciones en una web semántica distribuida. Hasta ahora lo más similar a este planteamiento ha sido Google Base y como primera dificultad, Freebase tiene la necesidad de convencer a los usuarios para que colaboren con el proyecto y que lo hagan bien.

La idea me gusta, de tener éxito puede ser muy úyil y el que vayan a tener una licencia libre los contenidos de Freebase, también. Menos agradable me resulta el centralizar en manos de esta compañía, Metaweb Technologies, toda la información, aunque la propia licencia de los contenidos permitirá hacer copias (espero). En cualquier caso, una interesante aproximación a lo que puede ser el futuro de la web: contenidos generados por los usuarios y web semántica.

Los planes para Firefox 3.0

FirefoxMuy interesantes los planes para Firefox 3.0 que acaba de anunciar la fundación Mozilla en este wiki (vía Sentido web). Algunos de los temas que se han propuestos hacen pensar que la próxima generación de navegadores sí que va a suponer un paso adelante de envergadura (Firefox 2.0 presenta pocas novedades, Explorer 7 apenas pone al día el navegador de Microsoft y Opera 9 es notable, pero tampoco es lo que se dice revolucionario).

Entre los requisitos «obligatorios» me quedo con el soporte de OpenId y de microformatos, dos elementos clave en la web del futuro a corto plazo y sobre cuya integración en el navegador creo que merece la pena detenerse en futuras entradas. Por cierto, también anuncian soporte del nuevo sistema de identificación de Microsoft, Windows CardSpace, antes conocido como Infocards.

¿Más novedades de Firefox 3.0? Parece que otra de las claves del navegador será facilitar el sistema de extensiones (sin duda el punto fuerte de Firefox) y ofrecer la posibilidad de que servicios web puedan manejar contenido (entiendo que se refiere a que de alguna manera, pueda determinar que un documento ofimático me lo abra con Google Docs o Zoho o con el servicio que desee). También apuntan a guardar la página en formato PDF, en un modo de navegación completamente privado y en la mejora de administración de favoritos, integrando los «remotos» (del.icio.us y similares), con los locales.

Y bastante más. Creo que estamos ante una evolución importante no ya de Firefox sino del concepto de navegador. Quizás uno esperaba que los navegadores tomaran el rumbo de ser máquinas virtuales que permitiesen la ejecución de funcionalidades cada vez más complejas (las Rich internet Applications o, por ejemplo, Second Life dentro del navegador), pero el camino tomado por Firefox 3.0 es el de actuar como verdadero centro gestión de la información. Si el soporte de OpenId y de microformatos y la integración con los servicios web se lleva adelante, Firefox 3.0 va a suponer un paso de gigante en el «divorcio del escritorio».

El futuro son los microformatos

microformatosDespués de bastante tiempo se vuelve a hablar de web semántica, esta vez como Web 3.0. El problema original, simplificando un poco, es que la WWW tal como hoy la conocemos no es la que Tim Berners-Lee tenía en mente: las páginas HTML tienen el inconveniente de mezclar datos (completamente desestructurados) y con el modo en que estos se presentan en pantalla, además de carecer de semántica; texto y más texto entre etiquetas que le dicen al navegador como «pintarlo» pero no si se trata de un currículum, un evento o una carta de amor. La idea era añadir metadatos (datos sobre los datos) a la información en la web para aportar semántica, pero ninguna aproximación a esto ha cuajado. Y es por ello que seguimos teniendo buscadores torpes, que se confunden y es tan complicado agregar información por su temática de forma automática.

Y en estas que aparecen los microformatos. Los microformatos no son sino convenciones a la hora de publicar contenido web, pequeños bloques en las que se aporta semántica a lo publicado. Un ejemplo podría ser el microformato hcard, que no es sino un formato para representar los datos de una persona, una organización o un lugar y que se puede «embeber» dentro del (X)HTML, Atom o RSS. Esto es importante, los microformatos no son ficheros aparte de nuestro contenido web, como sí lo son los canales de sindicación. Otro ejemplo de microformato son los «tags» Technorati, el no follow o hCalendar para información de calendarios o eventos.

¿Para qué sirve utilizar microformatos?

Pues para que cualquier proceso automático pueda indexar la información de una forma mucho más sencilla y precisa. Pensemos en una revisión de un producto, por ejemplo una película ¿puede saber un buscador o el navegador que estamos hablando de ella? A priori no es complicado, buscando el nombre de la misma en el título de la página web y su contenido ¿puede saber quién hizo la revisión, cuándo y que valoración tiene de la misma? Más complicado, las mejores tecnologías de búsqueda tienen muchos errores porque no hay nada en html que le de esta «semántica». Ahora bien, si como editores hubiésemos utilizado el microformato hReview, todo se habría conseguido de forma automática. Otro ejemplo sería el proyecto Live Clipboard paar el «copia y pega en la web» de Microsoft, que está bastante animosa apoyando los microformatos.

¿Cómo utilizarlos?

De nada servirían los microformatos si no se integran en los gestores de contenidos. No se trata, por supuesto, de andar editando el html y añadiendo estructuras complejas para «no geeks», se trata de que WordPress y el resto de software para crear sitios tengan integrados los microformatos. Pensemos que todos los blogs de cine y los foros los utilizaran integrados en el formulario para escribir, sería posible armar un buscador capaz de saber la nota recibida por una película por la blogosfera y los foreros. Incluso un servicio que me permitiese escoger a mis críticos de cabecera y en función de lo que ellos hayan votado, me recomendase películas. Todo descentralizado, lo bueno de los microformatos es que dan el poder al editor sobre la organización de la información que publican. Eso sí, nada salva a este tipo de procesos de páginas artificiales que quisieran enviarles «spam».

Conclusión

Es complicado que veamos a corto plazo los ambiciosos planes de web semántica, con las ontologías y el RDF, pero sí creo que los microformatos van a ayudar a estructurar algo la información y a aportar semántica. Son una aproximación modesta comparado con lo que se quería conseguir, pero encaja en la web tal y como hoy la entendemos.

Los anuncios por parte de que Firefox 3.0 y Explorer 8 los soportarán son el espaldarazo final que se necesitaba, pero hay muchas otras iniciativas alrededor de ellos como es Pingerati, un buscador realizado por Technorati basado en microformatos. Tiene todo el sentido su apuesta: un buscador basado en microformatos necesita muchos menos recursos a la hora de analizar la información que aquél que bucea en información desestructurada.

Más información en: