Ni con un millón de datos tendríamos todo lo que necesitamos saber

España en cifras

Esto de España en cifras ha sido, opino, un hito en el periodismo español: un gran trabajo en lo que a agregación y visualización de datos con un enfoque y una experiencia que no he visto antes por estas latitudes.

Sin embargo algunos mensajes alrededor del proyecto y del llamado «periodismo de datos» me han llamado la atención. De hecho me han reafirmado en que nos encontramos en pleno desboque del optmismo sobre ellos a la vez que nos falta desarrollar un sentido crítico mayor que nos ayude a poner todo esto de los datos en su justo sitio y no más allá. Un ejemplo

Ese «todo lo que necesitas saber» es la idea, consciente o no, que se está extendiendo en diversos sectores. De hecho en el periodístico no es donde más pasadas de frenada veo, en la gestión empresarial, en los debates sociales… es algo que hablé con los fundadores de esa empresa tan valiosa como es CartoDB cuando les hicimos un reportaje hace ya un año: hay una extensión tecnocrática que inunda todo, en la que parece que si no hay estudios o datos que lo avalen, nada es válido y que obvia ciertos problemas como es qué datos se seleccionan, cuántos quedan ocultos, cómo discriminar causalidad de correlaciones y muchos más.

Otro ejemplo

«Si sube la deuda es malo». Este es un ejemplo de que los datos sólos no sirven, que hay que dar mucho mayor contexto, que hay que tener narrativa y contar cada caso… porque eso no es sólo un dato, eso es también ideología y la forma en que se seleccionan y hasta como se muestran no es neutral. ¿Es malo que un municipio prefiriera endeudarse antes de dejar de dar asistencia social? ¿siempre es malo entonces? ¿en qué circunstancias y hasta cuánto? ¿no depende del momento socio económico en que se encuentre? ¿podemos poner un color verde o rojo si sumamos muchos más datos o tenemos que asumir que es una conclusión en la que ideología tendrá un peso ineludible?

Hay gente más interesante que yo reflexionando sobre esto de los datos y desde hace mucho, de hecho uno de mis deberes de este año es leer todo lo que pueda sobre ello. Además y para dejar constancia de que yo soy muy «pro estudios y pro datos» os dejo con la pieza que hicimos con los amigos de CartoDB

Los trabajos de los científicos de datos y sus sueldazos

En WSJ tienen una pieza sobre los sueldos que están cobrando los científicos de datos con experiencia y doctorado: 200000 dólares para empezar a hablar.

El tema tiene varias aristas interesantes. Una es hasta qué punto el big data tiene mucho más de promesa que de realidad y si aflojará como tendencia en los próximos años; otra es el tipo de trabajos que pasan a hacer, con transiciones como la de hacer el mapa del genoma a mejorar la efectividad de las recomendaciones de páginas de citas; por último, pasa a primera página lo que Mariano llama «experimentando con tu vida» y que comentamos con lo de la «manipulación de las emociones» de Facebook.

Relacionado: Ponga un analista web en su empresa

Facebook y la distancia del test A/B a la «manipulación de las emociones»

Facebook Graph Search ejemplo

Llevo unos días intentando tener una opinión sobre el caso de Facebook y su manipulación de los sentimientos. Y me está costando porque precisamente el tipo de pruebas que hacen técnicamente no difiere de los que hacen todas las compañías grandes en online, test a/b enfocados a optimizar variables clave en su funcionamiento.

Los comercio electrónicos cambian los textos y el diseño para maximizar las compras, los medios los titulares, artículos recomendados y sitio de los botones para crecer en tráfico y tiempo de lectura, Youtube para maximizar las visualizaciones (de contenidos y publicidad), etc… ¿manipulan? ¿juegan con nosotros?

En esta pieza de WSJ que recoge el trabajo del equipo de científico de datos arrojan algo de luz para separar lo que aceptamos (quizás en parte porque desconocemos) como tests y lo que rechazamos:

«No hay proceso de revisión, per se,» dice Andrew Ledvina, que fue científico de datos de Facebook desde febrero 2012 hasta julio 2013. «Cualquier persona en ese equipo, puede ejecutar una prueba» «Siempre están tratando de alterar el comportamiento de las personas.»

El escándalo reciente es «un ejemplo de una práctica habitual «, dijo Kate Crawford, profesor visitante en el Instituto del Centro de Tecnología de Formación Cívica Medios de Massachusetts y principal investigador de Microsoft Research. Las empresas «realmente ven los usuarios como un banco de pruebas experimental dispuesto a ser utilizado a su discreción»

«Facebook se merece mucho crédito por apostar por la investigación en el dominio público como lo hacen», dijo Clifford Lampe, profesor asociado en la Universidad de la Escuela de Información de Michigan que ha trabajado de cerca en 10 estudios con investigadores de Facebook. Si Facebook detuviese la publicación de estudios, dijo, «Sería una verdadera pérdida para la ciencia.»

Es un caso curioso. Nos espanta ser conejillos de indias para experimentos en que estén implicadas nuestras emociones. Mejor dicho, serlo sin saberlo. No tanto si los tests están orientados a funcionalidades prácticas, impulsarnos a leer más, comprar más, hacer más clicks.

Relacionado: La evolución de los memes en Facebook

Contra la dictadura de los datos y los algoritmos

Alien ordenador

En Wired publica Felix Salmon un artículo excelente, Why Quants Don’t Know Everything:

La razón por la que los «quants» ganan es que casi siempre tiene razón, por lo menos al principio. Encuentran patrones numéricos o inventan ingeniosos algoritmos que aumentan las ganancias o resuelven problemas de manera que ninguna cantidad de experiencia subjetiva puede igualar. Pero, ¿qué pasa después de que los «quants» ganen? no siempre es el paraíso impulsado por los datos que ellos y sus impulsores esperaban. Cuanto más un campo está dirigido por un sistema, más se crean incentivos para que todo el mundo (empleados, clientes, competidores) cambie su comportamiento de maneras perversas que proporcionan más de lo que el sistema está diseñado para medir y producir, cree valor o no. Es un problema que no puede resolverse hasta que los «quants» aprenden un poco de las anticuadas formas de pensar que habían desplazado.

Ante todo, no es un artículo contra captar y poner en valor la información, sino sobre los límites de lo cuantitativo y lo erróneo que es expulsar cualquier valoración cualitativa de expertos. Merece mucho la pena leer el artículo, en mi opinión es la mejor pieza sobre tecnología que se ha escrito en lo que llevamos de año.

Relacionado: El guión de esa película que te gusta lo cambió un análisis de datos, El científico de datos que prevaleció sobre los “opinólogos”

Ciclo del Hype de Gartner 2013

Ciclo Hype GArtner

Siempre me gustado mucho el modelo de Ciclo del Hype de Gartner, que representa muy bien el exceso de expectativas que se tiene con la mayoría de innovaciones, el paso a la decepción y el camino final de verdadero valor en la madurez.

Aunque he discrepado en la selección y colocación en años anteriores, el de 2013 creo que no tiene desperdicio: compro de inmediato el que hayan puesto en la cima del hype al big data… y no tengo tan claro que internet de las cosas/M2M esté ahí arriba.

Más información en Smart Insights

¿Cuánto puede saber el gobierno con los datos sobre tus llamadas?

Esa es la pregunta que creo que toca hacerse – ¿Cuánto puede saber el gobierno con los datos sobre tus llamadas? – a la luz de la revelación por parte de The Guardian de que la NSA estadounidense obtiene de Verizon la información sobre las llamadas de sus clientes.

No se trata de las conversaciones y las identidades de quienes intervienen en ellas, sino la «meta información»: números a los que se llama, frecuencia, duración y, presumiblemente, localización. ¿Pueden perfilar mucho a los ciudadanos gracias a estos datos? Presumiblemente no demasiado o al menos no con una tasa de error aceptable… al menos hasta que cruzan estos datos con otras bases de datos.

Con ello se pueden hacer perfiles de individuos bastante más precisos de lo que imaginamos. Datos triviales ¿dónde toma el café? ¿dónde viven sus amigos? Otros no tanto, ¿podemos asociar sus llamadas a sitios donde ha habido manifestaciones importantes, a sitios donde hay templos religiosos? ¿podemos ligar esta información a su actividad en otras fuentes de datos como actividad en redes sociales o uso de tarjeta bancaria? Entonces el perfilado se vuelve mucho más poderoso

En definitiva, alrededor del «big data» hay un componente de debate que afecta a los derechos civiles y que más tardo o más temprano habrá que abordar.

Relacionado: Señores de Telefónica, BBVA y MasterCard, exactamente ¿qué datos nuestros van a vender y cómo?

El guión de esa película que te gusta lo cambió un análisis de datos

Alien ordenador

¿Cada vez tienes más la sensación de que el cine de Hollywood se repite más y no es por las continuas secuelas de los grandes éxitos? Es posible que no sea sólo una impresión causada por las críticas al cine de las grandes productoras, puede que el trabajo del equipo de analistas de datos del profesor Vinny Bruzzese esté siendo tenido en cuenta mucho.

Su labor consisten en evaluar guiones para los estudios con una metodología analítica: compara su estructura y género con las correlaciones obtenidas de películas de éxito en taquilla… y con los fracasos. Adicionalmente lanzan consultas a una base de datos de focus groups con más de 1500 personas.
Sigue leyendo «El guión de esa película que te gusta lo cambió un análisis de datos»

MailChimp: pasado, presente y futuro

Muy buenos puntos en «How MailChimp learned to treat data like orange juice and rethink email in the process» sobre el servicio para enviar correos con mejores números del sector.

Destacaría dos especialmente: por un lado la innovación desplegada de puertas para adentro para gestionar los problemas con el spam (para Mailchimp el caso peor es cuando alguien los usa para este tipo de envíos y el resto del ecosistema los identifica como emisores de spam) que queda detrás de un servicio que «sólo manda correos»; por otro, cómo quieren construir su negocio de futuro a partir de los datos que conocen de sus usuarios, tanto suscripciones como «engagement» con ellas.

Relacionado: sobre la vigencia y uso del correo electrónico frente a las grandes redes, Los grandes concentradores sociales no son tan grandes… todavía