Twitter revela dónde vives, incluso con la geolocalización desactivada

Una de las opciones extra que permite configurar la red de microblog Twitter es la posibilidad de etiquetar cada tuit con los datos de localización del usuario. Resulta útil cuando se quiere hacer pública la ubicación o para recordar posteriormente dónde se posteó determinado mensaje. Además, se trata de una herramienta valiosa para los investigadores interesados en el estudio de la distribución geográfica de los tuits desde diferentes perspectivas.

Sin embargo, también plantea problemas de privacidad, sobre todo cuando los usuarios no son conscientes u olvidan que sus tuits son geoetiquetados. Es lo que ha ocurrido a varias celebridades, que han ofrecido sus direcciones particulares de esta manera de forma inconsciente. En 2007, cuatro helicópteros Apache pertenecientes al Ejército de EEUU cayeron en un bombardeo con proyectiles de mortero en Irak cuando insurgentes calcularon su ubicación utilizando imágenes georeferenciadas publicadas por los soldados estadounidenses.

Preocupaciones como estas son las que tal vez motivan que se geoetiqueten tan pocos tuits. De hecho, varios estudios han demostrado que menos del uno por ciento de los mensajes en la popular red social contiene metadatos de ubicación. Sin embargo, la ausencia de datos de geolocalización no significa que la ubicación sea secreta.

Eso es lo que ha demostrado un equipo de investigadores de IBM Research, en Estados Unidos, al desarrollar un algoritmo capaz de determinar la ublicación en la ciudad e incluso la dirección exacta de un usuario con una precisión de casi el 70 por ciento, analizando los 200 últimos tuits.

La herramienta podría ser de gran utilidad para investigadores, periodistas o publicistas que quieran identifican el origen de los tuits, aunque al mismo tiempo plantea problemas de privacidad para aquellos que prefieren resguardar su privacidad.

Twitter revela dónde vives, incluso con la geolocalización desactivada

Clasificación jerárquica

A diferencia de estudios anteriores, este algoritmo utiliza un enfoque de clasificación jerárquica, donde la zona horaria, estado o región geográfica se prevé primero y, a partir de ahí, se calcula la ciudad para mejorar la precisión de la predicción. Para conseguirlo, el equipo liderado por Jalal Mahmud ha utilizado un método relativamente sencillo.

Según un artículo publicado por el Instituto Tecnológico de Massachusetts (MIT), el trabajo comenzó con el filtrado de tuits geolocalizados entre julio y agosto de 2011 en cualquiera de las 100 ciudades más grandes de EEUU, hasta encontrar 100 usuarios diferentes en cada lugar.

Una vez seleccionados descargaron los 200 últimos mensajes publicados por cada uno, a excepción de los privados. El resultado fue más de 1,5 millones de tuits con etiquetas geográficas de casi 10.000 personas. El siguiente paso fue dividir este conjunto en dos, utilizando el 90 por ciento para entrenar al algoritmo y el 10 restante para probarlo en contra.

La idea básica que sustenta el algoritmo es que los tuits contienen información relevante sobre la posible ubicación del usuario. Por ejemplo, más de 100.000 mensajes procedían directamente de la red social de localización Foursquare, por lo que contenían un enlace exacto a la ubicación. Casi 300.000 incluían el nombre de ciudades, y otros tantos pistas sobre la ubicación, con frases como «Vamos Red Sox», en referencia al equipo de béisbol de Boston.

Mahmud y su equipo comprobó que la distribución de tuits durante el día es más o menos constante, lo que puede dar una buena indicación de la zona horaria en la que se incluye cada uno. Con toda esta información se propusieron averiguar la dirección real de un usuario, comparándola con los metadatos etiquetados por el mismo.

Para ello utilizaron un algoritmo conocido como Naive Bayes Multimonial, todo un devorador de números. Tras entrenarlo con los datos recogidos con la geolocalización, lo pusieron a prueba con el 10 por ciento restante para comprobar si era capaz de predecir la ubicación.

Aplicaciones

Según las conclusiones del estudio, publicadas en arXiv, la evidencia experimental sugiere un buen funcionamiento en la práctica, superando los mejores algoritmos existentes hasta el momento para predecir la ubicación exacta de los usuarios de Twitter. En concreto, el algoritmo predice correctamente la ciudad el 68 por ciento de las veces, el estado el 70 por ciento, y la zona horaria el 80 por ciento. Y todo ello en menos de un segundo.

Comprobados los resultados, las aplicaciones podrían ser diversas. Los periodistas podrían utilizarlo para determinar los tuits procedentes de una región en crisis, afectada por ejemplo por un terremoto. Los vendedores para calcular la popularidad de sus productos en determinadas ciudades. Y también sugiere una forma de que la gente proteja su privacidad: no mencionando su localización, evidentemente.

Con todo, el equipo de IBM espera mejorar su algoritmo en el futuro. Por ejemplo, piensan que pueden afinar aún más la localización mediante la búsqueda en los tuits de menciones a monumentos o emblemas locales. Habrá que esperar a ver si es posible.

De momento su hallazgo abre un abanico de posibilidades para unos mientras muestra la fragilidad de la vida privada para el resto, pues queda expuesta en las redes sociales incluso de forma inconsciente. Cómo protegerla debería ser tema de un debate público importante.