Dos investigadores alemanes demostraron que los datos de usuarios que exploran internet en forma anónima, mediante navegadores de incógnito, pueden ser revelados a través de diferentes técnicas, tales como rastrear sus “huellas digitales” para conectarlas con fuentes públicas que puedan brindar información (como por ejemplo, redes sociales).
“¿Qué pensarían ustedes si alguien se les aparece un día en su puerta diciendo: ‘tengo tu historial de navegación completo, de todos los días, de cada hora, de cada minuto, cada click que hiciste en la web este último mes?’”, se preguntó la periodista Svea Eckert, durante la conferencia de seguridad informática Def Con, que tuvo lugar este fin de semana en Las Vegas, Estados Unidos.
En este encuentro, Eckert y el científico de datos, Andreas Dewes, presentaron los resultados de una investigación que ambos llevaron a cabo, donde pudieron obtener los hábitos “anónimos” de navegación de más de tres millones de ciudadanos alemanes, según informó el diario británico The Guardian.
Las preferencias pornográficas de un juez y la medicación utilizada por un diputado alemán son parte de la información recolectada por ambos investigadores, para cuyo fin crearon una empresa de marketing falsa. “¿Cómo pensarían que conseguimos los datos: a través de algún atacante de la dark web? No. Fue mucho más fácil: uno los puede comprar”, alertó la periodista.
Así, lograron obtener una base de datos que contenía tres mil millones de direcciones URL de tres millones de usuarios alemanes, distribuidos en nueve millones de sitios diferentes.
Algunos tenían solo algunas decenas de sitios visitados en el período de 30 días examinado por los investigadores, mientras que otros usuarios contaban con decenas de miles de puntos de acceso: el registro completo de su vida online.
Conseguir la información fue en realidad más fácil que comprarla ya que Eckert y Dewes crearon una empresa de marketing falsa, con su respectivo sitio web, una página en LinkedIn para su CEO, e incluso un sitio de carrera.
Diseñaron un sitio repleto de “imágenes agradables y algunas palabras claves sobre marketing”, afirmando haber desarrollado un algoritmo de aprendizaje automático (machine learning) que se podría comercializar de forma efectiva, pero solo si se entrena con una gran cantidad de datos.
“Escribimos y llamamos casi a un centenar de compañías y les preguntamos si podríamos tener los datos sin procesar, lo que serían los click de la vida de las personas”, explicó Eckert.
La periodista relató que la búsqueda les tomó más tiempo del que tenían pensado porque estaban buscando específicamente a usuarios alemanes.
“Solemos escuchar: ¿Datos de navegación? No hay problema, pero no tenemos para Alemania, solo para Estados Unidos y el Reino Unido”, indicó.
Los datos que obtuvieron finalmente les fueron proporcionados, de forma gratuita, a partir de un corredor de datos (data broker) -encargados de recolectar información y generar el big data a través de una gran variedad de recursos en los que el usuario dejó una huella digital-, que estaba dispuesto a dejarles probar en su hipotética plataforma de publicidad de inteligencia artificial.
Si bien se trataba de un conjunto nominalmente anónimo, fue muy fácil develar la identidad de algunos usuarios. Dewes describió algunos métodos por los cuales un “data broker” puede encontrar a una persona en el “ruido”, a partir de larga lista de direcciones URL y marcas temporales.
Por ejemplo, cualquier persona que visite su propia página de analítica en Twitter termina con una URL en sus registros de navegación que contiene su usuario de Twitter y solo es visible para él.
La cuestión entonces es encontrar esa URL para luego poder vincular los datos anónimos con una persona real. Otra forma es un enfoque vinculado a la probabilidad, con una lista de diez direcciones URL que son suficientes para identificar a alguien.
Al crear “huellas” en esos datos, luego es posible compararlos con otras fuentes más públicas que los usuarios hayan visitado, para que puedan tener más información, como cuentas en redes sociales o listas de canciones en YouTube.