Existen patrones de comportamiento predecibles entre los usuarios que comparten archivos a través del protocolo BitTorrent: quienes bajan películas o música siempre bajan películas o música. Además, la riqueza de su país se relaciona con su elección, lo cual es una amenaza para la privacidad, según un estudio publicado en PNAS.
Casi 220.000 archivos al mes, es decir, el equivalente a decenas de terabytes de información es el volumen de datos que han analizado Jordi Duch, Roger Guimerà (investigador ICREA) y Arnau Gavaldà-Miralles, científicos de la Universidad Rovira i Virgili (URV), en colaboración con otros de la Northwestern University (EE UU). Por primera vez, se ha estudiado el comportamiento de los usuarios que comparten archivos peer-to-peer (P2P) en la red mediante el protocolo BitTorrent. Esto ha sido posible gracias a una muestra de millones de internautas que, voluntaria y anónimamente, han contribuido al estudio, permitiendo que su información fuera analizada.
Los resultados, publicados en la revista PNAS, demuestran que los usuarios son especialistas en un tipo de contenido, en lugar de generalistas. Es decir: quienes descargan películas siempre descargan películas; quienes descargan música siempre descargan música, etc. En concreto, más de la mitad de las descargas de cada internauta eran de uno de sus dos tipos de contenidos preferidos. Esto, por ejemplo, "es una amenaza para la privacidad del usuario", comenta Roger Guimerà, "ya que su comportamiento se vuelve previsible".
Por otra parte, los investigadores han encontrado que hay relación entre el Producto Interior Bruto (PIB) del país y el tipo de contenidos más descargados por los usuarios. Así, países con situaciones económicas similares descargan los mismos tipos de archivos. En concreto, aquellos que viven una peor situación económica tienden a compartir archivos más grandes, como películas en alta definición; mientras que países con un PIB más alto comparten archivos más pequeños, como música. Los motivos de esto, por tanto, "son sociales, no técnicos", explica Jordi Duch. "El PIB tiene más poder predictivo que la infraestructura o el acceso a las nuevas tecnologías", añade Guimerà.
Conocer estos datos puede ser útil para mejorar el protocolo de intercambio de archivos P2P y, según Arnau Gavaldà-Miralles, "se podría aprovechar esta fragmentación de los usuarios para mejorar la eficiencia de los algoritmos de BitTorrent". El estudio también tiene utilidad a nivel social, en cuanto a la regulación de esta actividad: "Si se quieren hacer leyes justas, lo primero es analizar el sistema y entender cómo funciona, y cómo lo utiliza la gente", añade Duch.
Es la primera vez que se analiza el comportamiento de los usuarios que comparten archivos en BitTorrent con una muestra tan representativa, ya que habitualmente esta actividad es privada. Para el estudio se han utilizado datos de 10.000 usuarios de los últimos cinco años, aunque los investigadores tienen información de 1,4 millones de internautas.
La extensión Ono
Para conseguir este volumen de información, han utilizado una extensión llamada Ono (desarrollada en la Northwestern University) mediante la que se recoge la información de los usuarios, tras informarles de la actividad de investigación y que den su consentimiento. Como contrapartida, Ono mejora el rendimiento de la aplicación y acelera las descargas.
El procedimiento de recogida de datos es anónimo, ya que la única información que se envía es el tamaño de los paquetes de los archivos, y no el archivo en sí; así se puede saber si el archivo es, por ejemplo, una canción, un programa de televisión, o una película en alta o baja resolución, sin comprometer la privacidad del usuario.
El grupo trabaja ahora en utilizar la información obtenida para modelizar el comportamiento de los usuarios y predecirlo; es decir, intentarán ser capaces de anticipar las siguientes descargas de los internautas en función de la información de que disponen. Por otra parte, quieren investigar cómo los factores externos –un cambio en la legislación o el cierre de Megaupload, por ejemplo– afectan al comportamiento de los usuarios.
Referencia bibliográfica:
“Impact of heterogeneity and socio-economic factors on massive decentralized sharing ecosystems”, por Arnau Gavaldà-Miralles et al.Proceedings of the National Academy of Sciences (PNAS), 2014.