La estadística da caza al contenido basura de Twitter

Investigadores de la UNED han desarrollado un método estadístico para detectar el contenido basura en Twitter, en concreto, en los conocidos como trending topics o temas más populares. La eficacia de la herramienta se ha probado con éxito en un análisis de 20 millones de mensajes.

divulgaUNED

28/5/2013 08:25 CEST

Los ‘spammers’ crean perfiles falsos para generar contenido basura / Jeffery Turner

“Los ciberdelincuentes han encontrado un blanco fácil en aquellos usuarios que utilizan redes sociales como Twitter”, explica Juan Martínez-Romo, investigador del departamento de Lenguajes y Sistemas Informáticos de la UNED.

El científico, junto a otros investigadores de la universidad, ha diseñado un método para detectar el contenido basura que se cuela en los trending topics o temas más populares de Twitter.

Para ello han analizado 20 millones de tuits –el mensaje básico de esta red social–, 34.000 trending topics y seis millones de direcciones webs publicadas en estos mensajes.

De todo el contenido analizado, la herramienta clasificó correctamente el 93,7% de los mensajes maliciosos y el 89,3% de los mensajes válidos. “Solo el 6,3% de tuits válidos fueron clasificados erróneamente como basura”, subraya Martínez-Romo.

La herramienta clasificó correctamente el 93,7% de los mensajes maliciosos

La revisión automatizada de los datos se complementó con un análisis manual para verificar que el método funcionaba correctamente. Según este examen, el 94,5% del contenido fue clasificado correctamente como spam, y hubo un 5,4% de falsos positivos.

La investigación, que se publica en la revista Expert Systems with Applications, utiliza modelos del lenguaje para detectar el spam y, a diferencia de otros métodos, no analiza perfiles de usuarios sino tuits.

“La creación de nuevos usuarios es muy sencilla, lo que provoca que la eliminación de los perfiles de spammers sea una tarea infructuosa, porque inmediatamente o en paralelo, la misma persona dispone de otras cuentas de usuario desde las que enviar contenido basura”, comenta Martínez-Romo.

Los modelos del lenguaje utilizados por los investigadores son herramientas estadísticas que definen la estructura del lenguaje y que resultan muy útiles en aplicaciones con una sintaxis o semántica compleja, como ocurre con Twitter.

Detección del spam

Puesto que los trending topics tratan temas concretos, los investigadores han construido un modelo con los mensajes que se refieren a ese tema. “De esta forma, podemos detectar aquellos nuevos mensajes que no se correspondan con ese modelo y, por tanto, sean spam”, asegura Lourdes Araujo, investigadora también del departamento de Lenguajes y Sistemas Informáticos de la UNED y otra de las autoras del estudio.

Para afinar más la herramienta, como algunos mensajes maliciosos tienen apariencia de válidos, el método analiza también el contenido de las páginas webs que se incluyen en el mensaje. Por ejemplo, si un tema popular es David Bowie, y el enlace de la página web de un tuit lleva a un portal de productos farmacéuticos, ese mensaje sería clasificado como spam.

El método puede ser implementado en tiempo real y de forma sencilla en los servidores de Twitter, algo a lo que están abiertos los investigadores en el caso de que la compañía norteamericana quisiera incluir su algoritmo.

Referencia bibliográfica:

Juan Martínez-Romo, Lourdes Araujo. “Detecting malicious tweets in trending topics using a statistical analysis of language”. Expert Systems with Applications 40 (8), 2013, DOI: 10.1016/j.eswa.2012.12.015.

Fuente: divulgaUNED

Derechos: Creative Commons

Claves

Artículos relacionados

Lo más visto

Pete Worden: “Veremos sondas interestelares antes de que acabe este siglo” Un tipo de célula inmune es clave para entender las alergias alimentarias El lobo gigante y la problemática de la desextinción Descubren cómo nuestro cerebro aprende: las neuronas usan múltiples reglas a la vez Hasta un 17 % de las tierras de cultivo mundiales están contaminadas por metales pesados tóxicos La crema solar prehistórica, clave para la supervivencia de los ‘Homo Sapiens’ Así afecta el cambio climático a las alergias al polen Descubren un planeta en órbita perpendicular alrededor de una pareja de estrellas Hallan en Taiwán una mandíbula de un denisovano, pariente de los humanos La vacuna contra el herpes zóster podría reducir el riesgo de demencia

Comparte

Publica

Licencia Creative Commons

Creative Commons 4.0

Puedes copiar, difundir y transformar los contenidos de SINC. Lee las condiciones de nuestra licencia