Análisis del tráfico en eMule y eDonkey (o los «hechos» sobre las descargas P2P)

Por Francisco R. Villatoro, el 23 septiembre, 2008. Categoría(s): Ciencia • General • Informática • Matemáticas ✎ 2

En este blog nos tenemos que hacer eco de las noticias «científico-técnicas» sobre la eMula, dado que parafraseamos su nombre en nuestro título «(th)E mule». Un poco de historia muy conocida. Un hacker llamado Merkur pensó en 2002 que podía mejorar el cliente P2P llamado eDonkey y creó el proyecto eMule, que popularizó el protocolo eDonkey (sobre todo en Europa). Pero vayamos al grano, ¿cómo es el tráfico actual en eMule? El artículo de Frederic Aidouni, Matthieu Latapy, Clemence Magnien, «Ten weeks in the life of an eDonkey server,» ArXiv preprint, 19 Sep 2008 , lo estudia con cierto detalle (y no es fácil capturar estadísticas del protocolo eDonkey sin interferir en el tráfico).

Recapitulemos. Han estudiado de forma continua durante casi 10 semanas el tráfico en los protocolos UDP y TCP/IP de un servidor eDonkey «importante» observando la «friolera» de 8 867 052 380 peticiones, sí, casi 9 mil millones de mensajes, involucrando 89 884 526 diferentes direcciones IP, sí, casi 90 millones de usuarios, y 275 461 212 diferentes campos de identificación de ficheros (fileID), sí, más de 275 millones de ficheros «distintos». ¡Increíble!

El trabajo de espionaje realizado … ¿Te habrán espiado? ¿Estarás tú en los datos que han recabado? No te preocupes, los autores han utilizado un sistema de anonimato tanto para los clientes (clientID), ficheros (fileID), cadenas de búsqueda (search strings), nombres de fichero (filenames) y tamaños de fichero (filesizes). Según los autores lo han hecho bien: «a very strong anonymisation scheme.» Creámosles, no nos queda otro remedio. En el artículo detallan bastante la técnica y parece «razonablemente» fiable (pero yo no soy experto en «desanomización»).

Vayamos a los resultados presentados. El número de clientes que «ofrece» partes de un fichero concreto sigue una ley de potencias (power law) con una cola «compleja» que sugiere que es la suma de varias leyes de potencia independientes. Los autores sugieren que es debido a que hay diferentes tipos de ficheros que siguen leyes de potencia con parámetros diferentes. Esta alta heterogeneidad también ha sido observada en cuanto al número de ficheros diferentes que un cliente «ofrece» a los demás. Pocos clientes ofrecen miles de ficheros y cientos de clientes ofrecen sólo algunos pocos. Sin embargo, en este caso la distribución observada se parece menos a una ley de potencia.

Una de las cosas más curiosas para mí, no por inesperada sino por lo contrario, porque era de esperar, es la gráfica de la izquierda en la que aparece el número de ficheros «compartidos» de un tamaño determinado. Hay un pico muy claro alrededor del tamaño de un CD (unos 700 MB), el tamaño típico de una película ripeada en un .avi o en .mpg. También sus subarmónicos, su mitad, 350 MB, su tercera parte, 230 MB, y su cuarta parte 175 MB. ¿Por qué un pico en 1 GB? Los autores suponen que porque mucha gente divide el tamaño de un DVD (unos 4.7 GB) en partes «redondas» de un 1 GB. Yo más bien soy de la opinión que está relacionado con el hecho de que las pelis de «mejor calidad,» sobre todo las ripeadas en formato MPEG, suelen ocupar algo más de 700 MB, rondando 1 GB (algo por encima).

Desafortunadamente no ofrecen más análisis de sus resultados. En mi opinión, el trabajo de Aidouni et al. es un primer paso en el estudio y análisis de todos los datos que han recabado. Estoy seguro de que próximamente veremos más artículos en los que dichos autores analizan otros factores de interés en la ingente cantidad de datos que han atesorado. La Mula Francis estará «al loro.»

Como apostilla, para los interesados en detalles técnicos, aunque no lo dicen en el artículo sus autores, el servidor eD2k que han utilizado es el desarrollado por Lugdunum en C, desarrollado por este hacker utilizando ingeniería inversa del protocolo eDonkey (como todo hacker debería hacer). Este protocolo es gratuito pero no es de software abierto (open soft) con objeto de evitar que se creen servidores falsos (fake) por parte de los «garantes» de la legalidad que deseen «penalizar» la red P2P bajo eDonkey (generándole penas a los humildes «peers»).

Más apostillas, el software de espía P2P que han desarrollado los autores del artículo se llama LogP2P.

Postdata: El Blog de Matthieu Latapy falleció recientemente, esperemos que renazca (para los interesados en su página web). Foto de los dos autores que firman en último lugar el artículo.



2 Comentarios

Deja un comentario