=Paper=
{{Paper
|id=Vol-2178/SSN2018_paper_25
|storemode=property
|title=Discovering Interconnections between Uruguay and the World Using Popular Internet Traffic
|pdfUrl=https://ceur-ws.org/Vol-2178/SSN2018_paper_25.pdf
|volume=Vol-2178
|authors=Mateo Nogueira,Diego Kiedanski,Eduardo Grampín
|dblpUrl=https://dblp.org/rec/conf/ssn/NogueiraKG18
}}
==Discovering Interconnections between Uruguay and the World Using Popular Internet Traffic==
Discovering interconnections between Uruguay and the world using popular internet traffic Mateo Nogueira Diego Kiedanski Eduardo Grampı́n mateo.nogueira@fing.edu.uy dkiedanski@fing.edu.uy grampin@fing.edu.uy Facultad de Ingenierı́a, Universidad de la República Montevideo, Uruguay El contenido de YouTube (y muchos OTT en general) es provisto desde CDNs (Content Delivery Abstract Networks), grandes redes distribuidas y opacas a usuarios externos. Esto hace que el problema de estu- Understanding how Uruguay connects with diar el origen y las rutas del tráfico sea mucho más the world has both practical and theoretical complejo. Existen diversos trabajos que han intentado relevance. A lot of research has been done localizar los servidores y caches que proveen contenido in this subject but none of them focused on a un determinado ISP, mayoritariamente combinando Uruguay. In this investigation we intend to do técnicas de análisis de tráfico con herramientas de analyze how Uruguay interconnects with the diagnóstico (como ping y traceroute) [2][3][4]. world using popular YouTube CDN traffic. La bibliografı́a existente ha explorado estas pre- guntas sobre todo para actores en Europa [2][5], pero poco o nada se ha hecho en América Latina 1 Introducción y Uruguay. Un primer objetivo es por lo tanto Comprender cómo se interconecta Uruguay con el reproducir estos resultados en nuestro paı́s y ubicar mundo a través de Internet tiene relevancia tanto geográficamente (en la medida de lo posible) los dis- práctica como teórica. El estudio de la topologı́a de la tintos servidores en los que se encuentra el contenido red es una de las formas más intuitivas de comenzar que consumimos, como cambian estos con el tiempo, dicho estudio. Este acercamiento, sin embargo, no que rutas utilizan para alcanzar nuestro paı́s, etc. contempla el tráfico sobre la red o el comportamiento Lo que, es más, existen diversas mejoras posibles a de los usuarios. dichos estudios que serı́a interesante poner en práctica. Los servicios OTT (Over-The-Top) son uno de los Los estudios más recientes sobre CDN encontrados mayores responsables del tráfico global, siendo video utilizan medidas pasivas, recolectadas desde un ISP streaming 72% del tráfico de Internet en 2016 [1]. Es [3][4]. Estos estudios, además, se basan en tráfico natural esperar que, al estudiar de dónde, cuándo generado por personas en su uso cotidiano de estas y cómo proviene el contenido, estemos arrojando plataformas, y, probablemente sin conocer el con- (mucha) luz sobre cómo nuestro paı́s hace uso de In- tenido en sı́, debido al uso de TLS en la mayorı́a de los ternet. Como ejemplo, se propone estudiar YouTube. servicios. Además, el tráfico es analizado un tiempo Se tomó esta decisión debido a que el contenido es de después de generado. Nuestro trabajo utiliza tráfico acceso libre y bastante extenso. generado por nosotros mismos, lo que nos permite tener un experimento más controlado, debido a que podemos decidir que parte del contenido de toda la Copyright c by the paper’s authors. Copying permitted for private and academic purposes. plataforma nos interesa, y, nos da en un futuro, la In: Proceedings of the IV School of Systems and Networks posibilidad de volver a visitar el mismo contenido, (SSN 2018), Valdivia, Chile, October 29-31, 2018. Published para comparar si hubo cambios a nivel de tráfico. Se at http://ceur-ws.org planea realizar una geolocalización de los servidores de contenido lo más automatizada y rápido posible. a Google/YouTube y las restantes a otros ISP como Es decir, al encontrar un nuevo servidor de contenido Comcast y Bell-Canada. Algunos hostnames de esas desconocido, geolocalizarlo en el momento (o cuanto direcciones IP contenı́an códigos IATA de aeropuertos, antes posible). lo que facilitaban la geolocalización de esos servidores. Además, investigan las posibles causas por las que el Aunque la metodologı́a de trabajo está enfocada en usuario es redireccionado. utilizar YouTube, se puede generalizar a otros tipos de contenido. Es necesario, primero, conseguir algún servicio o plataforma que utilice contenido multimedia brindado por una CDN. Este paso esta por fuera del alcance del trabajo. Luego es necesario definir una forma de navegar por el contenido recolectando los servidores de los cuales es obtenido el contenido multimedia junto con otros datos especı́ficos de ese contenido que, puedan resultar relevantes. Por ejemplo, en el caso de videos de YouTube la cantidad de visitas al video, fecha de carga e idioma del tı́tulo consideramos que son ejemplos de esto. La forma de navegar por el contenido es dependiente sobre si se requiere realizar la recolección automáticamente o manualmente. Tomando lo primero como refer- Figure 1: Pasos al mirar un video en YouTube. encia, dado que, una recolección manual implicarı́a demasiado trabajo, se pueden utilizar en el caso de computadoras de escritorio herramientas de navegación automática como Selenium [6] junto con 3 Metodologı́a Browser-Mob Proxy[7] para capturar el tráfico (y Para la investigación se intentó replicar los resultados asociarlo al contenido correspondiente). Finalmente, obtenidos en los estudios previos. Sin embargo, resta planificar un experimento para definir cuándo se descubrió que los antiguos dominios utilizados capturar los datos y la metodologı́a a usar para por YouTube ya no son utilizados. En su lugar, se analizarlos. utilizan unos nuevos dominios de la forma *.google- video.com. Los nombres parecen estar agrupados Una vez que se tiene la información de los servi- por localización, pero no hay ninguna información dores de origen, muchas preguntas surgen natural- que lo confirme. Las redirecciones a otro servidor mente: ¿Hay alguna correlación entre cercanı́a de los cuando en el inicial no se encuentra el contenido servidores y el contenido popular en Uruguay?, ¿Y en- siguen ocurriendo. tre los videos recomendados a usuarios? Se recolectaron aproximadamente 650 direcciones 2 Trabajo Previo IP de servidores de donde se obtuvo contenido. Estos dominios fueron obtenidos utilizando un programa Investigaciones anteriores se han enfocado en des- diseñado para navegar automáticamente por el sitio cubrir el funcionamiento de YouTube [2][5]. Para de YouTube, accediendo a un video inicial y acce- reproducir un video, es necesario acceder a un fron- diendo a nuevos videos utilizando el video próximo tend web para lo cual se obtiene una dirección IP indicado por la reproducción automática. Capturando consultando al servidor de DNS local. Luego, el paquetes, se guardaron los mensajes de DNS a los frontend responde con un servidor de contenido inicial servidores *.googlevideo.com. donde el video (que posee un identificador único) está alojado. Es posible que el servidor no contenga el La mayorı́a de ellas están asignadas a Google y una video y el usuario sea redirigido hacia otro servidor. minorı́a a nuestro ISP. Sin embargo, las direcciones IP Pueden ocurrir múltiples redirecciones, y las mismas asignadas a Google solo proveen contenido en caso de pueden ser de un servidor en un datacenter a otro en una redirección. Es decir, Google posee servidores de el mismo datacenter o a un datacenter diferente. caché en nuestro ISP. Más aún, al hacer traceroutes hacia las direcciones de Google se descubre que el Los autores de [5], descubren namespaces de servi- tráfico va de la red de nuestro ISP a la red de Google dores de contenido junto con una jerarquı́a de redi- directamente sin otros ISP intermedios. recciones. 80% de las direcciones IP correspondı́an Se investigaron diversas técnicas de geolocalización Madrid, Marsella, Milán, Sofı́a, Budapest, Bratislava, y finalmente se decidió para cada servidor asignar Varsovia, Estocolmo, Paris, Amsterdam, Ede (Paises como su localización la misma que un equipo cercano Bajos), Frankfurt, Hamburgo, Londres y Dublin. con bajo RTT. Suponiendo que el único retardo existente es el de propagación, se puede calcular la Es probable que se siga intentando encontrar distancia entre el equipo y el objetivo. Siendo C equipos con menor RTT hacia alguno de los servi- la velocidad de la luz en el vacı́o, los bits viajan a dores de forma de obtener un error más bajo. Por lo aproximadamente 49 C [8]. Por lo tanto, la distancia tanto, algunas ubicaciones podrı́an cambiar. Además, máxima posible entre el equipo y el objetivo es nuevos servidores pueden ser descubiertos al realizar 4 RT T 9C ∗ 2 . Se eligió como bajo, un RT T menor o el experimento final, luego de concurrida la investi- igual a 10ms, lo que da un error de aproximadamente gación preliminar actual. Las localizaciones encon- 670km. tradas hasta ahora, pueden ser utilizadas para geolo- calizar los nuevos servidores. Se utilizarı́an para con- cluir si, se encuentran en una localización conocida o, una distinta a las actuales, e intentar encontrar donde es. 4 Trabajo Futuro Para el futuro, se planea continuar la investigación siguiendo los siguientes lineamientos. • Integrar el sistema de geolocalización con el soft- ware de navegación de manera de geolocalizar los Figure 2: Distancia máxima posible a la que se nuevos servidores al mismo tiempo en el que se encuentra un servidor. descubren. • Llevar a cabo un experimento de mayor porte, consumiendo videos desde varios equipos si- multáneamente. Se estima que tenga una du- ración de aproximadamente una semana, un número no menor a cinco usuarios y a distintos ho- rarios, por ejemplo, algunos por la mañana, otros en hora pico, etc. Antes de esto, es necesario terminar de definir que atributos de los videos podrı́an resultar útiles a la hora de analizar los resultados. Por ejemplo, cantidad de visitas. • Aplicar técnicas de aprendizaje automático para analizar los datos recolectados, buscando rela- ciones entre el contenido y la localización del usuario, buscando resolver las dudas planteadas en la introducción. • Investigar una posible relación entre los nombres de domino de los servidores de contenido y su ubi- Figure 3: Servidores encontrados hasta el mo- cación geográfica. mento. • Obtener información sobre el funcionamiento del cacheo y redirecciones de YouTube luego de que un video no se encontró en un servidor. Los equipos utilizados para realizar las mediciones fueron probes del proyecto ATLAS de RIPE [9]. Los resultados arrojaron servidores en Montevideo, References Buenos Aires, Santiago de Chile, San Pablo, Miami, [1] Cisco, “Cisco visual networking index: Atlanta, Dallas, Kansas, Washington DC, Chicago, Forecast and methodology, 2016–2021,” Toronto, Denver, Los Angeles, Palo Alto, Portland, https://www.cisco.com/c/en/us/solutions/ collateral/service-provider/visual-networking- index-vni/complete-white-paper-c11-481360.html, 2017, [Online; accessed 17-June-2018]. [2] R. Torres, A. Finamore, J. R. Kim, M. Mellia, M. M. Munafo, and S. Rao, “Dissecting Video Server Selection Strategies in the YouTube CDN,” in 2011 31st International Conference on Dis- tributed Computing Systems, Jun. 2011, pp. 248– 257. [3] P. Fiadino, M. Schiavone, and P. Casas, “Vivi- secting WhatsApp in Cellular Networks: Servers, Flows, and Quality of Experience,” in 7th Workshop on Traffic Monitoring and Analysis (TMA), ser. Traffic Monitoring and Analysis, M. Steiner, P. Barlet-Ros, and O. Bonaven- ture, Eds., vol. LNCS-9053, Barcelona, Spain, Apr. 2015, pp. 49–63. [Online]. Available: https://hal.archives-ouvertes.fr/hal-01411179 [4] P. Fiadino, A. D’Alconzo, and P. Casas, “Charac- terizing web services provisioning via CDNs: The case of Facebook,” in 2014 International Wireless Communications and Mobile Computing Confer- ence (IWCMC), Aug. 2014, pp. 310–315. [5] V. K. Adhikari, S. Jain, Y. Chen, and Z. L. Zhang, “Vivisecting YouTube: An active measure- ment study,” in 2012 Proceedings IEEE INFO- COM, Mar. 2012, pp. 2521–2525. [6] Selenium Browser Automation, https://www. seleniumhq.org/, [Online; accessed 31-July-2018]. [7] Browsermob-Proxy, https://github.com/ lightbody/browsermob-proxy, [Online; accessed 31-July-2018]. [8] E. Katz-Bassett, J. P. John, A. Krishnamurthy, D. Wetherall, T. Anderson, and Y. Chawathe, “Towards IP Geolocation Using Delay and Topology Measurements,” in Proceedings of the 6th ACM SIGCOMM Conference on Internet Measurement, ser. IMC ’06. New York, NY, USA: ACM, 2006, pp. 71–84. [Online]. Available: http://doi.acm.org/10.1145/1177080.1177090 [9] The RIPE Atlas measurement network, https:// atlas.ripe.net/, [Online; accessed 31-July-2018].