=Paper= {{Paper |id=Vol-2178/SSN2018_paper_25 |storemode=property |title=Discovering Interconnections between Uruguay and the World Using Popular Internet Traffic |pdfUrl=https://ceur-ws.org/Vol-2178/SSN2018_paper_25.pdf |volume=Vol-2178 |authors=Mateo Nogueira,Diego Kiedanski,Eduardo Grampín |dblpUrl=https://dblp.org/rec/conf/ssn/NogueiraKG18 }} ==Discovering Interconnections between Uruguay and the World Using Popular Internet Traffic== https://ceur-ws.org/Vol-2178/SSN2018_paper_25.pdf
    Discovering interconnections between Uruguay and the
              world using popular internet traffic

            Mateo Nogueira                           Diego Kiedanski                  Eduardo Grampı́n
       mateo.nogueira@fing.edu.uy                 dkiedanski@fing.edu.uy             grampin@fing.edu.uy
                                               Facultad de Ingenierı́a,
                                             Universidad de la República
                                                Montevideo, Uruguay



                                                                  El contenido de YouTube (y muchos OTT en
                                                              general) es provisto desde CDNs (Content Delivery
                       Abstract                               Networks), grandes redes distribuidas y opacas a
                                                              usuarios externos. Esto hace que el problema de estu-
     Understanding how Uruguay connects with                  diar el origen y las rutas del tráfico sea mucho más
     the world has both practical and theoretical             complejo. Existen diversos trabajos que han intentado
     relevance. A lot of research has been done               localizar los servidores y caches que proveen contenido
     in this subject but none of them focused on              a un determinado ISP, mayoritariamente combinando
     Uruguay. In this investigation we intend to do           técnicas de análisis de tráfico con herramientas de
     analyze how Uruguay interconnects with the               diagnóstico (como ping y traceroute) [2][3][4].
     world using popular YouTube CDN traffic.

                                                                 La bibliografı́a existente ha explorado estas pre-
                                                              guntas sobre todo para actores en Europa [2][5],
                                                              pero poco o nada se ha hecho en América Latina
1    Introducción                                            y Uruguay. Un primer objetivo es por lo tanto
Comprender cómo se interconecta Uruguay con el               reproducir estos resultados en nuestro paı́s y ubicar
mundo a través de Internet tiene relevancia tanto            geográficamente (en la medida de lo posible) los dis-
práctica como teórica. El estudio de la topologı́a de la    tintos servidores en los que se encuentra el contenido
red es una de las formas más intuitivas de comenzar          que consumimos, como cambian estos con el tiempo,
dicho estudio. Este acercamiento, sin embargo, no             que rutas utilizan para alcanzar nuestro paı́s, etc.
contempla el tráfico sobre la red o el comportamiento        Lo que, es más, existen diversas mejoras posibles a
de los usuarios.                                              dichos estudios que serı́a interesante poner en práctica.

   Los servicios OTT (Over-The-Top) son uno de los                Los estudios más recientes sobre CDN encontrados
mayores responsables del tráfico global, siendo video        utilizan medidas pasivas, recolectadas desde un ISP
streaming 72% del tráfico de Internet en 2016 [1]. Es        [3][4]. Estos estudios, además, se basan en tráfico
natural esperar que, al estudiar de dónde, cuándo           generado por personas en su uso cotidiano de estas
y cómo proviene el contenido, estemos arrojando              plataformas, y, probablemente sin conocer el con-
(mucha) luz sobre cómo nuestro paı́s hace uso de In-         tenido en sı́, debido al uso de TLS en la mayorı́a de los
ternet. Como ejemplo, se propone estudiar YouTube.            servicios. Además, el tráfico es analizado un tiempo
Se tomó esta decisión debido a que el contenido es de       después de generado. Nuestro trabajo utiliza tráfico
acceso libre y bastante extenso.                              generado por nosotros mismos, lo que nos permite
                                                              tener un experimento más controlado, debido a que
                                                              podemos decidir que parte del contenido de toda la
Copyright c by the paper’s authors. Copying permitted for
private and academic purposes.
                                                              plataforma nos interesa, y, nos da en un futuro, la
In: Proceedings of the IV School of Systems and Networks
                                                              posibilidad de volver a visitar el mismo contenido,
(SSN 2018), Valdivia, Chile, October 29-31, 2018. Published   para comparar si hubo cambios a nivel de tráfico. Se
at http://ceur-ws.org                                         planea realizar una geolocalización de los servidores
de contenido lo más automatizada y rápido posible.       a Google/YouTube y las restantes a otros ISP como
Es decir, al encontrar un nuevo servidor de contenido      Comcast y Bell-Canada. Algunos hostnames de esas
desconocido, geolocalizarlo en el momento (o cuanto        direcciones IP contenı́an códigos IATA de aeropuertos,
antes posible).                                            lo que facilitaban la geolocalización de esos servidores.
                                                           Además, investigan las posibles causas por las que el
   Aunque la metodologı́a de trabajo está enfocada en     usuario es redireccionado.
utilizar YouTube, se puede generalizar a otros tipos
de contenido. Es necesario, primero, conseguir algún
servicio o plataforma que utilice contenido multimedia
brindado por una CDN. Este paso esta por fuera
del alcance del trabajo. Luego es necesario definir
una forma de navegar por el contenido recolectando
los servidores de los cuales es obtenido el contenido
multimedia junto con otros datos especı́ficos de
ese contenido que, puedan resultar relevantes. Por
ejemplo, en el caso de videos de YouTube la cantidad
de visitas al video, fecha de carga e idioma del tı́tulo
consideramos que son ejemplos de esto. La forma
de navegar por el contenido es dependiente sobre si
se requiere realizar la recolección automáticamente
o manualmente. Tomando lo primero como refer-              Figure 1: Pasos al mirar un video en YouTube.
encia, dado que, una recolección manual implicarı́a
demasiado trabajo, se pueden utilizar en el caso
de computadoras de escritorio herramientas de
navegación automática como Selenium [6] junto con        3    Metodologı́a
Browser-Mob Proxy[7] para capturar el tráfico (y          Para la investigación se intentó replicar los resultados
asociarlo al contenido correspondiente). Finalmente,       obtenidos en los estudios previos. Sin embargo,
resta planificar un experimento para definir cuándo       se descubrió que los antiguos dominios utilizados
capturar los datos y la metodologı́a a usar para           por YouTube ya no son utilizados. En su lugar, se
analizarlos.                                               utilizan unos nuevos dominios de la forma *.google-
                                                           video.com. Los nombres parecen estar agrupados
   Una vez que se tiene la información de los servi-      por localización, pero no hay ninguna información
dores de origen, muchas preguntas surgen natural-          que lo confirme. Las redirecciones a otro servidor
mente: ¿Hay alguna correlación entre cercanı́a de los     cuando en el inicial no se encuentra el contenido
servidores y el contenido popular en Uruguay?, ¿Y en-      siguen ocurriendo.
tre los videos recomendados a usuarios?
                                                              Se recolectaron aproximadamente 650 direcciones
2   Trabajo Previo                                         IP de servidores de donde se obtuvo contenido. Estos
                                                           dominios fueron obtenidos utilizando un programa
Investigaciones anteriores se han enfocado en des-         diseñado para navegar automáticamente por el sitio
cubrir el funcionamiento de YouTube [2][5]. Para           de YouTube, accediendo a un video inicial y acce-
reproducir un video, es necesario acceder a un fron-       diendo a nuevos videos utilizando el video próximo
tend web para lo cual se obtiene una dirección IP         indicado por la reproducción automática. Capturando
consultando al servidor de DNS local. Luego, el            paquetes, se guardaron los mensajes de DNS a los
frontend responde con un servidor de contenido inicial     servidores *.googlevideo.com.
donde el video (que posee un identificador único) está
alojado. Es posible que el servidor no contenga el             La mayorı́a de ellas están asignadas a Google y una
video y el usuario sea redirigido hacia otro servidor.     minorı́a a nuestro ISP. Sin embargo, las direcciones IP
Pueden ocurrir múltiples redirecciones, y las mismas      asignadas a Google solo proveen contenido en caso de
pueden ser de un servidor en un datacenter a otro en       una redirección. Es decir, Google posee servidores de
el mismo datacenter o a un datacenter diferente.           caché en nuestro ISP. Más aún, al hacer traceroutes
                                                           hacia las direcciones de Google se descubre que el
   Los autores de [5], descubren namespaces de servi-      tráfico va de la red de nuestro ISP a la red de Google
dores de contenido junto con una jerarquı́a de redi-       directamente sin otros ISP intermedios.
recciones. 80% de las direcciones IP correspondı́an
   Se investigaron diversas técnicas de geolocalización   Madrid, Marsella, Milán, Sofı́a, Budapest, Bratislava,
y finalmente se decidió para cada servidor asignar         Varsovia, Estocolmo, Paris, Amsterdam, Ede (Paises
como su localización la misma que un equipo cercano        Bajos), Frankfurt, Hamburgo, Londres y Dublin.
con bajo RTT. Suponiendo que el único retardo
existente es el de propagación, se puede calcular la           Es probable que se siga intentando encontrar
distancia entre el equipo y el objetivo. Siendo C           equipos con menor RTT hacia alguno de los servi-
la velocidad de la luz en el vacı́o, los bits viajan a      dores de forma de obtener un error más bajo. Por lo
aproximadamente 49 C [8]. Por lo tanto, la distancia        tanto, algunas ubicaciones podrı́an cambiar. Además,
máxima posible entre el equipo y el objetivo es            nuevos servidores pueden ser descubiertos al realizar
4      RT T
9C ∗    2 . Se eligió como bajo, un RT T menor o           el experimento final, luego de concurrida la investi-
igual a 10ms, lo que da un error de aproximadamente         gación preliminar actual. Las localizaciones encon-
670km.                                                      tradas hasta ahora, pueden ser utilizadas para geolo-
                                                            calizar los nuevos servidores. Se utilizarı́an para con-
                                                            cluir si, se encuentran en una localización conocida o,
                                                            una distinta a las actuales, e intentar encontrar donde
                                                            es.

                                                            4     Trabajo Futuro
                                                            Para el futuro, se planea continuar la investigación
                                                            siguiendo los siguientes lineamientos.

                                                                • Integrar el sistema de geolocalización con el soft-
                                                                  ware de navegación de manera de geolocalizar los
Figure 2: Distancia máxima posible a la que se                   nuevos servidores al mismo tiempo en el que se
encuentra un servidor.                                            descubren.

                                                                • Llevar a cabo un experimento de mayor porte,
                                                                  consumiendo videos desde varios equipos si-
                                                                  multáneamente. Se estima que tenga una du-
                                                                  ración de aproximadamente una semana, un
                                                                  número no menor a cinco usuarios y a distintos ho-
                                                                  rarios, por ejemplo, algunos por la mañana, otros
                                                                  en hora pico, etc. Antes de esto, es necesario
                                                                  terminar de definir que atributos de los videos
                                                                  podrı́an resultar útiles a la hora de analizar los
                                                                  resultados. Por ejemplo, cantidad de visitas.

                                                                • Aplicar técnicas de aprendizaje automático para
                                                                  analizar los datos recolectados, buscando rela-
                                                                  ciones entre el contenido y la localización del
                                                                  usuario, buscando resolver las dudas planteadas
                                                                  en la introducción.

                                                                • Investigar una posible relación entre los nombres
                                                                  de domino de los servidores de contenido y su ubi-
Figure 3: Servidores encontrados hasta el mo-                     cación geográfica.
mento.
                                                                • Obtener información sobre el funcionamiento del
                                                                  cacheo y redirecciones de YouTube luego de que
                                                                  un video no se encontró en un servidor.
   Los equipos utilizados para realizar las mediciones
fueron probes del proyecto ATLAS de RIPE [9].
Los resultados arrojaron servidores en Montevideo,
                                                            References
Buenos Aires, Santiago de Chile, San Pablo, Miami,          [1] Cisco,   “Cisco    visual  networking    index:
Atlanta, Dallas, Kansas, Washington DC, Chicago,                Forecast   and     methodology,    2016–2021,”
Toronto, Denver, Los Angeles, Palo Alto, Portland,              https://www.cisco.com/c/en/us/solutions/
   collateral/service-provider/visual-networking-
   index-vni/complete-white-paper-c11-481360.html,
   2017, [Online; accessed 17-June-2018].

[2] R. Torres, A. Finamore, J. R. Kim, M. Mellia,
    M. M. Munafo, and S. Rao, “Dissecting Video
    Server Selection Strategies in the YouTube CDN,”
    in 2011 31st International Conference on Dis-
    tributed Computing Systems, Jun. 2011, pp. 248–
    257.
[3] P. Fiadino, M. Schiavone, and P. Casas, “Vivi-
    secting WhatsApp in Cellular Networks: Servers,
    Flows, and Quality of Experience,” in 7th
    Workshop on Traffic Monitoring and Analysis
    (TMA), ser. Traffic Monitoring and Analysis,
    M. Steiner, P. Barlet-Ros, and O. Bonaven-
    ture, Eds., vol. LNCS-9053, Barcelona, Spain,
    Apr. 2015, pp. 49–63. [Online]. Available:
    https://hal.archives-ouvertes.fr/hal-01411179

[4] P. Fiadino, A. D’Alconzo, and P. Casas, “Charac-
    terizing web services provisioning via CDNs: The
    case of Facebook,” in 2014 International Wireless
    Communications and Mobile Computing Confer-
    ence (IWCMC), Aug. 2014, pp. 310–315.

[5] V. K. Adhikari, S. Jain, Y. Chen, and Z. L.
    Zhang, “Vivisecting YouTube: An active measure-
    ment study,” in 2012 Proceedings IEEE INFO-
    COM, Mar. 2012, pp. 2521–2525.
[6] Selenium Browser Automation, https://www.
    seleniumhq.org/, [Online; accessed 31-July-2018].
[7] Browsermob-Proxy,          https://github.com/
    lightbody/browsermob-proxy, [Online; accessed
    31-July-2018].
[8] E. Katz-Bassett, J. P. John, A. Krishnamurthy,
    D. Wetherall, T. Anderson, and Y. Chawathe,
    “Towards IP Geolocation Using Delay and
    Topology Measurements,” in Proceedings of the
    6th ACM SIGCOMM Conference on Internet
    Measurement, ser. IMC ’06. New York, NY,
    USA: ACM, 2006, pp. 71–84. [Online]. Available:
    http://doi.acm.org/10.1145/1177080.1177090
[9] The RIPE Atlas measurement network, https://
    atlas.ripe.net/, [Online; accessed 31-July-2018].