Anais do 7º Workshop sobre Aspectos da Interação Humano-Computador para a Web Social (WAIHCWS’16) Sobre a Extração de Fronteiras Culturais Considerando Hábitos Alimentares Observados na Web Social Thiago H Silva Jussara M Almeida Antonio A F Loureiro Universidade Tecnológica Universidade Federal de Minas Universidade Federal de Minas Federal do Paraná Gerais Gerais Departamento Acadêmico de Departamento de Ciência da Departamento de Ciência da Informática Computação Computação Curitiba, Brasil Belo Horizonte, Brasil Belo Horizonte, Brasil thiagoh@utfpr.edu.br jussara@dcc.ufmg.br loureiro@dcc.ufmg.br ABSTRACT um problema para a realização de estudos em larga es- New approa hes to study urban so ial behavior use ala. Re entes estudos, dentre eles [3, 4, 10, 11, 14, 16℄, Foursquare he k-ins to represent user's preferen es. In revelaram uma nova forma de obtenção de dados on- this dire tion, re ently, resear hers have proposed a siderando a Web So ial, parti ularmente através de re- method for identifying ultural boundaries. Our study des so iais baseadas em lo alização (LBSNs), que pode is based on that methodology, aiming to validate the revolu ionar o estudo do omportamento so ial urbano. results and to study some variations. We use a newer Espe i amente em [16℄ os autores propuseram a uti- dataset to evaluate the results obtained previously. We lização de dados públi os disponíveis a partir da LBSN found that the ultural separation results using our Foursquare para mapear as preferên ias individuais de dataset agree with those presented previously. Further- more, we evaluated the impa t of the data observation usuários. Isto é interessante porque um he k-in em 1 uma LBSN expressa a preferên ia de um usuário por window size in the results. Finally, we study two addi- um determinado tipo de lugar. Além disso, LBSNs tional variations in the studied methodology. The ul- são a essíveis em quase todos os lugares e por qualquer tural separation quality obtained using these variations pessoa, amenizando o problema de es alabilidade e per- is lower ompared with the results obtained by the ori- mitindo que dados em diversas regiões do mundo sejam ginal approa h. The results reinfor e that, in fa t, the oletados. methodology originally proposed might be useful to om- plement large-s ale studies on ultural dieren es. Auto- O estudo da inuên ia de diferenças ulturais no ompor- mati identi ation of ultural dieren es is a valuable tamento humano é um tema parti ularmente desaador. information that an enable the reation of new ubiqui- Cultura é um on eito tão omplexo e interessante que tous appli ations. nenhuma denição simples pode apturá-lo. Entre os vários aspe tos que denem a ultura de uma so iedade Author Keywords in luem suas artes, renças religiosas e ostumes. So ial Web; Foursquare; Culture; Food and Drink; Sabemos que os hábitos alimentares e de bebidas são a- Evaluation pazes de des rever fortes diferenças entre as pessoas [1℄. Com base nisso, o objetivo de Silva et al. [16℄ foi propor ACM Classification Keywords uma nova metodologia para a identi ação de fronteiras J.4 Computer Appli ations: So ial and Behavioral S i- ulturais e semelhanças entre so iedades, onsiderando en es; H.4 Information Systems Appli ations: Mis ella- hábitos alimentares e de bebida. Para isso, foram usados neous he k-ins do Foursquare para representar as preferên ias do usuário em relação ao que se ome e bebe lo almente, por exemplo, em uma determinada idade. Os autores INTRODUÇÃO estudaram omo essas preferên ias mudam de a ordo As formas tradi ionais para estudar o omportamento om a hora do dia e lo alizações geográ as. A partir so ial urbano, por exemplo questionários, podem ser disso riaram uma metodologia para a identi ação de ulturas semelhantes, que pode ser apli ada a regiões de tamanhos variados, omo países, idades ou até mesmo bairros. WAIHCWS’16 was held as part of IHC’16, organized by the Brazilian Com isso, este presente trabalho visa avaliar a metodolo- Computing Society (SBC). October 04, 2016, São Paulo/SP, Brazil. gia para o estudo de diferenças ulturais proposta em [16℄. Copyright 2016 © for this paper by its authors. Permission to make digital or hard copies of all or part of this work for personal or classroom use is granted for private and academic purposes. 1 Ato de disponibilizar o lo al onde vo ê se en ontra para seus amigos. 72 Anais do 7º Workshop sobre Aspectos da Interação Humano-Computador para a Web Social (WAIHCWS’16) Nós exe utamos uma avaliação na metodologia estudada mostrando diferenças onsideráveis nas preferên ias en- em vários aspe tos. Usamos um dataset mais re ente, tre os países om ulturas distintas. Gar ia-Gavilanes ainda não utilizado, para avaliar os resultados obtidos et al. [4℄ estudaram variações de uso do Twitter entre anteriormente seguindo a mesma metodologia proposta. os países, mostrando que as diferenças ulturais não são Veri amos que os resultados de separação ultural uti- apenas visíveis no mundo real, mas também observadas lizando o nosso dataset on orda om os apresentados no Twitter. anteriormente. Além disso, avaliamos o impa to do Nessa direção, Silva et al. [16℄ propuseram uma nova tamanho da janela de observação dos dados nos resul- metodologia para a identi ação de fronteiras ulturais tados. Esta análise forne eu indi ações de que a iden- e semelhanças entre populações, onsiderando hábitos de ti ação das fronteiras ulturais usando um tamanho omida e bebida. No entanto, os autores avaliaram essa de janela maior do que uma semana não se altera sig- metodologia onsiderando um dataset que abrange uma ni ativamente. Finalmente, avaliamos duas variações semana de dados. Apesar dos resultados serem promis- adi ionais na metodologia estudada. sores, uma melhor avaliação dessa metodologia ainda é A orreta identi ação de fronteiras ulturais é útil em ne essária. O presente estudo baseia-se no trabalho [16℄ muitas áreas e apli ações, in luindo apli ações ubíquas. e visa avaliar a metodologia proposta de diversas for- Por exemplo, uma apli ação que pode utilizar a infor- mas. Um estudo preliminar realizado também por Silva mação ultural é um sistema de re omendação de lo ais, et al. [15℄ forne eu mais indí ios de que a metodologia o que é útil para os visitantes e moradores de uma idade. apresentada em [16℄ é promissora. Este presente estudo Com base nessa informação, sistemas omo o Foursquare omplementa esses trabalhos trazendo uma análise mais e outros bus adores baseados em lo alização, omo o pro- robusta, provendo indí ios mais fortes de que a metodolo- posto em [13℄, poderiam se bene iar om a introdução gia apresentada em [16℄ é uma opção interessante para a de novos ritérios e me anismos em seus sistemas de re- extração de fronteiras ulturais. omendação onsiderando as diferenças ulturais entre Estudos inter ulturais (isto é, o estudo das diferenças ul- as áreas. Por exemplo, uma pessoa que gosta de uma turais) não onstituem uma nova área de pesquisa. Na área espe í a de Manhattan poderia re eber uma re- verdade, eles já vem sendo realizados por pesquisadores omendação de uma área similar ao visitar Londres. que trabalham nas iên ias so iais, parti ularmente em O resto do trabalho está organizado da seguinte forma. antropologia ultural e psi ologia [8℄. No entanto, iden- A Seção 2 apresenta alguns dos trabalhos rela ionados. ti ar de forma automáti a essas diferenças ulturais é A Seção 3 apresenta os datasets utilizados. A Seção 4 uma informação valiosa que pode habilitar novas apli- des reve a metodologia de agrupamento de regiões de ações ubíquas. a ordo om a informação ultural. A Seção 5 avalia o impa to nos resultados para datasets obrindo diferentes períodos. A Seção 6 propõe e avalia duas variações na DESCRIÇÃO DOS DADOS metodologia original. Por m, a Seção 7 apresenta as Analisamos um dataset do Foursquare, que é uma rede on lusões do trabalho. so ial baseada em lo alização bastante popular. Nesse sistema os usuários podem disponibilizar para seus ami- gos os seus lo ais visitados, os hamados he k-ins. Os TRABALHOS RELACIONADOS dados do Foursquare foram oletados através do Twit- A utilização de dados da Web So ial para o estudo do 2 ter , que é um serviço de mi roblogging, ou seja, ele omportamento so ial urbano é um tema re ente de permite que os seus usuários enviem e re ebam atuali- pesquisa. Essa fonte de dados é interessante, pois per- zações pessoais de outros ontatos em textos de até 140 mite a realização de estudos em larga es ala. Nessa di- ara teres, onhe idos omo  tweets . Além de tweets de reção, vários estudos on entraram em estudar as pro- texto simples, os usuários também podem ompartilhar priedades espa iais de dados ompartilhados em redes lo alizações (ou he k-ins) a partir de uma integração so iais baseadas em lo alização, omo o Foursquare om o Foursquare. Neste aso, he k-ins do Foursquare [2, 9, 12℄. No entanto, tais esforços visam prin ipalmente anun iados no Twitter passam a  ar disponíveis publi a- a investigação de padrões de mobilidade do usuário ou mente, o que por padrão não a onte e quando o he k-in propriedades de redes so iais e suas impli ações. Salles é publi ado uni amente no sistema do Foursquare. Nós et al. [11℄ estudaram o uso do Foursquare nas maiores onsideramos dois datasets que representam dois perío- idades do Brasil, levando em onsideração fatores so- dos de tempo distintos: dataset 1 (D1) e dataset 2 (D2). ioe onmi os destas idades. Cranshaw et al. [3℄ tam- O dataset (D1) foi o mesmo utilizado em [16℄, om isso bém onsideraram dados do Foursquare para delimi- temos a esso aos mesmos dados usados na riação da tar áreas da idade em relação ao omportamento dos metodologia que estamos estudando. Esse dataset é re- usuários da rede so ial estudada. ferente a uma semana de dados de maio de 2012. O Além disso, estudos também mostraram omo o uso de dataset (D2) foi oletado por nós, não sendo utilizado previamente. sistemas da Web so ial pode variar entre os países. Por exemplo, Ho hman et al. [5℄ investigaram as preferên ias 2 de or em fotos ompartilhadas através do Instagram, http://www.twitter. om. 73 Anais do 7º Workshop sobre Aspectos da Interação Humano-Computador para a Web Social (WAIHCWS’16) Em nossos datasets, ada he k-in onsiste da latitude é elevada. Apesar da sugestão de que D2 reete orreta- e longitude, do identi ador do usuário, da ategoria mente o omportamento dos usuários, no resto do do u- do lo al, bem omo do momento em que o he k-in foi mento des onsideramos D2 na maioria das análises, a m feito. Lo ais do Foursquare são agrupados em oito at- de evitar qualquer enviesamento nos resultados. Usamos egorias: Arts & Entertainment ; College & University ; D2 somente em uma análise espe í a rela ionada om o Professional & Other Pla es ; Residen es ; Great Out- tamanho das janelas de observação de dados, dis utida doors ; Shops & Servi es ; Nightlife Spots ; e Food. Cada na Seção 5, onde a in ompletude deste dataset é uma ategoria, por sua vez, tem sub ategorias. Por exemplo, ara terísti a interessante na avaliação. Ro k Club e Con ert Hall são sub ategorias de Nightlife Spots. Neste estudo onsideramos as mesmas regiões, e países estudadas em [16℄. idades Ao todo analisamos 16 Como estamos interessados prin ipalmente no que as pes- países em várias regiões do mundo (Argentina, Austrália, soas omem ou bebem, nós agrupados manualmente as Brasil, Chile, Inglaterra, França, Indonésia, Japão, Co- sub ategorias de lo ais, disponíveis em nossos datasets, reia do Sul, Malásia, Méxi o, Rússia, Singapura, Es- rela ionadas om três lasses: Bebida, Fast Food e Slow panha, Turquia e Estados Unidos), 27 idades (Natal, Food. Após essa separação, a lasse Bebida resultou Re ife, Belo Horizonte, Rio de Janeiro, São Paulo, Man- 21 sub ategorias (por exemplo, sake pla e, karaoke bar aus, Miami, Nova Iorque, Chi ago, Dallas, Denver, Las e pub ), ao passo que a lasse Fast Food resultou em Vegas, São Fran is o, Paris, Londres, Istambul, Mos ou, 27 sub ategorias (por exemplo, bakery, burger joint e Bangue oque, Kuala Lumpur, Singapura, Ja arta, Ban- wings joint ) e a lasse Slow Food em 53 sub ategorias, dung, Surabaia, Manila, Osa a e Tóquio), bem omo in luindo Chinese restaurant, steakhouse e Greek restau- regiões populares de Londres (8 regiões), Nova Iorque rant. (8 regiões) e Tóquio (9 regiões). Para realizar essa sepa- ração de dados nós utilizamos as oordenadas geográ as Table 1. Correlação (Spearman) do número de he k-ins do he k-in e um sistema de informação geográ a. dados em ada sub ategoria dos datasets D1, D2 e D3. Classe Bebida Datasets usados ρ (p-value) METODOLOGIA PARA O AGRUPAMENTO DE ÁREAS Para o agrupamento de regiões om hábitos alimentares D2, D3 0.99 (0) e de bebida similares, utilizamos a mesma metodologia D3, D1 0.94 (5.4e-07) proposta em [16℄. Primeiramente, ada área a é repre- Classe Fast Food sentada por um vetor de preferên ia omposto de 808 Datasets usados D2, D3 ρ (p-value) 0.99 (0) ara terísti as ( features ), ou seja, o número normalizado de he k-ins em ada uma das 101 sub ategorias onside- D3, D1 0.8 (1.2e-05) radas em quatro períodos distintos do dia (madrugada, Classe Slow Food manhã, tarde e noite), durante a semana e nos ns de Datasets usados ρ (p-value) semana. Em seguida, apli amos uma Análise de Com- D2, D3 0.99 (0) ponentes Prin ipais (PCA) [7℄. Finalmente, usamos o D3, D1 0.96 (0) algoritmo k -means, uma té ni a de agrupamento ampla- mente utilizada, para agrupar áreas no espaço denido D1 abrange uma úni a semana de Abril de 2012. O outro pelos omponentes prin ipais en ontrados. dataset, D2, abrange um período maior e mais re ente: de 24 de abril de 2014 a 18 de junho de 2014. Ter a esso a Também seguindo a metodologia de [16℄, ao analisar dataset maior é parti ularmente interessante porque nos países, denimos k = 7 (mesmo número de grupos, lus- permite estudar a metodologia para apturar fronteiras ters, utilizados por Inglehart e Welzel [6℄, estudo que ulturais em diferentes janelas de observação. Nossa o- utilizou dados oletados de forma tradi ional e agrupou leta de dados enfrentou alguns problemas, possivelmente, países de a ordo om aspe tos ulturais). Seguindo a não apturando todos os dados ompartilhados nos dias mesma lógi a, onsideramos k = 4 para as idades, em que o orreram problemas. Por esta razão, de idimos uma vez que a ideia também é estudar idades de 4 riar um novo dataset, dataset D3, que é um sub on- diferentes ontinentes e k = 3 para regiões dentro de junto de D2 ontendo apenas algumas semanas, sem dias uma idade, porque onsideramos 3 idades nessa análise. om problemas de oleta, ontendo as semanas 3, 7 e 8. Além desses valores de k omputamos os grupos para Também é interessante ter esse dataset porque obre par- k = 2 e k = 10 para todas as áreas onsideradas, a m ialmente um evento mundial: Copa do mundo da FIFA de avaliar o resultado de agrupamento. Os parâmetros de 2014 (semana 8). k = 2 e k = 10 são usados para estudar grupos re- laxados e  ompa tos, respe tivamente. Essa avaliação A m de estudar a semelhança dos nossos três datasets, de grupos relaxados e ompa tos não foi feita por [16℄ nós orrela ionamos o número de he k-ins dados em e é interessante para entender a variabilidade dos gru- ada uma das sub ategorias de lo ais (para as lasses pos. Utilizamos a similaridade de osseno para al ular Bebida, Fast Food e Slow Food), utilizando a orrelação a semelhança entre os lo ais. de Spearman. A Tabela 1 resume os resultados. Como podemos ver, os datasets D2 e D3 possuem alta orre- Para ajudar na análise desses resultados, propomos neste lação positiva. A orrelação de D2 e D3 om D1 também trabalho um Índi e de Similaridade de Grupo ci,j que 74 Anais do 7º Workshop sobre Aspectos da Interação Humano-Computador para a Web Social (WAIHCWS’16) representa a semelhança entre um onjunto de grupos foi es olhido para ir de a ordo om o tamanho do dataset ( lusters ) (i) om outro onjunto de grupos (j ). Este D1. A Figura 1 mostra o índi e de similaridade de grupo índi e pode ser usado, por exemplo, para avaliar o quão para grupos obtidos utilizando ada semana individual boa é a orrespondên ia entre os grupos obtidos uti- do dataset D2 (1-8) om grupos obtidos utilizando D3, lizando o nosso novo dataset om o antigo. O Algo- para os países (Figura 1a), idades (Figura 1b) e regiões ritmo 1 mostra os passos para al ular c. Este algo- (Figura 1 ). Os resultados referem-se a todos os valores ritmo analisa todos os pares de grupos que se deseja de k onsiderados neste trabalho. omparar. Para ada par ele al ula o número de ele- mentos semelhantes (hit ) entre os grupos, bem omo o En ontramos c = 1, em todas as guras, para a maio- número de elementos diferentes (miss ). O algoritmo usa ria dos grupos identi ados para todos os valores de k , ex eto k = 10. Outra ponto em omum em todos os re- esses valores para al ular um fator de des onto. O sultados é o valor muito baixo de c para a semana 6. Isso fator de des onto é usado para penalizar um agrupa- é esperado porque esta semana em parti ular não possui mento ruim, ou seja, grupos om valor baixo de hit quase nenhum dado (6 dias sem dados, o que representa e valor alto de miss. O resultado de c tem um valor uma janela de observação muito urta). máximo de 1. Quanto mais perto de 1 mais semelhan- tes são os grupos omparados. O exemplo a seguir Considerando k = 4 no resultado de idades (Figura 1b), onsidera dois onjuntos hipotéti os de grupos, Clus- temos dois asos de idades que c 6= 1 (além da semana ters1 e Clusters2, para nos ajudar a entender o algo- 6): utilizando a semana 1 e 7. Para ambos os asos o ritmo. Clusters1: (x, y, z), (a, b, c, d), (e, f ). Clusters2: valor de c é c = 0, 7 e os grupos são iguais aos grupos (x, y, d), (a, b, c, z), (e, f ). Resultado: c1,2 = 0, 68. Expli- que foram en ontrados utilizando D1. Isso sugere que as ação: (2 − 1/2) + (3 − 1/3) + (2 − 0) (soma da interseção diferenças ulturais observados usando D1 são represen- máxima om seu respe tivo fator de des onto) dividido tativas. Como esta é uma janela de observação pequena, por 9 (número de elementos no total). as variações no omportamento das pessoas em qualquer situação atípi a, por exemplo, más ondições meteoro- Algoritmo 1: Passos para al ular o índi e de similari- lógi as, são mais sus etíveis de serem apturadas. Este dade de grupo c. pode ser o aso de todas essas semanas men ionadas. Para as regiões onsiderando k = 3 o índi e de similari- listMaxs = [℄ para ada c1 em lusterSet1 fazer dade de grupo é de c = 1 para todas as semanas, ex eto max = 0 a semana 6 (esperada) e na semana 7, mas que possui des onto = 0 um valor de c muito alto: c = 0, 95. para ada c2 em lusterSet2 fazer hit = c1 ∩ c2 Analisando os resultados para k = 10 para países e se hit == 0 então idades, observamos que a maioria dos grupos para to- ontinuar m das as semanas são semelhantes entre si, expli ando os miss = tamanho(c2 ) − hit valores similares de c, er a de 0, 7 (para países) e 0, 9 se miss 6= 0 então (para idades). Estes valores são onsideravelmente al- des onto = miss/hit tos, indi ando que todos os grupos são semelhantes om m os grupos en ontrados usando D3. al = hit−des onto se al > max então Voltando nossa atenção para os grupos en ontrados para max = al regiões onsiderando k = 10, índi es de similaridade de m m grupo baixos também foram observados, no entanto, om uma variação maior do que a observada para países e listMaxs.append(max) m idades. Este resultado pode ser expli ado pelo fato de c = soma(listMaxs)/numTotalElementosClusters que as regiões, devido ao seu tamanho menor, tendem a ser mais sus etíveis à variação no omportamento das pessoas que vieram visitá-las, fato que talvez pode ser IMPACTO DO TAMANHO DA JANELA DE OBSERVAÇÃO atenuado através de um dataset que abrange uma janela Ao reproduzir os resultados utilizando a metodologia de tempo maior. men ionada a ima, observamos que os resultados obti- Todos estes resultados sugerem que os limites ulturais dos para o D1 e D3 são muito semelhantes. Com isso, identi ados utilizando uma janela de observação maior uma pergunta natural é: qual é o impa to do tamanho do que uma semana não se alteraram signi ativamente, da janela de observação nos resultados? apesar da sugestão de que é possível obter resultados Lembre-se de que D1 tem uma semana ompleta, D3 tem mais pre isos quando onsiderando grupos mais om- três semanas ompletas, que estão ontidas em D2 que pa tos, ou seja, es olhendo um número grande de gru- tem oito semanas, mas algumas delas provavelmente não pos para ser en ontrado (K = 10 em nossos exemplos). representam todos os dados que poderiam ser oletados. Isso é espe ialmente válido em es ala menor, tais omo A m de responder a questão olo ada, investigamos o a nível de regiões. No entanto, usando um dataset que impa to nos resultados onsiderando ada semana de D2 abrange onsideravelmente menos do que uma semana, individualmente. Esse tamanho da janela em parti ular 75 Anais do 7º Workshop sobre Aspectos da Interação Humano-Computador para a Web Social (WAIHCWS’16) isto é, uma janela pequena de observação para apturar 1 a rotina de usuários, tal omo a semana 6, os resultados tendem a ser onsideravelmente piores. 0.8 Similaridade ANÁLISES ADICIONAIS 0.6 Nesta seção, o nosso objetivo é avaliar se a metodolo- gia de agrupamento que estamos seguindo é satisfatória. 0.4 Para isso, analisamos duas variações na abordagem ori- k=7 ginal, o que poderia simpli ar a abordagem original, k=2 melhorando o desempenho de pro essamento para um 0.2 volume maior de dados. k=10 0 0 2 4 6 8 Descrição das Análises Semana Nesta seção, nós ignoramos a dimensão tempo na nossa avaliação para propor duas análises adi ionais (AA) para (a) Países a identi ação das fronteiras ulturais. • AA1: nesta análise o vetor de preferên ias dos usuários onsidera apenas os tipos de lo ais (sub ategorias de 1 lugares) apresentados em ada idade. Não onsidera- mos o número de he k-ins realizados em ada lo al; 0.8 Similaridade Mesmos • AA2: nesta análise o vetor de preferên ias onsidera 0.6 clusters que os tipos de lo ais, bem omo a sua popularidade, isto é, usando D1 que onsideramos o número normalizado de he k-ins 0.4 realizados em ada uma das 101 sub ategorias. k=4 Com AA1 tentamos responder a pergunta: será que a 0.2 k=2 existên ia de ertos tipos de lo ais em uma área a são k=10 su ientes para expli ar as diferenças ulturais? AA2 0 0 2 4 6 8 nos ajuda a omplementar a primeira questão, visando responder: a popularidade desses lo ais é útil/essen ial Semana nessa tarefa? (b) Cidades O resto da metodologia ontinua da mesma forma omo apresentado na Seção 4. Em suma, agora representamos ada área a por um vetor de preferên ia omo des rito em AA1 e AA2, des onsiderando a dimensão temporal. 1 Em seguida, apli amos a té ni a PCA a esses vetores para obter os seus omponentes prin ipais. Finalmente, 0.8 usamos o algoritmo k -means para agrupar áreas no es- Similaridade paço denido pelos omponentes prin ipais identi ados. 0.6 Nós realizamos essa análise para áreas que representam países, idades e regiões. Para esta análise onsideramos 0.4 apenas o dataset D3. k=3 k=2 0.2 Avaliando AA1 k=10 Ronald Inglehart e Christian Welzel propuseram um 0 mapa ultural do mundo om base nos dados do World 0 2 4 6 8 Values Surveys (WVS) 2005-2008 [6℄. Além disso, ofe- Semana re eram uma divisão do mundo em grupos, semelhante om o que fazemos neste trabalho. Primeiro estudamos ( ) Regiões os resultados obtidos para AA1. Os grupos en ontra- dos para países onsiderando k = 7, k = 2 e k = 10 Figure 1. Índi e de similaridade de grupo dos grupos não vão de a ordo om os dados do WVS e nem om o obtidos para ada semana individual de D2 (1 a 8) om senso omum. Há sempre um grupo om o número má- os grupos para D3. ximo possível de a ordo om o k . Em outras palavras, uma vez que temos 16 países, quando denimos k = 7 nós temos um grupo om 10 países e outros 6 grupos 76 Anais do 7º Workshop sobre Aspectos da Interação Humano-Computador para a Web Social (WAIHCWS’16) Table 2. Índi e de similaridade de grupo entre os grupos en ontrados usando a metodologia original ( onsiderando 0.6 o dataset D3) e usando AA1. O índi e é gerado para todos 2º Principal Componente os tipos de áreas e k valores onsiderados. Dallas Denver 0.4 Miami Las Vegas Países San Francisco Chicago Número de grupos (k ) caa1,D3 New York k=7 0,18 0.2 London Paris k=2 0,5 Manila Istanbul Moscow k = 10 0,31 0 Kuala Lumpur Cidades Singapore Bangkok Jakarta Número de grupos (k ) caa1,D3 Bandung Osaka -0.2 Cidades brasileiras k=4 0,39 Surabaya Tokyo k=2 0,57 k = 10 0,32 -0.4 -0.5 0 0.5 Regiões 1º Principal Componente Número de grupos (k ) caa1,D3 k=3 0,39 Figure 2. Resultados de agrupamento para idades usando AA2 para k = 4 e onsiderando D3. k=2 0,56 k = 10 0,34 metodologia original e a abordagem AA2. Como pode- mos ver, os resultados para países não on ordam onsi- ontendo um país ada. Esses agrupamentos são prati- deravelmente om a metodologia original para k = 7 e amente sele ionados aleatoriamente apenas para satis- fazer o k es olhido, resultando em grupos muito dife- k = 10. rentes dos observados onsiderando o WVS. De fato, o Este não é o aso para idades e regiões, asos em que os índi e de similaridade de grupo en ontrado onsiderando resultados om AA2 são mais semelhantes om aqueles os grupos para k = 7 e os grupos en ontrados para o obtidos utilizando a metodologia original. Apesar disso, WVS é: caa1,wvs = 0, 18. a similaridade elevada não é sempre obtida. Além disso, utilizando a metodologia de [16℄ somos mais propensos a Como nós tendemos a ter muitos dados representando obter resultados que são esperados de a ordo om o senso um país, o resultado insatisfatório para esta abordagem é omum. Por exemplo, usando AA2 para k = 4, Figura esperado, pois é provável que en ontremos todos os tipos 2, Londres foi agrupada om Bangkok, Tóquio, Manila, de lugares (em nosso vetor de preferên ia) para todos os Mos ou e Osa a, fato que não é observado usando a países. Por esta razão, as distân ias de ada vetor de metodologia original. Além disso, a metodologia origi- preferên ias tendem a ser zero, tornando a qualidade do nal tende a agrupar regiões dentro da mesma idade me- agrupamento muito baixa. lhor do que om AA2. Esta é outra indi ação de que os Nós também al ulamos o índi e de similaridade de resultados obtidos om a metodologia original separam grupo entre todos os resultados obtidos onsiderando melhor áreas distintas ulturalmente. AA1 om a metodologia original usando o dataset D3, gerando então caa1,D3 , omo mostra a Tabela 2. O índi e Table 3. Índi e de similaridade de grupo entre os grupos é obtido para todos os tipos de áreas e valores de k en ontrados usando a metodologia original ( onsiderando onsiderados. Como podemos ver, os resultados para o dataset D3) e usando AA2. O índi e é gerado para todos países, onsiderando todos os valores de k , obtidos om os tipos de áreas e k valores onsiderados. AA1 também são muito distintos daqueles obtidos om Países a metodologia original. Número de grupos (k ) caa2,D3 k=7 0.4 k=2 0.92 Avaliando AA2 k = 10 0.59 Voltamos nossa atenção agora para os resultados obtidos Cidades para AA2. Estudando os resultados para países, observa- Número de grupos (k ) caa2,D3 mos que eles vão onsideravelmente mais de a ordo om k=4 0.95 os en ontrados por Ronald Inglehart e Christian Welzel k=2 0.96 usando dados do WVS do que aqueles obtidos utilizando k = 10 1 AA1. No entanto, eles são menos pre isos do que os re- Regiões sultados obtidos usando a metodologia original de [16℄. Número de grupos (k ) caa2,D3 Por exemplo, o grupo omposto por Turquia e Austrália k=3 1 identi ado utilizando a abordagem AA2 não é identi- k=2 1  ado utilizando a metodologia original de Silva e nem k = 10 0.88 por Inglehart. Para estudar este aso a Tabela 3 mostra os valores de c entre os grupos en ontrados usando a 77 Anais do 7º Workshop sobre Aspectos da Interação Humano-Computador para a Web Social (WAIHCWS’16) pelo Instituto Na ional de Ciên ia e Te nologia para Web 0.4 TKO1 (INWEB), FAPEMIG, Fundação Arau ária e CNPq. NY1 NY4 TKO7 2º Principal Componente NY6 NY2 TKO2 REFERENCES 0.2 NY5 TKO5 1. Carole, C. Food And Culture: A Reader, 2nd ed. NY3 LND4 TKO3 Routledge, De . 1997. 0 NY8 TKO8 TKO4 2. Cho, E., Myers, S. A., and Leskove , J. Friendship and mobility: user movement in lo ation-based so ial networks. In Pro eedings of KDD'11, ACM (San Diego, −0.2 LND1 NY7 TKO9 California, USA, 2011), 10821090. TKO6 3. Cranshaw, J., S hwartz, R., Hong, J. I., and Sadeh, N. LND5 The Livehoods Proje t: Utilizing So ial Media to −0.4 Understand the Dynami s of a City. In Pro eedings of LND3 ICWSM'12 (Dublin, Ireland, 2012). LND2 LND6 4. Gar ia-Gavilanes, R., Quer ia, D., and Jaimes, A. −0.6 Cultural dimensions in twitter: Time, individualism and −0.5 0 0.5 1 power. In Pro eedings of ICWSM'13 (Boston, USA, 1º Principal Componente 2013). Figure 3. Resultados de agrupamento para regiões usando 5. Ho hman, N., and S hwartz, R. Visualizing instagram: a metodologia original para o dataset D1 (k = 3) e on- Tra ing ultural visual rhythms. In Pro eedings of siderando somente a lasse Bebida. Workshop on So ial Media Vis., AAAI (Dublin, Ireland, 2012), 69. 6. Inglehart, R., and Welzel, C. Changing Mass Priorities: Discussão The Link between Modernization and Demo ra y. É importante ressaltar que a omparação realizada aqui Perspe tives on Politi s 8, 02 (2010), 551567. om a metodologia original e as abordagens AA1 e AA2 7. Jollie, I. T. Prin ipal Component Analysis, se ond ed. foi em relação à identi ação dos limites ulturais. No Springer, 2002. entanto, temos que ter em mente que a redução da di- 8. Murdo k, G. So ial Stru ture. Ma millan, 1949. mensão, na mesma direção usada nas abordagens AA1 e 9. Noulas, A., S ellato, S., Mas olo, C., and Pontil, M. An AA2, pode ser útil para obter outros tipos de informações Empiri al Study of Geographi User A tivity Patterns sobre as áreas onsideradas. A m de deixar mais lara in Foursquare. In Pro eedings of ICWSM'11 (Bar elona, a utilidade de redução de dimensão, quando analisamos Spain, 2011). um sub onjunto de ara terísti as, por exemplo, hábitos 10. Noulas, A., S ellato, S., Mas olo, C., and Pontil, M. de bebida durante os ns de semana em todas as regiões Exploiting Semanti Annotations for Clustering de Londres, Nova Iorque e Tóquio, resultado mostrado Geographi Areas and Users in Lo ation-based So ial Networks. In Pro eedings of ICWSM'11, AAAI na Figura 3, nós des obrimos que algumas regiões de (Bar elona, Spain, 2011). Londres e Nova Iorque são agrupadas. Isto é orrobo- 11. Sales, A., Alves, L., Araújo, M., Menezes, A., Morais, rado pelos resultados apresentados em [16℄: para er- A., and Andrade, N. O uso de uma rede geosso ial nas tas ategorias, existem regiões de diferentes idades que idades brasileiras e sua relação om fatores são muito semelhantes e, por isso, são agrupadas. Isto so ioe onmi os. In Pro eedings of IHC'13 (Manaus, pode ser útil em um apli ativo, por exemplo, para sugerir Brasil, 2013), 142147. áreas para onsumir bebidas om os amigos. 12. S ellato, S., Noulas, A., Lambiotte, R., and Mas olo, C. So io-spatial Properties of Online Lo ation-based So ial Networks. In Pro eedings of ICWSM'11 (Bar elona, CONCLUSÕES Spain, 2011). Considerando datasets do Foursquare om diferentes vo- lumes de dados e tamanhos de janela de observação, 13. Shankar, P., Huang, Y.-W., Castro, P., Nath, B., and avaliamos uma metodologia para a identi ação de fron- Iftode, L. Crowds repla e experts: Building better teiras ulturais em diferentes aspe tos. Os resultados lo ation-based servi es using mobile so ial network reforçam a sugestão de que a metodologia estudada, que intera tions. In Int. Conf. on Perv. Comp. and Comm. usa de dados da Web so ial, parti ularmente sobre a (Per om'12) (Lugano, Switzerland, 2012), 2029. preferên ia dos usuários por estabele imentos alimenta- 14. Silva, T., Vaz De Melo, P., Almeida, J., and Loureiro, A. res, pode ser uma alternativa viável a métodos tradi- Large-s ale study of ity dynami s and urban so ial ionais para a extração de fronteiras ulturais. Uma behavior using parti ipatory sensing. Wireless forma automáti a de identi ação de fronteiras ulturais Communi ations, IEEE 21, 1 (Feb 2014), 4251. pode habilitar a onstrução novas apli ações da Web so- ial. Existem vários trabalhos futuros para este estudo, 15. Silva, T. H., de Melo, P. O. S. V., Almeida, J. M., and por exemplo, um estudo teóri o do impa to da janela Loureiro, A. A. F. Estudo de hábitos alimentares e de de observação de dados nos resultados, bem omo a ava- bebida usando mídia so ial. In Pro eedings of IHC'14, liação do impa to da qualidade dos dados utilizados nos So iedade Brasileira de Computação (Porto Alegre, resultados. Brazil, Brazil, 2014), 337340. 16. Silva, T. H., Vaz de Melo, P. O. S., Almeida, J. M., Agradecimentos Musolesi, M., and Loureiro, A. A. F. You are What you Este trabalho foi par ialmente nan iado pelo projeto Eat (and Drink): Identifying Cultural Boundaries by FAPEMIG-PRONEX-MASWeb, Modelos, Algoritmos e Sis- Analyzing Food & Drink Habits in Foursquare. In Pro eedings of ICWSM'14 (Ann Arbor, MI, USA, 2014). temas para Web, pro esso número APQ-01400-14, bem omo 78