ITAT 2013 Proceedings, CEUR Workshop Proceedings Vol. 1003, pp. 18–23 http://ceur-ws.org/Vol-1003, Series ISSN 1613-0073, c 2013 M. Pataky Anonymita používatel’a v internete Mikuláš Pataky Katedra aplikovanej informatiky, FMFI UK, Mlynská Dolina 842 48 Bratislava pataky@fmph.uniba.sk, Abstrakt: Sledovanie používatel’a internetu a analyzova- môžu útočníkom odhalit’ vel’mi konkrétne informácie z nie jeho správania sa je čoraz častejším javom. Jednou zo vyhl’adávačov, ktoré by vlastnými nástrojmi len vel’mi základných techník sledovania používatel’a je stopovanie zložito získavali, navyše im poskytuje určitú mieru krytia. jeho webového prehliadača. Ďalším zo spôsobov využitia deanonymizačnej techniky V tomto článku predstavíme teoretické východiská, ro- je deSEO (vid’ [2]). Autori tohto článku vytvorili systém zoberieme niekol’ko základných techník a predstavíme deSEO, ktorý odhal’uje SEO útokom. deSEO je systém na vlastný systém na detekciu odtlačkov prehliadačov a his- automatické detekovanie útokom nakazených výsledkov tórie nimi navštívených stránok s ciel’om čo najpresnejšie vyhl’adávania bez skúmania obsahov webových stránok. identifikovat’ používatel’a internetu. Za dobu trvania experimentu a preskúmania stoviek mi- Pri tvorení systému na deanonymizáciu sme kládli dôraz liárd URL adries z vyhl’adávačov Bing a Google dosiahli na jednoduchost’ implementačného riešenia založeného na zaujímavé výsledky: bežných webových technológiách ako PHP, CSS, JavaS- 1. deSEO identifikoval viacero skupín škodlivých URL. ript a Flash. Ciel’om predstavovaného výskumu je ako vy- Každá z týchto škodlivých skupín korešpondovala s užit’ jeho výsledky v oblasti bezpečnosti (ochrana súkro- kampaňou ovplyvňujúcou tisícky URL. mia či ochrana systémov pred kyber útokmi) , tak aj vy- užit’ nazbierané dáta pre dôkladnejšiu analýzu návštev- 2. deSEO je schopné identifikovat’ SEO kampane, ktoré nosti web stránok. používajú zložité techniky ako je cloaking a majú me- Na overenie navrhnutého systému sme tento nasadili na niacu sa štruktúru liniek. stránky Univerzity Komenského v Bratislave a jej fakul- 3. Odvodenie signatúr regulárnych výrazov na detekciu tách, čo nám umožnilo nazbierat’ dostatočné množstvo dát škodlivých URL skupín umožnilo zistit’, že až 36% a v konečnom dôsledku zároveň pomohlo získat’ dôležité všetkých výsledkov hl’adania Googlu a Bigu obsahu- informácie o návštevnosti a správaní sa používatel’ov na júci vo svojich top výsledkoch aspoň jeden škodlivý jednotlivých stránkach univerzity. link. Ako ukazujú výsledky nášho výskumu, identifikovanie používatel’a cez jeho prehliadač, či zistenie jeho histó- Systém HostTracker (vid’ [3]) využíva ID odvodené z rie, môže uskutočnit’ l’ubovol’ná web stránka. Za sledo- logov aplikačnej vrstvy, s ciel’om vytvorit’ jedinečné iden- vané jednomesačné obdobie sme boli schopní jednoznačne tifikátory host-a a sledovat’ väzby host-ov s IP adresami. identifikovat’ 75.74% z 225 154 prehliadačov a 10.01% HostTracker bol nasadený na jednom z najväčších posky- prehliadačov umožnilo detekciu histórie. tovatel’ov emailovej komunikácie, kde dokázal 76% uda- lostí v logoch systému priradit’ používatel’ovi a 92% z nich dokázal vysledovat’. Počas jednomesačného nasade- 1 Úvod nia odhalil 12,6 milióna účtov botov s chybou false posi- tive 0,4%. Za toto obdobie pomohol zablokovat’ 20,8 mi- Strata anonymity pre niektorých l’udí znamená vážny lióna škodlivých účtov. problém. Väčšina z nich si neuvedomuje, že k nej môže Projekt Panopticlick (vid’ [4]) podáva zaujímavé vý- dôjst’ rôznymi spôsobmi. Oblasti záujmu a informácie o sledky o tom, že aj po 2 428 097 identifikovaných prehlia- jednotlivých používatel’och sa dajú dobre zistit’ aj cez dačoch, stále dokážu unikátne identifikovat’ nové. Toto je známe internetové vyhl’adávače ako Google, Bing atd’. In- priamy dôkaz toho, kol’ko informácií sa dá z nich dozve- ternetové vyhl’adávače vedia kategorizovat’, prípadne do- diet’. Autor článku uvádza, že ich identifikačný systém do- statočného množstva dopytov aj identifikovat’, používate- káže úspešne identifikovat’ až 94,2% prehliadačov. Prob- l’ov podl’a sémantiky vyhl’adávacích dopytov a zobrazo- lém updatu prehliadača jednotlivých používatel’ov doká- vat’ výsledky, ktoré by mali byt’ pre nich zaujímavejšie. zali vyriešit’ jednoduchou heuristikou, kde využívajú 85% Pomocou dobre mierených dopytov sa dá dostat’ i k cit- zhodu starého a nového odtlačku. Táto heuristika im do- livým informáciám ako sú emailové adresy, zle nakonfi- kázala správne zaradit’ až 99,1% odtlačkov. Najväčšiu en- gurovaným alebo k zranitel’ným serverom. Pre odhal’ova- tropiu v tomto projekte dosahovali doplnky a fonty. nie takýchto dopytov bol vyvinutý framework SearchAu- Ďalší podobný výskum, ale vo väčšej miere, prebehol dit(vid’ [1]). Identifikuje škodlivé dotazy z logov rozšíre- na pôde Microsoftu (vid’ [5]), kde analyzovali a porovná- ných vyhl’adávacích strojov s úmyslom odhalit’ ich spo- vali IP adresy, informácie prehliadača, cookies a používa- jitost’ s potencionálnym útokom. Špecializované dotazy tel’ské prihlasovacie ID nazbierané počas jedného mesiaca Anonymita používatel’a na internete 19 z Hotmailu a Bingu. Podl’a zistení 60% – 70% návštev- Avšak, ani vyššie uvedená k-anonymita nemusí vo vše- níkov sa dalo identifikovat’ s použitím iba user agent re- obecnosti zabezpečit’ úplnú anonymitu údajov, a teda vy- t’azca. S pridaním IP adresy sa úspešnost’ zvýšila na 80%. lúčit’ budúcu deanonymizáciu. Útoky na k-anonymitu sú User agent ret’azec spolu s IP adresou mali v tomto vý- založené na d’alších informáciach, ku ktorým sa útoč- skume väčšiu entropiu, 20,29 bitov, ako kombinácia dopl- níci môžu dostat’. Napríklad použitím anonymizovaných nkov prehliadača, rozlíšenia, časovej zóny a systémových lekárskych a volebných údajov obyvatel’ov sa dajú zís- fontov. kat’ o niektorých pacientoch úplné informácie (vid’. [12]). V súčasnej dobe sa stále zvyšuje záujem používatel’ov Ochranu proti takémuto útoku zabezpečuje silnejšia pod- internetu o sociálne siete, s ktorými tiež súvisí deanony- mienka na anonymitu `-Diversity. mizácia. Spojenie skupín v sociálnych siet’ach s detekciou Pre náš výskum bolo zaujímavé prepojenie nášho de- histórie v prehliadači viedlo k jednoznačnej identifikácii tekčného systému s teóriou k-anonymity na zistenie stupňa 42% používatel’ov (vid’ [6]). O prepojení informácií z via- anonymity daného prehliadača. Tento prístup rozpracová- cerých sociálnych sietí píšu autori v (vid’ [7]), kde doká- vame v časti výsledky. zali prepojit’ tisícky účtov rôznych sociálnych siet’ach a tým zhromaždit’ viac súkromných informácií o používa- 1.2 Zhrnutie analýzy tel’och. Zaujímavému a čoraz aktuálnejšiemu prepojeniu sociálnych sietí a mobilných zariadení sa venujú výskumi Z uvedených príkladov je zrejmé, že deanonymizačné (vid’ [8] a [9]). techniky majú vel’ký význam v počítačovej bezpečnosti, a to hned’ z dvoch dôvodov. Jednak ako narušenie súkro- mia a odhal’ovanie identít používatel’ov útočníkmi a jed- 1.1 k-anonymita nak na odhal’ovanie útočníkov, ktorí sa snažia narušit’ bez- pečnost’ systému. Rôznych spôsobov deanonymizácie je S deanonymizačnými technikami nevyhnutne súvisia aj niekol’ko. V našom projekte sme sa rozhodli vytvorit’ sys- ich inverzné techniky – anonymizačné. Tieto sa snažia tém na deanonymizáciu používatel’ov internetu za pomoci upravit’ citlivé dáta tak, aby ich čast’ mohla byt’ bezpečne zachytávania odtlačkov a histórií prehliadačov. Pri analýze zverejnená. S týmto problémom sa často v praxi stretá- nazbieraných dát zase využijeme k-anonymitu na určenie vame pri lekárskych záznamoch. Kompletné lekárske zá- anonymít prehliadačov. znamy sú vysoko súkromné údaje, ku ktorým by mali Pre stále rastúci počet užívatel’ov, ako aj webových strá- mat’ prístup iba kompetentné osoby. Na druhej strane je nok, či aplikácií, sme si dali za ciel’ zistit’, ako dobre sa pre všeobecný prospech vedecká analýza týchto dát, ktorá dá bežný užívatel’ internetu identifikovat’. Pri každom do- môže pomôct’ odhalit’ negatívne trendy. Jednoduché od- pyte na webovú stránku, webový prehliadač za sebou za- stránenie identifikátorov (napr. rodné čísla, číslo sociál- necháva stopy – odtlačky, podl’a ktorých ho možno d’alej neho poistenia) a mien z takýchto záznamov nezaručuje, sledovat’. V niektorých kombináciách typu prehliadača a aby sa znovu nedali identifikovat’ konkrétny l’udia. operačného systému je možné z prehliadača zistit’ aj čast’ Výskum ohl’adne anonymizácií citlivých dát viedol k histórie navštívených stránok. formalizovaniu prístupu nazvaného ako k-anonymita (vid’. [10] a [11]). Tento prístup sa zakladá na výbere podmno- 1.3 Organizácia článku žiny atribútov, kvázi-identifikátorov QI, danej tabul’ky v databáze, ktoré spĺňajú podmienku k-anonymity. V prvej časti sme opísali viacero prístupov a využití dea- nonymizačných techník. V druhej časti popisujeme archi- Podmienka k-anonymity Všetky zverejnené dáta musia tektúru a činnost’ vytvoreného detekčného systému. Ďal- byt’ také, že každá kombinácia hodnôt z kvázi- šia, tretia čast’ sa venuje analýze nazbieraných dát. V nej identifikátorov môže byt’ nepriamo zhodná aspoň s prehl’adne prezentujeme najzaujímavejšie dosiahnuté vý- k záznamami. sledky. V predposlednej, štvrtej časti, vyvodzujeme závery a objasňujeme niektoré dosiahnuté výsledky, v ktorej pred- Samotná k-anonymita sa definuje ako: kladáme aj niekol’ko usmernení pre aplikačnú prax, t.j. rád pre používatel’ov ako ostat’ na internete čo najviac ano- k-anonymita Nech T (A1 , A2 , ..., Am ) je tabul’ka a nech QI nymný. V poslednej časti predstavujeme plány do budúcna je kvázi-identifikátor zviazaný s T . Hovoríme, že T a d’alšie možnosti využitia implementovaného systému. spĺňa k-anonymitu s ohl’adom na QI vtedy a práve vtedy, ked’ každá sekvencia hodnôt T [QI] sa vysky- tuje v T [QI] aspoň k-krát. 2 Detekčný systém Ďalšou možnost’ou anonymizácie je generalizovanie Prezentovaný výskum o anonymite sme zavŕšili vytvore- údajov daného atribútu. Napríklad vynechanie posledných ním systému na detekciu návštevníka webovej stránky, dvoch čísel v PSČ. Týmito spôsoby sa môže čast’ citli- teda na získavanie otlačkov jeho prehliadača, ktorého prin- vých údajov zverejnit’ d’alším výskumom bez toho, aby cipiálnym znakom je jednoduchost’ riešenia. Funkčné rie- bola porušená anonymita pôvodných dát. šenie, ktoré sa nám podarilo implementovat’ do podoby 20 M. Pataky jedného