-

Series

1613-0073

Revize metod externího trˇídeˇní pro moderní hardware

Martin Kruliš

Miroslav Cˇ ermák

Zbyneˇk Falt a Jakub Yaghob

falt@ksi.mff.cuni.cz yaghob@ksi.mff.cuni.cz 0 0 Katedra softwarového inženýrství, Matematicko-fyzikální fakulta, Univerzita Karlova v Praze , Malostranské nám 25., Praha 1

2013

1003 65 68

Abstrakt: Metody externího trˇídeˇní, tedy trˇídeˇní využívajícího vneˇjší pameˇt', jsou velmi dobrˇe známy již mnoho desetiletí. Tyto metody byly pu˚ vodneˇ navrženy pro systémy s malým množstvím interní pameˇti a magnetickými páskami coby vneˇjší pameˇtí. Magnetické pásky jsou specifické cˇisteˇ sekvencˇním prˇístupem k datu˚ m, který také ovlivnil návrh metod externího trˇídeˇní. Pásky byly nahrazeny pevnými disky s magnetickými plotnami, které prˇinesly možnost náhodného prˇístupu k datu˚ m, avšak sekvencˇní prˇístup zu˚ stal nadále výrazneˇ výkonneˇjší. Veˇtšina hardwarových prˇedpokladu˚ , na kterých je externí trˇídeˇní postaveno se za poslední desetiletí výrazneˇ zmeˇnila, zejména s prˇíchodem SSD disku˚ a vývojem nonvolatilních pameˇtí. V tomto cˇlánku prˇedstavujeme nový prˇístup k externímu trˇídeˇní, který reflektuje parametry soucˇasného hardware. Dále prˇedkládáme empirické srovnání s již existujícími metodami, které se hojneˇ používají v soudobých systémech. Trˇídeˇní patrˇí k základním stavebním kamenu˚ m rˇady algoritmu˚ a aplikací. V databázových systémech patrˇí spolecˇneˇ s operací JOIN k nejpoužívaneˇjším operacím vu˚ bec. I prˇes rostoucí kapacity a klesající ceny operacˇních pameˇtí není vždy možné rˇešit tuto úlohu cˇisteˇ v rámci vnitrˇní pameˇti pocˇítacˇe. Pro tyto situace máme k dispozici algoritmy externího trˇídeˇní, které využívají diskové úložišteˇ k odkládání mezivýsledku˚ . Algoritmy vneˇjšího trˇídeˇní byly navrženy a zmapovány již v dobách, kdy se jako externí pameˇt' používaly magnetické pásky. I prˇes jejich pu˚ vodní cíle se tyto algoritmy s drobnými úpravami používají dodnes. Jejich hlavní nevýhodou je, že prˇedpoklady, ze kterých tyto algoritmy vychází dnes již neplatí. Nejvýznamneˇjší prˇedpoklady mu˚ žeme shrnout takto: • Externí pameˇt' je organizována sekvencˇneˇ, nebo je sekvencˇní prˇístup výrazneˇ výkonneˇjší. Máme k dispozici pouze malé množství externích pásek, resp. mu˚ žeme rozumneˇ pracovat pouze s malým množstvím otevrˇených souboru˚ .

Klícˇová slova: trˇídeˇní, vneˇjší pameˇt’, algoritmus, optimalizace, moderní hardware • Externí pameˇt’ je o mnoho rˇádu˚ pomalejší než interní pameˇt’, takže dominantní složkou vyjadrˇující cˇasovou složitost je pocˇet operací s externí pameˇtí.

V tomto cˇlánku bychom rádi vyvrátili tyto prˇedpoklady pomocí empirických experimentu˚ , jejichž cílem je identifikovat vlastnosti soudobých pevných disku˚ s magnetickými plotnami a SSD pevných disku˚ . Na základeˇ opravených prˇedpokladu˚ pak navrhujeme zmeˇny pro algoritmy vneˇjšího trˇídeˇní, které by meˇly znacˇneˇ vylepšit jejich výkon.

Tento cˇlánek je organizován následovneˇ. Sekce 2 shrnuje prˇehled souvisejících prací zameˇrˇených na externího trˇídeˇní. Popis soucˇasných algoritmu˚ se nachází v sekci 3. Sekce 4 definuje nové prˇedpoklady o soucˇasném hardware a na jejich základeˇ navrhuje zmeˇny v metodách externího trˇídeˇní. Výsledky experimentu˚ , které podporují naše záveˇry, se nachází v sekci 5 a sekce 6 uzavírá cˇlánek. 2

Související výzkum

Problém externího trˇídeˇní, tedy trˇídeˇní za použité vneˇjší pameˇti, je jedním z hlavních problému˚ v oblasti algoritmu˚ pro externí pameˇt’. Cˇ ástecˇneˇ je tomu tak proto, že trˇídicí operace tvorˇí signifikantní cˇást pocˇítacˇových operací [ 6 ], a cˇástecˇneˇ proto, že trˇídeˇní je du˚ ležitým paradigma v návrhu efektivních algoritmu˚ nejen pro externí pameˇt’. Studium teˇchto problému˚ a analýza algoritmu˚ používajících vneˇjší pameˇt’ mají své pocˇátky prˇed více než 50ti lety v Demuthoveˇ doktorské tezi [ 3 ], která se zameˇrˇovala zejména na trˇídeˇní. V 70tých letech provedl Knuth [ 6 ] rozsáhlou studii trˇídeˇní v rámci svých knih pojednávajících o umeˇní moderního programování. V knize o trˇídeˇní a vyhledávání se zabývá mimo jiné strategiemi výbeˇru a nahrazení a metodami polyfázového slévání za použití magnetických pásek a magnetických disku˚ . Od té doby vzniklo mnoho nových a upravených algoritmu˚ pro trˇídeˇní za pomoci externí pameˇti [ 11 ], avšak všechny tyto metody sdílí spolecˇné prˇedpoklady definované Knuthem.

Datová komunikace mezi rychlou interní pameˇtí a pomalejší externí pameˇtí je považována za úzké hrdlo prˇi zpracování velikých dát [ 2, 7, 11 ]. Veˇtšina algoritmu˚ se snaží dosáhnout odbourání tohoto úzkého hrdla minimalizací pocˇtu vstupneˇ výstupních operací, optimální prací s vyrovnávací pameˇtí [ 7 ], nebo asynchronním nacˇítáním dat [ 2 ]. Další metodou je nasazení více pevných disku˚ , které se využívají bud’ nezávisle, nebo pomocí prokládání (stripingu), který bývá cˇasto efektivneˇjší než komplikované algoritmy pro nezávislé využití disku˚ [ 10 ]. Nejnoveˇjším prˇístupem je využití distribuovaného prostrˇedí prˇi vhodném rozdeˇlení dat a výpocˇtu˚ [ 8 ]. Pokroku ve výkonu disku˚ (prˇedevším SSD) si všimli také autorˇi energeticky efektivních algoritmu˚ [ 1, 9 ], jejichž hlavním cílem je opeˇt minimalizace pocˇtu diskových operací a tedy i minimalizace cyklu˚ slévání. 3

Existující metody vneˇjšího trˇídeˇní

Veˇtšina algoritmu˚ externího trˇídeˇní má dveˇ cˇásti. V první cˇásti se generují takzvané beˇhy, tedy sekvence setrˇídeˇných dat. Druhá cˇást pak provádí postupné slévání teˇchto beˇhu˚, dokud nevznikne beˇh jediný, který reprezentuje setrˇídeˇná data. Algoritmy se však liší tím, jakým zpu˚sobem beˇhy generují a jak je slévají. 3.1

Generování beˇh u˚

Nejjednodušší metodou je prˇímocˇaré generování beˇhu˚ pomocí jednoho bufferu1, jehož velikost je zvolena tak, aby využíval veškerou dostupnou interní pameˇt’. Buffer je poté naplneˇn vstupními daty a setrˇídeˇn vhodnou metodou interního trˇídeˇní, naprˇíklad Quicksortem [ 5 ]. Data z bufferu jsou následneˇ prˇesunuta do vneˇjší pameˇti, cˇímž je vytvoˇren jeden beˇh. Tento postup je opakován, dokud se nachází nezpracovaná data ve vstupním souboru.

Na první pohled by se mohlo zdát, že není možné generovat beˇhy delší, než je velikost vnitrˇní pameˇti. Existuje drobné vylepšení, které zajišt’uje generování beˇhu˚ veˇtších délek, pokud jsou vstupní data vhodneˇ koncipována. Tato metoda používá dveˇ prioritní fronty (typicky reprezentované 2-regulárními haldami), které se deˇlí o veškerou dostupnou pameˇt’.

Na pocˇátku zabírá první halda veškerou pameˇt’ a je zcela naplneˇna daty ze vstupního souboru. V každém kroku je z haldy odebráno minimum a zapsáno do práveˇ generovaného beˇhu na disku. Jako náhrada za toto minimum je ze vstupního souboru nacˇten další prvek. Pokud je tento prvek veˇtší nebo roven prvku práveˇ zapsanému do výstupního beˇhu, mu˚že být nový prvek zacˇleneˇn do první haldy. Pokud je veˇtší, první halda zmenší svou velikost o jedna a prvek je vložen do haldy druhé, která se tím zárovenˇ zveˇtší. Generování beˇhu koncˇí v okamžiku, kdy je první halda vycˇerpána a druhá zabírá celou pameˇt’. V tomto okamžiku se prohodí význam obou hald a mu˚že zacˇít generování dalšího beˇhu.

Experimenty na náhodneˇ usporˇádaných datech s uniformním rozložením ukazují, že beˇhy generované pomocí dvou hald mají v pru˚meˇru dvojnásobnou délku, než je velikost dostupné pameˇti. 3.2

N-cestné dvoufázové trˇídeˇní

Prˇedpokládejme, že daný systém je schopen otevrˇít nejvýše N souboru˚, resp. mu˚že soucˇasneˇ používat nejvýše N 1Z du˚vodu nedostatku vhodné terminologie budeme v tomto cˇlánku používat anglický termín buffer v jeho pocˇešteˇné podobeˇ.

Obrázek 1: Princip dvoufázového trˇídeˇní pásek. Nejjednodušší implementace slévání beˇhu˚ potom využívá N − 1 souboru˚ jako vstup a jeden soubor pro uchování výstupu. Na pocˇátku jsou prˇi generování beˇhy rozdistribuovány rovnomeˇrneˇ mezi vstupní soubory. Proces slévání pak pracuje iterativneˇ a každá iterace má dveˇ fáze. V první fázi slévá soucˇasneˇ beˇhy z N − 1 souboru˚ a výsledné beˇhy zapisuje do výstupního souboru. V druhé fázi je prˇecˇten celý výstupní soubor a beˇhy z neˇj jsou rovnomeˇrneˇ rozdistribuovány mezi vstupní soubory. Algoritmus koncˇí, když ve výstupním souboru zu˚stane pouze jeden beˇh.

Proces slévání je znázorneˇn na obrázku 1. Samotné slévání probíhá ve vnitrˇní pameˇti a je možné jej implementovat naprˇíklad pomocí prioritní fronty (tzn. haldy), která si udržuje první dosud nezpracovaný prvek z každého beˇhu.

Hlavní nevýhodou tohoto postupu je nutnost provádeˇt opeˇtovnou redistribuci beˇhu˚ ve druhé fázi každé iterace. Jedním z možných rˇešení, je použít pouze N/2 souboru˚ jako vstupních a generované beˇhy distribuovat rovnou mezi N/2 výstupních souboru˚. Tento postup má ale nevýhodu v tom, že slévá vždy pouze N/2 beˇhu˚ místo N − 1 beˇhu˚, díky cˇemuž mu˚že potrˇebovat veˇtší množství iterací.

3.3 Polyfázové trˇídeˇní

Hlavní nevýhodu dvoufázového trˇídeˇní do jisté míry rˇeší polyfázové trˇídeˇní. Jeho idea spocˇívá v nerovnomeˇrné distribuci beˇhu˚, která je chytrˇe navržena tak, aby bylo možné beˇhy neustále slévat bez jejich opeˇtovného rozhazování. Prˇitom je vždy N − 1 souboru˚ používáno jako vstupních a výsledné beˇhy se ukládají do jednoho souboru.

Cílem je, aby prˇi posledním slévání byl v každém z N − 1 vstupních souboru˚ práveˇ jeden beˇh. V takovém prˇípadeˇ probeˇhne poslední krok slévání optimálním zpu˚sobem. Pocˇátecˇní rozložení beˇhu˚ lze dopocˇítat reverzním naplánováním všech iterací slévání od optimální koncové konfigurace. Situace pro N = 3 a 21 pocˇátecˇních beˇhu˚ je znázorneˇna v následující tabulce.

soubor zacˇ. #1 #2 #3 #4 #5 #6 #1 #2 #3 13 8 0 5 0 8 0 5 3 3 2 0 1 0 2 0 1 1 1 0 0

Tabulka 1: Optimální slévání 21 beˇhu˚ pro N = 3 Na pocˇátku je v prvním souboru 13 beˇhu˚ a ve druhém 8. V každém kroku se vezme nejvyšší možný pocˇet beˇhu˚, který je možný slít prˇímo (naprˇ. v prvním kroku 8), cˇímž se Revize metod externího trˇídeˇní pro moderní hadware vždy práveˇ jeden soubor uvolní. V prˇípadeˇ dvou vstupních a jednoho výstupního souboru je rozložení beˇhu˚ založeno na Fibonacciho cˇíslech. 4

Moderní prˇístup k vneˇjšímu trˇídeˇní

V této sekci nastíníme nové prˇedpoklady o hardware, zejména o pevných discích, a na jejich základeˇ opravíme existující algoritmy vneˇjšího trˇídeˇní. 4.1

Vlastnosti hardware

Na základeˇ empirických pozorování, jejichž nejdu˚ležiteˇjší výsledky jsou shrnuty v sekci 5, mu˚žeme postulovat následující prˇedpoklady: • Soudobé magnetické disky sice stále preferují sekvencˇní prˇístup, avšak pokud je k datu˚m prˇistupováno po dostatecˇneˇ velkých blocích (rˇádoveˇ jednotky až desítky MB), je možné aplikovat nad teˇmito bloky náhodný prˇístup bez výrazného poklesu výkonu. U SSD disku˚ je možné používat i bloky menší. • Pru˚meˇrná rychlost cˇtení a zápisu výrazneˇ pˇrevyšuje rychlost vnitrˇního sériového trˇídeˇní a je srovnatelná s rychlostí paralelního vnitrˇního trˇídeˇní (na beˇžneˇ dostupném hardware). • Použití prioritní fronty (resp. haldy) k vnitrˇnímu trˇídeˇní je výrazneˇ pomalejší než použití Quicksortu. • Soudobé operacˇní systémy zvládají bez problému˚ pracovat i s tisíci otevrˇenými soubory soucˇasneˇ. • Pomeˇr velikosti vnitrˇní a vneˇjší pameˇti je na beˇžných hardwarových konfiguracích menší než 1 : 1000.

Z výše uvedených prˇedpokladu˚ vyplývají dveˇ veˇci. Externí trˇídeˇní již není potrˇeba optimalizovat na pocˇet diskových operací, nebot’ za beˇžných podmínek je možné provést slévání všech vygenerovaných beˇhu˚ najednou. Díky tomu je každý prvek práveˇ dvakrát cˇten z disku a práveˇ dvakrát na disk zapsán. Za druhé, možnost paralelního zpracování trˇídeˇných dat ve vnitrˇní pameˇti je výrazneˇ du˚ležiteˇjší pro budoucí škálovatelnost, protože rychlost pevných disku˚ již prˇesáhla propustnost trˇídicích algoritmu˚ pro vnitrˇní pameˇt’.

4.2 Zmeˇny v algoritmech

Základní koncept externího trˇídeˇní zu˚stává nadále nezmeˇneˇn. Každý algoritmus má tedy dveˇ cˇásti – generování beˇhu˚ a jejich následné slévání. Tyto cˇásti jsou do jisté míry nezávislé, a proto se jim mu˚žeme veˇnovat samostatneˇ.

Prˇi generování beˇhu˚ jsme empiricky oveˇrˇili, že použití dvou hald sice vede k vytvorˇení menšího pocˇtu delších beˇhu˚, avšak tento proces je výrazneˇ pomalejší než použití optimalizovaných algoritmu˚. Hledání minima pomocí haldy navíc není možné (na rozdíl od ostatních trˇídicích algoritmu˚) jednoduše paralelizovat. V tomto okamžiku se jako nejvíce vhodný algoritmus jeví rozdeˇlení pameˇti na dva (prˇípadneˇ trˇi) stejneˇ velké úseky, prˇicˇemž data v jednom úseku jsou trˇídeˇna zatím co data ve druhém (a prˇípadneˇ trˇetím) úseku jsou prˇenášena z disku nebo na disk. Jako algoritmus vnitrˇního trˇídeˇní poslouží nejlépe paralelní verze Quicksortu.

Jak jsme již naznacˇili, samotný proces slévání je za beˇžných okolností možné provést v jediném kroku. Pokud je vnitrˇní pameˇt’ rˇádoveˇ prˇibližneˇ tisíckrát menší než nejveˇtší možná data ve vneˇjší pameˇti, pak první cˇást trˇídeˇní vygeneruje nejvýše tisíc beˇhu˚, které mu˚žeme mít uloženy v tisíci nezávislých souborech. K samotnému slévání potom mu˚žeme použít bud’ prioritní frontu, jak navrhuje Knuth [ 6 ], nebo upravenou techniku paralelního proudového slévání, kterou prˇedstavil ve své práci Falt [ 4 ]. 5

Experimenty

Experimenty byly provádeˇny na beˇžném PC s procesorem Core i7 (4 fyzická, 8 logických jader) vybaveném 16 GB RAM. Data byla uložena na samostatném disku (1 TB, 7200 otácˇek) a druhý (identický) disk byl použit pro docˇasné soubory s vygenerovanými beˇhy. Testovací data reprezentoval soubor 32 bitových celocˇíselných hodnot, které byly náhodneˇ vygenerovány s uniformním rozdeˇlením.

První sada experimentu˚ zkoumá pomeˇr cˇasu˚ potrˇebných k setrˇídeˇní bloku dat pomocí interního trˇídeˇní a cˇasy potrˇebné k prˇecˇtení resp. zapsaní teˇchto dat na disk. Obrázek 2 prezentuje nameˇrˇené cˇasy pro ru˚zneˇ velké bloky dat a srovnává jednovláknové trˇídeˇní Quicksortem s jeho paralelní verzí. Z výsledku˚ je patrné, že cˇasy diskových operací jsou výrazneˇ nižší, než doba potrˇebná k setrˇídeˇní dat pomocí jednoho jádra a prˇibližneˇ srovnatelné s trˇídeˇním, které využívá všech 8 logických jader procesoru. Další experimenty se týkají generování beˇhu˚. V teˇchto experimentech byl použit vstupní soubor o velikosti 64 GB (16 miliard cˇísel) a buffer pro vnitrˇní trˇídeˇní o velikosti 1 GB (tedy pro 256 milionu˚ cˇísel). Tyto experimenty srovnávají sériový prˇístup, který realizuje všechny diskové operace i trˇídeˇní v jediném vlákneˇ, paralelní prˇístup, který provádí diskové operace sérioveˇ, ale ke trˇídeˇní dat využívá všechna dostupná vlákna, prˇístup založený na pipeline, který provádí diskové operace asynchronneˇ a zárovenˇ trˇídí paralelneˇ, a konecˇneˇ generování beˇhu˚ pomocí dvou hald. 19738.6 2119.51 5243.34 3194.01

1250 serial I/O serial parallel pipeline 2−heap

Obrázek 3: Cˇ asy potrˇebné pro generování beˇhu˚ Metoda generování beˇhu˚ pomocí dvou hald má sice pozitivní dopad na délku (a tedy i pocˇet) beˇhu˚ [ 6 ], avšak z grafu na obrázku 3 je patrné, že tento postup je výrazneˇ pomalejší z du˚ vodu znacˇného náru˚ stu výpocˇetních operací a náhodnému prˇístupu do vnitrˇní pameˇti, který špatneˇ využívá vyrovnávací pameˇti procesoru. 0 0 0 0 2 0 0 0 5 1 0 generate merge serial parallel pipeline 2−heap

Obrázek 4: Celkové cˇasy externího trˇídeˇní

Celkové cˇasy trˇídeˇní potom prezentuje obrázek 4. Ke slévání beˇhu˚ byl použit mechanismus vícecestného slévání pomocí 2-regulární haldy. Slévání 128 beˇhu˚ , které vygenerovaly první trˇi metody trvalo prˇibližneˇ 2400 sekund, zatímco slévání 64 beˇhu˚ vygenerovaných pomocí dvou hald trvalo 3100 sekund. Tento prˇekvapivý výsledek se nám zatím nepodarˇilo uspokojiveˇ vysveˇtlit. 6

Záveˇr V tomto cˇlánku jsme aktualizovali neˇkteré zažité prˇedpoklady týkající se vneˇjších pameˇtí a na jejich základeˇ jsme navrhli zmeˇny trˇídicích algoritmu˚ , které meˇly pozitivní dopad na výkon a budoucí škálovatelnost. Prokázali jsme, že pocˇet diskových operací již není hlavním kritériem optimalizace teˇchto algoritmu˚ , ale vývoj je trˇeba smeˇrˇovat do paralelních implementací. V pokracˇování této práce se chceme zameˇrˇit na vylepšení vícecestného slévání pro paralelní systémy a provést rozsáhlejší testy zejména za použití diskových polí a SSD disku˚ .

[1]

Andreas

Beckmann , Ulrich Meyer, Peter Sanders, and

Johannes

Singler . Energy-efficient sorting using solid state disks . Sustainable Computing: Informatics and Systems , 1 ( 2 ): 151 - 163 , 2011 .

[2]

Paolo

Bertasi , Marco Bressan, and Enoch Peserico. psort, yet another fast stable sorting software . Journal of Experimental Algorithmics (JEA) , 16 : 2 - 4 , 2011 .

[3] Howard

Demuth . Electronic data sorting . Dept. of Electrical Engineering, 1956 .

[4]

Zbyneˇk

Falt , Martin Kruliš, and

Jakub

Yaghob . Optimalizace trˇídicích algoritmu˚ pro systémy proudového zpracování dat . Informacˇné Technológie - Aplikácie a Teória , pages 69 - 74 , 2011 .

[5]

C.A.R.

Hoare . Quicksort. The Computer Journal , 5 ( 1 ): 10 , 1962 .

[6]

Donald

Ervin Knuth , Donald Ervin Knuth, and Donald Ervin Knuth. Sorting and Searching. Addison-Wesley , 2003 .

[7]

Chris

Nyberg , Tom Barclay, Zarka Cvetanovic, Jim Gray, and

Dave

Lomet . Alphasort: A cache-sensitive parallel external sort . The VLDB Journal - The International Journal on Very Large Data Bases , 4 ( 4 ): 603 - 628 , 1995 .

[8]

Alexander

Rasmussen ,

George

Porter ,

Michael

Conley , Harsha V Madhyastha, Radhika Niranjan Mysore, Alexander Pucher, and

Amin

Vahdat . Tritonsort: A balanced largescale sorting system . In Proceedings of the 8th USENIX conference on Networked systems design and implementation , pages 3 - 3 . USENIX Association, 2011 .

[9]

Vijay

Vasudevan , Lawrence Tan,

Michael

Kaminsky , Michael A Kozuch, David Andersen,

and Padmanabhan

Pillai . Fawnsort: Energy-efficient sorting of 10gb . Sort Benchmark final , 2010 .

[10]

Darren

Erik Vengroff and

J Scott

Vitter . Supporting i/oefficient scientific computation in tpie . In Parallel and Distributed Processing , 1995 . Proceedings. Seventh IEEE Symposium on, pages 74 - 77 . IEEE, 1995 .

[11] Jeffrey

Scott

Vitter . External memory algorithms and data structures: Dealing with massive data . ACM Computing surveys (CsUR) , 33 ( 2 ): 209 - 271 , 2001 .