=Paper=
{{Paper
|id=None
|storemode=property
|title=Spracovanie Prirodzeného Jazyka pre Interaktívne Rečové Rozhrania v Slovenčine
|pdfUrl=https://ceur-ws.org/Vol-1422/81.pdf
|volume=Vol-1422
|dblpUrl=https://dblp.org/rec/conf/itat/StasHOZJ15
}}
==Spracovanie Prirodzeného Jazyka pre Interaktívne Rečové Rozhrania v Slovenčine==
J. Yaghob (Ed.): ITAT 2015 pp. 81–87 Charles University in Prague, Prague, 2015 Spracovanie prirodzeného jazyka pre interaktívne rečové rozhrania v slovenčine Ján Staš, Daniel Hládek, Stanislav Ondáš, Daniel Zlacký a Jozef Juhár Katedra elektroniky a multimediálnych telekomunikácií, Fakulta elektrotechniky a informatiky, Technická univerzita v Košiciach, Park Komenského 13, 042 10 Košice, Slovenská republika {jan.stas, daniel.hladek, stanislav.ondas, daniel.zlacky, jozef.juhar}@tuke.sk Abstrakt: V príspevku sú zhrnuté priebežné výsledky apli- 2 Zdrojové dáta kovaného výskumu v oblasti spracovania prirodzeného ja- zyka v úlohách orientovaných na výskum a vývoj modu- 2.1 Dolovanie textu lov rečových rozhraní medzi človekom a strojom, ktorý prebieha v Laboratóriu rečových a mobilných technoló- Rozsiahly korpus písaných textov použitý vo viacerých gií na KEMT FEI TU v Košiciach. Zahrnutie hovorenej oblastiach spracovania prirodzeného jazyka v Laboratóriu reči, ako najprirodzenejšieho komunikačného nástroja me- rečových a mobilných technológií bol vytvorený pomo- dzi l’ud’mi, má svoje nezastupitel’né miesto aj pri návrhu cou nami navrhnutého systému na dolovanie a spracova- a vývoji interaktívnych rečových rozhraní. Pri prechode nie textových dokumentov z webových stránok dostupných od rozpoznávania l’udskej reči k jej porozumeniu strojom na sieti Internet s názvom webAgent [1, 2]. Systém doluje je potom nevyhnutné vykonat’ aj dodatočnú analýzu textu textové dáta z rôznych domén a elektronických zdrojov po automatickom prepise. To zahŕňa aj proces transfor- písaných v slovenčine a pomocou preddefinovaných pra- mácie textu po rozpoznaní na reprezentáciu určitého typu vidiel na prepis čísloviek, symbolov a skratiek ich spra- znalostí, ktorému dokáže stroj porozumiet’. Tento zložitý cúva do ich vyslovovanej podoby. Systém je navyše roz- proces všeobecne pozostáva z tokenizácie, automatickej šírený o metódy tokenizácie, segmentácie na vety, metódy korekcie a dodatočnej morfologickej, syntaktickej a sé- na kontrolu duplicity na úrovni adresy zdroja textu a obsa- mantickej analýzy textu. Nami navrhnuté moduly a vý- hu dokumentu, a tiež o metódy filtrácie viet obsahujú- sledky automatického spracovania textu v slovenskom ja- cich vel’ké množstvo gramaticky nespisovných slov, číslic, zyku budú postupne predstavené v tomto príspevku. akronymov, symbolov, skratiek, a iných cudzojazyčných a mimoslovníkových slov. Spracovaný text je následne rozdelený do menších celkov, t.j. podkorpusov, pomocou 1 Úvod účinných metód na kategorizáciu textových dokumentov. Súčasný korpus písaných textov v slovenčine obsahuje pri- S príchodom výpočtovej techniky sa stala potreba počíta- bližne 2,25 mld. tokenov obsiahnutých v 125 mil. vetách. čového spracovania prirodzeného jazyka aktuálnou celo- svetovou témou. Vedci sa po celom svete snažia podchy- tit’ charakter takmer každého jazyka s ciel’om zjednodu- 2.2 Kategorizácia textu šit’ interakciu medzi l’ud’mi a strojmi a komunikáciu me- dzi l’udmi samotnými. Oblast’ spracovania prirodzeného S narastajúcim množstvom textových dokumentov stia- jazyka zahŕňa širokú škálu disciplín, ako napr. vyhl’adá- hnutých zo siete Internet a potrebou vytvárat’ čoraz vanie informácií, štatistické modelovanie jazyka, strojový presnejšie doménovo orientované interaktívne rečovo- preklad, automatické rozpoznávanie a porozumenie reči založené systémy a rozhrania, sa vynorila otázka katego- a pod. Jednotlivé disciplíny však vo väčšine prípadov úzko rizovat’ textové dáta nielen podl’a adresy (URL) zdroja súvisia, dopĺňajú sa, a pomocou nich je možné l’ud’om textu, odkial’ daný textový dokument pochádza, ale aj na ul’ahčit’ prácu, štúdium, komunikáciu, či zábavu. Jednou úrovni jeho obsahu. Navyše webová adresa zdroja textu z najaktuálnejších úloh v oblasti spracovania prirodzeného nemusí byt’ hned’ jednoznačným identifikátorom obsahu jazyka je aj automatické rozpoznávanie reči (ARR), kto- dokumentu, vychádzajúc tiež z predpokladu, že jeden do- rému sa v našom laboratóriu intenzívne venujeme. Vd’aka kument môže pojednávat’ o viacerých témach. Kategori- viacerým zlepšeniam v oblasti automatického rozpozná- zácia textu má preto vel’ký význam pri návrhu a tvorbe ro- vania reči v slovenčine sme schopní rozpoznat’ l’udskú bustných doménovo orientovaných systémov na automa- reč s dostatočnou presnost’ou v mnohých aplikačných úlo- tické rozpoznávanie reči, ale aj v iných úlohách využíva- hách, avšak komplexné porozumenie významu je v súčas- júcich textové dáta ako zdroj informácií, napr. pri návrhu nosti jednou z najnáročnejších úloh pri návrhu rôznych in- a vývoji interaktívnych rečovo-založených rozhraní. teraktívnych rečových rozhraní a to nielen v slovenčine. Narozdiel od metód zhlukovania, kde dokumenty s vy- V tomto článku budú predstavené nami navrhnuté prístupy užitím štatistických prístupov spájame do určitého počtu na spracovanie prirodzeného jazyka pre interaktívne re- zhlukov, v ktorých tému vopred nepoznáme, pri kategori- čové rozhrania v slovenčine. zácii dokumentov sa snažíme zadelit’ dokumenty do dvoch 82 J. Staš, D. Hládek, S. Ondáš, D. Zlacký, J. Juhár alebo viacerých tried na základe ich minimálnej vzdia- Najdôležitejšou čast’ou predspracovania textu je jeho lenosti, resp. sémantickej podobnosti, udávajúcej prienik tokenizácia. Jej ciel’om je identifikácia jednotlivých slov slov alebo celých fráz medzi dokumentami. V oboch prí- a vetných hraníc, ktoré môžu slúžit’ ako vstup do dal- padoch je nutné identifikovat’ tému v danom zhluku, resp. šieho spracovania. V tomto kroku sa tiež snažíme zjedno- triede, a to bud’ pomocou prístupov založených na extrak- tit’ spôsob zápisu číslic, diakritiky, interpunkcie, akrony- cii kl’účových slov, pravdepodobnostných prístupov zalo- mov, symbolov, skratiek a iných významových jednotiek. žených na výpočte podobnosti dokumentov pomocou diš- Tokenizácia sa zvyčajne vykonáva postupnou apliká- tančných metrík, alebo ich kombináciou. ciou vhodne zapísaných regulárnych výrazov, ktoré obsa- Počiatočný výskum v oblasti kategorizácie textových hujú pravidlá pre identifikáciu textových jednotiek, dôleži- dokumentov bol venovaný metódam zhlukovania po- tých pre d’alšie spracovanie. Nepodstatné časti textu, ktoré mocou iteračných algoritmov založených na k-means nie sú pokryté pravidlami, sú z textu vynechané. Nami na- a k-medoid zhlukovaní a na hierarchickom zhlukovaní vy- vrhnutý tokenizátor identifikuje tieto časti textu: diaktri- užívajúcom aglomeračné a divizívne kritérium [3]. Ako tika, slová, akronymy, symboly, skratky, zoznamy, odseky, najvhodnejším prístupom sa ukázalo hierarchické zhluko- čísla, e-mailové adresy a adresy URL. Identifkácia vet- vanie textu s využitím aglomeračného kritéria pri zhlu- ných hraníc je d’alej vykonávaná pomocou rozlíšenia vý- kovaní článkov zo slovenskej Wikipédie. Tento spôsob znamu bodky, jej desambiguáciou. V slovenských textoch zhlukovania dokumentov sme porovnali s nami navrhnu- môže byt’ bodka súčast’ou označenia číselného poradia, tou metódou založenou na klasifikácii textových dokumen- skratky alebo e-mailovej alebo webovej adresy. tov pomocou kl’účových fráz využívajúcou F-skóre ako Na začiatku procesu identifikácie významových častí je hodnotiace kritérium [4]. Nami navrhnutý spôsob klasi- vstupný ret’azec porovnaný so všetkými pravidlami v da- fikácie sa výsledkami ukázal porovnatel’ný k hierarchic- tabáze. Pravidlo, ktoré vyhovuje najdlhšiemu textu, je vy- kému zhlukovaniu, avšak hlavnou nevýhodou navrhnutej braté a jeho zodpovedajúci text je prepísaný podl’a požia- metódy je nutnost’ mat’ k dispozícii zoznamy kl’účových daviek. Tento text je potom odstránený zo vstupného re- slov, resp. fráz pre jednotlivé domény a v procese klasi- t’azca. Ak nevyhovuje žiadne pravidlo, vstupný ret’azec fikácie textu je nutné správne (v ideálnom prípade auto- je skrátený o jeden znak a prehl’adávanie bázy pravidiel maticky) nastavit’ vhodný prah delenia. Tento typ klasifi- pokračuje. Výsledkom tokenizácie je text, kde sú textové kácie sme v nasledujúcom výskume zameranom na kate- jednotky oddelené medzerou a vety novým riadkom. gorizáciu textu v úlohe robustného doménovo orientova- Proces identifikácie tokenov je zvyčajne výpočtovo ná- ného modelovania jazyka rozšírili o d’alšie tri metriky ur- ročný. Pre urýchlenie sme všetky pravidlá zapísali v špe- čujúce vzdialenost’, resp. podobnost’ medzi dokumentami, ciálnom jazyku Ragel [8] a spojili do jediného stavového konkrétne o Bhattacharyyaov koeficient, Jaccardov index automatu v programovacom jazyku C, z ktorého je zvy- a Jensenovu-Shannonovu divergenciu. Ako najvhodnejšou čajným spôsobom vytvorený spustitel’ný súbor resp. kniž- mierou v úlohe klasifikácie textu sa javí použitie Jaccar- nica [9]. Podrobnejšie informácie možno nájst’ v [1]. dovho indexu pri výpočte podobnosti dokumentov [5]. Iným spôsobom je použitie metód nekontrolovaného učenia v úlohe kategorizácie textových dokumentov. Vo 4 Anotácia textu viacerých súčasných výskumoch zaoberajúcich sa mode- lovaním jazyka sme pri kategorizácii dokumentov siahli Tam kde to je možné, využívame pre anotáciu textu prí- po latentnej Dirichletovej alokácii (z angl. „latent Di- stupy založené na štatistickom modelovaní. V trénova- richlet allocation“, skr. LDA). LDA je charakterizovaná cej databáze sú zvyčajne tokenom priradené určité triedy ako generatívny pravdepodobnostný model, ktorý vychá- alebo morfologické značky. Štatistický klasifikátor analy- dza z multinomického a Dirichletovho rozdelenia prav- zuje trénovací korpus a je schopný priradit’ najpravdepo- depodobnosti [6]. Zavedenie LDA v úlohe modelovania dobnejšiu značku aj takým kontextom, ktoré sa v tréno- slovenského jazyka pri automatickom prepise diktovaných vacej databáze nevyskytujú. Slovenčina sa vyznačuje re- súdnych rozhodnutí prinieslo tiež výrazné zníženie perple- latívne vol’ným poradím slov vo vetách, vysokým počtom xity modelov a miery chybovosti systému ARR [7]. morfologických tvarov slov a gramatických výnimiek. Po- čet možných kontextov tak môže byt’ vel’mi vysoký, a to st’ažuje úlohu natrénovania čo možno najpresnejšieho šta- 3 Identifikácia tokenov a vetných hraníc tistického klasifikátora. Prvým krokom v spracovaní textu je jeho príprava a prepis číslic, symbolov a skratiek do ich vyslovovanej podoby. 4.1 Rozpoznávanie pomenovaných entít Úlohou je pomocou sústavy pravidiel identifikovat’ také textové jednotky, ktoré sú zaujímavé z hl’adiska d’alšieho Z dôvodu nedostatku trénovacích dát pre rozpoznávanie spracovania, t.j. úprava na jednotný spôsob zápisu a eli- pomenovaných entít v súčasnosti využívame systém za- minácia nepodstatných častí. Predspracovanie je tak nevy- ložený na pravidlách. Systém využíva sadu slovníkov, re- hnutným krokom pre akékol’vek d’alšie štatistické spraco- gulárnych výrazov a viacslovných pomenovaní, ktoré sú vanie, zvlášt’ v prípade textov stiahnutých z Internetu. spojené do unifikovaného systému na automatický prepis Spracovanie prirodzeného jazyka pre interaktívne rečové rozhrania v slovenčine 83 korpus anotácia TreeTagger Dagger Národný korpus jazyka pol’ského manuálna 15,63 11,83 Český akademický korpus (v2.0) manuálna 13,10 9,46 Slovenská čast’ korpusu W2C automatická 10,30 4,47 Mad’arský webový korpus automatická 2,55 1,97 Tabul’ka 1: Miera chybnej klasifikácie [v %] morfologických analyzátorov TreeTagger a Dagger pomenovaných entít. Tento na pravidlách založený sys- najmä pri morfologickej analýze korpusu písaných textov tém pracuje podobne ako tokenizátor, pomocou stavového v slovenčine a pri trénovaní štatistických modelov jazyka automatu. Rozpoznané pomenované entity je možné vy- založených na triedach slov v systémoch na automatické užit’ v rôznych úlohách spracovania prirodzeného jazyka rozpoznávanie plynulej reči v slovenčine [11, 12]. v slovenčine. Vzhl’adom na to, že autorom systému na roz- Presnost’ klasifikácie nami navrhnutého morfologické- poznávanie pomenovaných entít nie je v súčasnosti známy ho analyzátora Dagger sme porovnali s dobre známym žiaden iný porovnatel’ný nástroj vytvorený pre slovenčinu, slovnodruhovým (z angl. „part-of-speech“, skr. PoS) ani databáza vhodná na testovanie, nie je preto možné značkovačom TreeTagger [13], ktorého algoritmus je za- tento nástroj správne ohodnotit’ a vyčíslit’ jeho úspešnost’. ložený na rozhodovacích stromoch. Pre porovnanie pres- nosti klasifikácie sme morfologické analyzátory vyhodno- 4.2 Morfologická analýza textu tili na štyroch rôznych manuálne resp. automaticky anoto- vaných textových korpusoch, a to na Národnom korpuse Morfologické značky sú jedným z najdôležitejších prí- jazyka pol’ského [14], Českom akademickom korpuse, vo znakov v spracovaní prirodzeného jazyka. Z toho dôvodu verzii 2.0 [15], Mad’arskom webovom korpuse [16], a na sme morfologický klasifikátor Dagger [10] navrhli tak, aby slovenskej časti textového korpusu Web to Corpora [17]3 . bral do úvahy špecifické vlastnosti flektívnych jazykov. V Tab. 1 sú znázornené výsledky miery chybnej klasifiká- Klasifikátor je založený na skrytom Markovovom modeli cie, ktoré ukazujú, že nami navrhnutý algoritmus morfolo- (z angl. „hidden Markov model“, skr. HMM) druhého rádu gickej analýzy dosahuje porovnatel’nú presnost’ s klasifi- a najpravdepodobnejšia postuponost’ morfologických zna- káciou obsiahnutou v nástroji TreeTagger. čiek je vyhl’adávaná Viterbiho algoritmom. Nami navrhnutý HMM klasifikátor Dagger pre morfo- logickú analýzu flektívnych jazykov sa skladá z nasledu- 4.3 Doplňovanie diakritiky júcich štyroch častí: Častým javom pri komunikácii medzi l’udmi prebiehajú- 1. lexikón, ktorý navrhuje množinu možných značiek na cej na sieti Internet je vysoký výskyt preklepov a chýba- základe slova alebo jeho koncovky; júca diakritika. Hoci človeku to väčšinou pri porozumení 2. model prechodov, ktorý vyjadruje pravdepodobnost’ správy nerobí problém, pri počítačovom spracovaní priro- nasledujúcej značky na základe dvoch predchádzajú- dzeného jazyka je potrebné nájst’ vhodný spôsob pre rozlí- cich, šenie významu nejednoznačných zápisov na základe oko- litého kontextu. Z toho dôvodu sme sa venovali aj prob- 3. model pozorovaní, ktorý vyjadruje pravdepodobnost’ lému automatického doplňovania diakritiky slov [18]. slova na základe možnej značky; Podobne ako pri návrhu morfologického analyzátora 4. a v prípade, že skúmané slovo sa nenachádza v tréno- sme pri rekonštrukcii diakritiky využili algoritmus využí- vacej databáze, využije sa dodatočný model pozoro- vajúci skrytý Markovov model. V tomto prípade je však vaní, ktorý vyjadruje pravdepodobnost’ stavu na zá- matica prechodov tvorená trigramovým jazykovým mo- klade koncovky daného slova. delom a matica pozorovaní je trénovaná pomocou algo- ritmu pre generovanie nesprávnych zápisov na texte, ktorý Je vhodné poznamenat’, že algoritmus obsiahnutý v mor- je pokladaný za správny. Úspešnost’ navrhnutého systému fologickom analyzátore Dagger využíva vlastný algorit- na automatické doplňovanie diakritiky v korpusoch tex- mus na automatickú identifikáciu koncoviek slov založený tov z blogov písaných v slovenskom jazyku dosahuje úro- na minimálnej opisnej dĺžke. veň až 85%. Podobný nástroj na rekonštrukciu diakritiky Na natrénovanie klasifikátora pre slovenský jazyk sme pre slovenčinu, využívajúci štatistické modely jazyka vy- využili početnosti trigramov slov z ručne morgologicky sokého rádu, bol vytvorený tiež tímom pracovníkov v Slo- anotovaného korpusu r-mak-2.0 1 a množinu morfologi- venskom národnom korpuse Jazykovedného ústavu L’udo- ckých značiek 2 , získaných zo Slovenského národného kor- víta Štúra na Slovenskej akadémii vied v Bratislave4 . pusu Jazykovedného ústavu L’udovíta Štúra na Sloven- skej akadémii vied v Bratislave. Algoritmus sme uplatnili 1 http://korpus.sk/ver_r(2d)mak.html 3 https://lindat.mff.cuni.cz/repository/xmlui/ 2 http://korpus.juls.savba.sk/attachments/morpho/tagset-www.pdf 4 http://korpus.juls.savba.sk/diakritik.html 84 J. Staš, D. Hládek, S. Ondáš, D. Zlacký, J. Juhár nom rade aj generovaniu ohybných tvarov vlastných pod- statných mien, ktoré tvoria kritickú čast’ pri tvorbe akého- kol’vek štatistického modelu jazyka. Taktiež slovník, ktorý vstupuje do procesu trénovania, ale aj samotného rozpoz- návania reči, musí byt’ v podmienkach reálneho nasade- nia systému ARR obmedzený čo do počtu slov. Ukázalo sa, že dobré výsledky modelovania slovenského jazyka sa dosahujú už pri vel’kosti 100–150 tisíc slov pri domé- novo orientovanom automatickom prepise diktovanej reči do textu a 300–400 tisíc slov v úlohách všeobecného roz- poznávania spontánnej reči [19]. V oblasti adaptácie modelov jazyka na vybranú tému alebo prehovor rečníka sa ukázalo, že metódy, ktoré vyka- zovali pozoruhodné výsledky pre štatisticky viac závislé jazyky (ako napr. angličitna), v prípade slovenčiny nebolo pozorované výrazné zlepšenie. Z toho dôvodu je použitie metódy lineárnej interpolácie tematicky zameraných mo- delov jazyka viac než postačujúce, pričom výpočet inter- polačných váh by mal byt’ určený minimalizáciou perple- Obr. 1: Webové rozhranie k systémom na spracovanie pri- xity modelov na množine odložených dát. Ako adaptačné rodzeného jazyka na KEMT FEI TU v Košiciach dáta je vhodné použit’ bud’ textové dáta získané z prepi- sov rečových nahrávok obsiahnutých v rečových databá- zach, alebo písané texty čo možno najviac príbuzné do- 4.4 On-line webové rozhranie méne, v ktorej rozpoznávanie reči prebieha [20]. Pre účely demonštrácie a testovania presnosti tokenizácie, Kvalitu jazykového modelu, ako aj úspešnost’ samot- morfologickej analýzy a automatického doplňovania dia- ného rozpoznávania reči je možné zlepšovat’ množstvom kritiky slov sme k nami navrhnutým nástrojom na počí- optimalizačných techník. Jednou z možností je modelovat’ tačové spracovanie prirodzeného jazyka v slovenčine vy- vysoko frekventované javy pomocou viacslovných výra- tvorili aj jednoduché on-line webové rozhranie5 , ktoré je zov. Takéto výrazy pokrývajú zväčša kontext dvoch–troch znázornené na Obr. 1 a opísané v článku [11]. slov a zvyčajne sú tvorené odbornými termínmi, resp. spo- jením predložky s podstatným, či prídavným menom. Na základe experimentov opísaných v [19] konštatujeme, že 5 Aktivity v oblasti aplikovaného výskumu viacslovné výrazy, aj ked’ len v malej miere, dokážu pris- piet’ k zlepšeniu presnosti rozpoznávania plynulej reči, 5.1 Štatistické modelovanie jazyka a to najmä na začiatku rečového prejavu pri rozpozná- Konštrukcia štatistického modelu jazyka pre slovenčinu, vaní krátkych jednoslabičných slov a nadobúdajú na vý- ktorá patrí do skupiny vysoko flektívnych jazykov, je zname aj v čiastkových úlohách pri reprezentácii viacslov- ovel’a obtiažnejšia, než vytvorenie štatistického modelu ných pomenovaní v jazykovom modeli, a tým prispievajú pre jazyk anglický. Prvým dôvodom je neusporiadanost’ aj k postspracovaniu dát po rozpoznaní systémom ARR. slovenského jazyka, čo vedie k vol’nejším pravidlám re- Ďalšou možnost’ou je modelovat’ málopočetné javy t’azenia slov do viet. Druhým je samotná flektívnost’ ja- v jazyku pomocou morfémových modelov. Delením single- zyka, ktorá vytvára predpoklad pre mnohonásobne väčší tónov a javov s vel’mi malým výskytom vo vybranom ja- slovník, než je to v prípade jazyka anglického. zyku na subslovné jednotky (koreň a koncovku), je možné Súčasný stav v oblasti štatistického modelovania jazyka štatisticky pokryt’ aj také javy, ktoré sa priamo v jazyko- v slovenčine v doposial’ navrhnutých systémoch na inte- vom modeli nevyskytujú. Výsledky modelovania sloven- rakciu človeka so strojom hovorenou rečou a automatické ského jazyka pomocou morfémových modelov ukazujú rozpoznávanie a prepis plynulej reči to textu sa opiera výraznú redukciu počtu mimoslovníkových tvarov a perp- o poznatky z oblasti modelovania príbuzných jazykov, naj- lexity modelov približne o jednu tretinu [21]. mä jazyka českého, pol’ského, slovinského, srbochorvát- Naopak javy, ktoré sa v danom jazyku menia dyna- skeho, či ruského. Čo sa týka samotného modelovania po- micky a počet všetkých možných tvarov ohybných slov mocou štatistických metód, hlavným predpokladom pri nie je v jazyku limitovaný, je vhodné modelovat’ pomo- tvorbe kvalitného jazykového modelu je dôsledné pred- cou modelov založených na triedach slov. Medzi takéto spracovanie textového korpusu, ktorý vstupuje do pro- javy možno zahrnút’ najmä vlastné podstatné mená, ako cesu trénovania. Zvýšenú pozornost’ je vhodné preto ve- sú krstné mená, priezviská, geografické názvy alebo čís- novat’ najmä prepisu čísloviek a skratiek, a v neposled- lovky. Experimentálne výsledky modelovania slovenského jazyka pomocou slovných tried odvodených od koncoviek 5 http://nlp.web.tuke.sk/ slov ukazujú mierne zlepšenie presnosti rozpoznávania Spracovanie prirodzeného jazyka pre interaktívne rečové rozhrania v slovenčine 85 reči oproti štandardným modelom približne o 5% v relatív- parlamentných debát, resp. obchodných rokovaní v ma- nej miere a sú určitým kompromisom medzi modelmi za- lých konferenčných miestnostiach s viacerými účastníkmi, loženými na slovných druhoch a štandardnými modelmi, a to s využitím robustných algoritmov na adaptáciu jazy- čo do počtu slovných tried, percenta mimoslovníkových kových modelov na vybranú tému alebo rečníka [20], ale slov, či perplexity jazykového modelu [22]. aj d’alších aplikácií určených pre robotické systémy. Pri tvorbe jazykových modelov použitel’ných v systé- moch na automatický prepis spontánnej reči je často ne- úloha Acc* [%] vyhnutné sa vysporiadat’ aj s rôznymi mimorečovými pre- javmi, ktoré pochádzajú priamo do rečníka. Tie sú spô- hlasové ovládanie ramena robota (SNR=10dB) 90,19 automatický prepis diktátu z oblasti súdnictva 95,11 sobené zlou výslovnost’ou, nevhodnou artikuláciou a ne- elektronické služby Generálnej prokuratúry 94,65 dokonalost’ou rečového prejavu. Modely vložených páuz prepis reálnych parlamentných debát 90,93 a dysfluentných javov sa preto snažia podchytit’ a zahr- prepis spravodajských relácií 84,33 nút’ do jazykového modelu rôzne suprasegmentálne javy * Presnost’ (z angl. „accuracy“, Acc) automatického prepisu vy- obsiahnuté v rečovom prejave, ako napr. zaváhanie, pro- chádza z miery chybovosti slov (z angl. „word error rate“), defi- longovanie a opakovanie slov resp. fráz, skomolenie slov, novanej ako minimálna vzdialenost’ medzi referenčnou sekven- či časté dýchanie. Tieto javy vo vysokej miere vplývajú aj ciou slov a automatickým prepisom po rozpoznaní. na celkovú chybovost’ systému ARR. Bolo dokázané, že vhodným výberom a správnou reprezentáciou vybraných Tabul’ka 2: Celková presnost’ jazykových modelov v do- typov vložených páuz a dysfluentných javov v slovníku posial’ navrhnutých systémoch na automatické rozpozná- výslovnosti a v modeli jazyka je možné dosiahnut’ zlepše- vanie a prepis reči do textu v slovenskom jazyku nie presnosti rozpoznávania reči relatívne až do 10%. V neposlednom rade, kvalitu jazykového modelu je možné zvýšit’ aj na úrovni rozširovania štatistík pomocou 5.2 Porozumenie prirodzeného jazyka internetových vyhl’adávačov [7], prekladom slov alebo slovných párov z príbuzných jazykov a pod. K tomu, aby bolo možné obohatit’ počítačové systémy Oblast’ štatistického modelovania slovenského jazyka o schopnost’ skutočného porozumenia prirodzenej reči má za sebou krátku minulost’ a donedávna jej nebola ve- a jazyka, je potrebné realizovat’ proces sémantickej ana- novaná taká pozornost’ ako napr. v susednej Českej repub- lýzy, a získaný význam tak vhodným spôsobom zachytit’ like. Z toho dôvodu bolo nevyhnutné pri tvorbe štatistic- a zosúladit’ s databázou znalostí. Je možné konštatovat’, kých modelov slovenského jazyka, ako aj pri samotnom že ide o nel’ahkú úlohu, vzhl’adom na komplexnost’ slo- spracovaní textových dát, ktoré sa používajú najmä v pro- venského jazyka, jej sémantiky a ostatných faktorov, ktoré cese ich trénovania a adaptácie, podrobne naštudovat’ aj súvisia s porozumením. Aj ked’ sémantická analýza nie je oblast’ komputačnej lingvistiky, a vytvorit’ tak rad progra- hlavným zameraním nášho laboratória, pre využitie sys- mových nástrojov na počítačové spracovanie slovenského tému ARR v aplikáciách interakcie človeka so strojom ho- jazyka. Absencia dostupnosti niektorých kl’účových ná- vorenou rečou, je nevyhnutné sa vysporiadat’ s interpretá- strojov slúžiacich najmä k morfologickej či syntaktickej ciou vyjadrení tiež v prirodzenom jazyku. analýze tiež obmedzili použitie jazykových modelov za- V systéme IRKR [24] sme na tento účel implementovali ložených na triedach slov v plnom rozsahu, aj ked’ prvé v jednotke riadenia dialógu podporu jazyka pre séman- kroky v tejto oblasti už boli uskutočnené. Napriek týmto tickú analýzu – W3C SISR, ktorý umožňuje vložit’ inter- obmedzeniam, modely slovenského jazyka dosahujú vy- pretačné inštrukcie priamo do deterministických gramatík, sokú úspešnost’ na úrovni 84–95% v reálnych aplikáciách napísaných podl’a W3C odporúčania SRGS. V danom prí- systému ARR, ktorých výsledky sú zhrnuté v Tab. 2, od pade sa jednalo iba o limitované porozumenie, ktoré bolo jednoduchých hlasových rozhraní slúžiacich na ovláda- zamerané skôr na naplnenie doménovo špecifických sé- nie robotických systémov, cez jednoduché rečové dialó- mantických slotov hodnotami získanými z rečoveho pre- gové manažéry poskytujúce hlasové, interaktívne, či mul- javu používatel’a. Takéto riešenie bolo v tom čase pomerne timodálne služby, až ku komplexným diktačným a trans- komfortné a postačujúce pre celý rad rečových aplikácií kripčným systémom, ktoré pracujú s vel’mi vel’kými slov- a rozhraní, ktoré poskytujú tzv. rečovo-založené dialógové níkmi, nezávisle od rečníka, dokážu sa adaptovat’ na vy- systémy. branú tému, či konkretného rečníka, sú robustné a prebie- Pri riešení projektu zameraného na implementáciu hla- hajú v reálnom čase [7, 12, 20, 23]. sového ovládania do robotickej platformy, kde kvôli kom- Vd’aka narastajúcemu záujmu o interaktívne rečové paktnosti a rýchlosti systému na limitovanom hardvéri ne- technológie v slovenskom jazyku sa d’alšie smerovanie bolo možné použit’ rečové gramatiky, ked’že komplex- v tejto oblasti uberá cestou využitia doménovo orientova- nost’ riadiacich povelov bola omnoho väčšia, implemen- ných modelov jazyka pri tvorbe diktačných systémov aj tovali sme pre tento účel tzv. „keyword-spotting“ techniku pre takú oblast’ ako je medicína, d’alej systémov na auto- sémantickej analýzy. Vytvorili sme viacero doménovo- matický prepis akademických prednášok, spravodajských špecifických sémantických slotov, ktoré zachytávali pred- relácií, športových prenosov, televíznych, rozhlasových, či definované slová z rečového dopytu používatel’a [23]. 86 J. Staš, D. Hládek, S. Ondáš, D. Zlacký, J. Juhár Spolu s návrhom a vývojom systémov ARR, nielen pre aktuálne obsahuje tristo viet v slovenskom jazyku anoto- rozpoznávanie jednoduchých povelov a fráz, ale aj pre dik- vaných podl’a nami modifikovanej dvojúrovňovej schémy tovanú a spontánnu reč, vzrastali nároky na ich interpre- na označovanie sémantických rolí, prevzatej z anotačnej táciu a predchádzajúce prístupy pre ne neboli použitel’né. schémy podl’a E. Paleša [27] a upravenej pre potreby auto- Pre potreby rozpoznávania plynulej reči sa namiesto deter- matickej sémantickej analýzy. Sémantická anotácia korpu- ministických gramatík začali vo vel’kom využívat’ štatis- su SEMIENKO je ilustrovaná na nasledujúcom príklade: tické modely jazyka, nakol’ko plynulá reč poskytuje pod- AGS|KOG [Ján] VRB [spoznal] PAC|FEN [Máriu] . statne väčšiu výrazovú variabilitu. Zvlášt’ dôležitou sa sémantická analýza a interpretácia Úloha automatického určovania sémantických rolí vše- ukázala pri experimentovaní s virtuálnym konverzačným obecne pozostáva z dvoch základných častí, a to z roz- agentom, ktorý má l’udský zjav [25]. Pri takomto druhu delenia viet na vetné participanty a následného prirade- komunikácie má človek tendenciu očakávat’ od virtuál- nia sémantických rolí daným participantom. Pre klasifi- neho konverzačného agenta podobné výrazové prostriedky káciu vetných participantov sme experimentálne vyskúšali ako majú l’udia, predovšetkým v oblasti komunikačných dve techniky. Prvá metóda modeluje jednotlivé pravdepo- schopností a porozumenia, ktoré spolu úzko súvisia. Ďal- dobnosti nepriamo pomocou n-gramových modelov [30], ším špecifikom je, že systémy s hlasovým rozhraním sa pričom účinnost’ klasifikácie na danom korpuse dosahuje stávajú viac doménovo nezávislými, teda umožňujú dialó- úspešnost’ na úrovni 48%. Druhá metóda využíva modi- govú interakciu v rámci množstva tém (ako napr. Apple fikovaný HMM klasifikátor, obsiahnutý v nástroji Dag- SIRI6 a pod.), čo posúva interpretáciu významu d’alej, od ger [10], ktorý v procese prehl’adávania výstupnej sekven- relatívne „bezpečných“ doménových sémantických slotov cie implementuje Viterbiho dekódovanie. Úspešnost’ tohto k viac všeobecným sémantickým roliam. typu klasifikácie v súčasnosti dosahuje úroveň až 56%, čo T. E. Payne v [26] definuje sémantické roly nasledovne: je vzhl’adom na vel’kost’ trénovacej množiny adekvátne. „Sémantická rola predstavuje základný vzt’ah, ktorý daná Na základe predbežných výsledkov sémantickej analýzy entita má k hlavnému slovesu vo vete.“ Ďalej vysvet- v slovenskom jazyku môžeme konštatovat’, že pre d’alšie l’uje, že: „Sémantická rola je aktuálna rola, ktorú partici- zlepšenie je nevyhnutné významne rozšírit’ manuálne ano- pant hrá v nejakej reálnej alebo imaginárnej situácii, bez tovaný korpus, čo je však nel’ahká a vel’mi pracná úloha. ohl’adu na lingvistickú realizáciu danej situácie.“ Aj ked’ je teória sémantických rolí a s nimi súvisiacich 6 Záver valenčných rámcov slovies pomerne dobre rozpracovaná pre rôzne jazyky, neexistujú však žiadne systémy na auto- V tomto príspevku boli predstavené úlohy z oblasti spraco- matické určovanie sémantických rolí (z angl. „automatic vania a modelovania slovenského jazyka, ktorým sa v La- semantic roles labeling“, skr. ASRL) v slovenčine. Za boratóriu rečových a mobilných technológií na KEMT vel’mi dôležitú prácu v oblasti automatického určovania FEI TU v Košiciach v súčasnosti intenzívne venujeme. Je sémantických rolí pre slovenčinu možno považovat’ prácu možné konštatovat’, že úspešnost’ nami navrhnutých algo- E. Paleša, ktorý detailne opísal proces porozumenia pri- ritmov stále dobieha úroveň svetových výskumov, avšak rodzeného jazyka na jednotlivých vrstvách a vyvinul prvý súčasné výsledky je možné už teraz aplikovat’ v rôznych systém SAPFO – Parafrázovač slovenčiny, ktorého súčas- systémoch na rozpoznávanie a porozumenie reči, ale aj t’ou bol aj modul pre určovanie sémantických rolí [27]. v iných systémoch intrakcie človeka so strojom hovorenou Tento systém však nie je podl’a našich vedomostí vol’ne rečou, ktoré na našom pracovisku vyvíjame. dostupný. Navyše sa jedná o deterministický systém, ktorý ako konštatuje M. Laclavík [28], nie je možné uspokojivo Pod’akovanie skonštruovat’ pre analýzu slovenského jazyka, z dôvodu vel’kého množstva výnimiek. Z tohto pohl’adu sú štatis- Táto práca vznikla realizáciou projektu Univerzitný vedec- tické metódy jednoznačne lepšou vol’bou. ký park TECHNICOM pre inovačné aplikácie s podporou Štatistické metódy pre systémy ASRL využívajú tzv. znalostných technológií (kód ITMS: 26220220182) vd’a- štatistické modelovanie typické pre rôzne úlohy v oblasti ka podpore operačného programu Výskum a vývoj spolu- spracovania prirodzeného jazyka. Pre natrénovanie štatis- financovaného zo zdrojov Európskeho fondu regionálneho tických modelov je potrebná textová databáza anotovaná rozvoja (25%) a výskumných projektov: Výskum a vý- na úrovni sémantických rolí, ktorá v prípade slovenčiny voj modulov pre jazykovo-adaptívne multimodálne roz- doposial’ prakticky neexistovala. Označenie vetných par- hrania na základe Zmluvy č. SK-HU-2013-0015 podpo- ticipantov pomocou sémantických rolí je náročná úloha rujúcej spoluprácu medzi organizáciami v Slovenskej re- a vyžaduje tiež dobré lingvistické znalosti. publike a v Mad’arsku (50%), a Slovník viacslovných po- Vzhl’adom na neexistenciu databázy pre slovenčinu menovaní (lexikografický, lexikologický a komparatívny anotovanej na úrovni sémantických rolí, sme sa rozhodli výskum) v rámci projektu APVV-0342-11 (25%), reali- vytvorit’ aj takýto druh korpusu. Korpus SEMIENKO [29] zovaných vd’aka podpore Agentúry na podporu výskumu a vývoja financovanej z prostriedkov Ministerstva škol- 6 https://www.apple.com/ios/siri/ stva, vedy, výskumu a športu Slovenskej republiky. Spracovanie prirodzeného jazyka pre interaktívne rečové rozhrania v slovenčine 87 Literatúra [15] Hladká, B., Hajič, J., Hana, J., Hlaváčová, J., Mírovský, J., Raab, J.: The Czech academic corpus 2.0 guide. The Prague Bulletin of Mathematical Linguistics. 89 (2008) 41–96 [1] Hládek, D., Staš, J.: Text mining and processing for corpora creation in Slovak language. Journal of Computer Science [16] Halácsy, P., Kornai, A., Németh, L., Rung, A., Szakadát, I., and Control Systems. 3, 1 (2010) 65–68 Trón, V.: Creating open language resources for Hungarian. In Proc. of the 4th Int. Conf. on Language Resources and [2] Hládek, D., Staš, J., Juhár, J.: Building organized text cor- Evaluation, LREC 2004. Lisbon, Portugal (2004) pora for speech technologies in the Slovak language. Ja- zykovedné štúdie XXXI: Rozvoj jazykových technológií a [17] Majliš, M.: W2C – Web to Corpus – Corpora. LINDAT/C- zdrojov na Slovensku a vo svete (10 rokov Slovenského ná- LARIN Digital Library at Institute of Formal and Applied rodného korpusu). 31 (2014) 173–181 Linguistics, UFAL, Charles University in Prague, Czech Republic (2011) [3] Zlacký, D., Staš, J., Juhár, J., Čižmár, A.: Slovak text docu- ment clustering. Acta Electrotechnica et Informatica. 13, 2 [18] Hládek, D., Staš, J., Juhár, J.: Unsupervised spelling correc- (2013) 3–7 tion for the Slovak text. Advances in Electrical and Elect- ronics Engineering. 11, 5 (2013) 392–397 [4] Zlacký, D., Staš, J., Čižmár, A.: Supervised text document clustering algorithm with keywords in Slovak. In Proc. of [19] Juhár, J., Staš, J., Hládek, D.: Recent progress in develop- the 7th Int. Workshop on Multimedia and Signal Proces- ment of language model for Slovak large vocabulary conti- sing, Redžúr 2013. Smolenice, Slovakia (2013) 31–34 nuous speech recognition. In New Technologies - Trends, Innovations and Research, Volosencu, C. (Ed.). InTech [5] Staš, J., Juhár, J., Hládek, D.: Classification of heteroge- Open Access, Rijeka, Croatia (2012) 261–276 neous text data for robust domain-specific language mode- ling. EURASIP Journal on Audio, Speech and Music Pro- [20] Staš, J., Hládek, D., Juhár, J.: Language model speaker cessing. 2014, 14 (2014) 1–12 adaptation for transcription of Slovak parliament procee- dings. In Proc. of the 17th Int. Conf. on Speech and Com- [6] Zlacký, D., Staš, J., Juhár, J., Čižmár, A.: Text categoriza- puter, SPECOM 2015, Athens, Greece (2015) to be publis- tion with latent Dirichlet allocation. Journal of Electrical hed and Electronics Engineering. 7, 1 (2014) 161–164 [21] Staš, J., Hládek, D., Juhár, J., Zlacký, D.: Analysis of [7] Staš, J., Hládek, D., Juhár, J.: Recent advances in the statis- morph-based language modeling and speech recognition in tical modeling of the Slovak language. In Proc. of the 56th Slovak. Advances in Electrical and Electronic Engineering. Int. Symp. ELMAR 2014. Zadar, Croatia (2014) 39–42 10, 4 (2012) 291–296 [8] Thurson, A.: Parsing computer languages with an automa- [22] Staš, J., Hládek, D., Juhár, J.: Morphologically motivated ton compiled from a single regular expression. In Imple- language modeling for Slovak continuous speech recogni- mentation and Application of Automata: Proc. of the 18th tion. Journal of Electrical and Electronics Engineering. 5, 1 Intl. Conf. CIAA 2013, Halifax, NS, Canada. Ibarra, O. H., (2012) 233–236 Yen, H. Ch. (Eds.). LNCS 4094. Springer Berlin Heidel- berg (2006) 285–286 [23] Ondáš, S., Juhár, J., Holcer, R.: Methodology for training small domain-specific language models and its application [9] Ćavar, D., Jazbec, I.-P., Stojanov, T.: CroMo - Morpho- in service robot speech interface. Journal of Electrical and logical analysis for standard Croatian and its synchronic Electronics Engineering. 7, 1 (2014) 107–110 and diachronic dialects and variants. In Proc. of the 8th Int. Conf. on Finite-State Methods and Natural Language [24] Ondáš, S., Juhár, J.: Development and evaluation of the Processing, FSMNLP 2009. Pretoria, South Africa (2009) spoken dialogue system based on the W3C recommendati- 183–190 ons. In Product and Services; from R&D to Final Solutions, Fuerstner, I. (Ed.). Scyio, Rijeka, Croatia (2010) 315–330 [10] Hládek, D., Staš, J., Juhár, J.: Dagger: The Slovak morpho- logical classifier. In Proc. of the 54th Int. Symp. ELMAR [25] Ondáš, S., Juhár, J., Trnka, M.: SIMONA – The Slovak em- 2012. Zadar, Croatia (2012) 195–198 bodied conversational agent. Intelligent Decision Techno- logies. 8, 4 (2014) 277–288 [11] Hládek, D., Ondáš, S., Staš, J.: Online natural language pro- cessing of the Slovak language. In Proc. of the 5th IEEE [26] Payne, T. E.: Describing morphosyntax: A guide for field Int. Conf. on Cognitive Infocommunications, CogInfoCom linguists. Cambridge University Press, Cambridge (1997) 2014. Vietri sul Mare, Italy (2014) 315–316 [27] Páleš, E.: SAPFO - Parafrázovač slovenčiny. Veda. Brati- [12] Rusko, M., Juhár, J., Trnka, M., Staš, J., Darjaa, S., Hlá- slava, Slovenská republika (1994) dek, D., Sabo, R., Pleva, M., Ritomský, M., Ondáš, S.: Re- [28] Laclavík, M., Ciglan, M., Krajči, S., Hluchý, L., Furdík, K.: cent advances in the Slovak dictation system for judicial Dostupné zdroje a výzvy pre počítačové spracovanie infor- domain. In Proc. of the 6th Language and Technology Con- mačných zdrojov v slovenskom jazyku. In Proc. of the 1st ference: Human Language Technologies as a Challenge for Workshop on Intelligent and Knowledge Oriented Techno- Computer Science and Linguistics, LTC 2013, Poznań, Po- logies, WIKT 2006. Bratislava, Slovakia (2006) 92–98 land (2013) 555–560 [29] Staš, J., Hládek, D., Ondáš, S., Juhár, J.: On building the [13] Schmid, H.: Probabilistic part-of-speech tagging using de- Slovak example-based meaning corpus. In Proc. of the cision trees. In Proc. of Int. Conf. on New Methods in Lan- 8th Int. Conf. on NLP, Corpus Linguistics, Lexicography, guage Processing. Manchester, UK (1994) 44–49 Slovko 2015. Bratislava, Slovakia (2015) to be published [14] Przepiórkowski, A., Górski, R. L., Łaziński, P˛ezik, P.: Re- [30] Ondáš, S., Hládek, D., Juhár, J.: Semantic roles labeling cent developments in the National corpus of Polish. In Proc. system for Slovak sentences. In Proc. of the 5th IEEE of the 7th Int. Conf. on Language Resources and Evalu- Int. Conf. on Cognitive Infocommunications, CogInfoCom ation, LREC 2010. Valletta, Malta (2010) 994–997 2014. Vietri sul Mare, Italy (2014) 161–166