=Paper= {{Paper |id=None |storemode=property |title=Spracovanie Prirodzeného Jazyka pre Interaktívne Rečové Rozhrania v Slovenčine |pdfUrl=https://ceur-ws.org/Vol-1422/81.pdf |volume=Vol-1422 |dblpUrl=https://dblp.org/rec/conf/itat/StasHOZJ15 }} ==Spracovanie Prirodzeného Jazyka pre Interaktívne Rečové Rozhrania v Slovenčine== https://ceur-ws.org/Vol-1422/81.pdf
J. Yaghob (Ed.): ITAT 2015 pp. 81–87
Charles University in Prague, Prague, 2015



                                    Spracovanie prirodzeného jazyka
                             pre interaktívne rečové rozhrania v slovenčine

                             Ján Staš, Daniel Hládek, Stanislav Ondáš, Daniel Zlacký a Jozef Juhár

                    Katedra elektroniky a multimediálnych telekomunikácií, Fakulta elektrotechniky a informatiky,
                     Technická univerzita v Košiciach, Park Komenského 13, 042 10 Košice, Slovenská republika
                 {jan.stas, daniel.hladek, stanislav.ondas, daniel.zlacky, jozef.juhar}@tuke.sk

Abstrakt: V príspevku sú zhrnuté priebežné výsledky apli-          2     Zdrojové dáta
kovaného výskumu v oblasti spracovania prirodzeného ja-
zyka v úlohách orientovaných na výskum a vývoj modu-               2.1   Dolovanie textu
lov rečových rozhraní medzi človekom a strojom, ktorý
prebieha v Laboratóriu rečových a mobilných technoló-             Rozsiahly korpus písaných textov použitý vo viacerých
gií na KEMT FEI TU v Košiciach. Zahrnutie hovorenej                oblastiach spracovania prirodzeného jazyka v Laboratóriu
reči, ako najprirodzenejšieho komunikačného nástroja me-         rečových a mobilných technológií bol vytvorený pomo-
dzi l’ud’mi, má svoje nezastupitel’né miesto aj pri návrhu         cou nami navrhnutého systému na dolovanie a spracova-
a vývoji interaktívnych rečových rozhraní. Pri prechode           nie textových dokumentov z webových stránok dostupných
od rozpoznávania l’udskej reči k jej porozumeniu strojom          na sieti Internet s názvom webAgent [1, 2]. Systém doluje
je potom nevyhnutné vykonat’ aj dodatočnú analýzu textu           textové dáta z rôznych domén a elektronických zdrojov
po automatickom prepise. To zahŕňa aj proces transfor-           písaných v slovenčine a pomocou preddefinovaných pra-
mácie textu po rozpoznaní na reprezentáciu určitého typu          vidiel na prepis čísloviek, symbolov a skratiek ich spra-
znalostí, ktorému dokáže stroj porozumiet’. Tento zložitý          cúva do ich vyslovovanej podoby. Systém je navyše roz-
proces všeobecne pozostáva z tokenizácie, automatickej             šírený o metódy tokenizácie, segmentácie na vety, metódy
korekcie a dodatočnej morfologickej, syntaktickej a sé-           na kontrolu duplicity na úrovni adresy zdroja textu a obsa-
mantickej analýzy textu. Nami navrhnuté moduly a vý-               hu dokumentu, a tiež o metódy filtrácie viet obsahujú-
sledky automatického spracovania textu v slovenskom ja-            cich vel’ké množstvo gramaticky nespisovných slov, číslic,
zyku budú postupne predstavené v tomto príspevku.                  akronymov, symbolov, skratiek, a iných cudzojazyčných
                                                                   a mimoslovníkových slov. Spracovaný text je následne
                                                                   rozdelený do menších celkov, t.j. podkorpusov, pomocou
1 Úvod                                                             účinných metód na kategorizáciu textových dokumentov.
                                                                   Súčasný korpus písaných textov v slovenčine obsahuje pri-
S príchodom výpočtovej techniky sa stala potreba počíta-
                                                                   bližne 2,25 mld. tokenov obsiahnutých v 125 mil. vetách.
čového spracovania prirodzeného jazyka aktuálnou celo-
svetovou témou. Vedci sa po celom svete snažia podchy-
tit’ charakter takmer každého jazyka s ciel’om zjednodu-           2.2   Kategorizácia textu
šit’ interakciu medzi l’ud’mi a strojmi a komunikáciu me-
dzi l’udmi samotnými. Oblast’ spracovania prirodzeného             S narastajúcim množstvom textových dokumentov stia-
jazyka zahŕňa širokú škálu disciplín, ako napr. vyhl’adá-        hnutých zo siete Internet a potrebou vytvárat’ čoraz
vanie informácií, štatistické modelovanie jazyka, strojový         presnejšie doménovo orientované interaktívne rečovo-
preklad, automatické rozpoznávanie a porozumenie reči             založené systémy a rozhrania, sa vynorila otázka katego-
a pod. Jednotlivé disciplíny však vo väčšine prípadov úzko        rizovat’ textové dáta nielen podl’a adresy (URL) zdroja
súvisia, dopĺňajú sa, a pomocou nich je možné l’ud’om            textu, odkial’ daný textový dokument pochádza, ale aj na
ul’ahčit’ prácu, štúdium, komunikáciu, či zábavu. Jednou         úrovni jeho obsahu. Navyše webová adresa zdroja textu
z najaktuálnejších úloh v oblasti spracovania prirodzeného         nemusí byt’ hned’ jednoznačným identifikátorom obsahu
jazyka je aj automatické rozpoznávanie reči (ARR), kto-           dokumentu, vychádzajúc tiež z predpokladu, že jeden do-
rému sa v našom laboratóriu intenzívne venujeme. Vd’aka            kument môže pojednávat’ o viacerých témach. Kategori-
viacerým zlepšeniam v oblasti automatického rozpozná-              zácia textu má preto vel’ký význam pri návrhu a tvorbe ro-
vania reči v slovenčine sme schopní rozpoznat’ l’udskú           bustných doménovo orientovaných systémov na automa-
reč s dostatočnou presnost’ou v mnohých aplikačných úlo-        tické rozpoznávanie reči, ale aj v iných úlohách využíva-
hách, avšak komplexné porozumenie významu je v súčas-             júcich textové dáta ako zdroj informácií, napr. pri návrhu
nosti jednou z najnáročnejších úloh pri návrhu rôznych in-        a vývoji interaktívnych rečovo-založených rozhraní.
teraktívnych rečových rozhraní a to nielen v slovenčine.            Narozdiel od metód zhlukovania, kde dokumenty s vy-
V tomto článku budú predstavené nami navrhnuté prístupy           užitím štatistických prístupov spájame do určitého počtu
na spracovanie prirodzeného jazyka pre interaktívne re-            zhlukov, v ktorých tému vopred nepoznáme, pri kategori-
čové rozhrania v slovenčine.                                     zácii dokumentov sa snažíme zadelit’ dokumenty do dvoch
82                                                                              J. Staš, D. Hládek, S. Ondáš, D. Zlacký, J. Juhár


alebo viacerých tried na základe ich minimálnej vzdia-            Najdôležitejšou čast’ou predspracovania textu je jeho
lenosti, resp. sémantickej podobnosti, udávajúcej prienik     tokenizácia. Jej ciel’om je identifikácia jednotlivých slov
slov alebo celých fráz medzi dokumentami. V oboch prí-        a vetných hraníc, ktoré môžu slúžit’ ako vstup do dal-
padoch je nutné identifikovat’ tému v danom zhluku, resp.     šieho spracovania. V tomto kroku sa tiež snažíme zjedno-
triede, a to bud’ pomocou prístupov založených na extrak-     tit’ spôsob zápisu číslic, diakritiky, interpunkcie, akrony-
cii kl’účových slov, pravdepodobnostných prístupov zalo-     mov, symbolov, skratiek a iných významových jednotiek.
žených na výpočte podobnosti dokumentov pomocou diš-             Tokenizácia sa zvyčajne vykonáva postupnou apliká-
tančných metrík, alebo ich kombináciou.                      ciou vhodne zapísaných regulárnych výrazov, ktoré obsa-
   Počiatočný výskum v oblasti kategorizácie textových      hujú pravidlá pre identifikáciu textových jednotiek, dôleži-
dokumentov bol venovaný metódam zhlukovania po-               tých pre d’alšie spracovanie. Nepodstatné časti textu, ktoré
mocou iteračných algoritmov založených na k-means            nie sú pokryté pravidlami, sú z textu vynechané. Nami na-
a k-medoid zhlukovaní a na hierarchickom zhlukovaní vy-       vrhnutý tokenizátor identifikuje tieto časti textu: diaktri-
užívajúcom aglomeračné a divizívne kritérium [3]. Ako        tika, slová, akronymy, symboly, skratky, zoznamy, odseky,
najvhodnejším prístupom sa ukázalo hierarchické zhluko-       čísla, e-mailové adresy a adresy URL. Identifkácia vet-
vanie textu s využitím aglomeračného kritéria pri zhlu-      ných hraníc je d’alej vykonávaná pomocou rozlíšenia vý-
kovaní článkov zo slovenskej Wikipédie. Tento spôsob         znamu bodky, jej desambiguáciou. V slovenských textoch
zhlukovania dokumentov sme porovnali s nami navrhnu-          môže byt’ bodka súčast’ou označenia číselného poradia,
tou metódou založenou na klasifikácii textových dokumen-      skratky alebo e-mailovej alebo webovej adresy.
tov pomocou kl’účových fráz využívajúcou F-skóre ako             Na začiatku procesu identifikácie významových častí je
hodnotiace kritérium [4]. Nami navrhnutý spôsob klasi-        vstupný ret’azec porovnaný so všetkými pravidlami v da-
fikácie sa výsledkami ukázal porovnatel’ný k hierarchic-      tabáze. Pravidlo, ktoré vyhovuje najdlhšiemu textu, je vy-
kému zhlukovaniu, avšak hlavnou nevýhodou navrhnutej          braté a jeho zodpovedajúci text je prepísaný podl’a požia-
metódy je nutnost’ mat’ k dispozícii zoznamy kl’účových      daviek. Tento text je potom odstránený zo vstupného re-
slov, resp. fráz pre jednotlivé domény a v procese klasi-     t’azca. Ak nevyhovuje žiadne pravidlo, vstupný ret’azec
fikácie textu je nutné správne (v ideálnom prípade auto-      je skrátený o jeden znak a prehl’adávanie bázy pravidiel
maticky) nastavit’ vhodný prah delenia. Tento typ klasifi-    pokračuje. Výsledkom tokenizácie je text, kde sú textové
kácie sme v nasledujúcom výskume zameranom na kate-           jednotky oddelené medzerou a vety novým riadkom.
gorizáciu textu v úlohe robustného doménovo orientova-            Proces identifikácie tokenov je zvyčajne výpočtovo ná-
ného modelovania jazyka rozšírili o d’alšie tri metriky ur-   ročný. Pre urýchlenie sme všetky pravidlá zapísali v špe-
čujúce vzdialenost’, resp. podobnost’ medzi dokumentami,     ciálnom jazyku Ragel [8] a spojili do jediného stavového
konkrétne o Bhattacharyyaov koeficient, Jaccardov index       automatu v programovacom jazyku C, z ktorého je zvy-
a Jensenovu-Shannonovu divergenciu. Ako najvhodnejšou         čajným spôsobom vytvorený spustitel’ný súbor resp. kniž-
mierou v úlohe klasifikácie textu sa javí použitie Jaccar-    nica [9]. Podrobnejšie informácie možno nájst’ v [1].
dovho indexu pri výpočte podobnosti dokumentov [5].
   Iným spôsobom je použitie metód nekontrolovaného
učenia v úlohe kategorizácie textových dokumentov. Vo        4   Anotácia textu
viacerých súčasných výskumoch zaoberajúcich sa mode-
lovaním jazyka sme pri kategorizácii dokumentov siahli        Tam kde to je možné, využívame pre anotáciu textu prí-
po latentnej Dirichletovej alokácii (z angl. „latent Di-      stupy založené na štatistickom modelovaní. V trénova-
richlet allocation“, skr. LDA). LDA je charakterizovaná       cej databáze sú zvyčajne tokenom priradené určité triedy
ako generatívny pravdepodobnostný model, ktorý vychá-         alebo morfologické značky. Štatistický klasifikátor analy-
dza z multinomického a Dirichletovho rozdelenia prav-         zuje trénovací korpus a je schopný priradit’ najpravdepo-
depodobnosti [6]. Zavedenie LDA v úlohe modelovania           dobnejšiu značku aj takým kontextom, ktoré sa v tréno-
slovenského jazyka pri automatickom prepise diktovaných       vacej databáze nevyskytujú. Slovenčina sa vyznačuje re-
súdnych rozhodnutí prinieslo tiež výrazné zníženie perple-    latívne vol’ným poradím slov vo vetách, vysokým počtom
xity modelov a miery chybovosti systému ARR [7].              morfologických tvarov slov a gramatických výnimiek. Po-
                                                              čet možných kontextov tak môže byt’ vel’mi vysoký, a to
                                                              st’ažuje úlohu natrénovania čo možno najpresnejšieho šta-
3 Identifikácia tokenov a vetných hraníc                      tistického klasifikátora.
Prvým krokom v spracovaní textu je jeho príprava a prepis
číslic, symbolov a skratiek do ich vyslovovanej podoby.      4.1 Rozpoznávanie pomenovaných entít
Úlohou je pomocou sústavy pravidiel identifikovat’ také
textové jednotky, ktoré sú zaujímavé z hl’adiska d’alšieho    Z dôvodu nedostatku trénovacích dát pre rozpoznávanie
spracovania, t.j. úprava na jednotný spôsob zápisu a eli-     pomenovaných entít v súčasnosti využívame systém za-
minácia nepodstatných častí. Predspracovanie je tak nevy-    ložený na pravidlách. Systém využíva sadu slovníkov, re-
hnutným krokom pre akékol’vek d’alšie štatistické spraco-     gulárnych výrazov a viacslovných pomenovaní, ktoré sú
vanie, zvlášt’ v prípade textov stiahnutých z Internetu.      spojené do unifikovaného systému na automatický prepis
Spracovanie prirodzeného jazyka pre interaktívne rečové rozhrania v slovenčine                                                   83


                                                              korpus     anotácia       TreeTagger        Dagger
                                  Národný korpus jazyka pol’ského        manuálna           15,63           11,83
                                  Český akademický korpus (v2.0)        manuálna           13,10            9,46
                                     Slovenská čast’ korpusu W2C       automatická         10,30            4,47
                                        Mad’arský webový korpus         automatická          2,55           1,97

                Tabul’ka 1: Miera chybnej klasifikácie [v %] morfologických analyzátorov TreeTagger a Dagger


pomenovaných entít. Tento na pravidlách založený sys-                      najmä pri morfologickej analýze korpusu písaných textov
tém pracuje podobne ako tokenizátor, pomocou stavového                     v slovenčine a pri trénovaní štatistických modelov jazyka
automatu. Rozpoznané pomenované entity je možné vy-                        založených na triedach slov v systémoch na automatické
užit’ v rôznych úlohách spracovania prirodzeného jazyka                    rozpoznávanie plynulej reči v slovenčine [11, 12].
v slovenčine. Vzhl’adom na to, že autorom systému na roz-                     Presnost’ klasifikácie nami navrhnutého morfologické-
poznávanie pomenovaných entít nie je v súčasnosti známy                   ho analyzátora Dagger sme porovnali s dobre známym
žiaden iný porovnatel’ný nástroj vytvorený pre slovenčinu,                slovnodruhovým (z angl. „part-of-speech“, skr. PoS)
ani databáza vhodná na testovanie, nie je preto možné                      značkovačom TreeTagger [13], ktorého algoritmus je za-
tento nástroj správne ohodnotit’ a vyčíslit’ jeho úspešnost’.             ložený na rozhodovacích stromoch. Pre porovnanie pres-
                                                                           nosti klasifikácie sme morfologické analyzátory vyhodno-
4.2     Morfologická analýza textu                                         tili na štyroch rôznych manuálne resp. automaticky anoto-
                                                                           vaných textových korpusoch, a to na Národnom korpuse
Morfologické značky sú jedným z najdôležitejších prí-
                                                                           jazyka pol’ského [14], Českom akademickom korpuse, vo
znakov v spracovaní prirodzeného jazyka. Z toho dôvodu
                                                                           verzii 2.0 [15], Mad’arskom webovom korpuse [16], a na
sme morfologický klasifikátor Dagger [10] navrhli tak, aby
                                                                           slovenskej časti textového korpusu Web to Corpora [17]3 .
bral do úvahy špecifické vlastnosti flektívnych jazykov.
                                                                           V Tab. 1 sú znázornené výsledky miery chybnej klasifiká-
Klasifikátor je založený na skrytom Markovovom modeli
                                                                           cie, ktoré ukazujú, že nami navrhnutý algoritmus morfolo-
(z angl. „hidden Markov model“, skr. HMM) druhého rádu
                                                                           gickej analýzy dosahuje porovnatel’nú presnost’ s klasifi-
a najpravdepodobnejšia postuponost’ morfologických zna-
                                                                           káciou obsiahnutou v nástroji TreeTagger.
čiek je vyhl’adávaná Viterbiho algoritmom.
    Nami navrhnutý HMM klasifikátor Dagger pre morfo-
logickú analýzu flektívnych jazykov sa skladá z nasledu-                   4.3 Doplňovanie diakritiky
júcich štyroch častí:
                                                                           Častým javom pri komunikácii medzi l’udmi prebiehajú-
  1. lexikón, ktorý navrhuje množinu možných značiek na                   cej na sieti Internet je vysoký výskyt preklepov a chýba-
     základe slova alebo jeho koncovky;                                    júca diakritika. Hoci človeku to väčšinou pri porozumení
  2. model prechodov, ktorý vyjadruje pravdepodobnost’                     správy nerobí problém, pri počítačovom spracovaní priro-
     nasledujúcej značky na základe dvoch predchádzajú-                   dzeného jazyka je potrebné nájst’ vhodný spôsob pre rozlí-
     cich,                                                                 šenie významu nejednoznačných zápisov na základe oko-
                                                                           litého kontextu. Z toho dôvodu sme sa venovali aj prob-
  3. model pozorovaní, ktorý vyjadruje pravdepodobnost’                    lému automatického doplňovania diakritiky slov [18].
     slova na základe možnej značky;                                         Podobne ako pri návrhu morfologického analyzátora
  4. a v prípade, že skúmané slovo sa nenachádza v tréno-                  sme pri rekonštrukcii diakritiky využili algoritmus využí-
     vacej databáze, využije sa dodatočný model pozoro-                   vajúci skrytý Markovov model. V tomto prípade je však
     vaní, ktorý vyjadruje pravdepodobnost’ stavu na zá-                   matica prechodov tvorená trigramovým jazykovým mo-
     klade koncovky daného slova.                                          delom a matica pozorovaní je trénovaná pomocou algo-
                                                                           ritmu pre generovanie nesprávnych zápisov na texte, ktorý
Je vhodné poznamenat’, že algoritmus obsiahnutý v mor-
                                                                           je pokladaný za správny. Úspešnost’ navrhnutého systému
fologickom analyzátore Dagger využíva vlastný algorit-
                                                                           na automatické doplňovanie diakritiky v korpusoch tex-
mus na automatickú identifikáciu koncoviek slov založený
                                                                           tov z blogov písaných v slovenskom jazyku dosahuje úro-
na minimálnej opisnej dĺžke.
                                                                           veň až 85%. Podobný nástroj na rekonštrukciu diakritiky
   Na natrénovanie klasifikátora pre slovenský jazyk sme
                                                                           pre slovenčinu, využívajúci štatistické modely jazyka vy-
využili početnosti trigramov slov z ručne morgologicky
                                                                           sokého rádu, bol vytvorený tiež tímom pracovníkov v Slo-
anotovaného korpusu r-mak-2.0 1 a množinu morfologi-
                                                                           venskom národnom korpuse Jazykovedného ústavu L’udo-
ckých značiek 2 , získaných zo Slovenského národného kor-
                                                                           víta Štúra na Slovenskej akadémii vied v Bratislave4 .
pusu Jazykovedného ústavu L’udovíta Štúra na Sloven-
skej akadémii vied v Bratislave. Algoritmus sme uplatnili
      1 http://korpus.sk/ver_r(2d)mak.html                                     3 https://lindat.mff.cuni.cz/repository/xmlui/
      2 http://korpus.juls.savba.sk/attachments/morpho/tagset-www.pdf          4 http://korpus.juls.savba.sk/diakritik.html
84                                                                              J. Staš, D. Hládek, S. Ondáš, D. Zlacký, J. Juhár


                                                              nom rade aj generovaniu ohybných tvarov vlastných pod-
                                                              statných mien, ktoré tvoria kritickú čast’ pri tvorbe akého-
                                                              kol’vek štatistického modelu jazyka. Taktiež slovník, ktorý
                                                              vstupuje do procesu trénovania, ale aj samotného rozpoz-
                                                              návania reči, musí byt’ v podmienkach reálneho nasade-
                                                              nia systému ARR obmedzený čo do počtu slov. Ukázalo
                                                              sa, že dobré výsledky modelovania slovenského jazyka
                                                              sa dosahujú už pri vel’kosti 100–150 tisíc slov pri domé-
                                                              novo orientovanom automatickom prepise diktovanej reči
                                                              do textu a 300–400 tisíc slov v úlohách všeobecného roz-
                                                              poznávania spontánnej reči [19].
                                                                 V oblasti adaptácie modelov jazyka na vybranú tému
                                                              alebo prehovor rečníka sa ukázalo, že metódy, ktoré vyka-
                                                              zovali pozoruhodné výsledky pre štatisticky viac závislé
                                                              jazyky (ako napr. angličitna), v prípade slovenčiny nebolo
                                                              pozorované výrazné zlepšenie. Z toho dôvodu je použitie
                                                              metódy lineárnej interpolácie tematicky zameraných mo-
                                                              delov jazyka viac než postačujúce, pričom výpočet inter-
                                                              polačných váh by mal byt’ určený minimalizáciou perple-
Obr. 1: Webové rozhranie k systémom na spracovanie pri-       xity modelov na množine odložených dát. Ako adaptačné
rodzeného jazyka na KEMT FEI TU v Košiciach                   dáta je vhodné použit’ bud’ textové dáta získané z prepi-
                                                              sov rečových nahrávok obsiahnutých v rečových databá-
                                                              zach, alebo písané texty čo možno najviac príbuzné do-
4.4     On-line webové rozhranie
                                                              méne, v ktorej rozpoznávanie reči prebieha [20].
Pre účely demonštrácie a testovania presnosti tokenizácie,      Kvalitu jazykového modelu, ako aj úspešnost’ samot-
morfologickej analýzy a automatického doplňovania dia-       ného rozpoznávania reči je možné zlepšovat’ množstvom
kritiky slov sme k nami navrhnutým nástrojom na počí-        optimalizačných techník. Jednou z možností je modelovat’
tačové spracovanie prirodzeného jazyka v slovenčine vy-     vysoko frekventované javy pomocou viacslovných výra-
tvorili aj jednoduché on-line webové rozhranie5 , ktoré je    zov. Takéto výrazy pokrývajú zväčša kontext dvoch–troch
znázornené na Obr. 1 a opísané v článku [11].                slov a zvyčajne sú tvorené odbornými termínmi, resp. spo-
                                                              jením predložky s podstatným, či prídavným menom. Na
                                                              základe experimentov opísaných v [19] konštatujeme, že
5 Aktivity v oblasti aplikovaného výskumu                     viacslovné výrazy, aj ked’ len v malej miere, dokážu pris-
                                                              piet’ k zlepšeniu presnosti rozpoznávania plynulej reči,
5.1     Štatistické modelovanie jazyka                        a to najmä na začiatku rečového prejavu pri rozpozná-
Konštrukcia štatistického modelu jazyka pre slovenčinu,      vaní krátkych jednoslabičných slov a nadobúdajú na vý-
ktorá patrí do skupiny vysoko flektívnych jazykov, je         zname aj v čiastkových úlohách pri reprezentácii viacslov-
ovel’a obtiažnejšia, než vytvorenie štatistického modelu      ných pomenovaní v jazykovom modeli, a tým prispievajú
pre jazyk anglický. Prvým dôvodom je neusporiadanost’         aj k postspracovaniu dát po rozpoznaní systémom ARR.
slovenského jazyka, čo vedie k vol’nejším pravidlám re-         Ďalšou možnost’ou je modelovat’ málopočetné javy
t’azenia slov do viet. Druhým je samotná flektívnost’ ja-     v jazyku pomocou morfémových modelov. Delením single-
zyka, ktorá vytvára predpoklad pre mnohonásobne väčší        tónov a javov s vel’mi malým výskytom vo vybranom ja-
slovník, než je to v prípade jazyka anglického.               zyku na subslovné jednotky (koreň a koncovku), je možné
   Súčasný stav v oblasti štatistického modelovania jazyka   štatisticky pokryt’ aj také javy, ktoré sa priamo v jazyko-
v slovenčine v doposial’ navrhnutých systémoch na inte-      vom modeli nevyskytujú. Výsledky modelovania sloven-
rakciu človeka so strojom hovorenou rečou a automatické     ského jazyka pomocou morfémových modelov ukazujú
rozpoznávanie a prepis plynulej reči to textu sa opiera      výraznú redukciu počtu mimoslovníkových tvarov a perp-
o poznatky z oblasti modelovania príbuzných jazykov, naj-     lexity modelov približne o jednu tretinu [21].
mä jazyka českého, pol’ského, slovinského, srbochorvát-         Naopak javy, ktoré sa v danom jazyku menia dyna-
skeho, či ruského. Čo sa týka samotného modelovania po-     micky a počet všetkých možných tvarov ohybných slov
mocou štatistických metód, hlavným predpokladom pri           nie je v jazyku limitovaný, je vhodné modelovat’ pomo-
tvorbe kvalitného jazykového modelu je dôsledné pred-         cou modelov založených na triedach slov. Medzi takéto
spracovanie textového korpusu, ktorý vstupuje do pro-         javy možno zahrnút’ najmä vlastné podstatné mená, ako
cesu trénovania. Zvýšenú pozornost’ je vhodné preto ve-       sú krstné mená, priezviská, geografické názvy alebo čís-
novat’ najmä prepisu čísloviek a skratiek, a v neposled-     lovky. Experimentálne výsledky modelovania slovenského
                                                              jazyka pomocou slovných tried odvodených od koncoviek
      5 http://nlp.web.tuke.sk/                               slov ukazujú mierne zlepšenie presnosti rozpoznávania
Spracovanie prirodzeného jazyka pre interaktívne rečové rozhrania v slovenčine                                                          85


reči oproti štandardným modelom približne o 5% v relatív-                 parlamentných debát, resp. obchodných rokovaní v ma-
nej miere a sú určitým kompromisom medzi modelmi za-                      lých konferenčných miestnostiach s viacerými účastníkmi,
loženými na slovných druhoch a štandardnými modelmi,                       a to s využitím robustných algoritmov na adaptáciu jazy-
čo do počtu slovných tried, percenta mimoslovníkových                    kových modelov na vybranú tému alebo rečníka [20], ale
slov, či perplexity jazykového modelu [22].                               aj d’alších aplikácií určených pre robotické systémy.
    Pri tvorbe jazykových modelov použitel’ných v systé-
moch na automatický prepis spontánnej reči je často ne-                                                             úloha    Acc* [%]
vyhnutné sa vysporiadat’ aj s rôznymi mimorečovými pre-
javmi, ktoré pochádzajú priamo do rečníka. Tie sú spô-                      hlasové ovládanie ramena robota (SNR=10dB)           90,19
                                                                              automatický prepis diktátu z oblasti súdnictva      95,11
sobené zlou výslovnost’ou, nevhodnou artikuláciou a ne-
                                                                                elektronické služby Generálnej prokuratúry        94,65
dokonalost’ou rečového prejavu. Modely vložených páuz                                 prepis reálnych parlamentných debát        90,93
a dysfluentných javov sa preto snažia podchytit’ a zahr-                                       prepis spravodajských relácií      84,33
nút’ do jazykového modelu rôzne suprasegmentálne javy
                                                                           * Presnost’ (z angl. „accuracy“, Acc) automatického prepisu vy-
obsiahnuté v rečovom prejave, ako napr. zaváhanie, pro-                   chádza z miery chybovosti slov (z angl. „word error rate“), defi-
longovanie a opakovanie slov resp. fráz, skomolenie slov,                  novanej ako minimálna vzdialenost’ medzi referenčnou sekven-
či časté dýchanie. Tieto javy vo vysokej miere vplývajú aj               ciou slov a automatickým prepisom po rozpoznaní.
na celkovú chybovost’ systému ARR. Bolo dokázané, že
vhodným výberom a správnou reprezentáciou vybraných                        Tabul’ka 2: Celková presnost’ jazykových modelov v do-
typov vložených páuz a dysfluentných javov v slovníku                      posial’ navrhnutých systémoch na automatické rozpozná-
výslovnosti a v modeli jazyka je možné dosiahnut’ zlepše-                  vanie a prepis reči do textu v slovenskom jazyku
nie presnosti rozpoznávania reči relatívne až do 10%.
    V neposlednom rade, kvalitu jazykového modelu je
možné zvýšit’ aj na úrovni rozširovania štatistík pomocou
                                                                           5.2 Porozumenie prirodzeného jazyka
internetových vyhl’adávačov [7], prekladom slov alebo
slovných párov z príbuzných jazykov a pod.                                 K tomu, aby bolo možné obohatit’ počítačové systémy
    Oblast’ štatistického modelovania slovenského jazyka                   o schopnost’ skutočného porozumenia prirodzenej reči
má za sebou krátku minulost’ a donedávna jej nebola ve-                    a jazyka, je potrebné realizovat’ proces sémantickej ana-
novaná taká pozornost’ ako napr. v susednej Českej repub-                 lýzy, a získaný význam tak vhodným spôsobom zachytit’
like. Z toho dôvodu bolo nevyhnutné pri tvorbe štatistic-                  a zosúladit’ s databázou znalostí. Je možné konštatovat’,
kých modelov slovenského jazyka, ako aj pri samotnom                       že ide o nel’ahkú úlohu, vzhl’adom na komplexnost’ slo-
spracovaní textových dát, ktoré sa používajú najmä v pro-                  venského jazyka, jej sémantiky a ostatných faktorov, ktoré
cese ich trénovania a adaptácie, podrobne naštudovat’ aj                   súvisia s porozumením. Aj ked’ sémantická analýza nie je
oblast’ komputačnej lingvistiky, a vytvorit’ tak rad progra-              hlavným zameraním nášho laboratória, pre využitie sys-
mových nástrojov na počítačové spracovanie slovenského                   tému ARR v aplikáciách interakcie človeka so strojom ho-
jazyka. Absencia dostupnosti niektorých kl’účových ná-                    vorenou rečou, je nevyhnutné sa vysporiadat’ s interpretá-
strojov slúžiacich najmä k morfologickej či syntaktickej                  ciou vyjadrení tiež v prirodzenom jazyku.
analýze tiež obmedzili použitie jazykových modelov za-                        V systéme IRKR [24] sme na tento účel implementovali
ložených na triedach slov v plnom rozsahu, aj ked’ prvé                    v jednotke riadenia dialógu podporu jazyka pre séman-
kroky v tejto oblasti už boli uskutočnené. Napriek týmto                  tickú analýzu – W3C SISR, ktorý umožňuje vložit’ inter-
obmedzeniam, modely slovenského jazyka dosahujú vy-                        pretačné inštrukcie priamo do deterministických gramatík,
sokú úspešnost’ na úrovni 84–95% v reálnych aplikáciách                    napísaných podl’a W3C odporúčania SRGS. V danom prí-
systému ARR, ktorých výsledky sú zhrnuté v Tab. 2, od                      pade sa jednalo iba o limitované porozumenie, ktoré bolo
jednoduchých hlasových rozhraní slúžiacich na ovláda-                      zamerané skôr na naplnenie doménovo špecifických sé-
nie robotických systémov, cez jednoduché rečové dialó-                    mantických slotov hodnotami získanými z rečoveho pre-
gové manažéry poskytujúce hlasové, interaktívne, či mul-                  javu používatel’a. Takéto riešenie bolo v tom čase pomerne
timodálne služby, až ku komplexným diktačným a trans-                     komfortné a postačujúce pre celý rad rečových aplikácií
kripčným systémom, ktoré pracujú s vel’mi vel’kými slov-                  a rozhraní, ktoré poskytujú tzv. rečovo-založené dialógové
níkmi, nezávisle od rečníka, dokážu sa adaptovat’ na vy-                  systémy.
branú tému, či konkretného rečníka, sú robustné a prebie-                   Pri riešení projektu zameraného na implementáciu hla-
hajú v reálnom čase [7, 12, 20, 23].                                      sového ovládania do robotickej platformy, kde kvôli kom-
    Vd’aka narastajúcemu záujmu o interaktívne rečové                     paktnosti a rýchlosti systému na limitovanom hardvéri ne-
technológie v slovenskom jazyku sa d’alšie smerovanie                      bolo možné použit’ rečové gramatiky, ked’že komplex-
v tejto oblasti uberá cestou využitia doménovo orientova-                  nost’ riadiacich povelov bola omnoho väčšia, implemen-
ných modelov jazyka pri tvorbe diktačných systémov aj                     tovali sme pre tento účel tzv. „keyword-spotting“ techniku
pre takú oblast’ ako je medicína, d’alej systémov na auto-                 sémantickej analýzy. Vytvorili sme viacero doménovo-
matický prepis akademických prednášok, spravodajských                      špecifických sémantických slotov, ktoré zachytávali pred-
relácií, športových prenosov, televíznych, rozhlasových, či               definované slová z rečového dopytu používatel’a [23].
86                                                                               J. Staš, D. Hládek, S. Ondáš, D. Zlacký, J. Juhár


   Spolu s návrhom a vývojom systémov ARR, nielen pre          aktuálne obsahuje tristo viet v slovenskom jazyku anoto-
rozpoznávanie jednoduchých povelov a fráz, ale aj pre dik-     vaných podl’a nami modifikovanej dvojúrovňovej schémy
tovanú a spontánnu reč, vzrastali nároky na ich interpre-     na označovanie sémantických rolí, prevzatej z anotačnej
táciu a predchádzajúce prístupy pre ne neboli použitel’né.     schémy podl’a E. Paleša [27] a upravenej pre potreby auto-
Pre potreby rozpoznávania plynulej reči sa namiesto deter-    matickej sémantickej analýzy. Sémantická anotácia korpu-
ministických gramatík začali vo vel’kom využívat’ štatis-     su SEMIENKO je ilustrovaná na nasledujúcom príklade:
tické modely jazyka, nakol’ko plynulá reč poskytuje pod-
                                                                     AGS|KOG [Ján] VRB [spoznal] PAC|FEN [Máriu] .
statne väčšiu výrazovú variabilitu.
   Zvlášt’ dôležitou sa sémantická analýza a interpretácia        Úloha automatického určovania sémantických rolí vše-
ukázala pri experimentovaní s virtuálnym konverzačným         obecne pozostáva z dvoch základných častí, a to z roz-
agentom, ktorý má l’udský zjav [25]. Pri takomto druhu         delenia viet na vetné participanty a následného prirade-
komunikácie má človek tendenciu očakávat’ od virtuál-        nia sémantických rolí daným participantom. Pre klasifi-
neho konverzačného agenta podobné výrazové prostriedky        káciu vetných participantov sme experimentálne vyskúšali
ako majú l’udia, predovšetkým v oblasti komunikačných         dve techniky. Prvá metóda modeluje jednotlivé pravdepo-
schopností a porozumenia, ktoré spolu úzko súvisia. Ďal-      dobnosti nepriamo pomocou n-gramových modelov [30],
ším špecifikom je, že systémy s hlasovým rozhraním sa          pričom účinnost’ klasifikácie na danom korpuse dosahuje
stávajú viac doménovo nezávislými, teda umožňujú dialó-       úspešnost’ na úrovni 48%. Druhá metóda využíva modi-
govú interakciu v rámci množstva tém (ako napr. Apple          fikovaný HMM klasifikátor, obsiahnutý v nástroji Dag-
SIRI6 a pod.), čo posúva interpretáciu významu d’alej, od     ger [10], ktorý v procese prehl’adávania výstupnej sekven-
relatívne „bezpečných“ doménových sémantických slotov         cie implementuje Viterbiho dekódovanie. Úspešnost’ tohto
k viac všeobecným sémantickým roliam.                          typu klasifikácie v súčasnosti dosahuje úroveň až 56%, čo
   T. E. Payne v [26] definuje sémantické roly nasledovne:     je vzhl’adom na vel’kost’ trénovacej množiny adekvátne.
„Sémantická rola predstavuje základný vzt’ah, ktorý daná       Na základe predbežných výsledkov sémantickej analýzy
entita má k hlavnému slovesu vo vete.“ Ďalej vysvet-          v slovenskom jazyku môžeme konštatovat’, že pre d’alšie
l’uje, že: „Sémantická rola je aktuálna rola, ktorú partici-   zlepšenie je nevyhnutné významne rozšírit’ manuálne ano-
pant hrá v nejakej reálnej alebo imaginárnej situácii, bez     tovaný korpus, čo je však nel’ahká a vel’mi pracná úloha.
ohl’adu na lingvistickú realizáciu danej situácie.“
   Aj ked’ je teória sémantických rolí a s nimi súvisiacich    6   Záver
valenčných rámcov slovies pomerne dobre rozpracovaná
pre rôzne jazyky, neexistujú však žiadne systémy na auto-      V tomto príspevku boli predstavené úlohy z oblasti spraco-
matické určovanie sémantických rolí (z angl. „automatic       vania a modelovania slovenského jazyka, ktorým sa v La-
semantic roles labeling“, skr. ASRL) v slovenčine. Za         boratóriu rečových a mobilných technológií na KEMT
vel’mi dôležitú prácu v oblasti automatického určovania       FEI TU v Košiciach v súčasnosti intenzívne venujeme. Je
sémantických rolí pre slovenčinu možno považovat’ prácu       možné konštatovat’, že úspešnost’ nami navrhnutých algo-
E. Paleša, ktorý detailne opísal proces porozumenia pri-       ritmov stále dobieha úroveň svetových výskumov, avšak
rodzeného jazyka na jednotlivých vrstvách a vyvinul prvý       súčasné výsledky je možné už teraz aplikovat’ v rôznych
systém SAPFO – Parafrázovač slovenčiny, ktorého súčas-      systémoch na rozpoznávanie a porozumenie reči, ale aj
t’ou bol aj modul pre určovanie sémantických rolí [27].       v iných systémoch intrakcie človeka so strojom hovorenou
Tento systém však nie je podl’a našich vedomostí vol’ne        rečou, ktoré na našom pracovisku vyvíjame.
dostupný. Navyše sa jedná o deterministický systém, ktorý
ako konštatuje M. Laclavík [28], nie je možné uspokojivo       Pod’akovanie
skonštruovat’ pre analýzu slovenského jazyka, z dôvodu
vel’kého množstva výnimiek. Z tohto pohl’adu sú štatis-        Táto práca vznikla realizáciou projektu Univerzitný vedec-
tické metódy jednoznačne lepšou vol’bou.                      ký park TECHNICOM pre inovačné aplikácie s podporou
   Štatistické metódy pre systémy ASRL využívajú tzv.          znalostných technológií (kód ITMS: 26220220182) vd’a-
štatistické modelovanie typické pre rôzne úlohy v oblasti      ka podpore operačného programu Výskum a vývoj spolu-
spracovania prirodzeného jazyka. Pre natrénovanie štatis-      financovaného zo zdrojov Európskeho fondu regionálneho
tických modelov je potrebná textová databáza anotovaná         rozvoja (25%) a výskumných projektov: Výskum a vý-
na úrovni sémantických rolí, ktorá v prípade slovenčiny       voj modulov pre jazykovo-adaptívne multimodálne roz-
doposial’ prakticky neexistovala. Označenie vetných par-      hrania na základe Zmluvy č. SK-HU-2013-0015 podpo-
ticipantov pomocou sémantických rolí je náročná úloha         rujúcej spoluprácu medzi organizáciami v Slovenskej re-
a vyžaduje tiež dobré lingvistické znalosti.                   publike a v Mad’arsku (50%), a Slovník viacslovných po-
   Vzhl’adom na neexistenciu databázy pre slovenčinu          menovaní (lexikografický, lexikologický a komparatívny
anotovanej na úrovni sémantických rolí, sme sa rozhodli        výskum) v rámci projektu APVV-0342-11 (25%), reali-
vytvorit’ aj takýto druh korpusu. Korpus SEMIENKO [29]         zovaných vd’aka podpore Agentúry na podporu výskumu
                                                               a vývoja financovanej z prostriedkov Ministerstva škol-
     6 https://www.apple.com/ios/siri/                         stva, vedy, výskumu a športu Slovenskej republiky.
Spracovanie prirodzeného jazyka pre interaktívne rečové rozhrania v slovenčine                                                             87


Literatúra                                                                 [15] Hladká, B., Hajič, J., Hana, J., Hlaváčová, J., Mírovský, J.,
                                                                                Raab, J.: The Czech academic corpus 2.0 guide. The Prague
                                                                                Bulletin of Mathematical Linguistics. 89 (2008) 41–96
 [1] Hládek, D., Staš, J.: Text mining and processing for corpora
     creation in Slovak language. Journal of Computer Science              [16] Halácsy, P., Kornai, A., Németh, L., Rung, A., Szakadát, I.,
     and Control Systems. 3, 1 (2010) 65–68                                     Trón, V.: Creating open language resources for Hungarian.
                                                                                In Proc. of the 4th Int. Conf. on Language Resources and
 [2] Hládek, D., Staš, J., Juhár, J.: Building organized text cor-
                                                                                Evaluation, LREC 2004. Lisbon, Portugal (2004)
     pora for speech technologies in the Slovak language. Ja-
     zykovedné štúdie XXXI: Rozvoj jazykových technológií a                [17] Majliš, M.: W2C – Web to Corpus – Corpora. LINDAT/C-
     zdrojov na Slovensku a vo svete (10 rokov Slovenského ná-                  LARIN Digital Library at Institute of Formal and Applied
     rodného korpusu). 31 (2014) 173–181                                        Linguistics, UFAL, Charles University in Prague, Czech
                                                                                Republic (2011)
 [3] Zlacký, D., Staš, J., Juhár, J., Čižmár, A.: Slovak text docu-
     ment clustering. Acta Electrotechnica et Informatica. 13, 2           [18] Hládek, D., Staš, J., Juhár, J.: Unsupervised spelling correc-
     (2013) 3–7                                                                 tion for the Slovak text. Advances in Electrical and Elect-
                                                                                ronics Engineering. 11, 5 (2013) 392–397
 [4] Zlacký, D., Staš, J., Čižmár, A.: Supervised text document
     clustering algorithm with keywords in Slovak. In Proc. of             [19] Juhár, J., Staš, J., Hládek, D.: Recent progress in develop-
     the 7th Int. Workshop on Multimedia and Signal Proces-                     ment of language model for Slovak large vocabulary conti-
     sing, Redžúr 2013. Smolenice, Slovakia (2013) 31–34                        nuous speech recognition. In New Technologies - Trends,
                                                                                Innovations and Research, Volosencu, C. (Ed.). InTech
 [5] Staš, J., Juhár, J., Hládek, D.: Classification of heteroge-
                                                                                Open Access, Rijeka, Croatia (2012) 261–276
     neous text data for robust domain-specific language mode-
     ling. EURASIP Journal on Audio, Speech and Music Pro-                 [20] Staš, J., Hládek, D., Juhár, J.: Language model speaker
     cessing. 2014, 14 (2014) 1–12                                              adaptation for transcription of Slovak parliament procee-
                                                                                dings. In Proc. of the 17th Int. Conf. on Speech and Com-
 [6] Zlacký, D., Staš, J., Juhár, J., Čižmár, A.: Text categoriza-
                                                                                puter, SPECOM 2015, Athens, Greece (2015) to be publis-
     tion with latent Dirichlet allocation. Journal of Electrical
                                                                                hed
     and Electronics Engineering. 7, 1 (2014) 161–164
                                                                           [21] Staš, J., Hládek, D., Juhár, J., Zlacký, D.: Analysis of
 [7] Staš, J., Hládek, D., Juhár, J.: Recent advances in the statis-
                                                                                morph-based language modeling and speech recognition in
     tical modeling of the Slovak language. In Proc. of the 56th
                                                                                Slovak. Advances in Electrical and Electronic Engineering.
     Int. Symp. ELMAR 2014. Zadar, Croatia (2014) 39–42
                                                                                10, 4 (2012) 291–296
 [8] Thurson, A.: Parsing computer languages with an automa-
                                                                           [22] Staš, J., Hládek, D., Juhár, J.: Morphologically motivated
     ton compiled from a single regular expression. In Imple-
                                                                                language modeling for Slovak continuous speech recogni-
     mentation and Application of Automata: Proc. of the 18th
                                                                                tion. Journal of Electrical and Electronics Engineering. 5, 1
     Intl. Conf. CIAA 2013, Halifax, NS, Canada. Ibarra, O. H.,
                                                                                (2012) 233–236
     Yen, H. Ch. (Eds.). LNCS 4094. Springer Berlin Heidel-
     berg (2006) 285–286                                                   [23] Ondáš, S., Juhár, J., Holcer, R.: Methodology for training
                                                                                small domain-specific language models and its application
 [9] Ćavar, D., Jazbec, I.-P., Stojanov, T.: CroMo - Morpho-
                                                                                in service robot speech interface. Journal of Electrical and
     logical analysis for standard Croatian and its synchronic
                                                                                Electronics Engineering. 7, 1 (2014) 107–110
     and diachronic dialects and variants. In Proc. of the 8th
     Int. Conf. on Finite-State Methods and Natural Language               [24] Ondáš, S., Juhár, J.: Development and evaluation of the
     Processing, FSMNLP 2009. Pretoria, South Africa (2009)                     spoken dialogue system based on the W3C recommendati-
     183–190                                                                    ons. In Product and Services; from R&D to Final Solutions,
                                                                                Fuerstner, I. (Ed.). Scyio, Rijeka, Croatia (2010) 315–330
[10] Hládek, D., Staš, J., Juhár, J.: Dagger: The Slovak morpho-
     logical classifier. In Proc. of the 54th Int. Symp. ELMAR             [25] Ondáš, S., Juhár, J., Trnka, M.: SIMONA – The Slovak em-
     2012. Zadar, Croatia (2012) 195–198                                        bodied conversational agent. Intelligent Decision Techno-
                                                                                logies. 8, 4 (2014) 277–288
[11] Hládek, D., Ondáš, S., Staš, J.: Online natural language pro-
     cessing of the Slovak language. In Proc. of the 5th IEEE              [26] Payne, T. E.: Describing morphosyntax: A guide for field
     Int. Conf. on Cognitive Infocommunications, CogInfoCom                     linguists. Cambridge University Press, Cambridge (1997)
     2014. Vietri sul Mare, Italy (2014) 315–316                           [27] Páleš, E.: SAPFO - Parafrázovač slovenčiny. Veda. Brati-
[12] Rusko, M., Juhár, J., Trnka, M., Staš, J., Darjaa, S., Hlá-                slava, Slovenská republika (1994)
     dek, D., Sabo, R., Pleva, M., Ritomský, M., Ondáš, S.: Re-            [28] Laclavík, M., Ciglan, M., Krajči, S., Hluchý, L., Furdík, K.:
     cent advances in the Slovak dictation system for judicial                  Dostupné zdroje a výzvy pre počítačové spracovanie infor-
     domain. In Proc. of the 6th Language and Technology Con-                   mačných zdrojov v slovenskom jazyku. In Proc. of the 1st
     ference: Human Language Technologies as a Challenge for                    Workshop on Intelligent and Knowledge Oriented Techno-
     Computer Science and Linguistics, LTC 2013, Poznań, Po-                   logies, WIKT 2006. Bratislava, Slovakia (2006) 92–98
     land (2013) 555–560                                                   [29] Staš, J., Hládek, D., Ondáš, S., Juhár, J.: On building the
[13] Schmid, H.: Probabilistic part-of-speech tagging using de-                 Slovak example-based meaning corpus. In Proc. of the
     cision trees. In Proc. of Int. Conf. on New Methods in Lan-                8th Int. Conf. on NLP, Corpus Linguistics, Lexicography,
     guage Processing. Manchester, UK (1994) 44–49                              Slovko 2015. Bratislava, Slovakia (2015) to be published
[14] Przepiórkowski, A., Górski, R. L., Łaziński, P˛ezik, P.: Re-         [30] Ondáš, S., Hládek, D., Juhár, J.: Semantic roles labeling
     cent developments in the National corpus of Polish. In Proc.               system for Slovak sentences. In Proc. of the 5th IEEE
     of the 7th Int. Conf. on Language Resources and Evalu-                     Int. Conf. on Cognitive Infocommunications, CogInfoCom
     ation, LREC 2010. Valletta, Malta (2010) 994–997                           2014. Vietri sul Mare, Italy (2014) 161–166