=Paper=
{{Paper
|id=None
|storemode=property
|title=Japonsko-český strojový překlad
|pdfUrl=https://ceur-ws.org/Vol-1214/85.pdf
|volume=Vol-1214
|dblpUrl=https://dblp.org/rec/conf/itat/VarisB14
}}
==Japonsko-český strojový překlad==
<pdf width="1500px">https://ceur-ws.org/Vol-1214/85.pdf</pdf>
<pre>
V. Kůrková et al. (Eds.): ITAT 2014 with selected papers from Znalosti 2014, CEUR Workshop Proceedings Vol. 1214, pp. 85–92
http://ceur-ws.org/Vol-1214, Series ISSN 1613-0073, c 2014 D. Variš, O. Bojar


                                         Japonsko-český strojový překlad

                                                      Dušan Variš, Ondřej Bojar

                                       Univerzita Karlova v Praze, Matematicko-fyzikální fakulta
                                          dvaris@seznam.cz, bojar@ufal.mff.cuni.cz

Abstrakt: Článek popisuje prototyp japonsko-českého                   rysy japonštiny, může být pro výzkum strojového překladu
strojového překladače založeného na hloubkovém větném                japonsko-český pár přínosný.
rozboru. Tento typ strojového překladu není v současné                   Tento jazykový pár je zajímavý i z pohledu shromažd’o-
době ve srovnání s jinými metodami tolik rozšířen, věříme           vání vhodných paralelních dat, nebot’ v současné době ne-
však, že některé jeho aspekty jsou schopny přispět k cel-            existují téměř žádné dostatečně velké japonsko-české kor-
kově lepší kvalitě výstupu. Nutnou součástí našeho úkolu             pusy ani žádné strojově čitelné slovníky.
je i získání a zpracování potřebných paralelních dat. Jeli-
kož japonsko-česká paralelní data nejsou prakticky vůbec
                                                                        1.2    Související práce
dostupná, snažili jsme se vyzkoušet různé postupy, které
by nám pomohly tento nedostatek nahradit. Náš systém je                 Náš systém využívá během překladu stejných principů
založen na stejném principu jako anglicko-český překla-               jako transfer-based systém TectoMT, který pracuje ve
dač TectoMT. V naší práci jsme se snažili zachytit ale-                třech krocích: nejprve provede analýzu vstupního textu
spoň základní jazykové jevy charakteristické pro japon-                na požadovanou úroveň abstrakce, poté je analyzovaný
štinu. Náš hloubkový systém též porovnáváme se zavede-                  text převeden na analogickou reprezentaci v cílovém ja-
ným frázovým modelem překladu. Navzdory počátečním                   zyce a nakonec jsou na cílové straně sestaveny přeložené
očekáváním pracuje frázový překlad lépe i při relativním             věty. Jako vhodnou úroveň abstrakce jsme přitom po vzoru
nedostatku paralelních dat.                                             TectoMT zvolili tektogramatickou rovinu, známou např.
                                                                        z Pražského závislostního korpusu 2.0 [3]. Právě na této
                                                                        úrovni jsou totiž zachyceny hloubkové sémantické vztahy
1 Úvod
                                                                        mezi uzly stromu, kterými jsou v tomto případě pouze pl-
                                                                        novýznamová slova, což je vhodné pro náš jazykový pár.
Tato práce se zabývá strojovým překladem (machine
                                                                        Stejná úroveň abstrakce nám navíc umožňuje použít bě-
translation, MT) z japonštiny do češtiny. Hlavním zamě-
                                                                        hem syntézy hotovou kaskádu nástrojů pro vygenerování
řením je přitom překlad s využitím hloubkového větného
                                                                        českých vět.
rozboru a jeho porovnání s frázovým překladem. Cílem
práce je jednak pro danou dvojici jazyků vytvořit základní
překladový systém, který by bylo možno v budoucnu dále                 2 Použité nástroje
rozvíjet, a jednak shromáždit dostatečné množství paralel-
ních dat, která budou sloužit k jeho natrénování.                       Pro naše experimenty používáme systém pro zpracování
                                                                        přirozených jazyků Treex [8],1 dříve známý pod názvem
1.1 Motivace                                                            TectoMT [12]. Jeho modularita nám umožňuje nejen inte-
                                                                        grovat různorodé externí nástroje pro zpracování přiroze-
Strojový překlad do češtiny a dalších morfologicky po-                ných jazyků, ale i kombinovat statistické a pravidlové me-
dobně bohatých jazyků je obecně obtížný úkol. V pří-                tody. Scénář našeho japonsko-českého překladu vychází
padě anglicko-českého překladu bylo dosaženo dobrých                 ze vzoru anglicko-českého překladového scénáře používa-
výsledků za pomoci systému, který využívá reprezentace                 ného v TectoMT a jak již bylo řečeno, syntéza češtiny je
vět na tzv. tektogramatické rovině, tj. hloubkového vět-             identická.
ného rozboru [8]. V současné době sice tento systém, je-li                 Tokenizaci a značkování slovními druhy (POS tagging)
použit samostatně, nedosahuje tak dobrých výsledků jako               japonských vět provádíme pomocí morfologického ana-
systémy využívající n-gramové překladové modely, je zde                lyzéru a taggeru MeCab [7]. MeCab využívá sadu tagů
ale stále mnoho prostoru pro zlepšení. V kombinaci s n-                 IPADIC, obsahující téměř 70 morfosyntaktických katego-
gramovým (frázovým) systémem je navíc jeho příspěvek                  rií v hierarchické struktuře (až čtyři úrovně, jedna hlavní a
velmi hodnotný [1].                                                     tři podkategorie). Pro řešení této úlohy v současné době sa-
   S rozvojem této metody překladu souvisí i snaha vy-                 mozřejmě existují i jiné nástroje (např. Chasen2 ), MeCab
zkoušet ji i na dalších jazykových párech, proto jsme se ji             jsme zvolili díky jeho obecné popularitě, snadné dostup-
rozhodli aplikovat pro dvojici japonština-čeština. Ta sice             nosti a především kompatibilitě s navazujícím parserem.
nepatří k nejvýznamnějším z hlediska praktického využití,
vezmeme-li ale v potaz dostupnost teorie, dat a nástrojů                     1 http://ufal.mff.cuni.cz/treex

pro zpracování češtiny, a pak hlavně kontrast s jazykovými                  2 http://chasen-legacy.sourceforge.jp/
86                                                                                                                              D. Variš, O. Bojar


  Vstup                        彼は本を読まない人だ                                                                                    Počet tokenů
                                                                                Zdroj                    Počet vět
  MeCab          彼 は           本 を 読ま ない                        人 だ                                                    japonština angličtina
  Bunsetsu        彼は            本を    読まない                       人だ             Kyoto’s Wiki articles6        500k         11,0M           9,9M
  Význam           on           kniha  nečíst                  člověk        Tanaka Corpus7                150k          1,7M           1,1M
                                                                                Reuters Corpora8               56k          1,9M           1,3M
                                                                                                                          čeština angličtina
Obrázek 1: Příklad tokenizace věty „On je člověk, který
                                                                                CzEng 1.09                15 136k        206,4M         232,7M
nečte knihy“ MeCabem a tokenizace na bunsetsu pro
JDEPP.
                                                                               Tabulka 1: Přehled použitých dat. Počty tokenů byly spoč-
     Závislostní parsing provádí JDEPP [14],3 jehož přes-                     teny na námi tokenizovaných větách.
nost (accuracy) zavěšování jednotlivých uzlů dosahuje
zhruba 92 %. Nejmenšími jednotkami, se kterými JDEPP                           která byla později použita při slovním zarovnání a samotné
pracuje, nejsou tokeny jako je tomu v případě tokenizace                     stavbě slovníku.
MeCabem, ale tzv. bunsetsu.4 Samotný parser nám tedy                              Zpracování japonských vět jsme také prováděli v rámci
vygeneruje pouze hrubý závislostní strom a závislosti to-                      platformy Treex, stejným způsobem jako v případě ana-
kenů uvnitř jednotlivých bunsetsu dotváříme až v násle-                     lýzy při samotném japonsko-českém překladu. Kroky jsou
dujících blocích Treexu. Příklad tokenizace na bunsetsu a                     blíže popsány v sekci 4.1.
tokenizace MeCabem je zobrazen na obrázku 1.

                                                                               3.2    Zarovnání slov
3 Použitá data a jejich zpracování
                                                                               Pro získání slovního zarovnání jsme použili program
Při tektogramatickém překladu dochází k převodu vy-                         GIZA++ [10].10 Spustili jsme jej na linearizované t-
braných atributů mezi uzly zdrojového a cílového tekto-                       stromy, ve kterých každý uzel odpovídá jednomu plnový-
gramatického stromu (t-stromu), konkrétně tektogramatic-                      znamovému slovu. Tím jsme se snažili vyhnout možnému
kých lemmat neboli t-lemmat a formémů, viz sekci 5 níže.                      problému řídkosti dat, který bývá často způsoben bohatou
Volbu vhodných protějšků t-lemmat a formémů v cílo-                         morfologií českého jazyka. Příklad slovního zarovnání je
vém jazyce zajišt’ují pravděpodobnostní unigramové pře-                      uveden na obrázku 2.
kladové modely. K jejich tréninku používáme japonsko-
české slovníky obsahující frekvenci výskytu jednotlivých                      3.3    Stavba slovníku
dvojic unigramů t-lemmat a formémů. Tato sekce popisuje
extrakci těchto slovníků z dostupných paralelních dat.                       Pro konstrukci slovníku jsme vyzkoušeli dva různé po-
   V současné době jako zdrojová data používáme pa-                          stupy. V prvním případě jsme vytvořili dílčí slovníky
ralelní korpusy s větným zarovnáním, viz tabulka 1.                           (japonsko-anglický a anglicko-český) z příslušných para-
Japonsko-anglická data jsou zpracována nezávisle na                            lelních dat a ty jsme pak spojili skrze shodující se anglická
anglicko-českých datech. V obou případech je prováděna                      hesla. Ve druhém případě jsme strojově přeložili anglické
hloubková analýza vstupních vět. U anglicko-českých dat                      věty z japonsko-anglických dat, čímž jsme získali umělá
byl tento krok proveden již ve zdrojovém korpusu CzEng                         japonsko-česká data. Z těch bylo možné japonsko-český
a my jen přebíráme hotové anotace. Postup analýzy na t-                       slovník extrahovat přímo. Pro strojový překlad z angličtiny
rovinu je pro jednotlivé jazyky popsán v následující pod-                      posloužila frázová komponenta soutěžního systému [1].
sekci.                                                                            V obou případech jsme po získání slovního zarov-
                                                                               nání provedli extrakci unigramových párů z linearizova-
                                                                               ných t-stromů. Takto vzniklé slovníky obsahovaly i počty
3.1     Lingvistické předzpracování
                                                                               výskytů jednotlivých překladových dvojic.
Analýza anglických a českých vět byla proveda kaskádou                          Spojení dílčích slovníků bylo prováděno na základě
nástrojů Treex, stejnou jako používá i překladač TectoMT.                   shodných anglických hesel (viz obrázek 3). Poté byly
Tagging anglických vět provedl tagger Morče [13], u čes-                    podle vzorce 1 přepočítány „počty výskytů“ nově vznik-
kých vět byl pro tyto účely použit tagger Featurama,5 . Po-                  lých slovních párů.
vrchový parsing pak v obou případech zajistil MST par-
ser [9]. Zbylé kroky zahrnovaly konstrukci t-roviny v zá-
vislosti na povrchovém parsingu a konstrukci t-lemmat,
                                                                                     6 http://alaginrc.nict.go.jp/WikiCorpus/
      3 http://www.tkl.iis.u-tokyo.ac.jp/~ynaga/jdepp/                               7 http://www.edrdg.org/wiki/index.php/Tanaka_Corpus
      4 Problém japonské tokenizace je poměrně složitý a stejně jako na-        8 http://www2.nict.go.jp/univ-com/multi_trans/

příklad v případě čínštiny do jisté míry nejednoznačný, což vysvětluje   member/mutiyama/jea/reuters/index.html
mimo jiné i existenci více odlišných tagsetů [4].                                 9 http://ufal.mff.cuni.cz/czeng/
      5 http://sourceforge.net/projects/featurama/                                10 http://code.google.com/p/giza-pp/
Japonsko-český strojový překlad                                                                                                              87


   ja             en                  počet                en                       cs        počet         ja           cs          „počet“
   水             water                1 058              courage                  odvaha       2 124
  外国            abroad                   47             foreigner                 cizinec      1 713        外国          cizinec       363,713
  外国          foreigner                 362                pace                   rázovat         90
  着る             dress                    2               reach                    dojít       1 705
  着る             wear                    83               wear                     nosit          34        着る          nosit           83,034
  通信        communication                65           communication             komunikace     7 512        通信       komunikace         72,512
  通信           agency                    36              agency                  agentura     42 396        通信        agentura          78,396

Obrázek 3: Příklad japonsko-anglického (tabulka vlevo) a anglicko-českého (uprostřed) dílčího slovníku. Tučně jsou
vyznačeny dvojice, které budou přes společné anglické heslo spojeny a umístěny do konečného japonsko-českého slovníku
(vpravo). Spodní část tabulky znázorňuje vznik špatného překladového páru. Nesprávný překlad „agentura“ získal kvůli
vysoké frekvenci výskytu v en-cs datech vyšší skóre než správný překlad „komunikace“.


                 彼       本       読む         人      です                             (stejný problém by ale přinášel jakýkoli prostřední jazyk).
                                                                                  Velmi často se jedná například o slovesa, která tvoří základ
                                                                                  frázových sloves (“go”→“go_on”).
 #PersPron              být         lov k         ne íst        knihy                 Tato mnohoznačnost způsobuje, že se ve výsledném
                                                                                  japonsko-českém slovníku objevují nekorektní páry, které
Obrázek 2: Příklad slovního zarovnání t-lemmat věty „On                         ovšem díky častému souvýskytu v japonsko-anglických
je člověk, který nečte knihy“.                                                 či anglicko-českých datech obdržely velký výsledný po-
                                                                                  čet výskytů a jsou tedy při překladu preferovány. Problém
                                                                                  jsme částečně omezili přidělením menší váhy frekvenční
                                                                                  tabulce anglicko-českého slovníku.
             c(cs| ja) = ∑(c(en| ja) + w ∗ c(cs|en))                     (1)          Problému by se také dalo vyhnout například přidáním
                            en                                                    jednoho či více příznaků k anglickým heslům v obou díl-
                            c(cs| ja)                                             čích slovnících. Prvotní vhodní kandidáti pro tuto roli jsou
            P(cs| ja) =                                                  (2)
                             c( ja)                                               bezesporu značky slovních druhů. Za zvážení by stálo i
                                                                                  použití vhodných nástrojů pro zjednoznačnění významu
   w udává váhu počtu výskytů dvojic v anglicko-českých                        (Word-Sense Disambiguation, WSD), kterými by se také
datech. Její hodnotu jsme volili dle vlastního odhadu.                            daly potřebné příznaky v prostředním jazyce získat.
Vzhledem k tomu, že hodnota c(cs| ja) je vždy nezáporná,                              Dalším problémem je ztráta překladů některých japon-
můžeme pak pravděpodobnost překladu japonských uni-                            ských hesel. V japonsko-anglických datech se například
gramů počítat klasicky podle vzorce 2.11                                        mohou vyskytovat překlady pouze pomocí takových ang-
   Jednou z nevýhod takto vzniklých slovníků je malé po-                         lických hesel, která se v našich anglicko-českých datech
krytí víceslovných výrazů. Jak totiž bylo zmíněno výše,                         vůbec nevyskytují. V těchto případech se potom ve vý-
prováděna je pouze extrakce t-lemmat zarovnaných 1:1.                            sledném japonsko-českém slovníku daná japonská hesla
V některých případech naštěstí t-lemmata zachycují ale-                        neobjeví. Tento problém nastává především u japonských
spoň nejčastěji se vyskytující složeniny. V případě češ-                    místních jmen a u méně používaných japonských slov.
tiny se jedná zejména o zvratné zájmeno “se”, které je                                Při přímé extrakci se mnohoznačnost angličtiny proje-
nutnou součástí některých sloves (“smát_se”), u anglič-                        vovala o něco méně. Bylo to pravděpodobně díky tomu, že
tiny je pro změnu prováděna analýza frázových sloves                            při frázovém překladu anglických vět byl brán v potaz ale-
(např. “take_off ”, “settle_down”). Slova spojená podtr-                         spoň lokální kontext jednotlivých slov. Překlad místních
žítkem jsou také reprezentována pouze jedním tokenem.                             jmen se tentokrát ve výsledném slovníku objevil, ale ne
V případě japonštiny jsou víceslovné výrazy téměř bez vý-                     vždy byl správný. Výsledný slovník byl celkově podstatně
jimky ignorovány.                                                                 menší, nebot’ obsahoval méně špatných slovních párů.

3.4 Nevýhody prostředního jazyka
                                                                                  4 Průběh překladu
At’ už jde o přímou extrakci, nebo spojování dílčích slov-
níků, v obou případech dochází kvůli prostřednímu jazyku                      V následujících odstavcích jsou popsány kroky aplikované
ke vzniku dodatečných chyb.                                                      v jednotlivých fázích překladu. Podrobněji je rozebrána
   Vážným problémem při konstrukci je skutečnost, že an-                        fáze analýzy a transferu, nebot’ bloky používané v těchto
gličtina obsahuje mnoho slov majících vícero významů                            částech jsme nově implementovali do rozhraní Treex. Pro
    11 Ve skutečnosti je potřeba hodnotu c(cs| ja) ještě normalizovat, aby     úplnost jsou ovšem stručně popsány i kroky syntézy, které
byl součet P(cs| ja) přes všechna česká hesla roven jedné.                     jsou stejné jako v anglicko-českém překladu.
88                                                                                                                          D. Variš, O. Bojar


4.1     Analýza                                                              v rámci dalšího vývoje bylo také dobré vyplňovat.
Každá vstupní věta je nejprve rozdělena na tokeny, a poté
je provedeno značkování slovních druhů. Během taggingu                    4.2   Transfer
je provedena i lematizace jednotlivých tokenů. K lemati-
                                                                             Hlavní úlohou transferové části překladu je tvorba t-
zaci dochází pouze u ohebných slovních druhů, zejména
                                                                             -stromu cílového jazyka na základě jeho protějšku v ja-
u sloves.12
                                                                             zyce zdrojovém. Topologie zdrojového stromu je zkopíro-
   Následně je postaven závislostní strom (a-strom).
                                                                             vána a následně jsou v cílovém t-stromu vybrány vhodné
Vzhledem k tomu, že použitý parser pracuje pouze s bun-
                                                                             překlady japonských t-lemmat a formémů.
setsu, jsou zbylé závislosti mezi tokeny dotvořeny násle-
                                                                                 Výběr je prováděn ve dvou krocích: Nejprve je u kaž-
dujícím způsobem: na „hlavu“ bunsetsu jsou zavěšeny
                                                                             dého uzlu vyplněn seznam n nejlepších kandidátů pro pře-
všechny zbývající tokeny v daném bunsetsu. Za „hlavu“
                                                                             klad. To je provedeno na základě našich statistických pře-
bunsetsu v tomto případě považujeme plnovýznamové
                                                                             kladových modelů. V následujícím kroku jsou pak za po-
slovo v bunsetsu, které je téměř vždy prvním tokenem
                                                                             moci HMTM (Hidden Markov Tree Model, [16]) porov-
zleva (v lineární reprezentaci věty). Další úpravy topolo-
                                                                             návány jednotlivé kombinace t-lemmat a formémů. U kaž-
gie takto vzniklého stromu jsou podle potřeby provedeny
                                                                             dého uzlu jsou pak vybrány překlady, které byly nejlepší
v následujících blocích. Na konci tohoto kroku je prove-
                                                                             v rámci celé věty (v kombinaci s překlady ostatních uzlů).
dena romanizace použitých tagů.13
                                                                                 V současné verzi transfer provádíme pouze za pomoci
   Podle podobných zvyklostí a-roviny pro češtinu a an-
                                                                             výše zmíněných kroků, ovšem v budoucnu můžeme po-
gličtinu je upravena topologie a-stromu. Vycházíme při-
                                                                             čítat s přidáním několika pravidlových bloků ošetřujících
tom též z konvencí korpusu Verbmobil použitých pro ja-
                                                                             výjimky či speciální případy. Na mysli máme zejména pře-
ponský jazyk [5]. Dále jsou nastaveny analytické funkce
                                                                             klad japonských spon (např. です) na české „být“ (nyní
některých uzlů, nyní pouze za účelem správného převodu
                                                                             jsou překládány skrze překladový model). Kromě úpravy
na tektogramatickou rovinu. I přesto, že analytické funkce
                                                                             t-lemmat můžeme uvažovat i modifikaci topologie cílo-
nemají na samotný překlad velký vliv, bylo by vhodné pro
                                                                             vého t-stromu, nebot’ v některých případech nejsou stromy
úplnost provádět jejich nastavení pro všechny druhy uzlů.
                                                                             zdrojového a cílového jazyka zcela izomorfní. V našem
   Před samotnou konstrukcí t-stromu jsou označeny
                                                                             případě by se mohlo jednat zejména o generování uzlů,
uzly pomocných slov, zkráceně pomocné uzly. Jedná se
                                                                             které ve zdrojové větě nejsou vyjádřeny (vyplývají z kon-
o všechny tokeny, které nereprezentují plnovýznamová
                                                                             textu). Je ale možné, že tyto úpravy bude potřeba provádět
slova, tedy částice (vyjma příslovečných a koordinačních
                                                                             už během analýzy.
částic) a „koncovky“ sloves (ty jsou také reprezentovány
jako samostatné tokeny a označeny jako pomocná slo-
vesa).                                                                       4.3   Syntéza
   Po těchto úpravách je postaven tektogramatický strom
(t-strom). Jeho uzly tvoří pouze plnovýznamová slova. Jak                   V závěru celého překladu je vygenerována česká věta na
je zvykem, ponecháváme u t-uzlů reference na všechny a-                     základě českého t-stromu. Je vytvořen a-strom a následně
-uzly, které daný t-uzel reprezentuje, vztah mezi povrcho-                   je vyplněna povrchová morfologie (rod, číslo, pád, atd.)
vou a hloubkovou realizací je tedy možné i dodatečně stu-                  s pomocí vyplněných formémů a gramatémů. Dále jsou
dovat. Hrany t-stromu jsou odvozeny z hran a-stromu spo-                     vytvořeny a-uzly odpovídající pomocným slovesům, spoj-
jujících tyto shluky uzlů. V případě angličtiny nebo češtiny            kám, předložkám atd. Kromě jiného dochází k vytvoření
jsou navíc v některých případech upravována t-lemmata,                     výsledných tvarů slov za pomoci generátoru slovních tvarů
aby lépe zachycovala například frázová slovesa (např. ang-                 [2]. Syntézu českých vět podrobněji popisuje Žabokrtský
lické „take_off“). Tento krok ale v případě japonštiny po-                 [15].
važujeme v tuto chvíli za zbytečný. Příklad reprezentace
věty na a- a t- rovině lze vidět na obrázku 4.                            5 Formémy
   Před samotnou fází transferu jsou ještě všem uzlům t-
-stromu vyplněny formémy a částečně gramatémy. Funkce                    Po vzoru TectoMT používá náš systém formémy. For-
a podoba formémů je popsána v sekci 5. U gramatémů za-                     mémy popisují morfosyntaktické vlastnosti slov, tj. nesou
tím vyplňujeme pouze negaci, ostatní kategorie by ovšem                     např. informaci o tom, v jakém pádě bylo dané podstatné
     12 Je to způsobeno námi zvolenou tokenizací. Kdybychom například
                                                                             jméno vyjádřeno. Tektogramatická rovina sama o sobě zá-
                                                                             měrně od těchto vlastností abstrahuje (a je tak vhodná
použili tokenizaci, kde částice nejsou samostatnými tokeny, daly by se
za ohebné slovní druhy považovat například i podstatná jména (jejich        např. pro generování větných parafrází), pro věrný překlad
morfologie by byla dána právě částicemi). Podle tagsetu IPADIC jsou        je však vhodné původní formu výrazu ve vstupní větě zo-
částice brány jako samostatné tokeny, které se, dle našeho názoru, svojí    hlednit. Na české straně používáme zavedenou sadu for-
funkcí více blíží českým předložkám či spojkám.
     13 Romanizace je prováděna za účelem snadnější práce s tagy v dal-   mémů [17], japonské formémy v pracovní verzi navrhu-
ších krocích, v budoucnu by ale bylo vhodné zvážit místo romanizace          jeme sami. Protože v současné době japonské formémy
použití vlastních POS značek.                                               používáme pouze během analýzy a překladu, nebyl kladen
Japonsko-český strojový překlad                                                                                                          89


                                                                             .
                                                                             AuxK
                                               Doshi_Jiritsu_*_*             Kigo_Kuten_*_*


                                                                             ます                       木の葉        色
                   Joshi_RentaiKa_*_* Joshi_Kakujoshi_Ippan_* Jodoshi_*_*_*                           木の葉 の 色 が


                 木の葉                     色

                 Meishi_Ippan_*_* Meishi_Ippan_*_*

Obrázek 4: Ukázka reprezentace japonské věty na a-rovině a t-rovině. Uzly označené tagem Joshi, Jodoshi a Kigo jsou
jakožto pomocné uzly před vytvořením t-stromu označeny k „skrytí“ a na t-rovině nejsou reprezentovány.


velký důraz na zachování vlastností, které by pomohly při                  k změně celého tvaru slovesa.
syntéze japonských vět.                                                        Slovesná adjektiva jsou v této skupině zahrnuta proto,
    Přiřazování hodnot japonských formémů je v podstatě                  že mají stejně jako slovesa vlastní skloňování. To sice není
určeno POS tagy příslušných plnovýznamových slov a                         tak bohaté jako v případě sloves, ale pro účely přiřazování
hodnotami k nim náležících pomocných a-uzlů. Způsob                        formémů s nimi můžeme nakládat podobným způsobem.
přidělování přitom můžeme rozdělit na dvě skupiny podle                   Formémy přiřazujeme i příslovcím a příslovečným čás-
toho, zdali se jedná o podstatná jména (名詞 - Meishi) a                       ticím, jež z hlediska sémantických slovních druhů nerozli-
nominální adjektiva (tzv. な-adjektiva, neboli 形容動詞                           šujeme.
- Keiyōdōshi), nebo o slovesa (動詞 - Dōshi) a slovesná                        V tabulce 2 je uveden fragment extrahovaného slov-
adjektiva (tzv. い-adjektiva, neboli 形容詞 - Keiyōshi).                        níku formémů. Jde vidět, že překlad formémů podstatných
    V tuto chvíli nerozlišujeme podstatná jména od no-                       jmen a adjektiv alespoň v některých případech probíhá
minálních adjektiv, pro naše potřeby obojí klasifikujeme                    podle našich představ (viz české ekvivalenty formémů pro
jako sémantická substantiva. Hodnota formémů podstat-                       podmět a předmět, kde podle očekávání jako první mož-
ných jmen je určena částicemi, které k daným t-uzlům ná-                  nost vychází n:1, tj. podstatné jméno v nominativu, resp.
leží. V případě, že k t-uzlu náleží více částic, jsou uve-                n:4, tj. akuzativu), v případě sloves jsou výsledky výrazně
deny hodnoty všech. S nominálními adjektivy nakládáme                        horší.
jako s neshodnými přívlastky, hodnota jejich formémů je
n:attr. Podstatná jména a nominální adjektiva mohou být
samozřejmě i součástí sponových sloves, v takovém pří-                   6 Experimenty a měření
padě nám ale napomáhá fakt, že sponové slovo です je na
t-rovině také reprezentováno. Díky tomu můžeme funkci                      V této sekci empiricky vyhodnocujeme kvalitu výstupu
predikátu nechat sponě, která je pro účely přidělování for-              našeho překladového systému. Nejprve popíšeme sadu
mémů považována za sloveso, a jmenné části přiřadíme                     testovacích vět, jež jsme během našeho měření použili,
formém normálním způsobem.                                                  a způsob, jakým byla zkonstruována. Dále představíme
    V případě sloves a い-adjektiv přiřazujeme hodnoty for-               základní frázový systém, který jsme použili pro srovnání
mémů jiným způsobem. Jelikož se jedná o slovní druhy                       s naším překladačem. Následují výsledky našich měření a
s vlastním skloňováním, dochází ke změně tvaru kořeno-                   jejich interpretace v závěrečné diskusi.
vého slova (v případě pravidelných sloves pouze ke změně
poslední slabiky) a přidání vhodného suffixu. Jako hod-                     6.1   Testovací data
notu formému tedy bereme podřetězec, ve kterém se slovní
forma liší od svého lemmatu. Stačilo by sice značit pouze                  Pro účely měření kvality překladu jsme náhodně vybrali
hodnotu poslední slabiky, chceme ale rovněž pokrýt ne-                      1000 dvojic vět, které se nepřekrývaly s našimi trénova-
pravidelná slovesa くる – „kuru“ (jít, přicházet) a する                        cími daty, z našich japonsko-anglických paralelních dat,
– „suru“ (dělat),14 kde v některých případech dochází                     přesněji z korpusů Tanaka a Reuters. Anglické věty jsme
                                                                             strojově přeložili do češtiny (stejným způsobem jako při
    14 Tato slovesa mají v japonštině mnoho dalších významů v závislosti   tvorbě japonsko-českých paralelních dat) a výsledek jsme
na slovech, která se k nim váží (např. 勉強する – „studovat“, 心配す               posléze ještě ručně opravili. Jednalo se zejména o opravu
る – „znepokojovat_se)“.                                                      gramatických chyb, které při překladu vznikly, pouze
90                                                                                                                     D. Variš, O. Bojar


                      Fja                   Fcs     P(Fcs |Fja )   dvojic, které nám posloužily k vyladění frázového pře-
                      adj:                 adj:1     0.1612        kladového modelu. Tokenizace těchto dat byla provedena
           adj. - základní hodnota          adv      0.1149        stejným způsobem jako u testovací sady vět.
                     n:は                    n:1      0.4369
         subst. - téma nebo podmět         n:X      0.1815
                                                                   Příprava Nejprve jsme provedli slovní zarovnání na na-
                     n:を                    n:4      0.2178
                                                                   šich umělých japonsko-českých datech. Na rozdíl od ex-
               subst. - předmět           n:1      0.1225
                                                                   trakce slovníků ale bylo toto zarovnání provedeno pouze
                                            n:X      0.1392
                                                                   na tokenizovaných povrchových reprezentacích vět. Na
                    n:が                     n:1      0.3043
                                                                   základě těchto zarovnání jsme vytvořili statistický překla-
               subst. - podmět             n:X      0.1907
                                         adj:attr    0.1018
                                                                   dový model.
                                            n:4      0.0857           Pro přípravu jazykového modelu jsme použili cílovou
                                                                   stranu našeho paralelního korpusu, tj. syntetickou češtinu.
              v:り+なさる                      v:inf     0.3148
      sloveso - zdvořilostní forma        v:fin     0.2778        Očekáváme, že lepších výsledků by bylo možné dosáh-
          (stupeň „sonkeigo“)              adv      0.2407        nout při použití čistých českých dat. V prvním takovém
               n:に_と_の                   v:že+fin    0.2608        experimentu však jazykový model založený na opravdické
        subst. se třemi částicemi        v:fin     0.2173        češtině dostal v automatickém ladění velmi nízkou váhu, a
               に, と a の                   n:s+7      0.1739        proto jsme jej nakonec nepoužili. Důvodem je pravděpo-
            v:て_いる_ます                      v:fin     0.4754        dobně to, že i korpus pro ladění (2500 vět, viz výše) má
 sloveso - průběhový čas s pomocným     adj:1     0.1475        cílovou stranu syntetickou, bez ruční korektury. Jakmile
       slovesem v tzv. ます-tvaru             adv      0.1229        bude k dispozici více kvalitních japonsko-českých dat, po-
                                                                   kus zopakujeme.
                                                                      Frázový překladový systém jsme tímto způsobem na-
Tabulka 2: Ukázka japonsko-českého pravděpodobnost-              trénovali dvakrát, jednou na slovních formách, podruhé na
ního překladového slovníku formémů. Pro vybrané japon-           lemmatech (tj. překlad do hrubší podoby češtiny).16
ské formémy je zobrazeno několik nejvíce pravděpodob-
ných českých protějšků spolu s podmíněnou pravděpodob-
ností českého formému za předpokladu japonského.                 6.3   Automatické vyhodnocení
                                                                   Výše uvedené systémy jsme spustili na stejném vzorku
v případě velkých odchylek od japonských protějšků jsme        testovacích dat. Oba systémy měly téměř stejnou míru
věty celé ručně přepsali. Do testovacích dat jsme neza-        OOV (out-of-vocabulary, tj. podíl nepřeložených slov), ko-
hrnuli věty z korpusu Kyoto’s Wikipedia articles, nebot’          lem 3%. Za nepřeložená slova jsme přitom považovali
obsahoval mnoho souvětí se složitou strukturou, důkladná         všechny řetězce ve výstupu obsahující japonské znaky.
korektura překladu anglických vět by proto byla příliš ča-        Automatické vyhodnocení jsme prováděli klasicky po-
sově náročná.                                                    mocí metriky BLEU [11]. V tabulce 3 uvádíme nejen celé
   Japonské věty byly kvůli frázovému systému tokenizo-          BLEU, ale i přesnosti jednolivých n-gramů (kolik n-gramů
vány MeCabem. Náš hloubkový překladač pak při samot-            z výstupu systému bylo nalezeno i v referenční větě).
ném překladu tento krok jednoduše přeskočil.                    BLEU skóre hloubkového překladu vyšlo bohužel nulové.
                                                                   To je způsobeno tím, že se v přeloženém textu nepodařilo
6.2 Frázový překladový systém                                     najít ani jeden 4-gram, který by referenční překlad potvr-
                                                                   dil. Frázový systém si v tomto ohledu vedl podstatně lépe.
Pro porovnání s naším překladovým systémem jsme si                   Všimněme si, že pouze v případě unigramů si hloub-
vybrali frázový systém Moses [6].15 Nejenže jakožto zá-            kový překlad vedl relativně dobře, stále ale hůře než frá-
stupce přímého překladu reprezentuje zcela odlišné pa-           zový překladač. Jednou z příčin je nedostatek informací
radigma přístupu k MT, konstrukce jednoduchého n-                 v japonské t-rovině, což po překladu ve fázi syntézy způ-
-gramového překladače je také velmi snadná.                      sobuje, že nedochází k vygenerování všech potřebných po-
                                                                   mocných slov. Vyšší n-gramy pak trpí tím, že v současné
Použitá data Vzhledem k tomu, že naše japonsko-                    době neupravujeme slovosled, japonsko-český jazykový
anglická a anglicko-česká data mají téměř prázdný prů-         pár se ovšem slovosledem výrazně liší.
nik přes anglické věty, byla konstrukce trénovacích dat pro         Co se týče kvality připravených slovníků, lepších vý-
frázový překlad spojováním přes prostřední jazyk vylou-         sledků jsme dosáhli se slovníky vytvořenými z našich
čena. Místo toho jsme se rozhodli použít náš uměle vytvo-        umělých japonsko-českých dat. Metoda spojování dílčích
řený japonsko-český korpus, viz sekce 3.3.                       slovníků dopadla výrazně hůř.
   Jedná se o stejná data, která jsme použili pro extrakci
slovníků našeho hloubkového systému. Z těchto trénova-
                                                                      16 Lematický výstup je nepoužitelný pro koncového uživatele ale je
cích dat jsme dále náhodně vyjmuli kolem 2500 větných
                                                                   vhodný pro posouzení, zda překladač zachovává slova bez ohledu na
     15 http://www.statmt.org/moses/                               morfologii, tj. lépe odráží přenos základního významu vět.
Japonsko-český strojový překlad                                                                                                               91


  Druh překladu      1-gram      2-gram   3-gram      4-gram   BLEU          Při porovnání s referenčním překladem by se mohlo
  Slovní formy                                                             zdát, že náš systém v případě této věty úplně selhal při
  Treex (ja-en-cs)       13,2        0,0         0,0      0,0       0,00
  Treex (ja-cs)          24,4        0,5         0,0      0,0       0,00
                                                                           generování slovních tvarů. Je ale potřeba podotknout, že
  Moses                  31,0        9,3         3,7      1,7       6,57   ve zdrojové větě není explicitně uvedena osoba u slovesa
  Lemmata                                                                  „vrátit se“. Pomocí bloků s ručními pravidly by se dalo
  Treex (ja-en-cs)       17,7        0,0         0,0      0,0    0,00      v těchto případech přiřadovat implicitně první osobu čísla
  Treex (ja-cs)          40,5        2,3         0,2      0,0    0,00      jednotného, která se při nedostatku vhodného kontextu při
  Moses                  53,2       21,5        10,6      5,3   15,95
                                                                           překladu používá. Až na slovosled a drobnou chybu při
Tabulka 3: Přesnosti jednotlivých n-gramů a celkové                      překladu výrazu „すぐに“ (sugu ni - „brzy“), překlad do-
BLEU. Porovnáváme hloubkový překlad se spojovanými                        padl obstojně.
slovníky (ja-en-cs), s přímými slovníky (ja-cs) a frázový                   (2a) SRC 夕方 の 五 時 です .
překlad (Moses).                                                            (2b) REF Je pět hodin večer .
                                                                             (2c) Treex Večer páté době je .
                     Lepší      Stejně dobré      Stejně špatné             Ve větě 2 došlo k nejvýraznější chybě při překladu slova
       Treex          24                                                   „時“ (toki - „čas, doba“), které ovšem ve spojení se slo-
                                     10                  34
       Moses          32                                                   vem „五“ (go - „pět“) nabývá významu jednotky času (五
                                                                           時 - „pět hodin“). Chybu tedy hledejme v našem překla-
Tabulka 4: Ruční vyhodnocení na vzorku 100 vět. Tabulka                  dovém modelu, dále pak do určité míry v HMTM, který
uvádí, kolikrát byl překlad dané věty od jednoho systému                 měl v závislosti na kontextu („pět hodin“) nalézt vhodnou
lepší než od druhého, kolikrát byly oba překlady zhruba                   alternativu z kandidátů na překlad. Mimo jiné byl opět za-
stejně dobré a kolikrát zhruba stejně špatné.                            chován slovosled zdrojové věty.
                                                                             (3a)   SRC 由美 は , 私 の 友達 の ひとり です .
6.4 Ruční vyhodnocení                                                       (3b)   REF Yumi je jednou z mých přátel .
                                                                             (3c)   Treex Jumi má přátel sám je .
Ruční vyhodnocení se opírá o vzorek 100 vět z našich tes-                  (3d)   Moses Jumi je jeden z mých přátel je
tovacích dat. Hodnotili jsme, který systém přeložil větu                     Příklad 3 ukazuje, že alespoň v některých případech
lépe, v případě podobné kvality jsme rozlišovali, zdali byly             byl náš systém schopný konkurovat frázovému překladu
oba překlady stejně dobré nebo stejně špatně. Anotátor při-           (Moses). U frázového překladu došlo v tomto případě
tom nevěděl, která věta byla vygenerována kterým systé-                 k vygenerování většího množství tokenů než bylo po-
mem. Hodnocení překladu vycházelo zejména z porovnání                     třeba. Hloubkový systém v překladu japonského výrazu
s naším referenčním překladem, nikoli vstupní větou.                    „私の“ (watashi no - „můj“)17 , zvolil naprosto špatné cí-
   Vzhledem ke značným nedostatkům obou systémů jsme                    lové t-lemma ( „mít“). Tato chyba je zřejmě důsledkem
byli během hodnocení velmi shovívaví a pomíjeli např.                    filtrování našich překladových slovníků, nebot’ předpo-
špatné skloňování nebo slovosled. Výsledky ruční evalu-                  kládaný správný překlad na obecné zájmenné t-lemma
ace jsou uvedeny v tabulce 4.                                              ( „#PersPron“) byl ze slovníku odstraněn. Je tedy potřeba
   Frázový překlad si opět vedl o něco lépe než překlad                v budoucnu zvážit, zdali jsou automatické filtrace spoje-
s hloubkovým rozborem. Rozdíl byl ale tentokrát relativně                 ných slovníků žádoucí. Překlad slova „ひとり“ (hitori -
malý. Dále je vidět, že oba systémy jsou v současné době                „jeden“) byl také v daném kontextu špatný ( „sám“).
stále velmi špatné (1/3 překladů byla špatná v obou přípa-
dech).                                                                       (4a)   SRC 良い 言葉 は 教育 の 結果 で ある .
                                                                             (4b)   REF Dobrá řeč je výsledkem vzdělávání .
                                                                             (4c)   Treex Dobré slovo vzdělávání výsledky je .
6.5 Diskuse                                                                  (4d)   Moses Dobrá slova , a výsledek je , že je vzdělání
                                                                                    .
Z výše uvedených výsledků našich měření je jednoznačně                   Jako poslední příklad 4 uvádíme mírně lepší výsledek
vidět, že si náš hloubkový překladový systém v případě ja-             našeho překladu. V tomto případě hloubkový překlad do-
zykového páru japonština-čeština vedl hůř než referenční               konce předčil naši verzi frázového překladu. Tak jako ve
frázový překlad. Přitom je potřeba podotknout, že ani náš               všech ostatních případech má po hloubkovém překladu
frázový překlad zdaleka nedosahoval úrovně současných                   výsledná věta špatný slovosled, který v tomto případě ci-
překladačů. Z ruční evaluace potom vyplývá, že kvali-                  telně zhoršuje srozumitelnost.
tativní propast mezi našimi dvěma prezentovanými sys-                        V případě složitějších vět a souvětí dopadl překlad vždy
témy nebyla tak velká, jak ukazovala automatická evalu-                    výrazně hůř. U hloubkového překladu se totiž se zvyšující
ace. Uved’me několik příkladů kratších vět a zkusme na                 komplexitou analyzovaných závislostních struktur zvyšo-
nich ilustrovat slabiny našeho systému.                                    vala i šance na vnesení nových chyb.
  (1a) SRC すぐ に 戻り ます .
  (1b) REF Brzy se vrátím .                                                  17 Přesněji se jedná o zájmeno „私“ (watashi - „já“) uvedené částicí

  (1c) Treex Dříve vrátí se .                                             „の“ (no) do pozice atributu.
92                                                                                                                  D. Variš, O. Bojar


7    Budoucí práce                                                  [5] Yasuhiro Kawata and Julia Bartels. Stylebook for the Japa-
                                                                        nese Treebank in VERBMOBIL. Technical report, 2000.
Z výsledků vyhodnocení kvality našeho překladu usuzu-             [6] Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris
jeme, že by v současné době největší zlepšení přineslo pře-        Callison-Burch, Marcello Federico, Nicola Bertoldi, Bro-
devším pečlivé automatické vyplňování všech potřebných               oke Cowan, Wade Shen, Christine Moran, Richard Zens,
atributů t-roviny během fáze analýzy. Také je nutné do bu-            Chris Dyer, Ondřej Bojar, Alexandra Constantin, and Evan
doucna provést důkladnější revizi japonské sady formémů,             Herbst. Moses: Open Source Toolkit for Statistical Ma-
                                                                        chine Translation. In ACL Companion Volume Proceedings
které jsou nyní například u sémanických sloves nevyhovu-
                                                                        of the Demo and Poster Sessions, pages 177–180, Prague,
jící. K lepší čitelnosti a srozumitelnosti cílových vět by
                                                                        Czech Republic, June 2007. ACL.
určitě přispěla i úprava jejich slovosledu.
                                                                    [7] Taku Kudo.        Mecab: Yet another part-of-speech and
    Z hlediska využití pivotního jazyka kvůli nedostatku
                                                                        morphological analyzer. http://mecab.sourceforge.
přímých dat stojí za úvahu překlad přes anglickou t-rovinu.          net/, 2005.
Systém by provedl analýzu japonské věty, transfer na an-
                                                                    [8] David Mareček, Martin Popel, and Zdeněk Žabokrtský.
glický t-strom a místo generování rovnou další transfer na              Maximum Entropy Translation Model in Dependency-
český t-strom. Teprve zde by následovalo standardní gene-              Based MT Framework. In Proc. of WMT and Met-
rování výstupní věty. Tímto způsobem bychom se vyhnuli                ricsMATR, pages 207–212, Uppsala, Sweden, 2010. ACL.
zejména problémům, které souvisí se spojováním dílčích            [9] Ryan McDonald, Fernando Pereira, Kiril Ribarov, and Jan
slovníků či extrakcí slovníků z umělých japonsko-českých           Hajič. Non-Projective Dependency Parsing using Spanning
dat.                                                                    Tree Algorithms. In Proc. of HLT/EMNLP, 2005.
                                                                   [10] Franz Josef Och and Hermann Ney. A Comparison of Alig-
                                                                        nment Models for Statistical Machine Translation. In Proc.
8    Závěr                                                             of COLING, pages 1086–1090. ACL, 2000.
                                                                   [11] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing
Tato práce popsala naši prvotní verzi japonsko-českého                 Zhu. BLEU: a Method for Automatic Evaluation of Ma-
překladače založeného na principu hloubkového překladu.              chine Translation. In Proc. of ACL, pages 311–318, Phila-
Překladač byl implementován do prostředí Treex. V po-                delphia, Pennsylvania, 2002.
rovnání s frázovým překladem náš systém bohužel stále             [12] Martin Popel and Zdeněk Žabokrtský. Tectomt: Modu-
zaostává, jsme si ale vědomi jeho nedostatků a možných                lar nlp framework. In Proceedings of the 7th Internatio-
budoucích vylepšení.                                                    nal Conference on Advances in Natural Language Proces-
   Důležitou součástí projektu bylo také získání dostateč-           sing, IceTAL’10, pages 293–304, Berlin, Heidelberg, 2010.
ného množství japonsko-českých paralelních dat. I přes                Springer-Verlag.
nedostatek přímých dat jsme byli schopni vytvořit vyhovu-        [13] Drahomíra Spoustová, Jan Hajič, Jan Votrubec, Pavel Kr-
jící překladové modely pro hloubkový i frázový překlad.               bec, and Pavel Květoň. The best of two worlds: Coope-
                                                                        ration of statistical and rule-based taggers for czech. In
                                                                        Proc. of the Workshop on Balto-Slavonic Natural Langu-
Poděkování                                                             age Processing, ACL 2007, pages 67–74, Praha, 2007.
                                                                   [14] Naoki Yoshinaga and Masaru Kitsuregawa. Kernel slicing:
Práce na tomto projektu byla podpořena grantem FP7-ICT-                scalable online training with conjunctive features. In Proc.
2011-7-288487 (MosesCore) Evropské unie.                                of COLING, pages 1245–1253, Beijing, China, 2010. ACL.
                                                                   [15] Zdeněk Žabokrtský.        From Treebanking to Machine
                                                                        Translation. Habilitation, Faculty of Mathematics and Phy-
Reference                                                               sics, Charles University in Prague, Malostranské náměstí
                                                                        25, Praha 1, 2010.
 [1] Ondřej Bojar, Rudolf Rosa, and Aleš Tamchyna. Chimera        [16] Zdeněk Žabokrtský and Martin Popel. Hidden Markov Tree
     – Three Heads for English-to-Czech Translation. In Proc.           Model in Dependency-based Machine Translation. In Proc.
     of the WMT, pages 92–98, Sofia, Bulgaria, 2013. ACL.               of the ACL-IJCNLP Short Papers, pages 145–148, Suntec,
 [2] Jan Hajič. Disambiguation of Rich Inflection (Computatio-         Singapore, 2009. ACL.
     nal Morphology of Czech). Karolinum, Charles University       [17] Zdeněk Žabokrtský, Jan Ptáček, and Petr Pajas. TectoMT:
     Press, Prague, Czech Republic, 2004.                               Highly Modular Hybrid MT System
 [3] Jan Hajič, Eva Hajičová, Jarmila Panevová, Petr Sgall,           with Tectogrammatics Used as Transfer Layer. In Proc. of
     Silvie Cinková, Eva Fučíková, Marie Mikulová, Petr Pa-            WMT, pages 167–170, Columbus, Ohio, USA, 2008.
     jas, Jan Popelka, Jiří Semecký, Jana Šindlerová, Jan
     Štěpánek, Josef Toman, Zdeňka Urešová, and Zdeněk
     Žabokrtský.     Prague Czech-English Dependency Tre-
     ebank 2.0, 2012. http://hdl.handle.net/11858/
     00-097C-0000-0015-8DAF-4.
 [4] Yasuhiro Kawata. Tagsets for Morphosyntactic Corpus An-
     notation: The Idea of a ’reference Tagset’ for Japanese.
     University of Essex, 2005.

</pre>