=Paper= {{Paper |id=None |storemode=property |title=Japonsko-český strojový překlad |pdfUrl=https://ceur-ws.org/Vol-1214/85.pdf |volume=Vol-1214 |dblpUrl=https://dblp.org/rec/conf/itat/VarisB14 }} ==Japonsko-český strojový překlad== https://ceur-ws.org/Vol-1214/85.pdf
V. Kůrková et al. (Eds.): ITAT 2014 with selected papers from Znalosti 2014, CEUR Workshop Proceedings Vol. 1214, pp. 85–92
http://ceur-ws.org/Vol-1214, Series ISSN 1613-0073, c 2014 D. Variš, O. Bojar



                                         Japonsko-český strojový překlad

                                                      Dušan Variš, Ondřej Bojar

                                       Univerzita Karlova v Praze, Matematicko-fyzikální fakulta
                                          dvaris@seznam.cz, bojar@ufal.mff.cuni.cz

Abstrakt: Článek popisuje prototyp japonsko-českého                   rysy japonštiny, může být pro výzkum strojového překladu
strojového překladače založeného na hloubkovém větném                japonsko-český pár přínosný.
rozboru. Tento typ strojového překladu není v současné                   Tento jazykový pár je zajímavý i z pohledu shromažd’o-
době ve srovnání s jinými metodami tolik rozšířen, věříme           vání vhodných paralelních dat, nebot’ v současné době ne-
však, že některé jeho aspekty jsou schopny přispět k cel-            existují téměř žádné dostatečně velké japonsko-české kor-
kově lepší kvalitě výstupu. Nutnou součástí našeho úkolu             pusy ani žádné strojově čitelné slovníky.
je i získání a zpracování potřebných paralelních dat. Jeli-
kož japonsko-česká paralelní data nejsou prakticky vůbec
                                                                        1.2    Související práce
dostupná, snažili jsme se vyzkoušet různé postupy, které
by nám pomohly tento nedostatek nahradit. Náš systém je                 Náš systém využívá během překladu stejných principů
založen na stejném principu jako anglicko-český překla-               jako transfer-based systém TectoMT, který pracuje ve
dač TectoMT. V naší práci jsme se snažili zachytit ale-                třech krocích: nejprve provede analýzu vstupního textu
spoň základní jazykové jevy charakteristické pro japon-                na požadovanou úroveň abstrakce, poté je analyzovaný
štinu. Náš hloubkový systém též porovnáváme se zavede-                  text převeden na analogickou reprezentaci v cílovém ja-
ným frázovým modelem překladu. Navzdory počátečním                   zyce a nakonec jsou na cílové straně sestaveny přeložené
očekáváním pracuje frázový překlad lépe i při relativním             věty. Jako vhodnou úroveň abstrakce jsme přitom po vzoru
nedostatku paralelních dat.                                             TectoMT zvolili tektogramatickou rovinu, známou např.
                                                                        z Pražského závislostního korpusu 2.0 [3]. Právě na této
                                                                        úrovni jsou totiž zachyceny hloubkové sémantické vztahy
1 Úvod
                                                                        mezi uzly stromu, kterými jsou v tomto případě pouze pl-
                                                                        novýznamová slova, což je vhodné pro náš jazykový pár.
Tato práce se zabývá strojovým překladem (machine
                                                                        Stejná úroveň abstrakce nám navíc umožňuje použít bě-
translation, MT) z japonštiny do češtiny. Hlavním zamě-
                                                                        hem syntézy hotovou kaskádu nástrojů pro vygenerování
řením je přitom překlad s využitím hloubkového větného
                                                                        českých vět.
rozboru a jeho porovnání s frázovým překladem. Cílem
práce je jednak pro danou dvojici jazyků vytvořit základní
překladový systém, který by bylo možno v budoucnu dále                 2 Použité nástroje
rozvíjet, a jednak shromáždit dostatečné množství paralel-
ních dat, která budou sloužit k jeho natrénování.                       Pro naše experimenty používáme systém pro zpracování
                                                                        přirozených jazyků Treex [8],1 dříve známý pod názvem
1.1 Motivace                                                            TectoMT [12]. Jeho modularita nám umožňuje nejen inte-
                                                                        grovat různorodé externí nástroje pro zpracování přiroze-
Strojový překlad do češtiny a dalších morfologicky po-                ných jazyků, ale i kombinovat statistické a pravidlové me-
dobně bohatých jazyků je obecně obtížný úkol. V pří-                tody. Scénář našeho japonsko-českého překladu vychází
padě anglicko-českého překladu bylo dosaženo dobrých                 ze vzoru anglicko-českého překladového scénáře používa-
výsledků za pomoci systému, který využívá reprezentace                 ného v TectoMT a jak již bylo řečeno, syntéza češtiny je
vět na tzv. tektogramatické rovině, tj. hloubkového vět-             identická.
ného rozboru [8]. V současné době sice tento systém, je-li                 Tokenizaci a značkování slovními druhy (POS tagging)
použit samostatně, nedosahuje tak dobrých výsledků jako               japonských vět provádíme pomocí morfologického ana-
systémy využívající n-gramové překladové modely, je zde                lyzéru a taggeru MeCab [7]. MeCab využívá sadu tagů
ale stále mnoho prostoru pro zlepšení. V kombinaci s n-                 IPADIC, obsahující téměř 70 morfosyntaktických katego-
gramovým (frázovým) systémem je navíc jeho příspěvek                  rií v hierarchické struktuře (až čtyři úrovně, jedna hlavní a
velmi hodnotný [1].                                                     tři podkategorie). Pro řešení této úlohy v současné době sa-
   S rozvojem této metody překladu souvisí i snaha vy-                 mozřejmě existují i jiné nástroje (např. Chasen2 ), MeCab
zkoušet ji i na dalších jazykových párech, proto jsme se ji             jsme zvolili díky jeho obecné popularitě, snadné dostup-
rozhodli aplikovat pro dvojici japonština-čeština. Ta sice             nosti a především kompatibilitě s navazujícím parserem.
nepatří k nejvýznamnějším z hlediska praktického využití,
vezmeme-li ale v potaz dostupnost teorie, dat a nástrojů                     1 http://ufal.mff.cuni.cz/treex

pro zpracování češtiny, a pak hlavně kontrast s jazykovými                  2 http://chasen-legacy.sourceforge.jp/
86                                                                                                                              D. Variš, O. Bojar


  Vstup                        彼は本を読まない人だ                                                                                    Počet tokenů
                                                                                Zdroj                    Počet vět
  MeCab          彼 は           本 を 読ま ない                        人 だ                                                    japonština angličtina
  Bunsetsu        彼は            本を    読まない                       人だ             Kyoto’s Wiki articles6        500k         11,0M           9,9M
  Význam           on           kniha  nečíst                  člověk        Tanaka Corpus7                150k          1,7M           1,1M
                                                                                Reuters Corpora8               56k          1,9M           1,3M
                                                                                                                          čeština angličtina
Obrázek 1: Příklad tokenizace věty „On je člověk, který
                                                                                CzEng 1.09                15 136k        206,4M         232,7M
nečte knihy“ MeCabem a tokenizace na bunsetsu pro
JDEPP.
                                                                               Tabulka 1: Přehled použitých dat. Počty tokenů byly spoč-
     Závislostní parsing provádí JDEPP [14],3 jehož přes-                     teny na námi tokenizovaných větách.
nost (accuracy) zavěšování jednotlivých uzlů dosahuje
zhruba 92 %. Nejmenšími jednotkami, se kterými JDEPP                           která byla později použita při slovním zarovnání a samotné
pracuje, nejsou tokeny jako je tomu v případě tokenizace                     stavbě slovníku.
MeCabem, ale tzv. bunsetsu.4 Samotný parser nám tedy                              Zpracování japonských vět jsme také prováděli v rámci
vygeneruje pouze hrubý závislostní strom a závislosti to-                      platformy Treex, stejným způsobem jako v případě ana-
kenů uvnitř jednotlivých bunsetsu dotváříme až v násle-                     lýzy při samotném japonsko-českém překladu. Kroky jsou
dujících blocích Treexu. Příklad tokenizace na bunsetsu a                     blíže popsány v sekci 4.1.
tokenizace MeCabem je zobrazen na obrázku 1.

                                                                               3.2    Zarovnání slov
3 Použitá data a jejich zpracování
                                                                               Pro získání slovního zarovnání jsme použili program
Při tektogramatickém překladu dochází k převodu vy-                         GIZA++ [10].10 Spustili jsme jej na linearizované t-
braných atributů mezi uzly zdrojového a cílového tekto-                       stromy, ve kterých každý uzel odpovídá jednomu plnový-
gramatického stromu (t-stromu), konkrétně tektogramatic-                      znamovému slovu. Tím jsme se snažili vyhnout možnému
kých lemmat neboli t-lemmat a formémů, viz sekci 5 níže.                      problému řídkosti dat, který bývá často způsoben bohatou
Volbu vhodných protějšků t-lemmat a formémů v cílo-                         morfologií českého jazyka. Příklad slovního zarovnání je
vém jazyce zajišt’ují pravděpodobnostní unigramové pře-                      uveden na obrázku 2.
kladové modely. K jejich tréninku používáme japonsko-
české slovníky obsahující frekvenci výskytu jednotlivých                      3.3    Stavba slovníku
dvojic unigramů t-lemmat a formémů. Tato sekce popisuje
extrakci těchto slovníků z dostupných paralelních dat.                       Pro konstrukci slovníku jsme vyzkoušeli dva různé po-
   V současné době jako zdrojová data používáme pa-                          stupy. V prvním případě jsme vytvořili dílčí slovníky
ralelní korpusy s větným zarovnáním, viz tabulka 1.                           (japonsko-anglický a anglicko-český) z příslušných para-
Japonsko-anglická data jsou zpracována nezávisle na                            lelních dat a ty jsme pak spojili skrze shodující se anglická
anglicko-českých datech. V obou případech je prováděna                      hesla. Ve druhém případě jsme strojově přeložili anglické
hloubková analýza vstupních vět. U anglicko-českých dat                      věty z japonsko-anglických dat, čímž jsme získali umělá
byl tento krok proveden již ve zdrojovém korpusu CzEng                         japonsko-česká data. Z těch bylo možné japonsko-český
a my jen přebíráme hotové anotace. Postup analýzy na t-                       slovník extrahovat přímo. Pro strojový překlad z angličtiny
rovinu je pro jednotlivé jazyky popsán v následující pod-                      posloužila frázová komponenta soutěžního systému [1].
sekci.                                                                            V obou případech jsme po získání slovního zarov-
                                                                               nání provedli extrakci unigramových párů z linearizova-
                                                                               ných t-stromů. Takto vzniklé slovníky obsahovaly i počty
3.1     Lingvistické předzpracování
                                                                               výskytů jednotlivých překladových dvojic.
Analýza anglických a českých vět byla proveda kaskádou                          Spojení dílčích slovníků bylo prováděno na základě
nástrojů Treex, stejnou jako používá i překladač TectoMT.                   shodných anglických hesel (viz obrázek 3). Poté byly
Tagging anglických vět provedl tagger Morče [13], u čes-                    podle vzorce 1 přepočítány „počty výskytů“ nově vznik-
kých vět byl pro tyto účely použit tagger Featurama,5 . Po-                  lých slovních párů.
vrchový parsing pak v obou případech zajistil MST par-
ser [9]. Zbylé kroky zahrnovaly konstrukci t-roviny v zá-
vislosti na povrchovém parsingu a konstrukci t-lemmat,
                                                                                     6 http://alaginrc.nict.go.jp/WikiCorpus/
      3 http://www.tkl.iis.u-tokyo.ac.jp/~ynaga/jdepp/                               7 http://www.edrdg.org/wiki/index.php/Tanaka_Corpus
      4 Problém japonské tokenizace je poměrně složitý a stejně jako na-        8 http://www2.nict.go.jp/univ-com/multi_trans/

příklad v případě čínštiny do jisté míry nejednoznačný, což vysvětluje   member/mutiyama/jea/reuters/index.html
mimo jiné i existenci více odlišných tagsetů [4].                                 9 http://ufal.mff.cuni.cz/czeng/
      5 http://sourceforge.net/projects/featurama/                                10 http://code.google.com/p/giza-pp/
Japonsko-český strojový překlad                                                                                                              87


   ja             en                  počet                en                       cs        počet         ja           cs          „počet“
   水             water                1 058              courage                  odvaha       2 124
  外国            abroad                   47             foreigner                 cizinec      1 713        外国          cizinec       363,713
  外国          foreigner                 362                pace                   rázovat         90
  着る             dress                    2               reach                    dojít       1 705
  着る             wear                    83               wear                     nosit          34        着る          nosit           83,034
  通信        communication                65           communication             komunikace     7 512        通信       komunikace         72,512
  通信           agency                    36              agency                  agentura     42 396        通信        agentura          78,396

Obrázek 3: Příklad japonsko-anglického (tabulka vlevo) a anglicko-českého (uprostřed) dílčího slovníku. Tučně jsou
vyznačeny dvojice, které budou přes společné anglické heslo spojeny a umístěny do konečného japonsko-českého slovníku
(vpravo). Spodní část tabulky znázorňuje vznik špatného překladového páru. Nesprávný překlad „agentura“ získal kvůli
vysoké frekvenci výskytu v en-cs datech vyšší skóre než správný překlad „komunikace“.


                 彼       本       読む         人      です                             (stejný problém by ale přinášel jakýkoli prostřední jazyk).
                                                                                  Velmi často se jedná například o slovesa, která tvoří základ
                                                                                  frázových sloves (“go”→“go_on”).
 #PersPron              být         lov k         ne íst        knihy                 Tato mnohoznačnost způsobuje, že se ve výsledném
                                                                                  japonsko-českém slovníku objevují nekorektní páry, které
Obrázek 2: Příklad slovního zarovnání t-lemmat věty „On                         ovšem díky častému souvýskytu v japonsko-anglických
je člověk, který nečte knihy“.                                                 či anglicko-českých datech obdržely velký výsledný po-
                                                                                  čet výskytů a jsou tedy při překladu preferovány. Problém
                                                                                  jsme částečně omezili přidělením menší váhy frekvenční
                                                                                  tabulce anglicko-českého slovníku.
             c(cs| ja) = ∑(c(en| ja) + w ∗ c(cs|en))                     (1)          Problému by se také dalo vyhnout například přidáním
                            en                                                    jednoho či více příznaků k anglickým heslům v obou díl-
                            c(cs| ja)                                             čích slovnících. Prvotní vhodní kandidáti pro tuto roli jsou
            P(cs| ja) =                                                  (2)
                             c( ja)                                               bezesporu značky slovních druhů. Za zvážení by stálo i
                                                                                  použití vhodných nástrojů pro zjednoznačnění významu
   w udává váhu počtu výskytů dvojic v anglicko-českých                        (Word-Sense Disambiguation, WSD), kterými by se také
datech. Její hodnotu jsme volili dle vlastního odhadu.                            daly potřebné příznaky v prostředním jazyce získat.
Vzhledem k tomu, že hodnota c(cs| ja) je vždy nezáporná,                              Dalším problémem je ztráta překladů některých japon-
můžeme pak pravděpodobnost překladu japonských uni-                            ských hesel. V japonsko-anglických datech se například
gramů počítat klasicky podle vzorce 2.11                                        mohou vyskytovat překlady pouze pomocí takových ang-
   Jednou z nevýhod takto vzniklých slovníků je malé po-                         lických hesel, která se v našich anglicko-českých datech
krytí víceslovných výrazů. Jak totiž bylo zmíněno výše,                         vůbec nevyskytují. V těchto případech se potom ve vý-
prováděna je pouze extrakce t-lemmat zarovnaných 1:1.                            sledném japonsko-českém slovníku daná japonská hesla
V některých případech naštěstí t-lemmata zachycují ale-                        neobjeví. Tento problém nastává především u japonských
spoň nejčastěji se vyskytující složeniny. V případě češ-                    místních jmen a u méně používaných japonských slov.
tiny se jedná zejména o zvratné zájmeno “se”, které je                                Při přímé extrakci se mnohoznačnost angličtiny proje-
nutnou součástí některých sloves (“smát_se”), u anglič-                        vovala o něco méně. Bylo to pravděpodobně díky tomu, že
tiny je pro změnu prováděna analýza frázových sloves                            při frázovém překladu anglických vět byl brán v potaz ale-
(např. “take_off ”, “settle_down”). Slova spojená podtr-                         spoň lokální kontext jednotlivých slov. Překlad místních
žítkem jsou také reprezentována pouze jedním tokenem.                             jmen se tentokrát ve výsledném slovníku objevil, ale ne
V případě japonštiny jsou víceslovné výrazy téměř bez vý-                     vždy byl správný. Výsledný slovník byl celkově podstatně
jimky ignorovány.                                                                 menší, nebot’ obsahoval méně špatných slovních párů.

3.4 Nevýhody prostředního jazyka
                                                                                  4 Průběh překladu
At’ už jde o přímou extrakci, nebo spojování dílčích slov-
níků, v obou případech dochází kvůli prostřednímu jazyku                      V následujících odstavcích jsou popsány kroky aplikované
ke vzniku dodatečných chyb.                                                      v jednotlivých fázích překladu. Podrobněji je rozebrána
   Vážným problémem při konstrukci je skutečnost, že an-                        fáze analýzy a transferu, nebot’ bloky používané v těchto
gličtina obsahuje mnoho slov majících vícero významů                            částech jsme nově implementovali do rozhraní Treex. Pro
    11 Ve skutečnosti je potřeba hodnotu c(cs| ja) ještě normalizovat, aby     úplnost jsou ovšem stručně popsány i kroky syntézy, které
byl součet P(cs| ja) přes všechna česká hesla roven jedné.                     jsou stejné jako v anglicko-českém překladu.
88                                                                                                                          D. Variš, O. Bojar


4.1     Analýza                                                              v rámci dalšího vývoje bylo také dobré vyplňovat.
Každá vstupní věta je nejprve rozdělena na tokeny, a poté
je provedeno značkování slovních druhů. Během taggingu                    4.2   Transfer
je provedena i lematizace jednotlivých tokenů. K lemati-
                                                                             Hlavní úlohou transferové části překladu je tvorba t-
zaci dochází pouze u ohebných slovních druhů, zejména
                                                                             -stromu cílového jazyka na základě jeho protějšku v ja-
u sloves.12
                                                                             zyce zdrojovém. Topologie zdrojového stromu je zkopíro-
   Následně je postaven závislostní strom (a-strom).
                                                                             vána a následně jsou v cílovém t-stromu vybrány vhodné
Vzhledem k tomu, že použitý parser pracuje pouze s bun-
                                                                             překlady japonských t-lemmat a formémů.
setsu, jsou zbylé závislosti mezi tokeny dotvořeny násle-
                                                                                 Výběr je prováděn ve dvou krocích: Nejprve je u kaž-
dujícím způsobem: na „hlavu“ bunsetsu jsou zavěšeny
                                                                             dého uzlu vyplněn seznam n nejlepších kandidátů pro pře-
všechny zbývající tokeny v daném bunsetsu. Za „hlavu“
                                                                             klad. To je provedeno na základě našich statistických pře-
bunsetsu v tomto případě považujeme plnovýznamové
                                                                             kladových modelů. V následujícím kroku jsou pak za po-
slovo v bunsetsu, které je téměř vždy prvním tokenem
                                                                             moci HMTM (Hidden Markov Tree Model, [16]) porov-
zleva (v lineární reprezentaci věty). Další úpravy topolo-
                                                                             návány jednotlivé kombinace t-lemmat a formémů. U kaž-
gie takto vzniklého stromu jsou podle potřeby provedeny
                                                                             dého uzlu jsou pak vybrány překlady, které byly nejlepší
v následujících blocích. Na konci tohoto kroku je prove-
                                                                             v rámci celé věty (v kombinaci s překlady ostatních uzlů).
dena romanizace použitých tagů.13
                                                                                 V současné verzi transfer provádíme pouze za pomoci
   Podle podobných zvyklostí a-roviny pro češtinu a an-
                                                                             výše zmíněných kroků, ovšem v budoucnu můžeme po-
gličtinu je upravena topologie a-stromu. Vycházíme při-
                                                                             čítat s přidáním několika pravidlových bloků ošetřujících
tom též z konvencí korpusu Verbmobil použitých pro ja-
                                                                             výjimky či speciální případy. Na mysli máme zejména pře-
ponský jazyk [5]. Dále jsou nastaveny analytické funkce
                                                                             klad japonských spon (např. です) na české „být“ (nyní
některých uzlů, nyní pouze za účelem správného převodu
                                                                             jsou překládány skrze překladový model). Kromě úpravy
na tektogramatickou rovinu. I přesto, že analytické funkce
                                                                             t-lemmat můžeme uvažovat i modifikaci topologie cílo-
nemají na samotný překlad velký vliv, bylo by vhodné pro
                                                                             vého t-stromu, nebot’ v některých případech nejsou stromy
úplnost provádět jejich nastavení pro všechny druhy uzlů.
                                                                             zdrojového a cílového jazyka zcela izomorfní. V našem
   Před samotnou konstrukcí t-stromu jsou označeny
                                                                             případě by se mohlo jednat zejména o generování uzlů,
uzly pomocných slov, zkráceně pomocné uzly. Jedná se
                                                                             které ve zdrojové větě nejsou vyjádřeny (vyplývají z kon-
o všechny tokeny, které nereprezentují plnovýznamová
                                                                             textu). Je ale možné, že tyto úpravy bude potřeba provádět
slova, tedy částice (vyjma příslovečných a koordinačních
                                                                             už během analýzy.
částic) a „koncovky“ sloves (ty jsou také reprezentovány
jako samostatné tokeny a označeny jako pomocná slo-
vesa).                                                                       4.3   Syntéza
   Po těchto úpravách je postaven tektogramatický strom
(t-strom). Jeho uzly tvoří pouze plnovýznamová slova. Jak                   V závěru celého překladu je vygenerována česká věta na
je zvykem, ponecháváme u t-uzlů reference na všechny a-                     základě českého t-stromu. Je vytvořen a-strom a následně
-uzly, které daný t-uzel reprezentuje, vztah mezi povrcho-                   je vyplněna povrchová morfologie (rod, číslo, pád, atd.)
vou a hloubkovou realizací je tedy možné i dodatečně stu-                  s pomocí vyplněných formémů a gramatémů. Dále jsou
dovat. Hrany t-stromu jsou odvozeny z hran a-stromu spo-                     vytvořeny a-uzly odpovídající pomocným slovesům, spoj-
jujících tyto shluky uzlů. V případě angličtiny nebo češtiny            kám, předložkám atd. Kromě jiného dochází k vytvoření
jsou navíc v některých případech upravována t-lemmata,                     výsledných tvarů slov za pomoci generátoru slovních tvarů
aby lépe zachycovala například frázová slovesa (např. ang-                 [2]. Syntézu českých vět podrobněji popisuje Žabokrtský
lické „take_off“). Tento krok ale v případě japonštiny po-                 [15].
važujeme v tuto chvíli za zbytečný. Příklad reprezentace
věty na a- a t- rovině lze vidět na obrázku 4.                            5 Formémy
   Před samotnou fází transferu jsou ještě všem uzlům t-
-stromu vyplněny formémy a částečně gramatémy. Funkce                    Po vzoru TectoMT používá náš systém formémy. For-
a podoba formémů je popsána v sekci 5. U gramatémů za-                     mémy popisují morfosyntaktické vlastnosti slov, tj. nesou
tím vyplňujeme pouze negaci, ostatní kategorie by ovšem                     např. informaci o tom, v jakém pádě bylo dané podstatné
     12 Je to způsobeno námi zvolenou tokenizací. Kdybychom například
                                                                             jméno vyjádřeno. Tektogramatická rovina sama o sobě zá-
                                                                             měrně od těchto vlastností abstrahuje (a je tak vhodná
použili tokenizaci, kde částice nejsou samostatnými tokeny, daly by se
za ohebné slovní druhy považovat například i podstatná jména (jejich        např. pro generování větných parafrází), pro věrný překlad
morfologie by byla dána právě částicemi). Podle tagsetu IPADIC jsou        je však vhodné původní formu výrazu ve vstupní větě zo-
částice brány jako samostatné tokeny, které se, dle našeho názoru, svojí    hlednit. Na české straně používáme zavedenou sadu for-
funkcí více blíží českým předložkám či spojkám.
     13 Romanizace je prováděna za účelem snadnější práce s tagy v dal-   mémů [17], japonské formémy v pracovní verzi navrhu-
ších krocích, v budoucnu by ale bylo vhodné zvážit místo romanizace          jeme sami. Protože v současné době japonské formémy
použití vlastních POS značek.                                               používáme pouze během analýzy a překladu, nebyl kladen
Japonsko-český strojový překlad                                                                                                          89




                                                                             .
                                                                             AuxK
                                               Doshi_Jiritsu_*_*             Kigo_Kuten_*_*


                                                                             ます                       木の葉        色
                   Joshi_RentaiKa_*_* Joshi_Kakujoshi_Ippan_* Jodoshi_*_*_*                           木の葉 の 色 が


                 木の葉                     色

                 Meishi_Ippan_*_* Meishi_Ippan_*_*

Obrázek 4: Ukázka reprezentace japonské věty na a-rovině a t-rovině. Uzly označené tagem Joshi, Jodoshi a Kigo jsou
jakožto pomocné uzly před vytvořením t-stromu označeny k „skrytí“ a na t-rovině nejsou reprezentovány.


velký důraz na zachování vlastností, které by pomohly při                  k změně celého tvaru slovesa.
syntéze japonských vět.                                                        Slovesná adjektiva jsou v této skupině zahrnuta proto,
    Přiřazování hodnot japonských formémů je v podstatě                  že mají stejně jako slovesa vlastní skloňování. To sice není
určeno POS tagy příslušných plnovýznamových slov a                         tak bohaté jako v případě sloves, ale pro účely přiřazování
hodnotami k nim náležících pomocných a-uzlů. Způsob                        formémů s nimi můžeme nakládat podobným způsobem.
přidělování přitom můžeme rozdělit na dvě skupiny podle                   Formémy přiřazujeme i příslovcím a příslovečným čás-
toho, zdali se jedná o podstatná jména (名詞 - Meishi) a                       ticím, jež z hlediska sémantických slovních druhů nerozli-
nominální adjektiva (tzv. な-adjektiva, neboli 形容動詞                           šujeme.
- Keiyōdōshi), nebo o slovesa (動詞 - Dōshi) a slovesná                        V tabulce 2 je uveden fragment extrahovaného slov-
adjektiva (tzv. い-adjektiva, neboli 形容詞 - Keiyōshi).                        níku formémů. Jde vidět, že překlad formémů podstatných
    V tuto chvíli nerozlišujeme podstatná jména od no-                       jmen a adjektiv alespoň v některých případech probíhá
minálních adjektiv, pro naše potřeby obojí klasifikujeme                    podle našich představ (viz české ekvivalenty formémů pro
jako sémantická substantiva. Hodnota formémů podstat-                       podmět a předmět, kde podle očekávání jako první mož-
ných jmen je určena částicemi, které k daným t-uzlům ná-                  nost vychází n:1, tj. podstatné jméno v nominativu, resp.
leží. V případě, že k t-uzlu náleží více částic, jsou uve-                n:4, tj. akuzativu), v případě sloves jsou výsledky výrazně
deny hodnoty všech. S nominálními adjektivy nakládáme                        horší.
jako s neshodnými přívlastky, hodnota jejich formémů je
n:attr. Podstatná jména a nominální adjektiva mohou být
samozřejmě i součástí sponových sloves, v takovém pří-                   6 Experimenty a měření
padě nám ale napomáhá fakt, že sponové slovo です je na
t-rovině také reprezentováno. Díky tomu můžeme funkci                      V této sekci empiricky vyhodnocujeme kvalitu výstupu
predikátu nechat sponě, která je pro účely přidělování for-              našeho překladového systému. Nejprve popíšeme sadu
mémů považována za sloveso, a jmenné části přiřadíme                     testovacích vět, jež jsme během našeho měření použili,
formém normálním způsobem.                                                  a způsob, jakým byla zkonstruována. Dále představíme
    V případě sloves a い-adjektiv přiřazujeme hodnoty for-               základní frázový systém, který jsme použili pro srovnání
mémů jiným způsobem. Jelikož se jedná o slovní druhy                       s naším překladačem. Následují výsledky našich měření a
s vlastním skloňováním, dochází ke změně tvaru kořeno-                   jejich interpretace v závěrečné diskusi.
vého slova (v případě pravidelných sloves pouze ke změně
poslední slabiky) a přidání vhodného suffixu. Jako hod-                     6.1   Testovací data
notu formému tedy bereme podřetězec, ve kterém se slovní
forma liší od svého lemmatu. Stačilo by sice značit pouze                  Pro účely měření kvality překladu jsme náhodně vybrali
hodnotu poslední slabiky, chceme ale rovněž pokrýt ne-                      1000 dvojic vět, které se nepřekrývaly s našimi trénova-
pravidelná slovesa くる – „kuru“ (jít, přicházet) a する                        cími daty, z našich japonsko-anglických paralelních dat,
– „suru“ (dělat),14 kde v některých případech dochází                     přesněji z korpusů Tanaka a Reuters. Anglické věty jsme
                                                                             strojově přeložili do češtiny (stejným způsobem jako při
    14 Tato slovesa mají v japonštině mnoho dalších významů v závislosti   tvorbě japonsko-českých paralelních dat) a výsledek jsme
na slovech, která se k nim váží (např. 勉強する – „studovat“, 心配す               posléze ještě ručně opravili. Jednalo se zejména o opravu
る – „znepokojovat_se)“.                                                      gramatických chyb, které při překladu vznikly, pouze
90                                                                                                                     D. Variš, O. Bojar


                      Fja                   Fcs     P(Fcs |Fja )   dvojic, které nám posloužily k vyladění frázového pře-
                      adj:                 adj:1     0.1612        kladového modelu. Tokenizace těchto dat byla provedena
           adj. - základní hodnota          adv      0.1149        stejným způsobem jako u testovací sady vět.
                     n:は                    n:1      0.4369
         subst. - téma nebo podmět         n:X      0.1815
                                                                   Příprava Nejprve jsme provedli slovní zarovnání na na-
                     n:を                    n:4      0.2178
                                                                   šich umělých japonsko-českých datech. Na rozdíl od ex-
               subst. - předmět           n:1      0.1225
                                                                   trakce slovníků ale bylo toto zarovnání provedeno pouze
                                            n:X      0.1392
                                                                   na tokenizovaných povrchových reprezentacích vět. Na
                    n:が                     n:1      0.3043
                                                                   základě těchto zarovnání jsme vytvořili statistický překla-
               subst. - podmět             n:X      0.1907
                                         adj:attr    0.1018
                                                                   dový model.
                                            n:4      0.0857           Pro přípravu jazykového modelu jsme použili cílovou
                                                                   stranu našeho paralelního korpusu, tj. syntetickou češtinu.
              v:り+なさる                      v:inf     0.3148
      sloveso - zdvořilostní forma        v:fin     0.2778        Očekáváme, že lepších výsledků by bylo možné dosáh-
          (stupeň „sonkeigo“)              adv      0.2407        nout při použití čistých českých dat. V prvním takovém
               n:に_と_の                   v:že+fin    0.2608        experimentu však jazykový model založený na opravdické
        subst. se třemi částicemi        v:fin     0.2173        češtině dostal v automatickém ladění velmi nízkou váhu, a
               に, と a の                   n:s+7      0.1739        proto jsme jej nakonec nepoužili. Důvodem je pravděpo-
            v:て_いる_ます                      v:fin     0.4754        dobně to, že i korpus pro ladění (2500 vět, viz výše) má
 sloveso - průběhový čas s pomocným     adj:1     0.1475        cílovou stranu syntetickou, bez ruční korektury. Jakmile
       slovesem v tzv. ます-tvaru             adv      0.1229        bude k dispozici více kvalitních japonsko-českých dat, po-
                                                                   kus zopakujeme.
                                                                      Frázový překladový systém jsme tímto způsobem na-
Tabulka 2: Ukázka japonsko-českého pravděpodobnost-              trénovali dvakrát, jednou na slovních formách, podruhé na
ního překladového slovníku formémů. Pro vybrané japon-           lemmatech (tj. překlad do hrubší podoby češtiny).16
ské formémy je zobrazeno několik nejvíce pravděpodob-
ných českých protějšků spolu s podmíněnou pravděpodob-
ností českého formému za předpokladu japonského.                 6.3   Automatické vyhodnocení
                                                                   Výše uvedené systémy jsme spustili na stejném vzorku
v případě velkých odchylek od japonských protějšků jsme        testovacích dat. Oba systémy měly téměř stejnou míru
věty celé ručně přepsali. Do testovacích dat jsme neza-        OOV (out-of-vocabulary, tj. podíl nepřeložených slov), ko-
hrnuli věty z korpusu Kyoto’s Wikipedia articles, nebot’          lem 3%. Za nepřeložená slova jsme přitom považovali
obsahoval mnoho souvětí se složitou strukturou, důkladná         všechny řetězce ve výstupu obsahující japonské znaky.
korektura překladu anglických vět by proto byla příliš ča-        Automatické vyhodnocení jsme prováděli klasicky po-
sově náročná.                                                    mocí metriky BLEU [11]. V tabulce 3 uvádíme nejen celé
   Japonské věty byly kvůli frázovému systému tokenizo-          BLEU, ale i přesnosti jednolivých n-gramů (kolik n-gramů
vány MeCabem. Náš hloubkový překladač pak při samot-            z výstupu systému bylo nalezeno i v referenční větě).
ném překladu tento krok jednoduše přeskočil.                    BLEU skóre hloubkového překladu vyšlo bohužel nulové.
                                                                   To je způsobeno tím, že se v přeloženém textu nepodařilo
6.2 Frázový překladový systém                                     najít ani jeden 4-gram, který by referenční překlad potvr-
                                                                   dil. Frázový systém si v tomto ohledu vedl podstatně lépe.
Pro porovnání s naším překladovým systémem jsme si                   Všimněme si, že pouze v případě unigramů si hloub-
vybrali frázový systém Moses [6].15 Nejenže jakožto zá-            kový překlad vedl relativně dobře, stále ale hůře než frá-
stupce přímého překladu reprezentuje zcela odlišné pa-           zový překladač. Jednou z příčin je nedostatek informací
radigma přístupu k MT, konstrukce jednoduchého n-                 v japonské t-rovině, což po překladu ve fázi syntézy způ-
-gramového překladače je také velmi snadná.                      sobuje, že nedochází k vygenerování všech potřebných po-
                                                                   mocných slov. Vyšší n-gramy pak trpí tím, že v současné
Použitá data Vzhledem k tomu, že naše japonsko-                    době neupravujeme slovosled, japonsko-český jazykový
anglická a anglicko-česká data mají téměř prázdný prů-         pár se ovšem slovosledem výrazně liší.
nik přes anglické věty, byla konstrukce trénovacích dat pro         Co se týče kvality připravených slovníků, lepších vý-
frázový překlad spojováním přes prostřední jazyk vylou-         sledků jsme dosáhli se slovníky vytvořenými z našich
čena. Místo toho jsme se rozhodli použít náš uměle vytvo-        umělých japonsko-českých dat. Metoda spojování dílčích
řený japonsko-český korpus, viz sekce 3.3.                       slovníků dopadla výrazně hůř.
   Jedná se o stejná data, která jsme použili pro extrakci
slovníků našeho hloubkového systému. Z těchto trénova-
                                                                      16 Lematický výstup je nepoužitelný pro koncového uživatele ale je
cích dat jsme dále náhodně vyjmuli kolem 2500 větných
                                                                   vhodný pro posouzení, zda překladač zachovává slova bez ohledu na
     15 http://www.statmt.org/moses/                               morfologii, tj. lépe odráží přenos základního významu vět.
Japonsko-český strojový překlad                                                                                                               91


  Druh překladu      1-gram      2-gram   3-gram      4-gram   BLEU          Při porovnání s referenčním překladem by se mohlo
  Slovní formy                                                             zdát, že náš systém v případě této věty úplně selhal při
  Treex (ja-en-cs)       13,2        0,0         0,0      0,0       0,00
  Treex (ja-cs)          24,4        0,5         0,0      0,0       0,00
                                                                           generování slovních tvarů. Je ale potřeba podotknout, že
  Moses                  31,0        9,3         3,7      1,7       6,57   ve zdrojové větě není explicitně uvedena osoba u slovesa
  Lemmata                                                                  „vrátit se“. Pomocí bloků s ručními pravidly by se dalo
  Treex (ja-en-cs)       17,7        0,0         0,0      0,0    0,00      v těchto případech přiřadovat implicitně první osobu čísla
  Treex (ja-cs)          40,5        2,3         0,2      0,0    0,00      jednotného, která se při nedostatku vhodného kontextu při
  Moses                  53,2       21,5        10,6      5,3   15,95
                                                                           překladu používá. Až na slovosled a drobnou chybu při
Tabulka 3: Přesnosti jednotlivých n-gramů a celkové                      překladu výrazu „すぐに“ (sugu ni - „brzy“), překlad do-
BLEU. Porovnáváme hloubkový překlad se spojovanými                        padl obstojně.
slovníky (ja-en-cs), s přímými slovníky (ja-cs) a frázový                   (2a) SRC 夕方 の 五 時 です .
překlad (Moses).                                                            (2b) REF Je pět hodin večer .
                                                                             (2c) Treex Večer páté době je .
                     Lepší      Stejně dobré      Stejně špatné             Ve větě 2 došlo k nejvýraznější chybě při překladu slova
       Treex          24                                                   „時“ (toki - „čas, doba“), které ovšem ve spojení se slo-
                                     10                  34
       Moses          32                                                   vem „五“ (go - „pět“) nabývá významu jednotky času (五
                                                                           時 - „pět hodin“). Chybu tedy hledejme v našem překla-
Tabulka 4: Ruční vyhodnocení na vzorku 100 vět. Tabulka                  dovém modelu, dále pak do určité míry v HMTM, který
uvádí, kolikrát byl překlad dané věty od jednoho systému                 měl v závislosti na kontextu („pět hodin“) nalézt vhodnou
lepší než od druhého, kolikrát byly oba překlady zhruba                   alternativu z kandidátů na překlad. Mimo jiné byl opět za-
stejně dobré a kolikrát zhruba stejně špatné.                            chován slovosled zdrojové věty.
                                                                             (3a)   SRC 由美 は , 私 の 友達 の ひとり です .
6.4 Ruční vyhodnocení                                                       (3b)   REF Yumi je jednou z mých přátel .
                                                                             (3c)   Treex Jumi má přátel sám je .
Ruční vyhodnocení se opírá o vzorek 100 vět z našich tes-                  (3d)   Moses Jumi je jeden z mých přátel je
tovacích dat. Hodnotili jsme, který systém přeložil větu                     Příklad 3 ukazuje, že alespoň v některých případech
lépe, v případě podobné kvality jsme rozlišovali, zdali byly             byl náš systém schopný konkurovat frázovému překladu
oba překlady stejně dobré nebo stejně špatně. Anotátor při-           (Moses). U frázového překladu došlo v tomto případě
tom nevěděl, která věta byla vygenerována kterým systé-                 k vygenerování většího množství tokenů než bylo po-
mem. Hodnocení překladu vycházelo zejména z porovnání                     třeba. Hloubkový systém v překladu japonského výrazu
s naším referenčním překladem, nikoli vstupní větou.                    „私の“ (watashi no - „můj“)17 , zvolil naprosto špatné cí-
   Vzhledem ke značným nedostatkům obou systémů jsme                    lové t-lemma ( „mít“). Tato chyba je zřejmě důsledkem
byli během hodnocení velmi shovívaví a pomíjeli např.                    filtrování našich překladových slovníků, nebot’ předpo-
špatné skloňování nebo slovosled. Výsledky ruční evalu-                  kládaný správný překlad na obecné zájmenné t-lemma
ace jsou uvedeny v tabulce 4.                                              ( „#PersPron“) byl ze slovníku odstraněn. Je tedy potřeba
   Frázový překlad si opět vedl o něco lépe než překlad                v budoucnu zvážit, zdali jsou automatické filtrace spoje-
s hloubkovým rozborem. Rozdíl byl ale tentokrát relativně                 ných slovníků žádoucí. Překlad slova „ひとり“ (hitori -
malý. Dále je vidět, že oba systémy jsou v současné době                „jeden“) byl také v daném kontextu špatný ( „sám“).
stále velmi špatné (1/3 překladů byla špatná v obou přípa-
dech).                                                                       (4a)   SRC 良い 言葉 は 教育 の 結果 で ある .
                                                                             (4b)   REF Dobrá řeč je výsledkem vzdělávání .
                                                                             (4c)   Treex Dobré slovo vzdělávání výsledky je .
6.5 Diskuse                                                                  (4d)   Moses Dobrá slova , a výsledek je , že je vzdělání
                                                                                    .
Z výše uvedených výsledků našich měření je jednoznačně                   Jako poslední příklad 4 uvádíme mírně lepší výsledek
vidět, že si náš hloubkový překladový systém v případě ja-             našeho překladu. V tomto případě hloubkový překlad do-
zykového páru japonština-čeština vedl hůř než referenční               konce předčil naši verzi frázového překladu. Tak jako ve
frázový překlad. Přitom je potřeba podotknout, že ani náš               všech ostatních případech má po hloubkovém překladu
frázový překlad zdaleka nedosahoval úrovně současných                   výsledná věta špatný slovosled, který v tomto případě ci-
překladačů. Z ruční evaluace potom vyplývá, že kvali-                  telně zhoršuje srozumitelnost.
tativní propast mezi našimi dvěma prezentovanými sys-                        V případě složitějších vět a souvětí dopadl překlad vždy
témy nebyla tak velká, jak ukazovala automatická evalu-                    výrazně hůř. U hloubkového překladu se totiž se zvyšující
ace. Uved’me několik příkladů kratších vět a zkusme na                 komplexitou analyzovaných závislostních struktur zvyšo-
nich ilustrovat slabiny našeho systému.                                    vala i šance na vnesení nových chyb.
  (1a) SRC すぐ に 戻り ます .
  (1b) REF Brzy se vrátím .                                                  17 Přesněji se jedná o zájmeno „私“ (watashi - „já“) uvedené částicí

  (1c) Treex Dříve vrátí se .                                             „の“ (no) do pozice atributu.
92                                                                                                                  D. Variš, O. Bojar


7    Budoucí práce                                                  [5] Yasuhiro Kawata and Julia Bartels. Stylebook for the Japa-
                                                                        nese Treebank in VERBMOBIL. Technical report, 2000.
Z výsledků vyhodnocení kvality našeho překladu usuzu-             [6] Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris
jeme, že by v současné době největší zlepšení přineslo pře-        Callison-Burch, Marcello Federico, Nicola Bertoldi, Bro-
devším pečlivé automatické vyplňování všech potřebných               oke Cowan, Wade Shen, Christine Moran, Richard Zens,
atributů t-roviny během fáze analýzy. Také je nutné do bu-            Chris Dyer, Ondřej Bojar, Alexandra Constantin, and Evan
doucna provést důkladnější revizi japonské sady formémů,             Herbst. Moses: Open Source Toolkit for Statistical Ma-
                                                                        chine Translation. In ACL Companion Volume Proceedings
které jsou nyní například u sémanických sloves nevyhovu-
                                                                        of the Demo and Poster Sessions, pages 177–180, Prague,
jící. K lepší čitelnosti a srozumitelnosti cílových vět by
                                                                        Czech Republic, June 2007. ACL.
určitě přispěla i úprava jejich slovosledu.
                                                                    [7] Taku Kudo.        Mecab: Yet another part-of-speech and
    Z hlediska využití pivotního jazyka kvůli nedostatku
                                                                        morphological analyzer. http://mecab.sourceforge.
přímých dat stojí za úvahu překlad přes anglickou t-rovinu.          net/, 2005.
Systém by provedl analýzu japonské věty, transfer na an-
                                                                    [8] David Mareček, Martin Popel, and Zdeněk Žabokrtský.
glický t-strom a místo generování rovnou další transfer na              Maximum Entropy Translation Model in Dependency-
český t-strom. Teprve zde by následovalo standardní gene-              Based MT Framework. In Proc. of WMT and Met-
rování výstupní věty. Tímto způsobem bychom se vyhnuli                ricsMATR, pages 207–212, Uppsala, Sweden, 2010. ACL.
zejména problémům, které souvisí se spojováním dílčích            [9] Ryan McDonald, Fernando Pereira, Kiril Ribarov, and Jan
slovníků či extrakcí slovníků z umělých japonsko-českých           Hajič. Non-Projective Dependency Parsing using Spanning
dat.                                                                    Tree Algorithms. In Proc. of HLT/EMNLP, 2005.
                                                                   [10] Franz Josef Och and Hermann Ney. A Comparison of Alig-
                                                                        nment Models for Statistical Machine Translation. In Proc.
8    Závěr                                                             of COLING, pages 1086–1090. ACL, 2000.
                                                                   [11] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing
Tato práce popsala naši prvotní verzi japonsko-českého                 Zhu. BLEU: a Method for Automatic Evaluation of Ma-
překladače založeného na principu hloubkového překladu.              chine Translation. In Proc. of ACL, pages 311–318, Phila-
Překladač byl implementován do prostředí Treex. V po-                delphia, Pennsylvania, 2002.
rovnání s frázovým překladem náš systém bohužel stále             [12] Martin Popel and Zdeněk Žabokrtský. Tectomt: Modu-
zaostává, jsme si ale vědomi jeho nedostatků a možných                lar nlp framework. In Proceedings of the 7th Internatio-
budoucích vylepšení.                                                    nal Conference on Advances in Natural Language Proces-
   Důležitou součástí projektu bylo také získání dostateč-           sing, IceTAL’10, pages 293–304, Berlin, Heidelberg, 2010.
ného množství japonsko-českých paralelních dat. I přes                Springer-Verlag.
nedostatek přímých dat jsme byli schopni vytvořit vyhovu-        [13] Drahomíra Spoustová, Jan Hajič, Jan Votrubec, Pavel Kr-
jící překladové modely pro hloubkový i frázový překlad.               bec, and Pavel Květoň. The best of two worlds: Coope-
                                                                        ration of statistical and rule-based taggers for czech. In
                                                                        Proc. of the Workshop on Balto-Slavonic Natural Langu-
Poděkování                                                             age Processing, ACL 2007, pages 67–74, Praha, 2007.
                                                                   [14] Naoki Yoshinaga and Masaru Kitsuregawa. Kernel slicing:
Práce na tomto projektu byla podpořena grantem FP7-ICT-                scalable online training with conjunctive features. In Proc.
2011-7-288487 (MosesCore) Evropské unie.                                of COLING, pages 1245–1253, Beijing, China, 2010. ACL.
                                                                   [15] Zdeněk Žabokrtský.        From Treebanking to Machine
                                                                        Translation. Habilitation, Faculty of Mathematics and Phy-
Reference                                                               sics, Charles University in Prague, Malostranské náměstí
                                                                        25, Praha 1, 2010.
 [1] Ondřej Bojar, Rudolf Rosa, and Aleš Tamchyna. Chimera        [16] Zdeněk Žabokrtský and Martin Popel. Hidden Markov Tree
     – Three Heads for English-to-Czech Translation. In Proc.           Model in Dependency-based Machine Translation. In Proc.
     of the WMT, pages 92–98, Sofia, Bulgaria, 2013. ACL.               of the ACL-IJCNLP Short Papers, pages 145–148, Suntec,
 [2] Jan Hajič. Disambiguation of Rich Inflection (Computatio-         Singapore, 2009. ACL.
     nal Morphology of Czech). Karolinum, Charles University       [17] Zdeněk Žabokrtský, Jan Ptáček, and Petr Pajas. TectoMT:
     Press, Prague, Czech Republic, 2004.                               Highly Modular Hybrid MT System
 [3] Jan Hajič, Eva Hajičová, Jarmila Panevová, Petr Sgall,           with Tectogrammatics Used as Transfer Layer. In Proc. of
     Silvie Cinková, Eva Fučíková, Marie Mikulová, Petr Pa-            WMT, pages 167–170, Columbus, Ohio, USA, 2008.
     jas, Jan Popelka, Jiří Semecký, Jana Šindlerová, Jan
     Štěpánek, Josef Toman, Zdeňka Urešová, and Zdeněk
     Žabokrtský.     Prague Czech-English Dependency Tre-
     ebank 2.0, 2012. http://hdl.handle.net/11858/
     00-097C-0000-0015-8DAF-4.
 [4] Yasuhiro Kawata. Tagsets for Morphosyntactic Corpus An-
     notation: The Idea of a ’reference Tagset’ for Japanese.
     University of Essex, 2005.