=Paper=
{{Paper
|id=None
|storemode=property
|title=Japonsko-český strojový překlad
|pdfUrl=https://ceur-ws.org/Vol-1214/85.pdf
|volume=Vol-1214
|dblpUrl=https://dblp.org/rec/conf/itat/VarisB14
}}
==Japonsko-český strojový překlad==
V. Kůrková et al. (Eds.): ITAT 2014 with selected papers from Znalosti 2014, CEUR Workshop Proceedings Vol. 1214, pp. 85–92 http://ceur-ws.org/Vol-1214, Series ISSN 1613-0073, c 2014 D. Variš, O. Bojar Japonsko-český strojový překlad Dušan Variš, Ondřej Bojar Univerzita Karlova v Praze, Matematicko-fyzikální fakulta dvaris@seznam.cz, bojar@ufal.mff.cuni.cz Abstrakt: Článek popisuje prototyp japonsko-českého rysy japonštiny, může být pro výzkum strojového překladu strojového překladače založeného na hloubkovém větném japonsko-český pár přínosný. rozboru. Tento typ strojového překladu není v současné Tento jazykový pár je zajímavý i z pohledu shromažd’o- době ve srovnání s jinými metodami tolik rozšířen, věříme vání vhodných paralelních dat, nebot’ v současné době ne- však, že některé jeho aspekty jsou schopny přispět k cel- existují téměř žádné dostatečně velké japonsko-české kor- kově lepší kvalitě výstupu. Nutnou součástí našeho úkolu pusy ani žádné strojově čitelné slovníky. je i získání a zpracování potřebných paralelních dat. Jeli- kož japonsko-česká paralelní data nejsou prakticky vůbec 1.2 Související práce dostupná, snažili jsme se vyzkoušet různé postupy, které by nám pomohly tento nedostatek nahradit. Náš systém je Náš systém využívá během překladu stejných principů založen na stejném principu jako anglicko-český překla- jako transfer-based systém TectoMT, který pracuje ve dač TectoMT. V naší práci jsme se snažili zachytit ale- třech krocích: nejprve provede analýzu vstupního textu spoň základní jazykové jevy charakteristické pro japon- na požadovanou úroveň abstrakce, poté je analyzovaný štinu. Náš hloubkový systém též porovnáváme se zavede- text převeden na analogickou reprezentaci v cílovém ja- ným frázovým modelem překladu. Navzdory počátečním zyce a nakonec jsou na cílové straně sestaveny přeložené očekáváním pracuje frázový překlad lépe i při relativním věty. Jako vhodnou úroveň abstrakce jsme přitom po vzoru nedostatku paralelních dat. TectoMT zvolili tektogramatickou rovinu, známou např. z Pražského závislostního korpusu 2.0 [3]. Právě na této úrovni jsou totiž zachyceny hloubkové sémantické vztahy 1 Úvod mezi uzly stromu, kterými jsou v tomto případě pouze pl- novýznamová slova, což je vhodné pro náš jazykový pár. Tato práce se zabývá strojovým překladem (machine Stejná úroveň abstrakce nám navíc umožňuje použít bě- translation, MT) z japonštiny do češtiny. Hlavním zamě- hem syntézy hotovou kaskádu nástrojů pro vygenerování řením je přitom překlad s využitím hloubkového větného českých vět. rozboru a jeho porovnání s frázovým překladem. Cílem práce je jednak pro danou dvojici jazyků vytvořit základní překladový systém, který by bylo možno v budoucnu dále 2 Použité nástroje rozvíjet, a jednak shromáždit dostatečné množství paralel- ních dat, která budou sloužit k jeho natrénování. Pro naše experimenty používáme systém pro zpracování přirozených jazyků Treex [8],1 dříve známý pod názvem 1.1 Motivace TectoMT [12]. Jeho modularita nám umožňuje nejen inte- grovat různorodé externí nástroje pro zpracování přiroze- Strojový překlad do češtiny a dalších morfologicky po- ných jazyků, ale i kombinovat statistické a pravidlové me- dobně bohatých jazyků je obecně obtížný úkol. V pří- tody. Scénář našeho japonsko-českého překladu vychází padě anglicko-českého překladu bylo dosaženo dobrých ze vzoru anglicko-českého překladového scénáře používa- výsledků za pomoci systému, který využívá reprezentace ného v TectoMT a jak již bylo řečeno, syntéza češtiny je vět na tzv. tektogramatické rovině, tj. hloubkového vět- identická. ného rozboru [8]. V současné době sice tento systém, je-li Tokenizaci a značkování slovními druhy (POS tagging) použit samostatně, nedosahuje tak dobrých výsledků jako japonských vět provádíme pomocí morfologického ana- systémy využívající n-gramové překladové modely, je zde lyzéru a taggeru MeCab [7]. MeCab využívá sadu tagů ale stále mnoho prostoru pro zlepšení. V kombinaci s n- IPADIC, obsahující téměř 70 morfosyntaktických katego- gramovým (frázovým) systémem je navíc jeho příspěvek rií v hierarchické struktuře (až čtyři úrovně, jedna hlavní a velmi hodnotný [1]. tři podkategorie). Pro řešení této úlohy v současné době sa- S rozvojem této metody překladu souvisí i snaha vy- mozřejmě existují i jiné nástroje (např. Chasen2 ), MeCab zkoušet ji i na dalších jazykových párech, proto jsme se ji jsme zvolili díky jeho obecné popularitě, snadné dostup- rozhodli aplikovat pro dvojici japonština-čeština. Ta sice nosti a především kompatibilitě s navazujícím parserem. nepatří k nejvýznamnějším z hlediska praktického využití, vezmeme-li ale v potaz dostupnost teorie, dat a nástrojů 1 http://ufal.mff.cuni.cz/treex pro zpracování češtiny, a pak hlavně kontrast s jazykovými 2 http://chasen-legacy.sourceforge.jp/ 86 D. Variš, O. Bojar Vstup 彼は本を読まない人だ Počet tokenů Zdroj Počet vět MeCab 彼 は 本 を 読ま ない 人 だ japonština angličtina Bunsetsu 彼は 本を 読まない 人だ Kyoto’s Wiki articles6 500k 11,0M 9,9M Význam on kniha nečíst člověk Tanaka Corpus7 150k 1,7M 1,1M Reuters Corpora8 56k 1,9M 1,3M čeština angličtina Obrázek 1: Příklad tokenizace věty „On je člověk, který CzEng 1.09 15 136k 206,4M 232,7M nečte knihy“ MeCabem a tokenizace na bunsetsu pro JDEPP. Tabulka 1: Přehled použitých dat. Počty tokenů byly spoč- Závislostní parsing provádí JDEPP [14],3 jehož přes- teny na námi tokenizovaných větách. nost (accuracy) zavěšování jednotlivých uzlů dosahuje zhruba 92 %. Nejmenšími jednotkami, se kterými JDEPP která byla později použita při slovním zarovnání a samotné pracuje, nejsou tokeny jako je tomu v případě tokenizace stavbě slovníku. MeCabem, ale tzv. bunsetsu.4 Samotný parser nám tedy Zpracování japonských vět jsme také prováděli v rámci vygeneruje pouze hrubý závislostní strom a závislosti to- platformy Treex, stejným způsobem jako v případě ana- kenů uvnitř jednotlivých bunsetsu dotváříme až v násle- lýzy při samotném japonsko-českém překladu. Kroky jsou dujících blocích Treexu. Příklad tokenizace na bunsetsu a blíže popsány v sekci 4.1. tokenizace MeCabem je zobrazen na obrázku 1. 3.2 Zarovnání slov 3 Použitá data a jejich zpracování Pro získání slovního zarovnání jsme použili program Při tektogramatickém překladu dochází k převodu vy- GIZA++ [10].10 Spustili jsme jej na linearizované t- braných atributů mezi uzly zdrojového a cílového tekto- stromy, ve kterých každý uzel odpovídá jednomu plnový- gramatického stromu (t-stromu), konkrétně tektogramatic- znamovému slovu. Tím jsme se snažili vyhnout možnému kých lemmat neboli t-lemmat a formémů, viz sekci 5 níže. problému řídkosti dat, který bývá často způsoben bohatou Volbu vhodných protějšků t-lemmat a formémů v cílo- morfologií českého jazyka. Příklad slovního zarovnání je vém jazyce zajišt’ují pravděpodobnostní unigramové pře- uveden na obrázku 2. kladové modely. K jejich tréninku používáme japonsko- české slovníky obsahující frekvenci výskytu jednotlivých 3.3 Stavba slovníku dvojic unigramů t-lemmat a formémů. Tato sekce popisuje extrakci těchto slovníků z dostupných paralelních dat. Pro konstrukci slovníku jsme vyzkoušeli dva různé po- V současné době jako zdrojová data používáme pa- stupy. V prvním případě jsme vytvořili dílčí slovníky ralelní korpusy s větným zarovnáním, viz tabulka 1. (japonsko-anglický a anglicko-český) z příslušných para- Japonsko-anglická data jsou zpracována nezávisle na lelních dat a ty jsme pak spojili skrze shodující se anglická anglicko-českých datech. V obou případech je prováděna hesla. Ve druhém případě jsme strojově přeložili anglické hloubková analýza vstupních vět. U anglicko-českých dat věty z japonsko-anglických dat, čímž jsme získali umělá byl tento krok proveden již ve zdrojovém korpusu CzEng japonsko-česká data. Z těch bylo možné japonsko-český a my jen přebíráme hotové anotace. Postup analýzy na t- slovník extrahovat přímo. Pro strojový překlad z angličtiny rovinu je pro jednotlivé jazyky popsán v následující pod- posloužila frázová komponenta soutěžního systému [1]. sekci. V obou případech jsme po získání slovního zarov- nání provedli extrakci unigramových párů z linearizova- ných t-stromů. Takto vzniklé slovníky obsahovaly i počty 3.1 Lingvistické předzpracování výskytů jednotlivých překladových dvojic. Analýza anglických a českých vět byla proveda kaskádou Spojení dílčích slovníků bylo prováděno na základě nástrojů Treex, stejnou jako používá i překladač TectoMT. shodných anglických hesel (viz obrázek 3). Poté byly Tagging anglických vět provedl tagger Morče [13], u čes- podle vzorce 1 přepočítány „počty výskytů“ nově vznik- kých vět byl pro tyto účely použit tagger Featurama,5 . Po- lých slovních párů. vrchový parsing pak v obou případech zajistil MST par- ser [9]. Zbylé kroky zahrnovaly konstrukci t-roviny v zá- vislosti na povrchovém parsingu a konstrukci t-lemmat, 6 http://alaginrc.nict.go.jp/WikiCorpus/ 3 http://www.tkl.iis.u-tokyo.ac.jp/~ynaga/jdepp/ 7 http://www.edrdg.org/wiki/index.php/Tanaka_Corpus 4 Problém japonské tokenizace je poměrně složitý a stejně jako na- 8 http://www2.nict.go.jp/univ-com/multi_trans/ příklad v případě čínštiny do jisté míry nejednoznačný, což vysvětluje member/mutiyama/jea/reuters/index.html mimo jiné i existenci více odlišných tagsetů [4]. 9 http://ufal.mff.cuni.cz/czeng/ 5 http://sourceforge.net/projects/featurama/ 10 http://code.google.com/p/giza-pp/ Japonsko-český strojový překlad 87 ja en počet en cs počet ja cs „počet“ 水 water 1 058 courage odvaha 2 124 外国 abroad 47 foreigner cizinec 1 713 外国 cizinec 363,713 外国 foreigner 362 pace rázovat 90 着る dress 2 reach dojít 1 705 着る wear 83 wear nosit 34 着る nosit 83,034 通信 communication 65 communication komunikace 7 512 通信 komunikace 72,512 通信 agency 36 agency agentura 42 396 通信 agentura 78,396 Obrázek 3: Příklad japonsko-anglického (tabulka vlevo) a anglicko-českého (uprostřed) dílčího slovníku. Tučně jsou vyznačeny dvojice, které budou přes společné anglické heslo spojeny a umístěny do konečného japonsko-českého slovníku (vpravo). Spodní část tabulky znázorňuje vznik špatného překladového páru. Nesprávný překlad „agentura“ získal kvůli vysoké frekvenci výskytu v en-cs datech vyšší skóre než správný překlad „komunikace“. 彼 本 読む 人 です (stejný problém by ale přinášel jakýkoli prostřední jazyk). Velmi často se jedná například o slovesa, která tvoří základ frázových sloves (“go”→“go_on”). #PersPron být lov k ne íst knihy Tato mnohoznačnost způsobuje, že se ve výsledném japonsko-českém slovníku objevují nekorektní páry, které Obrázek 2: Příklad slovního zarovnání t-lemmat věty „On ovšem díky častému souvýskytu v japonsko-anglických je člověk, který nečte knihy“. či anglicko-českých datech obdržely velký výsledný po- čet výskytů a jsou tedy při překladu preferovány. Problém jsme částečně omezili přidělením menší váhy frekvenční tabulce anglicko-českého slovníku. c(cs| ja) = ∑(c(en| ja) + w ∗ c(cs|en)) (1) Problému by se také dalo vyhnout například přidáním en jednoho či více příznaků k anglickým heslům v obou díl- c(cs| ja) čích slovnících. Prvotní vhodní kandidáti pro tuto roli jsou P(cs| ja) = (2) c( ja) bezesporu značky slovních druhů. Za zvážení by stálo i použití vhodných nástrojů pro zjednoznačnění významu w udává váhu počtu výskytů dvojic v anglicko-českých (Word-Sense Disambiguation, WSD), kterými by se také datech. Její hodnotu jsme volili dle vlastního odhadu. daly potřebné příznaky v prostředním jazyce získat. Vzhledem k tomu, že hodnota c(cs| ja) je vždy nezáporná, Dalším problémem je ztráta překladů některých japon- můžeme pak pravděpodobnost překladu japonských uni- ských hesel. V japonsko-anglických datech se například gramů počítat klasicky podle vzorce 2.11 mohou vyskytovat překlady pouze pomocí takových ang- Jednou z nevýhod takto vzniklých slovníků je malé po- lických hesel, která se v našich anglicko-českých datech krytí víceslovných výrazů. Jak totiž bylo zmíněno výše, vůbec nevyskytují. V těchto případech se potom ve vý- prováděna je pouze extrakce t-lemmat zarovnaných 1:1. sledném japonsko-českém slovníku daná japonská hesla V některých případech naštěstí t-lemmata zachycují ale- neobjeví. Tento problém nastává především u japonských spoň nejčastěji se vyskytující složeniny. V případě češ- místních jmen a u méně používaných japonských slov. tiny se jedná zejména o zvratné zájmeno “se”, které je Při přímé extrakci se mnohoznačnost angličtiny proje- nutnou součástí některých sloves (“smát_se”), u anglič- vovala o něco méně. Bylo to pravděpodobně díky tomu, že tiny je pro změnu prováděna analýza frázových sloves při frázovém překladu anglických vět byl brán v potaz ale- (např. “take_off ”, “settle_down”). Slova spojená podtr- spoň lokální kontext jednotlivých slov. Překlad místních žítkem jsou také reprezentována pouze jedním tokenem. jmen se tentokrát ve výsledném slovníku objevil, ale ne V případě japonštiny jsou víceslovné výrazy téměř bez vý- vždy byl správný. Výsledný slovník byl celkově podstatně jimky ignorovány. menší, nebot’ obsahoval méně špatných slovních párů. 3.4 Nevýhody prostředního jazyka 4 Průběh překladu At’ už jde o přímou extrakci, nebo spojování dílčích slov- níků, v obou případech dochází kvůli prostřednímu jazyku V následujících odstavcích jsou popsány kroky aplikované ke vzniku dodatečných chyb. v jednotlivých fázích překladu. Podrobněji je rozebrána Vážným problémem při konstrukci je skutečnost, že an- fáze analýzy a transferu, nebot’ bloky používané v těchto gličtina obsahuje mnoho slov majících vícero významů částech jsme nově implementovali do rozhraní Treex. Pro 11 Ve skutečnosti je potřeba hodnotu c(cs| ja) ještě normalizovat, aby úplnost jsou ovšem stručně popsány i kroky syntézy, které byl součet P(cs| ja) přes všechna česká hesla roven jedné. jsou stejné jako v anglicko-českém překladu. 88 D. Variš, O. Bojar 4.1 Analýza v rámci dalšího vývoje bylo také dobré vyplňovat. Každá vstupní věta je nejprve rozdělena na tokeny, a poté je provedeno značkování slovních druhů. Během taggingu 4.2 Transfer je provedena i lematizace jednotlivých tokenů. K lemati- Hlavní úlohou transferové části překladu je tvorba t- zaci dochází pouze u ohebných slovních druhů, zejména -stromu cílového jazyka na základě jeho protějšku v ja- u sloves.12 zyce zdrojovém. Topologie zdrojového stromu je zkopíro- Následně je postaven závislostní strom (a-strom). vána a následně jsou v cílovém t-stromu vybrány vhodné Vzhledem k tomu, že použitý parser pracuje pouze s bun- překlady japonských t-lemmat a formémů. setsu, jsou zbylé závislosti mezi tokeny dotvořeny násle- Výběr je prováděn ve dvou krocích: Nejprve je u kaž- dujícím způsobem: na „hlavu“ bunsetsu jsou zavěšeny dého uzlu vyplněn seznam n nejlepších kandidátů pro pře- všechny zbývající tokeny v daném bunsetsu. Za „hlavu“ klad. To je provedeno na základě našich statistických pře- bunsetsu v tomto případě považujeme plnovýznamové kladových modelů. V následujícím kroku jsou pak za po- slovo v bunsetsu, které je téměř vždy prvním tokenem moci HMTM (Hidden Markov Tree Model, [16]) porov- zleva (v lineární reprezentaci věty). Další úpravy topolo- návány jednotlivé kombinace t-lemmat a formémů. U kaž- gie takto vzniklého stromu jsou podle potřeby provedeny dého uzlu jsou pak vybrány překlady, které byly nejlepší v následujících blocích. Na konci tohoto kroku je prove- v rámci celé věty (v kombinaci s překlady ostatních uzlů). dena romanizace použitých tagů.13 V současné verzi transfer provádíme pouze za pomoci Podle podobných zvyklostí a-roviny pro češtinu a an- výše zmíněných kroků, ovšem v budoucnu můžeme po- gličtinu je upravena topologie a-stromu. Vycházíme při- čítat s přidáním několika pravidlových bloků ošetřujících tom též z konvencí korpusu Verbmobil použitých pro ja- výjimky či speciální případy. Na mysli máme zejména pře- ponský jazyk [5]. Dále jsou nastaveny analytické funkce klad japonských spon (např. です) na české „být“ (nyní některých uzlů, nyní pouze za účelem správného převodu jsou překládány skrze překladový model). Kromě úpravy na tektogramatickou rovinu. I přesto, že analytické funkce t-lemmat můžeme uvažovat i modifikaci topologie cílo- nemají na samotný překlad velký vliv, bylo by vhodné pro vého t-stromu, nebot’ v některých případech nejsou stromy úplnost provádět jejich nastavení pro všechny druhy uzlů. zdrojového a cílového jazyka zcela izomorfní. V našem Před samotnou konstrukcí t-stromu jsou označeny případě by se mohlo jednat zejména o generování uzlů, uzly pomocných slov, zkráceně pomocné uzly. Jedná se které ve zdrojové větě nejsou vyjádřeny (vyplývají z kon- o všechny tokeny, které nereprezentují plnovýznamová textu). Je ale možné, že tyto úpravy bude potřeba provádět slova, tedy částice (vyjma příslovečných a koordinačních už během analýzy. částic) a „koncovky“ sloves (ty jsou také reprezentovány jako samostatné tokeny a označeny jako pomocná slo- vesa). 4.3 Syntéza Po těchto úpravách je postaven tektogramatický strom (t-strom). Jeho uzly tvoří pouze plnovýznamová slova. Jak V závěru celého překladu je vygenerována česká věta na je zvykem, ponecháváme u t-uzlů reference na všechny a- základě českého t-stromu. Je vytvořen a-strom a následně -uzly, které daný t-uzel reprezentuje, vztah mezi povrcho- je vyplněna povrchová morfologie (rod, číslo, pád, atd.) vou a hloubkovou realizací je tedy možné i dodatečně stu- s pomocí vyplněných formémů a gramatémů. Dále jsou dovat. Hrany t-stromu jsou odvozeny z hran a-stromu spo- vytvořeny a-uzly odpovídající pomocným slovesům, spoj- jujících tyto shluky uzlů. V případě angličtiny nebo češtiny kám, předložkám atd. Kromě jiného dochází k vytvoření jsou navíc v některých případech upravována t-lemmata, výsledných tvarů slov za pomoci generátoru slovních tvarů aby lépe zachycovala například frázová slovesa (např. ang- [2]. Syntézu českých vět podrobněji popisuje Žabokrtský lické „take_off“). Tento krok ale v případě japonštiny po- [15]. važujeme v tuto chvíli za zbytečný. Příklad reprezentace věty na a- a t- rovině lze vidět na obrázku 4. 5 Formémy Před samotnou fází transferu jsou ještě všem uzlům t- -stromu vyplněny formémy a částečně gramatémy. Funkce Po vzoru TectoMT používá náš systém formémy. For- a podoba formémů je popsána v sekci 5. U gramatémů za- mémy popisují morfosyntaktické vlastnosti slov, tj. nesou tím vyplňujeme pouze negaci, ostatní kategorie by ovšem např. informaci o tom, v jakém pádě bylo dané podstatné 12 Je to způsobeno námi zvolenou tokenizací. Kdybychom například jméno vyjádřeno. Tektogramatická rovina sama o sobě zá- měrně od těchto vlastností abstrahuje (a je tak vhodná použili tokenizaci, kde částice nejsou samostatnými tokeny, daly by se za ohebné slovní druhy považovat například i podstatná jména (jejich např. pro generování větných parafrází), pro věrný překlad morfologie by byla dána právě částicemi). Podle tagsetu IPADIC jsou je však vhodné původní formu výrazu ve vstupní větě zo- částice brány jako samostatné tokeny, které se, dle našeho názoru, svojí hlednit. Na české straně používáme zavedenou sadu for- funkcí více blíží českým předložkám či spojkám. 13 Romanizace je prováděna za účelem snadnější práce s tagy v dal- mémů [17], japonské formémy v pracovní verzi navrhu- ších krocích, v budoucnu by ale bylo vhodné zvážit místo romanizace jeme sami. Protože v současné době japonské formémy použití vlastních POS značek. používáme pouze během analýzy a překladu, nebyl kladen Japonsko-český strojový překlad 89 . AuxK Doshi_Jiritsu_*_* Kigo_Kuten_*_* ます 木の葉 色 Joshi_RentaiKa_*_* Joshi_Kakujoshi_Ippan_* Jodoshi_*_*_* 木の葉 の 色 が 木の葉 色 Meishi_Ippan_*_* Meishi_Ippan_*_* Obrázek 4: Ukázka reprezentace japonské věty na a-rovině a t-rovině. Uzly označené tagem Joshi, Jodoshi a Kigo jsou jakožto pomocné uzly před vytvořením t-stromu označeny k „skrytí“ a na t-rovině nejsou reprezentovány. velký důraz na zachování vlastností, které by pomohly při k změně celého tvaru slovesa. syntéze japonských vět. Slovesná adjektiva jsou v této skupině zahrnuta proto, Přiřazování hodnot japonských formémů je v podstatě že mají stejně jako slovesa vlastní skloňování. To sice není určeno POS tagy příslušných plnovýznamových slov a tak bohaté jako v případě sloves, ale pro účely přiřazování hodnotami k nim náležících pomocných a-uzlů. Způsob formémů s nimi můžeme nakládat podobným způsobem. přidělování přitom můžeme rozdělit na dvě skupiny podle Formémy přiřazujeme i příslovcím a příslovečným čás- toho, zdali se jedná o podstatná jména (名詞 - Meishi) a ticím, jež z hlediska sémantických slovních druhů nerozli- nominální adjektiva (tzv. な-adjektiva, neboli 形容動詞 šujeme. - Keiyōdōshi), nebo o slovesa (動詞 - Dōshi) a slovesná V tabulce 2 je uveden fragment extrahovaného slov- adjektiva (tzv. い-adjektiva, neboli 形容詞 - Keiyōshi). níku formémů. Jde vidět, že překlad formémů podstatných V tuto chvíli nerozlišujeme podstatná jména od no- jmen a adjektiv alespoň v některých případech probíhá minálních adjektiv, pro naše potřeby obojí klasifikujeme podle našich představ (viz české ekvivalenty formémů pro jako sémantická substantiva. Hodnota formémů podstat- podmět a předmět, kde podle očekávání jako první mož- ných jmen je určena částicemi, které k daným t-uzlům ná- nost vychází n:1, tj. podstatné jméno v nominativu, resp. leží. V případě, že k t-uzlu náleží více částic, jsou uve- n:4, tj. akuzativu), v případě sloves jsou výsledky výrazně deny hodnoty všech. S nominálními adjektivy nakládáme horší. jako s neshodnými přívlastky, hodnota jejich formémů je n:attr. Podstatná jména a nominální adjektiva mohou být samozřejmě i součástí sponových sloves, v takovém pří- 6 Experimenty a měření padě nám ale napomáhá fakt, že sponové slovo です je na t-rovině také reprezentováno. Díky tomu můžeme funkci V této sekci empiricky vyhodnocujeme kvalitu výstupu predikátu nechat sponě, která je pro účely přidělování for- našeho překladového systému. Nejprve popíšeme sadu mémů považována za sloveso, a jmenné části přiřadíme testovacích vět, jež jsme během našeho měření použili, formém normálním způsobem. a způsob, jakým byla zkonstruována. Dále představíme V případě sloves a い-adjektiv přiřazujeme hodnoty for- základní frázový systém, který jsme použili pro srovnání mémů jiným způsobem. Jelikož se jedná o slovní druhy s naším překladačem. Následují výsledky našich měření a s vlastním skloňováním, dochází ke změně tvaru kořeno- jejich interpretace v závěrečné diskusi. vého slova (v případě pravidelných sloves pouze ke změně poslední slabiky) a přidání vhodného suffixu. Jako hod- 6.1 Testovací data notu formému tedy bereme podřetězec, ve kterém se slovní forma liší od svého lemmatu. Stačilo by sice značit pouze Pro účely měření kvality překladu jsme náhodně vybrali hodnotu poslední slabiky, chceme ale rovněž pokrýt ne- 1000 dvojic vět, které se nepřekrývaly s našimi trénova- pravidelná slovesa くる – „kuru“ (jít, přicházet) a する cími daty, z našich japonsko-anglických paralelních dat, – „suru“ (dělat),14 kde v některých případech dochází přesněji z korpusů Tanaka a Reuters. Anglické věty jsme strojově přeložili do češtiny (stejným způsobem jako při 14 Tato slovesa mají v japonštině mnoho dalších významů v závislosti tvorbě japonsko-českých paralelních dat) a výsledek jsme na slovech, která se k nim váží (např. 勉強する – „studovat“, 心配す posléze ještě ručně opravili. Jednalo se zejména o opravu る – „znepokojovat_se)“. gramatických chyb, které při překladu vznikly, pouze 90 D. Variš, O. Bojar Fja Fcs P(Fcs |Fja ) dvojic, které nám posloužily k vyladění frázového pře- adj: adj:1 0.1612 kladového modelu. Tokenizace těchto dat byla provedena adj. - základní hodnota adv 0.1149 stejným způsobem jako u testovací sady vět. n:は n:1 0.4369 subst. - téma nebo podmět n:X 0.1815 Příprava Nejprve jsme provedli slovní zarovnání na na- n:を n:4 0.2178 šich umělých japonsko-českých datech. Na rozdíl od ex- subst. - předmět n:1 0.1225 trakce slovníků ale bylo toto zarovnání provedeno pouze n:X 0.1392 na tokenizovaných povrchových reprezentacích vět. Na n:が n:1 0.3043 základě těchto zarovnání jsme vytvořili statistický překla- subst. - podmět n:X 0.1907 adj:attr 0.1018 dový model. n:4 0.0857 Pro přípravu jazykového modelu jsme použili cílovou stranu našeho paralelního korpusu, tj. syntetickou češtinu. v:り+なさる v:inf 0.3148 sloveso - zdvořilostní forma v:fin 0.2778 Očekáváme, že lepších výsledků by bylo možné dosáh- (stupeň „sonkeigo“) adv 0.2407 nout při použití čistých českých dat. V prvním takovém n:に_と_の v:že+fin 0.2608 experimentu však jazykový model založený na opravdické subst. se třemi částicemi v:fin 0.2173 češtině dostal v automatickém ladění velmi nízkou váhu, a に, と a の n:s+7 0.1739 proto jsme jej nakonec nepoužili. Důvodem je pravděpo- v:て_いる_ます v:fin 0.4754 dobně to, že i korpus pro ladění (2500 vět, viz výše) má sloveso - průběhový čas s pomocným adj:1 0.1475 cílovou stranu syntetickou, bez ruční korektury. Jakmile slovesem v tzv. ます-tvaru adv 0.1229 bude k dispozici více kvalitních japonsko-českých dat, po- kus zopakujeme. Frázový překladový systém jsme tímto způsobem na- Tabulka 2: Ukázka japonsko-českého pravděpodobnost- trénovali dvakrát, jednou na slovních formách, podruhé na ního překladového slovníku formémů. Pro vybrané japon- lemmatech (tj. překlad do hrubší podoby češtiny).16 ské formémy je zobrazeno několik nejvíce pravděpodob- ných českých protějšků spolu s podmíněnou pravděpodob- ností českého formému za předpokladu japonského. 6.3 Automatické vyhodnocení Výše uvedené systémy jsme spustili na stejném vzorku v případě velkých odchylek od japonských protějšků jsme testovacích dat. Oba systémy měly téměř stejnou míru věty celé ručně přepsali. Do testovacích dat jsme neza- OOV (out-of-vocabulary, tj. podíl nepřeložených slov), ko- hrnuli věty z korpusu Kyoto’s Wikipedia articles, nebot’ lem 3%. Za nepřeložená slova jsme přitom považovali obsahoval mnoho souvětí se složitou strukturou, důkladná všechny řetězce ve výstupu obsahující japonské znaky. korektura překladu anglických vět by proto byla příliš ča- Automatické vyhodnocení jsme prováděli klasicky po- sově náročná. mocí metriky BLEU [11]. V tabulce 3 uvádíme nejen celé Japonské věty byly kvůli frázovému systému tokenizo- BLEU, ale i přesnosti jednolivých n-gramů (kolik n-gramů vány MeCabem. Náš hloubkový překladač pak při samot- z výstupu systému bylo nalezeno i v referenční větě). ném překladu tento krok jednoduše přeskočil. BLEU skóre hloubkového překladu vyšlo bohužel nulové. To je způsobeno tím, že se v přeloženém textu nepodařilo 6.2 Frázový překladový systém najít ani jeden 4-gram, který by referenční překlad potvr- dil. Frázový systém si v tomto ohledu vedl podstatně lépe. Pro porovnání s naším překladovým systémem jsme si Všimněme si, že pouze v případě unigramů si hloub- vybrali frázový systém Moses [6].15 Nejenže jakožto zá- kový překlad vedl relativně dobře, stále ale hůře než frá- stupce přímého překladu reprezentuje zcela odlišné pa- zový překladač. Jednou z příčin je nedostatek informací radigma přístupu k MT, konstrukce jednoduchého n- v japonské t-rovině, což po překladu ve fázi syntézy způ- -gramového překladače je také velmi snadná. sobuje, že nedochází k vygenerování všech potřebných po- mocných slov. Vyšší n-gramy pak trpí tím, že v současné Použitá data Vzhledem k tomu, že naše japonsko- době neupravujeme slovosled, japonsko-český jazykový anglická a anglicko-česká data mají téměř prázdný prů- pár se ovšem slovosledem výrazně liší. nik přes anglické věty, byla konstrukce trénovacích dat pro Co se týče kvality připravených slovníků, lepších vý- frázový překlad spojováním přes prostřední jazyk vylou- sledků jsme dosáhli se slovníky vytvořenými z našich čena. Místo toho jsme se rozhodli použít náš uměle vytvo- umělých japonsko-českých dat. Metoda spojování dílčích řený japonsko-český korpus, viz sekce 3.3. slovníků dopadla výrazně hůř. Jedná se o stejná data, která jsme použili pro extrakci slovníků našeho hloubkového systému. Z těchto trénova- 16 Lematický výstup je nepoužitelný pro koncového uživatele ale je cích dat jsme dále náhodně vyjmuli kolem 2500 větných vhodný pro posouzení, zda překladač zachovává slova bez ohledu na 15 http://www.statmt.org/moses/ morfologii, tj. lépe odráží přenos základního významu vět. Japonsko-český strojový překlad 91 Druh překladu 1-gram 2-gram 3-gram 4-gram BLEU Při porovnání s referenčním překladem by se mohlo Slovní formy zdát, že náš systém v případě této věty úplně selhal při Treex (ja-en-cs) 13,2 0,0 0,0 0,0 0,00 Treex (ja-cs) 24,4 0,5 0,0 0,0 0,00 generování slovních tvarů. Je ale potřeba podotknout, že Moses 31,0 9,3 3,7 1,7 6,57 ve zdrojové větě není explicitně uvedena osoba u slovesa Lemmata „vrátit se“. Pomocí bloků s ručními pravidly by se dalo Treex (ja-en-cs) 17,7 0,0 0,0 0,0 0,00 v těchto případech přiřadovat implicitně první osobu čísla Treex (ja-cs) 40,5 2,3 0,2 0,0 0,00 jednotného, která se při nedostatku vhodného kontextu při Moses 53,2 21,5 10,6 5,3 15,95 překladu používá. Až na slovosled a drobnou chybu při Tabulka 3: Přesnosti jednotlivých n-gramů a celkové překladu výrazu „すぐに“ (sugu ni - „brzy“), překlad do- BLEU. Porovnáváme hloubkový překlad se spojovanými padl obstojně. slovníky (ja-en-cs), s přímými slovníky (ja-cs) a frázový (2a) SRC 夕方 の 五 時 です . překlad (Moses). (2b) REF Je pět hodin večer . (2c) Treex Večer páté době je . Lepší Stejně dobré Stejně špatné Ve větě 2 došlo k nejvýraznější chybě při překladu slova Treex 24 „時“ (toki - „čas, doba“), které ovšem ve spojení se slo- 10 34 Moses 32 vem „五“ (go - „pět“) nabývá významu jednotky času (五 時 - „pět hodin“). Chybu tedy hledejme v našem překla- Tabulka 4: Ruční vyhodnocení na vzorku 100 vět. Tabulka dovém modelu, dále pak do určité míry v HMTM, který uvádí, kolikrát byl překlad dané věty od jednoho systému měl v závislosti na kontextu („pět hodin“) nalézt vhodnou lepší než od druhého, kolikrát byly oba překlady zhruba alternativu z kandidátů na překlad. Mimo jiné byl opět za- stejně dobré a kolikrát zhruba stejně špatné. chován slovosled zdrojové věty. (3a) SRC 由美 は , 私 の 友達 の ひとり です . 6.4 Ruční vyhodnocení (3b) REF Yumi je jednou z mých přátel . (3c) Treex Jumi má přátel sám je . Ruční vyhodnocení se opírá o vzorek 100 vět z našich tes- (3d) Moses Jumi je jeden z mých přátel je tovacích dat. Hodnotili jsme, který systém přeložil větu Příklad 3 ukazuje, že alespoň v některých případech lépe, v případě podobné kvality jsme rozlišovali, zdali byly byl náš systém schopný konkurovat frázovému překladu oba překlady stejně dobré nebo stejně špatně. Anotátor při- (Moses). U frázového překladu došlo v tomto případě tom nevěděl, která věta byla vygenerována kterým systé- k vygenerování většího množství tokenů než bylo po- mem. Hodnocení překladu vycházelo zejména z porovnání třeba. Hloubkový systém v překladu japonského výrazu s naším referenčním překladem, nikoli vstupní větou. „私の“ (watashi no - „můj“)17 , zvolil naprosto špatné cí- Vzhledem ke značným nedostatkům obou systémů jsme lové t-lemma ( „mít“). Tato chyba je zřejmě důsledkem byli během hodnocení velmi shovívaví a pomíjeli např. filtrování našich překladových slovníků, nebot’ předpo- špatné skloňování nebo slovosled. Výsledky ruční evalu- kládaný správný překlad na obecné zájmenné t-lemma ace jsou uvedeny v tabulce 4. ( „#PersPron“) byl ze slovníku odstraněn. Je tedy potřeba Frázový překlad si opět vedl o něco lépe než překlad v budoucnu zvážit, zdali jsou automatické filtrace spoje- s hloubkovým rozborem. Rozdíl byl ale tentokrát relativně ných slovníků žádoucí. Překlad slova „ひとり“ (hitori - malý. Dále je vidět, že oba systémy jsou v současné době „jeden“) byl také v daném kontextu špatný ( „sám“). stále velmi špatné (1/3 překladů byla špatná v obou přípa- dech). (4a) SRC 良い 言葉 は 教育 の 結果 で ある . (4b) REF Dobrá řeč je výsledkem vzdělávání . (4c) Treex Dobré slovo vzdělávání výsledky je . 6.5 Diskuse (4d) Moses Dobrá slova , a výsledek je , že je vzdělání . Z výše uvedených výsledků našich měření je jednoznačně Jako poslední příklad 4 uvádíme mírně lepší výsledek vidět, že si náš hloubkový překladový systém v případě ja- našeho překladu. V tomto případě hloubkový překlad do- zykového páru japonština-čeština vedl hůř než referenční konce předčil naši verzi frázového překladu. Tak jako ve frázový překlad. Přitom je potřeba podotknout, že ani náš všech ostatních případech má po hloubkovém překladu frázový překlad zdaleka nedosahoval úrovně současných výsledná věta špatný slovosled, který v tomto případě ci- překladačů. Z ruční evaluace potom vyplývá, že kvali- telně zhoršuje srozumitelnost. tativní propast mezi našimi dvěma prezentovanými sys- V případě složitějších vět a souvětí dopadl překlad vždy témy nebyla tak velká, jak ukazovala automatická evalu- výrazně hůř. U hloubkového překladu se totiž se zvyšující ace. Uved’me několik příkladů kratších vět a zkusme na komplexitou analyzovaných závislostních struktur zvyšo- nich ilustrovat slabiny našeho systému. vala i šance na vnesení nových chyb. (1a) SRC すぐ に 戻り ます . (1b) REF Brzy se vrátím . 17 Přesněji se jedná o zájmeno „私“ (watashi - „já“) uvedené částicí (1c) Treex Dříve vrátí se . „の“ (no) do pozice atributu. 92 D. Variš, O. Bojar 7 Budoucí práce [5] Yasuhiro Kawata and Julia Bartels. Stylebook for the Japa- nese Treebank in VERBMOBIL. Technical report, 2000. Z výsledků vyhodnocení kvality našeho překladu usuzu- [6] Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris jeme, že by v současné době největší zlepšení přineslo pře- Callison-Burch, Marcello Federico, Nicola Bertoldi, Bro- devším pečlivé automatické vyplňování všech potřebných oke Cowan, Wade Shen, Christine Moran, Richard Zens, atributů t-roviny během fáze analýzy. Také je nutné do bu- Chris Dyer, Ondřej Bojar, Alexandra Constantin, and Evan doucna provést důkladnější revizi japonské sady formémů, Herbst. Moses: Open Source Toolkit for Statistical Ma- chine Translation. In ACL Companion Volume Proceedings které jsou nyní například u sémanických sloves nevyhovu- of the Demo and Poster Sessions, pages 177–180, Prague, jící. K lepší čitelnosti a srozumitelnosti cílových vět by Czech Republic, June 2007. ACL. určitě přispěla i úprava jejich slovosledu. [7] Taku Kudo. Mecab: Yet another part-of-speech and Z hlediska využití pivotního jazyka kvůli nedostatku morphological analyzer. http://mecab.sourceforge. přímých dat stojí za úvahu překlad přes anglickou t-rovinu. net/, 2005. Systém by provedl analýzu japonské věty, transfer na an- [8] David Mareček, Martin Popel, and Zdeněk Žabokrtský. glický t-strom a místo generování rovnou další transfer na Maximum Entropy Translation Model in Dependency- český t-strom. Teprve zde by následovalo standardní gene- Based MT Framework. In Proc. of WMT and Met- rování výstupní věty. Tímto způsobem bychom se vyhnuli ricsMATR, pages 207–212, Uppsala, Sweden, 2010. ACL. zejména problémům, které souvisí se spojováním dílčích [9] Ryan McDonald, Fernando Pereira, Kiril Ribarov, and Jan slovníků či extrakcí slovníků z umělých japonsko-českých Hajič. Non-Projective Dependency Parsing using Spanning dat. Tree Algorithms. In Proc. of HLT/EMNLP, 2005. [10] Franz Josef Och and Hermann Ney. A Comparison of Alig- nment Models for Statistical Machine Translation. In Proc. 8 Závěr of COLING, pages 1086–1090. ACL, 2000. [11] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Tato práce popsala naši prvotní verzi japonsko-českého Zhu. BLEU: a Method for Automatic Evaluation of Ma- překladače založeného na principu hloubkového překladu. chine Translation. In Proc. of ACL, pages 311–318, Phila- Překladač byl implementován do prostředí Treex. V po- delphia, Pennsylvania, 2002. rovnání s frázovým překladem náš systém bohužel stále [12] Martin Popel and Zdeněk Žabokrtský. Tectomt: Modu- zaostává, jsme si ale vědomi jeho nedostatků a možných lar nlp framework. In Proceedings of the 7th Internatio- budoucích vylepšení. nal Conference on Advances in Natural Language Proces- Důležitou součástí projektu bylo také získání dostateč- sing, IceTAL’10, pages 293–304, Berlin, Heidelberg, 2010. ného množství japonsko-českých paralelních dat. I přes Springer-Verlag. nedostatek přímých dat jsme byli schopni vytvořit vyhovu- [13] Drahomíra Spoustová, Jan Hajič, Jan Votrubec, Pavel Kr- jící překladové modely pro hloubkový i frázový překlad. bec, and Pavel Květoň. The best of two worlds: Coope- ration of statistical and rule-based taggers for czech. In Proc. of the Workshop on Balto-Slavonic Natural Langu- Poděkování age Processing, ACL 2007, pages 67–74, Praha, 2007. [14] Naoki Yoshinaga and Masaru Kitsuregawa. Kernel slicing: Práce na tomto projektu byla podpořena grantem FP7-ICT- scalable online training with conjunctive features. In Proc. 2011-7-288487 (MosesCore) Evropské unie. of COLING, pages 1245–1253, Beijing, China, 2010. ACL. [15] Zdeněk Žabokrtský. From Treebanking to Machine Translation. Habilitation, Faculty of Mathematics and Phy- Reference sics, Charles University in Prague, Malostranské náměstí 25, Praha 1, 2010. [1] Ondřej Bojar, Rudolf Rosa, and Aleš Tamchyna. Chimera [16] Zdeněk Žabokrtský and Martin Popel. Hidden Markov Tree – Three Heads for English-to-Czech Translation. In Proc. Model in Dependency-based Machine Translation. In Proc. of the WMT, pages 92–98, Sofia, Bulgaria, 2013. ACL. of the ACL-IJCNLP Short Papers, pages 145–148, Suntec, [2] Jan Hajič. Disambiguation of Rich Inflection (Computatio- Singapore, 2009. ACL. nal Morphology of Czech). Karolinum, Charles University [17] Zdeněk Žabokrtský, Jan Ptáček, and Petr Pajas. TectoMT: Press, Prague, Czech Republic, 2004. Highly Modular Hybrid MT System [3] Jan Hajič, Eva Hajičová, Jarmila Panevová, Petr Sgall, with Tectogrammatics Used as Transfer Layer. In Proc. of Silvie Cinková, Eva Fučíková, Marie Mikulová, Petr Pa- WMT, pages 167–170, Columbus, Ohio, USA, 2008. jas, Jan Popelka, Jiří Semecký, Jana Šindlerová, Jan Štěpánek, Josef Toman, Zdeňka Urešová, and Zdeněk Žabokrtský. Prague Czech-English Dependency Tre- ebank 2.0, 2012. http://hdl.handle.net/11858/ 00-097C-0000-0015-8DAF-4. [4] Yasuhiro Kawata. Tagsets for Morphosyntactic Corpus An- notation: The Idea of a ’reference Tagset’ for Japanese. University of Essex, 2005.