V. Kůrková et al. (Eds.): ITAT 2014 with selected papers from Znalosti 2014, CEUR Workshop Proceedings Vol. 1214, pp. 61–67 http://ceur-ws.org/Vol-1214, Series ISSN 1613-0073, c 2014 M. Lopatková, J. Mírovský, V. Kuboň Gramatické závislosti vs. koordinace z pohledu redukční analýzy Markéta Lopatková, Jiří Mírovský a Vladislav Kuboň Univerzita Karlova v Praze, Matematicko.fyzikální fakulta, Ústav formální a aplikované lingvistiky Malostranské nám. 25, Praha 1, 118 00, Česká republika {vk,lopatkova,mirovsky}@ufal.mff.cuni.cz Abstrakt: Tento příspěvek se věnuje identifikaci zají- V oblasti anotace vycházíme z jednoduchého předpo- mavých konstrukcí v syntakticky anotovaném korpusu kladu (potvrzeného předchozími experimenty), že pokud (Pražském závislostním korpusu, PDT) metodou auto- určitá konstrukce nejde zpracovat automatickými pravidly matické redukční analýzy. Rozšiřujeme zkoumané kon- redukční analýzy, signalizuje to možnou nekonzistentní strukce zejména o koordinační a apoziční vztahy, které nebo nevhodně zvolenou anotaci (například dva odlišné mají zřetelně ne-závislostní charakter a vedou tedy k zo- jevy anotované shodnými značkami – v takovém případě becnění používané redukční metody. Přinášíme klasifikaci obvykle automatická redukční analýza nedokáže oba pří- zkoumaných konstrukcí a soustřed’ujeme se na popis a pady rozlišit). analýzu jednotlivých jazykových jevů, které při zpraco- V kontextu závislostní lingvistiky byly vztahy mezi zá- vání působí problémy. vislostí a slovosledem studovány zvláště v Melčukově Tato studie je motivací pro formální modelování metod teorii Smysl↔Text: jeho přístup zaměřující se na určo- zpracování přirozeného jazyka. vání závislostních vztahů a jejich formální popis je shr- nut zejména v práci [6]. Alternativní formální popis závis- lostní syntaxe můžeme najít v práci [7]. Náš přístup k da- 1 Motivace nému problému naproti tomu vychází z české lingvistické tradice reprezentované zejména v knize [8]. Jedním ze dvou základních a obecně uznávaných způsobů Protože základním nástrojem, který používáme ke stu- reprezentace syntaktických vztahů ve větách přirozeného diu výše zmíněných jevů, je redukční analýza, musíme jazyka je závislostní strom. Tento způsob reprezentace má ji na tomto místě alespoň stručně představit: zhruba ře- v české lingvistice dlouhou tradici (na rozdíl od druhého čeno, pokud jedno ze slov, která tvoří potenciální dvojici rozšířeného typu stromu – složkového). Přestože vztah zá- řídícího a závislého slova, může být z věty odstraněno, vislosti (neboli vztah mezi řídícím a závislým větným čle- aniž by se změnily distribuční vlastnosti celého páru (tj. nem, jako je např. přísudek a jeho předmět či podstatné jeho schopnost objevovat se ve stejném syntaktickém kon- jméno a jeho přívlastek) je velmi důležitý, doplňují jej i textu), potom je toto slovo považováno za závislé (modifi- dva další základní syntaktické vztahy, jmenovitě slovosled kující druhý členu páru). Takto můžeme postupovat u tzv. (tj. lineární pořadí slov ve větě) a ,zmnožení‘ dvou nebo endocentrických konstrukcí, kde lze jedno slovo reduko- více větných členů.1 vat, aniž by se změnil možný syntaktický kontext (např. Zatímco v předchozích studiích jsme se soustřed’ovali malý stůl –> stůl; Jdi domů! –> Jdi!). Pro exocentrické na vztahy závislosti a slovosledu [2], v tomto článku zkou- konstrukce, kde žádné slovo vypustit nelze (jako Petr po- máme i vztahy koordinační a apoziční, věnujeme se tedy tkal Marii., kde Petr potkal. má jiné vlastnosti) lze použít případům, kdy je jedna syntaktická pozice ,zmnožena‘. analogický princip na úrovni slovních druhů [8].2 Ukázali jsme již, že závislostní relace lze s úspěchem de- Důvod pro využívání redukční analýzy je jednoduchý – finovat pomocí redukční analýzy [3, 4], což jsme ověřili umožňuje rozdělit proces syntaktické analýzy věty do jed- na větách z Pražského závislostního korpusu (PDT) [5]. notlivých, dobře definovaných a dobře oddělených kroků, Na ně jsme aplikovali poloautomatickou proceduru dopl- a tím zároveň dovoluje zkoumat jednotlivé jevy odděleně. něnou o následnou ruční kontrolu. Této metody se držíme Metoda redukční analýzy byla podrobně popsána v člán- i v tomto článku. Umožňuje nám verifikovat náš teoretický cích [3, 4], její formální model založený na restartovacích koncept prostřednictvím reálných dat. automatech je představen v článcích [9, 10, 11]. Jedním Smyslem našeho experimentu je jednak získat hlubší z cílů tohoto článku je také poskytnout materiál a motivaci vhled do syntaxe přirozeného jazyka, jednak prostřednic- pro další formální modelování metod zpracování přiroze- tvím automatizovaného postupu identifikovat určitá ne- ného jazyka, viz např. [12]. standardní či problematická místa syntaktické anotace dat, se kterými pracujeme. V otázce syntaktických vlastností jazyka náš přístup umožňuje oddělit jednotlivé jevy a zkoumat je jak jednotlivě, tak i ve vzájemné interakci. 1 Tesnière [1] jednak rozlišuje mezi lineárním a strukturním pořadím, 2 Zhruba řečeno, protože existují bezpředmětná slovesa, budeme ob- jednak dělí strukturní vztahy na ty, které dnes označujeme jako závis- jekt (předmět) považovat za závislý na slovese; protože existují bezpod- lostní (,connexion‘), a na vztahy koordinační (,junction‘). mětná slovesa, považujeme subjekt (podmět) za závislý na slovese. 62 M. Lopatková, J. Mírovský, V. Kuboň 2 Redukční analýza bojí V této kapitole popíšeme základní myšlenku naší metody Petr se o používané pro analýzu vět. Redukční analýza (RA) je za- otce ložena na postupném zjednodušování analyzované věty. Definuje možné posloupnosti redukcí věty – každý krok RA spočívá v odstranění alespoň jednoho slova ze vstupní Obrázek 1: Závislostní strom věty (1). věty (operace ‘delete’); ve specifických případech je od- straňování doprovázeno přemístěním slova na jinou slo- podstatné větné členy a postupně dojít až k úplné redukci. voslednou pozici (operace ‘shift’). Pokusíme-li se o automatickou RA, musíme porozumění Uved’me nyní základní omezení, která uplatňujeme na nějakým způsobem nahradit. Jednou možností je využití redukční analýzu: syntakticky anotovaných dat, která v sobě určitým způso- bem obsahují porozumění, vložené do anotace člověkem- (i) přirozené omezení nutící zachovávat jednotlivé anotátorem. slovní tvary, jejich morfologické charakteristiky a V našich experimentech využíváme data z Pražského jejich povrchové závislostní vztahy; závislostního korpusu 3.0 (PDT, viz [5]).3 Syntaktická struktura jednotlivých vět z korpusu – zachycená závis- (ii) omezení vyžadující zachování správnosti (gra- lostními stromy (vždy právě jeden strom pro každou větu) maticky správná věta musí zůstat správná i po – poskytuje základní informace nutné pro úspěšné prove- provedeném zjednodušení); dení automatické RA. PDT obsahuje velmi podrobnou anotaci téměř 49 500 českých vět (v experimentech využíváma pouze data s (iii) aplikace operace přesunutí je omezená na případy, anotací na všech rovinách PDT). Anotace je provedena kdy je vynucena principem zachování správnosti RA na více úrovních, z nichž je pro naše účely nejdůležitější (ii). úroveň analytická. Ta popisuje (povrchovou) syntaktickou strukturu pomocí tzv. analytických funkcí. V našich ex- Povšimněme si, že pořadí redukcí odpovídá závislost- perimentech pracujeme pouze s trénovacími daty (43 955 ním vztahům mezi jednotlivými větnými členy, a tedy je- vět) a zbylé věty (tzv. ‘etest’) ponecháváme stranou jako jich závislostní stromové reprezentaci tak, jak je to po- testovací množinu pro budoucí evaluaci. psáno v pracích [4, 11]. Zhruba řečeno, při redukcích po- Pro reprezentaci větné stavby se v PDT používá koře- stupně vypouštíme slova, která jasou reprezentována listy nový strom. Vztahy mezi členem řídícím a závislým, vy- (případně podstromy) závislostního stromu. tvářejícími větnou dvojici, jsou znázorněny jako vztahy Pokusme se ukázat základní principy RA na příkladu mezi dvěma uzly stromu, kde uzel reprezentující řídící české věty (1). člen je rodičem a uzel reprezentující závislý člen je potom- Příklad: kem. Jejich spojnice (hrana ve stromě) odpovídá (prototy- (1) Petr se bojí o otce. picky) syntaktickému vztahu závislosti mezi rodičovským Ve větě (1) lze subjekt Petr považovat za závislý (viz prin- uzlem a jeho potomkem. cip analogie), proto ho při RA lze odstranit (v závislost- V předchozích experimentech, popsaných v článcích ním stromě je reprezentován listem, viz obrázek 1). Ovšem [2, 13], jsme se záměrně vyhýbali větám, které obsahovaly tento krok by vedl k porušení správnosti věty, musí tedy koordinace a apozice, protože tyto jevy by byly pro po- být doprovázen změnou slovosledu Petr se bojí o otce. čáteční fázi výzkumu příliš komplikované. Podstatou ko- →delete * se bojí o otce. →shi f t bojí se o otce.. Dále lze ordinace a apozice je ,zmnožování‘ jednotlivých větných vypustit spojení o otce, které je ve stromě znázorněno pod- členů nebo jednotlivých klauzí. Při koordinaci jde o zře- stromem (výběr řídícího uzlu je dán technickými pravidly, tězení více entit (otec a matka), popř. dějů (přišel, viděl a viz [3]). Klitika se je podle principu analogie považována zvítězil), při apozici jde o několikeré označování jedné a za závislý člen (nebot’ existují slovesa bez klitiky, např. téže entity (Karel, král český), viz [14]. odpovědět). Protože koordinace ani apozice nepředstavují jevy, které by v sobě obsahovaly přirozenou závislost, bývají v syn- taktických stromech reprezentovány různým způsobem 3 Data z Pražského závislostního korpusu [15]. V závislostních stromech používaných v PDT jsou tyto jevy zachyceny tzv. spojovací konstrukcí (viz příklad Ačkoliv základní princip redukční analýzy je jednoduchý (2) a strom na obrázku 2). Kořenem souřadných struktur je a rodilým mluvčím daného jazyka obvykle nečiní potíže umělý ,spojovací‘ uzel; z důvodů čistě technických je jeho větu zredukovat až k jejímu řídícímu slovesu, automatické lexikální hodnotou lemma souřadicí spojky (či lemma vý- modelování tohoto postupu je poměrně obtížné. Tento roz- razu signalizujícího apozici). Vlastní koordinované/apo- díl je způsoben tím, že člověk při redukční analýze může využít (a využívá) toho, že větě rozumí, umí oddělit méně 3 http://ufal.mff.cuni.cz/pdt3.0/ Gramatické závislosti vs. koordinace z pohledu redukční analýzy 63 nované výrazy jsou spojeny s tímto kořenem hranami, věty bez koordinační či apoziční struktury automatická které mají ne-závislostní charakter. Celá spojovací kon- RA dobře koresponduje s lingvistickou analýzou zachy- strukce je potom spojena s řídícím uzlem celé koordinační cenou v PDT. Intuitivní RA musela být zjemněna tak, struktury další (nezávislostní) hranou. aby byly správně zpracovány zejména následující jevy, které přesahují čistě závislostní vztahy – typicky tam, kde Příklad: je nutné pro zachování správnosti redukované věty brát (2) Čao býval generálním tajemníkem strany a oficiálním v úvahu slovosled: Tengovým následníkem. Závislostní strom věty (2), tak jak je zachycen na analy- klitiky: klitiky (zejm. se/si, by, krátké tvary zájmen (mu, tické rovině PDT, je uveden na obrázku 2. Například hrana ji apod.)) vyžadují určité postavení ve větě, typicky mezi uzly býval a Čao reprezentuje závislostní vztah pre- za první přízvučnou pozicí; toto pravidlo je nutno při dikátu a subjektu. Spojovacím výrazem pro koordinaci je RA zohlednit; zde uzel pro spojku a, koordinovanými členy výrazy ta- jemníkem a následníkem a řídícím uzlem celé konstrukce srovnání: srovnávací konstrukce (typicky uvozené vý- spona býval. razy jako, než, dále coby, jakoby, jakožto) vyžadují zvláštní zpracování, nebot’ jde často o eliptické kon- strukce (Petr má větší auto než Pavel. = Petr má větší a-ln94200-123-p12s1 auto [než je auto, které má] Pavel.) a jako takové se vyznačují složitou analýzou (která je závislá na pod- kladové lingvistické teorii); býval . Pred AuxK neprojektivity: při automatické analýze jsme se omezili na zpracování projektivních konstrukcí, nebot’ nepro- Čao a jektivity odhalují interakci slovosledu a závislostních Sb Coord vztahů, která je dále studována, viz zejm. [13]; předložky, pomocná slovesa apod.: v RA se redukují tajemníkem následníkem v jednom kroku vždy celé větné členy (např. před- Pnom_Co Pnom_Co ložka+podstatné jméno v redukci Přišli do školy. –> Přišli.); protože v PDT každému slovu, včetně těchto generálním strany oficiálním Tengovým ,pomocných‘ slov, odpovídá jeden uzel, musí se re- Atr Atr Atr Atr dukovat několik uzlů stromu najednou; slova překračující závislostní vztahy: RA byla oboha- Obrázek 2: Závislostní strom věty (2) podle pravidel PDT cena o pravidla pro zpracování zdůrazňujících slov (dále již pro jednoduchost neuvádíme technický kořen (např. zejména, také, i apod.) a o technická pravidla stromu (obsahující ID dané věty) a koncovou interpunkci). pro zpracování interpunkce, grafických symbolů (zá- vorky, uvozovky atd.) apod. 4 Automatická redukční analýza na datech 4.2 Pravidla pro RA se zpracováním koordinace a PDT apozice Návrh automatické redukční analýzy vyžaduje pečlivý ná- Další krok při zobecňování RA spočívá v zaměření se na vrh redukčních pravidel tak, aby byl v každém kroku ana- paradigmaticky odlišné konstrukce, a to konstrukce koor- lýzy zajištěn požadavek na zachování správnosti reduko- dinační (a apoziční), které jsou charakterizovány zmnože- vaných vět. Postupuje se ,zdola nahoru‘ – postupným re- ním příslušné syntaktické pozice. dukováním listů závislostního stromu z PDT (který nahra- Pravidla pro automatickou RA obohacenou o zpraco- zuje porozumění dané větě), přičemž nejprve se vždy re- vání koordinace a apozice: dukují uzly bezprostředně sousedící se svým řídícím uz- lem; následuje redukce uzlů spojených s řídícím uzlem 0. Ve vstupní větě jsou zpracovány jevy nevstupující projektivní hranou. do (dané) koordinační či apoziční struktury (včetně spo- Přitom je zachovávána důležitá podmínka na zachování lečného rozvití koordinovaných větných členů), které lze neprojektivity – nelze redukovat uzel tak, aby z věty ,zmi- zpracovat podle pravidel shrnutých výše. zela‘ neprojektivní konstrukce. Tento krok se provádí jako mezikrok po každém úspěšném zpracování koordinační či apoziční struktury. 4.1 Pravidla pro RA bez koordinace a apozice 1. Při zpracování koordinačních a apozičních struktur se vždy redukuje spojovací výraz (typicky koordinační V předchozí etapě projektu jsme představili soubor pra- spojka či interpunkce) spolu s koordinovanými (či apono- videl pro automatickou RA [13, 2] – ukázalo se, že pro vanými) výrazy. 64 M. Lopatková, J. Mírovský, V. Kuboň 2. Všechny koordinované (či aponované) členy se re- Další pravidla pro automatickou RA obohacenou o dukují v jediném kroku analýzy. Teoreticky nelze ome- zpracování koordinace a apozice: zit počet koordinovaných členů; přestože v datech PDT se 5. Zpracovávají se věty s koordinační spojkou, kde se obvykle koordinuje 2-5 členů, v jednom případě se koor- však ,koordinuje‘ jediná klauze (či větný člen) a kde tedy dinuje 57 členů (televizní program syntakticky strukturo- koordinační spojka plní funkci odkazu k předcházejícímu vaný do věty), u apozic jde až o 15 členů. kontextu. Např. 3. Zdůrazňovací syntaktické částice a všechna pomocná Nemáme proto potíže se získáváním trhu pro své výrobní slova, interpunkce, grafické symboly apod. se redukují zá- odpady. roveň v jednom kroku RA (podle dříve stanovených pravi- –> Nemáme proto potíže del). (Dále se neredukuje kvůli neprojektivitě.) 4. Koordinace a apozice dovolují zanořování. Opět jde 6. Víceslovné spojky a syntaktické částice vztahující se teoreticky o neomezený počet zanoření, viz [16]; v datech k celé koordinované klauzi (typicky v PDT zachycované PDT se vyskytlo 6 úrovní zanoření koordinací a apozic jako potomek spojovacího výrazu) se redukují v jednom (přehled sportovních výsledků). kroku se spojovacím výrazem. Např.: I v této fázi se soustřed’ujeme pouze na automatické zpra- Jsou bud’ nedostupná, nebo nedostačující. cování projektivních konstrukcí; neprojektivní konstrukce –> Jsou jsou analyzovány ručně. (Redukce probíhá v jediném kroku: spojovacím uzlem je Kroky 1-3 redukční analýzy ilustrujeme na následujícím podle pravidel PDT koordinační spojka nebo, druhá část příkladu (3). spojovacího výrazu bud’ musí být redukována zároveň (pravidlo 6); koordinované členy nedostupná a nedosta- Příklad: čující se redukují podle kroku 1, interpunkční čárka podle (3) Děti česaly zralé meruňky, modré blumy a také zelená kroku 3.) jablka. Další pravidla se již se netýkají specificky koordinací: (Kde přídavné jméno zralé je analyzováno jako společné 7. Adekvátněji se redukují konstrukce s modálním slove- rozvití slov meruňky, blumy a jablka, viz obr. 3.) sem (např. měly tvořit) a s verbonominálním predikátem česaly (např. Je učitelem, viz též větu (2)): vnitřní struktura těchto konstrukcí je zjednodušována až na závěr RA. a Děti 8. Emocionální a rytmizující částice mi, vám, si, to, ono apod. jsou redukovány kdykoli v průběhu redukce, i pokud zralé meruňky , blumy také jablka jde o klitiky. modré zelená 5 Lingvistická analýza zajímavých příkladů Obrázek 3: Závislostní strom věty (3) (podle pravidel PDT, Podívejme se nyní podrobněji na jevy, u kterých bud’ (po- bez technického kořene a koncové interpunkce). vrchová) redukční analýza nedává uspokojivé výsledky, nebo odhaluje zajímavé syntaktické konstrukce. Krok 0: Redukují se všechna slova, která nevstupují do koordinace (získáme tím ,kostru koordinace‘ se společným rozvitím: Pozice klitiky v koordinované klauzi. Podle Encyklope- –> česaly zralé meruňky, blumy a také jablka. dického slovníku češtiny [17] je příklonka (klitika) slovo Dále se redukuje společné rozvití koordinace: (zpravidla krátké), které nemá vlastní přízvuk, tvoří pří- –> česaly meruňky, blumy a také jablka. zvučný celek (takt) se slovem předcházejícím. Klitiky mají Krok 1 a 2: v češtině pevné slovosledné postavení (zpravidla) za prv- - redukuji se všechny členy koordinace meruňky, blumy, ním přízvučným celkem (první pozicí) ve větě (tzv. Wac- jablka kernagelova pozice). Syntaktický popis první pozice je po- - redukuje se spojovací uzel, tedy koordinační spojka a měrně komplexní [18], pro naše účely stačí konstatování, že klitika nesmí stát na prvním místě ve větě. Krok 3: Zároveň se v témže kroku RA zpracovávají zdů- Poněkud nejasná situace nastává v případě klitiky ve razňovací slova a interpunkce: druhé (a další) koordinované klauzi. Souřadicí spojky stojí - redukuje se zdůrazňovací také podle českých gramatik mimo koordinované klauze, proto - redukuje se interpunkční čárka by po nich měl následovat přízvučný celek a teprve potom - redukuje se koncová interpunkční tečka pozice pro klitiky. To platí např. pro některé spojky slučo- –> česaly vací (a, i) a odporovací (ale): Manuální analýza automatických redukcí získaných Cesta sice něco stojí, ale zákazníci se o kvalitě produkce z PDT vedla k dalším zpřesněním pravidel, která se týkala přesvědčí na vlastní oči. zejména následujících jevů. –> cesta sice stojí, ale zákazníci se přesvědčí Gramatické závislosti vs. koordinace z pohledu redukční analýzy 65 –> * cesta sice stojí, ale se přesvědčí v New Yorku a Bruselu. Diskuse by se přenesla [...], a zcela by vybočila z hranic –>?? V Bratislavě by mělo vzniknout do konce, stejně jako ekonomie. v New Yorku a Bruselu. –> * Diskuse by se přenesla [...], a by vybočila z hranic –>?? V Bratislavě by mělo vzniknout do roku, stejně jako ekonomie. v New Yorku a Bruselu. Oproti tomu u řady dalších souřadicích spojek (např. Není povinen se každý měsíc hlásit ve zprostředkovatelně slučovací/vylučovací nebo, příčinné nebot’, důsledkové práce, a proto je vyřazen ze statistiky. (a) proto, vysvětlovací vždyt’) může tato spojka sama tvo- –> * Není povinen se měsíc hlásit ve zprostředkovatelně řit první přízvučný celek, klitika tedy může (ale nemusí) práce, a proto je vyřazen ze statistiky. následovat bezprostředně po ní: –> * Není povinen se každý hlásit ve zprostředkovatelně Film můžeme považovat za plně autorský, nebot’ Chabrol práce, a proto je vyřazen ze statistiky. si k němu napsal i scénář [...]. Vzhledem k poněkud nejasné syntaktické struktuře –> můžeme, nebot’ si k němu napsal i scénář těchto jevů při vyhodnocování automatické RA od případ- Podrobnější lingvistický rozbor slovosledných omezení ných takto vzniklých nekorektností odhlížíme. ve vztahu ke klitikám lze nalézt v knihách [19, 20]. Nejsme si však vědomi, že by problematika koordinační spojky a postavení klitiky byla pro češtinu v lingvistické Víceslovné výrazy a ,pojmenované entity‘. V datech literatuře popsána. PDT nejsou v (povrchových) stromech zachyceny tzv. po- jmenované entity, což jsou např. názvy osob (Petr Novák, Čao C’jang), zvířat (Alík), lokací (Hradec Králové), in- Koordinace s elidovanými větnými členy. Podobně jako stitucí (Česká národní banka, Koh-i-Noor) apod., a více- u srovnávacích konstrukcí též u koordinačních spojení slovné výrazy (např. státní zástupce, šelma kočkovitá) – často dochází k elipse části syntaktické struktury (tzv. jejich anotace podléhá stejným pravidlům jako anotace aktuální elipsa). V (povrchových) závislostních stromech obecných jmen. (Adekvátní anotace je zachycena až na PDT se elipsa nerekonstruuje, větné členy syntakticky zá- tektogramatické rovině.) vislé na členu vypuštěném se zavěšují tam, kde by visel Automatická RA tedy v těchto případech nezíská z dat člen vypuštěný (a označují se speciální analytickou funkcí dostatečné informace a oba tyto typy výrazů jsou zpraco- ExD). vávány jako obecné konstrukce, což s sebou nese poněkud Takové případy ovšem způsobují při automatické RA problematické redukce výrazů, které by měly být zpraco- problémy, nebot’ při redukci může docházet k porušení vávány v jednom kroku, např.: plynulosti (či alespoň stylistické souvislosti) redukova- Kupříkladu sedmdesátiletý Čchiao Š’ či pětasedmdesáti- ných vět (i když z hlediska čistě formální syntaxe jsou letý Čao C’jang. správně): –> Kupříkladu sedmdesátiletý Š’ či pětasedmdesátiletý [...], Flintstoneovi sice nepřinášejí zábavu náročnou, ale Čao C’jang. ani nevkusně prostoduchou. (= prostoduchou zábavu) [ ...] –> ??[...], Flintstoneovi sice nepřinášejí zábavu, ale ani –> Š’ či pětasedmdesátiletý Čao C’jang. nevkusně prostoduchou. –> Š’ či pětasedmdesátiletý Čao jang. [...] jsou a zdaleka ne tak časté jako ředění zmrzlin. (= –> Š’ či pětasedmdesátiletý jang. jako je časté ředění zmrzlin) Vzhledem k tomu, že tyto jevy se primárně netýkají syn- –> ?? [...] jsou a zdaleka ne časté jako ředění zmrzlin. taxe, ale dostupné slovníkové informace, při návrhu auto- Možným řešením je zcela vyloučit eliptické konstruk- matické RA od chyb ve zpracování pojmenovaných entit a ce související s koordinací z automatického zpracování víceslovných výrazů odhlížíme. (vzhledem k takto vzniklým nepravidelnostem obvykle nelze věty tohoto typu úspěšně automaticky redukovat až na základní predikativní strukturu). Redukce valenčních doplnění. Při návrhu (povrchové) redukční analýzy vycházíme z povrchově syntaktické struktury vět (uchovávané na tzv. analytické rovině PDT), Konstrukce s nejasnou závislostí – typ do konce roku. která nepracuje s informací o valenční charakteristice jed- U jistých konstrukcí, především u některých časových ur- notlivých plnovýznamových slov a o tzv. vypustitelnosti čení (např. těsně před Vánocemi, 185 minut týdně) a míst- jejich valenčních doplnění (tato informace je doplňována ních určení (dva kilometry od řeky), bývá někdy těžké roz- až na tektogramatické rovině, která je už ovšem od povr- hodnout, zda jsou na sobě nezávislá, či zda jedno rozvíjí chové syntaxe poměrně vzdálena). Proto ani RA nemůže druhé. pracovat s valenční informací. PDT v těchto případech vychází z poněkud technických Tato skutečnost má zásadní dopad na (povrchovou) au- pravidel anotačního manuálu [21]. Metoda RA zde nedává tomatickou RA: protože RA nemá k dispozici valenční spolehlivé výsledky, viz např. slovník, redukuje postupně všechna objektová a adverbi- V Bratislavě by mělo vzniknout do konce roku, stejně jako ální doplnění sloves a atributivní doplnění substantiv, bez 66 M. Lopatková, J. Mírovský, V. Kuboň ohledu na jejich (ne)valenční charakter a vypustitelnost. zejména spojení koordinace a postavení klitik či pořadí vy- Ačkoli typicky jsou závislé členy vypustitelné, v řadě pří- pouštění slovesných doplnění představují problémy, které padů dochází k zásadnímu posunutí významu či k poru- zatím nebyly uspokojivě lingvisticky zpracovány. šení plynulosti (či dokonce správnosti) redukovaných vět. Následující příklady ilustrují posun významu (jít o něco Grantová podpora –> jít) a neúplnou strukturu (redukce adjektivního objektu v postpozici). Práce na tomto tématu je podpořena z grantu GAČR číslo Jde o činorodost a právě ona [...] dělá ze všech protago- P202/10/1333. Tento článek využívá jazyková data vyvi- nistů Genu [...] elitu. nutá a/nebo distribuovaná v rámci projektu MŠMT ČR –> Jde a právě ona [...] dělá ze všech protagonistů Genu LINDAT/CLARIN (projekt LM2010013). [...] elitu. [...] odrážejí tendenci vývoje oproštěného od vlivů i od Reference hodnot. –> * [...] odrážejí tendenci vývoje oproštěného. [1] Tesnière, L.: Eléments de syntaxe structurale. Librairie C. Další problém spojený s valenční charakteristikou jed- Klincksieck, Paris (1959) notlivých slov spočívá v pořadí vypouštění během RA. [2] Kuboň, V., Lopatková, M., Mírovský, J.: A Case Study of a Pravidla pro vypouštění např. slovesných doplnění nejsou Free Word Order. In: Proceedings of PACLIC 2013. (2013) v českých gramatikách (alespoň podle nám dostupných in- [3] Lopatková, M., Plátek, M., Kuboň, V.: Modeling Syntax formací) formálně zpracována, přesto je zřejmé, že zde of Free Word-Order Languages: Dependency Analysis by Reduction. In: Proceedings of TSD 2005. Volume 3658 of platí nějaká omezení; např. vypouštění dativních doplnění LNAI., Berlin Heidelberg, Springer-Verlag (2005) 140–147 či doplnění realizovaných předložkovou skupinou by ty- [4] Lopatková, M., Plátek, M., Sgall, P.: Towards a Formal picky mělo předcházet vypouštění akuzativního doplnění Model for Functional Generative Description: Analysis by (a to i v případě aktuální elipsy), viz následující příklady: Reduction and Restarting Automata. The Prague Bulletin [...] poskytují služby a činnost bud’ přímo nebo prostřed- of Mathematical Linguistics 87 (2007) 7–26 nictvím specializovaných institucí. [5] Hajič, J., Panevová, J., Hajičová, E., Sgall, P., Pajas, P., –> ?? [...] poskytují bud’ přímo nebo prostřednictvím spe- Štěpánek, J., Havelka, J., Mikulová, M., Žabokrtský, Z., cializovaných institucí. Ševčíková-Razímová, M.: Prague Dependency Treebank –> [...] poskytují služby a činnost. 2.0. LDC, Philadelphia, PA, USA (2006) Občané si mohou vyšetření objednat v hygienických stani- [6] Mel’čuk, I.A.: Dependency in language. In: Proceedings cích. of DepLing 2011, Barcelona (2011) 1–16 –> ?? Občané si mohou objednat v hygienických stanicích. [7] Gerdes, K., Kahane, S.: Defining dependencies (and con- –> Občané mohou vyšetření objednat v hygienických sta- stituents). In: Proceedings of DepLing 2011, Barcelona nicích. (2011) 17–27 Vzhledem k nevyjasněným pravidlům a omezením na [8] Sgall, P., Hajičová, E., Panevová, J.: The Meaning of the pořadí vypouštění jednotlivých doplnění4 při automatické Sentence in Its Semantic and Pragmatic Aspects. Reidel, RA od stylistických pochybení či nekorektností způsobe- Dordrecht (1986) ných nesprávným pořadím vypouštění valenčních dopl- [9] Jančar, P., Mráz, F., Plátek, M., Vogel, J.: On monotonic nění odhlížíme. automata with a restart operation. Journal of Automata, Languages and Combinatorics 4 (1999) 287–311 [10] Otto, F.: Restarting Automata. In: Recent Advances in 6 Závěrečné shrnutí Formal Languages and Applications, Studies in Compu- tational Intelligence. Volume 25., Berlin, Springer-Verlag Hlavním smyslem našich experimentů bylo ověřit použi- (2006) 269–303 telnost automatické redukční analýzy na složitější jazy- [11] Plátek, M., Mráz, F., Lopatková, M.: (In)Dependencies kové jevy (koordinace, apozice) a vytipovat určité proble- in Functional Generative Description by Restarting Auto- matické konstrukce, které v budoucnu poslouží jako ma- mata. In: Proceedings of NCMA 2010. Volume 263 of teriál jak pro další lingvistický výzkum, tak i pro další books@ocg.at., Wien, Austria, Österreichische Computer Gesellschaft (2010) 155–170 zjemnění či modifikaci samotné metody redukční analýzy a pro formální popis vlastností přirozených jazyků. Ex- [12] Martin Plátek and Dana Pardubská and Markéta Lopat- ková: On Minimalism of Analysis by Reduction by Re- perimenty ukázaly, že i koordinace a apozice se ve vět- starting Automata. In Morrill, G., Muskens, R., Osswald, šině případů dají redukovat automaticky. Zároveň se po- R., Richter, F., eds.: Formal Grammar 2014. Volume 8612 dařilo objevit několik problematických konstrukcí, z nichž of LNCS., Berlin Heidelberg, Springer-Verlag (2014) 155– 4 Podle [22] hrají roli nejen povrchové formy doplnění, ale i typ va- 170 lenčního vztahu a obligatornost doplnění, tedy informace náležející do [13] Kuboň, V., Lopatková, M., Mírovský, J.: Automatic Pro- valenčního slovníku, a tedy na tektogramatickou rovinu (nikoli na rovinu cessing of Linguistic Data as a Feedback for Linguistic povrchové syntaxe). Theory. In Castro, F., Gelbukh, A., González, M., eds.: Gramatické závislosti vs. koordinace z pohledu redukční analýzy 67 Proceedings of the 12th Mexican International Conference on Artificial Intelligence (MICAI 2013). Volume 8265 of LNCS., Berlin Heidelberg, Springer-Verlag (2013) 252– 264 volume 1. [14] Šmilauer, V.: Novočeská skladba. SPN, Praha (1966) [15] Štěpánek, J.: Závislostní zachycení větné struktury v ano- tovaném syntaktickém korpusu (nástroje pro zajištění kon- zistence dat). PhD thesis, MFF UK, Prague (2006) [16] Oliva, K.: Linguistics behind the Mirror. In Lopatková, M., ed.: Information Technologies – Applications and The- ory, Košice, Slovakia, Univerzita Pavla Jozefa Šafárika v Košiciach (2011) 1–6 [17] Karlík, P., Nekula, M., Pleskalová, J., eds.: Encyklope- dický slovník češtiny. Nakladatelství Lidové noviny, Praha (2002) [18] Hana, J.: Czech Clitics in Higher Order Grammar. PhD thesis, The Ohio State University (2007) [19] Běličová, H., Uhlířová, L.: Slovanská věta. Euroslavica, Praha (1996) [20] Běličová, H., Sedláček, J.: Slovanské souvětí. Academia, Praha (1990) [21] Hajič, J., Panevová, J., Buráňová, E., Urešová, Z., Bémová, A., Štěpánek, J., Pajas, P., Kárník, J.: Anotace na analytické rovině. návod pro anotátory. Technical Report TR-2004-23, UFAL MFF UK (2004) [22] Lopatková, M.: O homonymii předložkových skupin. (Co umí počítač?). Karolinum, Praha (2003)