=Paper= {{Paper |id=None |storemode=property |title=Gramatické závislosti vs. koordinace z pohledu redukční analýzy |pdfUrl=https://ceur-ws.org/Vol-1214/61.pdf |volume=Vol-1214 |dblpUrl=https://dblp.org/rec/conf/itat/LopatkovaMK14 }} ==Gramatické závislosti vs. koordinace z pohledu redukční analýzy== https://ceur-ws.org/Vol-1214/61.pdf
V. Kůrková et al. (Eds.): ITAT 2014 with selected papers from Znalosti 2014, CEUR Workshop Proceedings Vol. 1214, pp. 61–67
http://ceur-ws.org/Vol-1214, Series ISSN 1613-0073, c 2014 M. Lopatková, J. Mírovský, V. Kuboň



             Gramatické závislosti vs. koordinace z pohledu redukční analýzy

                                          Markéta Lopatková, Jiří Mírovský a Vladislav Kuboň

                   Univerzita Karlova v Praze, Matematicko.fyzikální fakulta, Ústav formální a aplikované lingvistiky
                                        Malostranské nám. 25, Praha 1, 118 00, Česká republika
                                          {vk,lopatkova,mirovsky}@ufal.mff.cuni.cz

Abstrakt: Tento příspěvek se věnuje identifikaci zají-                    V oblasti anotace vycházíme z jednoduchého předpo-
mavých konstrukcí v syntakticky anotovaném korpusu                           kladu (potvrzeného předchozími experimenty), že pokud
(Pražském závislostním korpusu, PDT) metodou auto-                           určitá konstrukce nejde zpracovat automatickými pravidly
matické redukční analýzy. Rozšiřujeme zkoumané kon-                        redukční analýzy, signalizuje to možnou nekonzistentní
strukce zejména o koordinační a apoziční vztahy, které                     nebo nevhodně zvolenou anotaci (například dva odlišné
mají zřetelně ne-závislostní charakter a vedou tedy k zo-                  jevy anotované shodnými značkami – v takovém případě
becnění používané redukční metody. Přinášíme klasifikaci                  obvykle automatická redukční analýza nedokáže oba pří-
zkoumaných konstrukcí a soustřed’ujeme se na popis a                        pady rozlišit).
analýzu jednotlivých jazykových jevů, které při zpraco-                        V kontextu závislostní lingvistiky byly vztahy mezi zá-
vání působí problémy.                                                       vislostí a slovosledem studovány zvláště v Melčukově
   Tato studie je motivací pro formální modelování metod                     teorii Smysl↔Text: jeho přístup zaměřující se na určo-
zpracování přirozeného jazyka.                                              vání závislostních vztahů a jejich formální popis je shr-
                                                                             nut zejména v práci [6]. Alternativní formální popis závis-
                                                                             lostní syntaxe můžeme najít v práci [7]. Náš přístup k da-
1    Motivace                                                                nému problému naproti tomu vychází z české lingvistické
                                                                             tradice reprezentované zejména v knize [8].
Jedním ze dvou základních a obecně uznávaných způsobů                         Protože základním nástrojem, který používáme ke stu-
reprezentace syntaktických vztahů ve větách přirozeného                   diu výše zmíněných jevů, je redukční analýza, musíme
jazyka je závislostní strom. Tento způsob reprezentace má                   ji na tomto místě alespoň stručně představit: zhruba ře-
v české lingvistice dlouhou tradici (na rozdíl od druhého                   čeno, pokud jedno ze slov, která tvoří potenciální dvojici
rozšířeného typu stromu – složkového). Přestože vztah zá-                  řídícího a závislého slova, může být z věty odstraněno,
vislosti (neboli vztah mezi řídícím a závislým větným čle-                aniž by se změnily distribuční vlastnosti celého páru (tj.
nem, jako je např. přísudek a jeho předmět či podstatné                 jeho schopnost objevovat se ve stejném syntaktickém kon-
jméno a jeho přívlastek) je velmi důležitý, doplňují jej i                textu), potom je toto slovo považováno za závislé (modifi-
dva další základní syntaktické vztahy, jmenovitě slovosled                  kující druhý členu páru). Takto můžeme postupovat u tzv.
(tj. lineární pořadí slov ve větě) a ,zmnožení‘ dvou nebo                 endocentrických konstrukcí, kde lze jedno slovo reduko-
více větných členů.1                                                      vat, aniž by se změnil možný syntaktický kontext (např.
    Zatímco v předchozích studiích jsme se soustřed’ovali                  malý stůl –> stůl; Jdi domů! –> Jdi!). Pro exocentrické
na vztahy závislosti a slovosledu [2], v tomto článku zkou-                 konstrukce, kde žádné slovo vypustit nelze (jako Petr po-
máme i vztahy koordinační a apoziční, věnujeme se tedy                    tkal Marii., kde Petr potkal. má jiné vlastnosti) lze použít
případům, kdy je jedna syntaktická pozice ,zmnožena‘.                      analogický princip na úrovni slovních druhů [8].2
Ukázali jsme již, že závislostní relace lze s úspěchem de-                      Důvod pro využívání redukční analýzy je jednoduchý –
finovat pomocí redukční analýzy [3, 4], což jsme ověřili                  umožňuje rozdělit proces syntaktické analýzy věty do jed-
na větách z Pražského závislostního korpusu (PDT) [5].                      notlivých, dobře definovaných a dobře oddělených kroků,
Na ně jsme aplikovali poloautomatickou proceduru dopl-                      a tím zároveň dovoluje zkoumat jednotlivé jevy odděleně.
něnou o následnou ruční kontrolu. Této metody se držíme                    Metoda redukční analýzy byla podrobně popsána v člán-
i v tomto článku. Umožňuje nám verifikovat náš teoretický                  cích [3, 4], její formální model založený na restartovacích
koncept prostřednictvím reálných dat.                                       automatech je představen v článcích [9, 10, 11]. Jedním
    Smyslem našeho experimentu je jednak získat hlubší                       z cílů tohoto článku je také poskytnout materiál a motivaci
vhled do syntaxe přirozeného jazyka, jednak prostřednic-                   pro další formální modelování metod zpracování přiroze-
tvím automatizovaného postupu identifikovat určitá ne-                      ného jazyka, viz např. [12].
standardní či problematická místa syntaktické anotace dat,
se kterými pracujeme. V otázce syntaktických vlastností
jazyka náš přístup umožňuje oddělit jednotlivé jevy a
zkoumat je jak jednotlivě, tak i ve vzájemné interakci.
    1 Tesnière [1] jednak rozlišuje mezi lineárním a strukturním pořadím,       2 Zhruba řečeno, protože existují bezpředmětná slovesa, budeme ob-

jednak dělí strukturní vztahy na ty, které dnes označujeme jako závis-     jekt (předmět) považovat za závislý na slovese; protože existují bezpod-
lostní (,connexion‘), a na vztahy koordinační (,junction‘).                 mětná slovesa, považujeme subjekt (podmět) za závislý na slovese.
62                                                                                                   M. Lopatková, J. Mírovský, V. Kuboň


2    Redukční analýza                                                                               bojí

V této kapitole popíšeme základní myšlenku naší metody                              Petr      se            o
používané pro analýzu vět. Redukční analýza (RA) je za-                                                       otce
ložena na postupném zjednodušování analyzované věty.
Definuje možné posloupnosti redukcí věty – každý krok
RA spočívá v odstranění alespoň jednoho slova ze vstupní                  Obrázek 1: Závislostní strom věty (1).
věty (operace ‘delete’); ve specifických případech je od-
straňování doprovázeno přemístěním slova na jinou slo-        podstatné větné členy a postupně dojít až k úplné redukci.
voslednou pozici (operace ‘shift’).                              Pokusíme-li se o automatickou RA, musíme porozumění
   Uved’me nyní základní omezení, která uplatňujeme na          nějakým způsobem nahradit. Jednou možností je využití
redukční analýzu:                                               syntakticky anotovaných dat, která v sobě určitým způso-
                                                                 bem obsahují porozumění, vložené do anotace člověkem-
 (i) přirozené omezení nutící zachovávat jednotlivé
                                                                 anotátorem.
     slovní tvary, jejich morfologické charakteristiky a
                                                                     V našich experimentech využíváme data z Pražského
     jejich povrchové závislostní vztahy;
                                                                 závislostního korpusu 3.0 (PDT, viz [5]).3 Syntaktická
                                                                 struktura jednotlivých vět z korpusu – zachycená závis-
 (ii) omezení vyžadující zachování správnosti (gra-              lostními stromy (vždy právě jeden strom pro každou větu)
      maticky správná věta musí zůstat správná i po            – poskytuje základní informace nutné pro úspěšné prove-
      provedeném zjednodušení);                                  dení automatické RA.
                                                                     PDT obsahuje velmi podrobnou anotaci téměř 49 500
                                                                 českých vět (v experimentech využíváma pouze data s
(iii) aplikace operace přesunutí je omezená na případy,        anotací na všech rovinách PDT). Anotace je provedena
      kdy je vynucena principem zachování správnosti RA          na více úrovních, z nichž je pro naše účely nejdůležitější
      (ii).                                                      úroveň analytická. Ta popisuje (povrchovou) syntaktickou
                                                                 strukturu pomocí tzv. analytických funkcí. V našich ex-
   Povšimněme si, že pořadí redukcí odpovídá závislost-
                                                                 perimentech pracujeme pouze s trénovacími daty (43 955
ním vztahům mezi jednotlivými větnými členy, a tedy je-
                                                                 vět) a zbylé věty (tzv. ‘etest’) ponecháváme stranou jako
jich závislostní stromové reprezentaci tak, jak je to po-
                                                                 testovací množinu pro budoucí evaluaci.
psáno v pracích [4, 11]. Zhruba řečeno, při redukcích po-
                                                                     Pro reprezentaci větné stavby se v PDT používá koře-
stupně vypouštíme slova, která jasou reprezentována listy
                                                                 nový strom. Vztahy mezi členem řídícím a závislým, vy-
(případně podstromy) závislostního stromu.
                                                                 tvářejícími větnou dvojici, jsou znázorněny jako vztahy
   Pokusme se ukázat základní principy RA na příkladu
                                                                 mezi dvěma uzly stromu, kde uzel reprezentující řídící
české věty (1).
                                                                 člen je rodičem a uzel reprezentující závislý člen je potom-
Příklad:                                                        kem. Jejich spojnice (hrana ve stromě) odpovídá (prototy-
(1) Petr se bojí o otce.                                         picky) syntaktickému vztahu závislosti mezi rodičovským
Ve větě (1) lze subjekt Petr považovat za závislý (viz prin-   uzlem a jeho potomkem.
cip analogie), proto ho při RA lze odstranit (v závislost-          V předchozích experimentech, popsaných v článcích
ním stromě je reprezentován listem, viz obrázek 1). Ovšem       [2, 13], jsme se záměrně vyhýbali větám, které obsahovaly
tento krok by vedl k porušení správnosti věty, musí tedy        koordinace a apozice, protože tyto jevy by byly pro po-
být doprovázen změnou slovosledu Petr se bojí o otce.           čáteční fázi výzkumu příliš komplikované. Podstatou ko-
→delete * se bojí o otce. →shi f t bojí se o otce.. Dále lze     ordinace a apozice je ,zmnožování‘ jednotlivých větných
vypustit spojení o otce, které je ve stromě znázorněno pod-    členů nebo jednotlivých klauzí. Při koordinaci jde o zře-
stromem (výběr řídícího uzlu je dán technickými pravidly,      tězení více entit (otec a matka), popř. dějů (přišel, viděl a
viz [3]). Klitika se je podle principu analogie považována       zvítězil), při apozici jde o několikeré označování jedné a
za závislý člen (nebot’ existují slovesa bez klitiky, např.    téže entity (Karel, král český), viz [14].
odpovědět).                                                        Protože koordinace ani apozice nepředstavují jevy, které
                                                                 by v sobě obsahovaly přirozenou závislost, bývají v syn-
                                                                 taktických stromech reprezentovány různým způsobem
3 Data z Pražského závislostního korpusu                         [15]. V závislostních stromech používaných v PDT jsou
                                                                 tyto jevy zachyceny tzv. spojovací konstrukcí (viz příklad
Ačkoliv základní princip redukční analýzy je jednoduchý        (2) a strom na obrázku 2). Kořenem souřadných struktur je
a rodilým mluvčím daného jazyka obvykle nečiní potíže          umělý ,spojovací‘ uzel; z důvodů čistě technických je jeho
větu zredukovat až k jejímu řídícímu slovesu, automatické      lexikální hodnotou lemma souřadicí spojky (či lemma vý-
modelování tohoto postupu je poměrně obtížné. Tento roz-       razu signalizujícího apozici). Vlastní koordinované/apo-
díl je způsoben tím, že člověk při redukční analýze může
využít (a využívá) toho, že větě rozumí, umí oddělit méně        3 http://ufal.mff.cuni.cz/pdt3.0/
Gramatické závislosti vs. koordinace z pohledu redukční analýzy                                                                63


nované výrazy jsou spojeny s tímto kořenem hranami,               věty bez koordinační či apoziční struktury automatická
které mají ne-závislostní charakter. Celá spojovací kon-           RA dobře koresponduje s lingvistickou analýzou zachy-
strukce je potom spojena s řídícím uzlem celé koordinační        cenou v PDT. Intuitivní RA musela být zjemněna tak,
struktury další (nezávislostní) hranou.                            aby byly správně zpracovány zejména následující jevy,
                                                                   které přesahují čistě závislostní vztahy – typicky tam, kde
Příklad:
                                                                   je nutné pro zachování správnosti redukované věty brát
(2) Čao býval generálním tajemníkem strany a oficiálním
                                                                   v úvahu slovosled:
Tengovým následníkem.
Závislostní strom věty (2), tak jak je zachycen na analy-         klitiky: klitiky (zejm. se/si, by, krátké tvary zájmen (mu,
tické rovině PDT, je uveden na obrázku 2. Například hrana              ji apod.)) vyžadují určité postavení ve větě, typicky
mezi uzly býval a Čao reprezentuje závislostní vztah pre-               za první přízvučnou pozicí; toto pravidlo je nutno při
dikátu a subjektu. Spojovacím výrazem pro koordinaci je                  RA zohlednit;
zde uzel pro spojku a, koordinovanými členy výrazy ta-
jemníkem a následníkem a řídícím uzlem celé konstrukce            srovnání: srovnávací konstrukce (typicky uvozené vý-
spona býval.                                                           razy jako, než, dále coby, jakoby, jakožto) vyžadují
                                                                       zvláštní zpracování, nebot’ jde často o eliptické kon-
                                                                       strukce (Petr má větší auto než Pavel. = Petr má větší
       a-ln94200-123-p12s1                                             auto [než je auto, které má] Pavel.) a jako takové se
                                                                       vyznačují složitou analýzou (která je závislá na pod-
                                                                       kladové lingvistické teorii);
          býval                                 .
          Pred                                  AuxK               neprojektivity: při automatické analýze jsme se omezili
                                                                       na zpracování projektivních konstrukcí, nebot’ nepro-
         Čao               a                                           jektivity odhalují interakci slovosledu a závislostních
         Sb                Coord                                       vztahů, která je dále studována, viz zejm. [13];
                                                                   předložky, pomocná slovesa apod.: v RA se redukují
             tajemníkem                        následníkem              v jednom kroku vždy celé větné členy (např. před-
             Pnom_Co                           Pnom_Co
                                                                        ložka+podstatné jméno v redukci Přišli do školy. –>
                                                                        Přišli.); protože v PDT každému slovu, včetně těchto
            generálním strany oficiálním Tengovým                       ,pomocných‘ slov, odpovídá jeden uzel, musí se re-
            Atr        Atr    Atr        Atr
                                                                        dukovat několik uzlů stromu najednou;
                                                                   slova překračující závislostní vztahy: RA byla oboha-
Obrázek 2: Závislostní strom věty (2) podle pravidel PDT               cena o pravidla pro zpracování zdůrazňujících slov
(dále již pro jednoduchost neuvádíme technický kořen                   (např. zejména, také, i apod.) a o technická pravidla
stromu (obsahující ID dané věty) a koncovou interpunkci).              pro zpracování interpunkce, grafických symbolů (zá-
                                                                        vorky, uvozovky atd.) apod.

4 Automatická redukční analýza na datech                          4.2   Pravidla pro RA se zpracováním koordinace a
  PDT                                                                    apozice

Návrh automatické redukční analýzy vyžaduje pečlivý ná-          Další krok při zobecňování RA spočívá v zaměření se na
vrh redukčních pravidel tak, aby byl v každém kroku ana-          paradigmaticky odlišné konstrukce, a to konstrukce koor-
lýzy zajištěn požadavek na zachování správnosti reduko-           dinační (a apoziční), které jsou charakterizovány zmnože-
vaných vět. Postupuje se ,zdola nahoru‘ – postupným re-           ním příslušné syntaktické pozice.
dukováním listů závislostního stromu z PDT (který nahra-
                                                                   Pravidla pro automatickou RA obohacenou o zpraco-
zuje porozumění dané větě), přičemž nejprve se vždy re-
                                                                   vání koordinace a apozice:
dukují uzly bezprostředně sousedící se svým řídícím uz-
lem; následuje redukce uzlů spojených s řídícím uzlem            0. Ve vstupní větě jsou zpracovány jevy nevstupující
projektivní hranou.                                                do (dané) koordinační či apoziční struktury (včetně spo-
  Přitom je zachovávána důležitá podmínka na zachování           lečného rozvití koordinovaných větných členů), které lze
neprojektivity – nelze redukovat uzel tak, aby z věty ,zmi-       zpracovat podle pravidel shrnutých výše.
zela‘ neprojektivní konstrukce.                                    Tento krok se provádí jako mezikrok po každém úspěšném
                                                                   zpracování koordinační či apoziční struktury.

4.1 Pravidla pro RA bez koordinace a apozice                       1. Při zpracování koordinačních a apozičních struktur
                                                                   se vždy redukuje spojovací výraz (typicky koordinační
V předchozí etapě projektu jsme představili soubor pra-         spojka či interpunkce) spolu s koordinovanými (či apono-
videl pro automatickou RA [13, 2] – ukázalo se, že pro             vanými) výrazy.
64                                                                                               M. Lopatková, J. Mírovský, V. Kuboň


2. Všechny koordinované (či aponované) členy se re-            Další pravidla pro automatickou RA obohacenou o
dukují v jediném kroku analýzy. Teoreticky nelze ome-            zpracování koordinace a apozice:
zit počet koordinovaných členů; přestože v datech PDT se     5. Zpracovávají se věty s koordinační spojkou, kde se
obvykle koordinuje 2-5 členů, v jednom případě se koor-      však ,koordinuje‘ jediná klauze (či větný člen) a kde tedy
dinuje 57 členů (televizní program syntakticky strukturo-      koordinační spojka plní funkci odkazu k předcházejícímu
vaný do věty), u apozic jde až o 15 členů.                    kontextu. Např.
3. Zdůrazňovací syntaktické částice a všechna pomocná         Nemáme proto potíže se získáváním trhu pro své výrobní
slova, interpunkce, grafické symboly apod. se redukují zá-       odpady.
roveň v jednom kroku RA (podle dříve stanovených pravi-        –> Nemáme proto potíže
del).                                                            (Dále se neredukuje kvůli neprojektivitě.)
4. Koordinace a apozice dovolují zanořování. Opět jde          6. Víceslovné spojky a syntaktické částice vztahující se
teoreticky o neomezený počet zanoření, viz [16]; v datech      k celé koordinované klauzi (typicky v PDT zachycované
PDT se vyskytlo 6 úrovní zanoření koordinací a apozic           jako potomek spojovacího výrazu) se redukují v jednom
(přehled sportovních výsledků).                                kroku se spojovacím výrazem. Např.:
I v této fázi se soustřed’ujeme pouze na automatické zpra-      Jsou bud’ nedostupná, nebo nedostačující.
cování projektivních konstrukcí; neprojektivní konstrukce        –> Jsou
jsou analyzovány ručně.                                        (Redukce probíhá v jediném kroku: spojovacím uzlem je
Kroky 1-3 redukční analýzy ilustrujeme na následujícím          podle pravidel PDT koordinační spojka nebo, druhá část
příkladu (3).                                                   spojovacího výrazu bud’ musí být redukována zároveň
                                                                 (pravidlo 6); koordinované členy nedostupná a nedosta-
Příklad:                                                        čující se redukují podle kroku 1, interpunkční čárka podle
(3) Děti česaly zralé meruňky, modré blumy a také zelená      kroku 3.)
jablka.
                                                                 Další pravidla se již se netýkají specificky koordinací:
(Kde přídavné jméno zralé je analyzováno jako společné
                                                                 7. Adekvátněji se redukují konstrukce s modálním slove-
rozvití slov meruňky, blumy a jablka, viz obr. 3.)
                                                                 sem (např. měly tvořit) a s verbonominálním predikátem
            česaly                                               (např. Je učitelem, viz též větu (2)): vnitřní struktura těchto
                                                                 konstrukcí je zjednodušována až na závěr RA.
                                             a
     Děti
                                                                 8. Emocionální a rytmizující částice mi, vám, si, to, ono
                                                                 apod. jsou redukovány kdykoli v průběhu redukce, i pokud
               zralé   meruňky   ,   blumy       také   jablka   jde o klitiky.
                                     modré          zelená
                                                                 5 Lingvistická analýza zajímavých příkladů
Obrázek 3: Závislostní strom věty (3) (podle pravidel PDT,
                                                                 Podívejme se nyní podrobněji na jevy, u kterých bud’ (po-
bez technického kořene a koncové interpunkce).
                                                                 vrchová) redukční analýza nedává uspokojivé výsledky,
                                                                 nebo odhaluje zajímavé syntaktické konstrukce.
Krok 0: Redukují se všechna slova, která nevstupují do
koordinace (získáme tím ,kostru koordinace‘ se společným
rozvitím:                                                        Pozice klitiky v koordinované klauzi. Podle Encyklope-
–> česaly zralé meruňky, blumy a také jablka.                  dického slovníku češtiny [17] je příklonka (klitika) slovo
Dále se redukuje společné rozvití koordinace:                   (zpravidla krátké), které nemá vlastní přízvuk, tvoří pří-
–> česaly meruňky, blumy a také jablka.                        zvučný celek (takt) se slovem předcházejícím. Klitiky mají
Krok 1 a 2:                                                      v češtině pevné slovosledné postavení (zpravidla) za prv-
- redukuji se všechny členy koordinace meruňky, blumy,         ním přízvučným celkem (první pozicí) ve větě (tzv. Wac-
jablka                                                           kernagelova pozice). Syntaktický popis první pozice je po-
- redukuje se spojovací uzel, tedy koordinační spojka a         měrně komplexní [18], pro naše účely stačí konstatování,
                                                                 že klitika nesmí stát na prvním místě ve větě.
Krok 3: Zároveň se v témže kroku RA zpracovávají zdů-             Poněkud nejasná situace nastává v případě klitiky ve
razňovací slova a interpunkce:                                  druhé (a další) koordinované klauzi. Souřadicí spojky stojí
- redukuje se zdůrazňovací také                                podle českých gramatik mimo koordinované klauze, proto
- redukuje se interpunkční čárka                               by po nich měl následovat přízvučný celek a teprve potom
- redukuje se koncová interpunkční tečka                       pozice pro klitiky. To platí např. pro některé spojky slučo-
–> česaly                                                       vací (a, i) a odporovací (ale):
Manuální analýza automatických redukcí získaných                 Cesta sice něco stojí, ale zákazníci se o kvalitě produkce
z PDT vedla k dalším zpřesněním pravidel, která se týkala      přesvědčí na vlastní oči.
zejména následujících jevů.                                     –> cesta sice stojí, ale zákazníci se přesvědčí
Gramatické závislosti vs. koordinace z pohledu redukční analýzy                                                              65


–> * cesta sice stojí, ale se přesvědčí                         v New Yorku a Bruselu.
Diskuse by se přenesla [...], a zcela by vybočila z hranic       –>?? V Bratislavě by mělo vzniknout do konce, stejně jako
ekonomie.                                                          v New Yorku a Bruselu.
–> * Diskuse by se přenesla [...], a by vybočila z hranic        –>?? V Bratislavě by mělo vzniknout do roku, stejně jako
ekonomie.                                                          v New Yorku a Bruselu.
    Oproti tomu u řady dalších souřadicích spojek (např.        Není povinen se každý měsíc hlásit ve zprostředkovatelně
slučovací/vylučovací nebo, příčinné nebot’, důsledkové        práce, a proto je vyřazen ze statistiky.
(a) proto, vysvětlovací vždyt’) může tato spojka sama tvo-       –> * Není povinen se měsíc hlásit ve zprostředkovatelně
řit první přízvučný celek, klitika tedy může (ale nemusí)      práce, a proto je vyřazen ze statistiky.
následovat bezprostředně po ní:                                  –> * Není povinen se každý hlásit ve zprostředkovatelně
Film můžeme považovat za plně autorský, nebot’ Chabrol           práce, a proto je vyřazen ze statistiky.
si k němu napsal i scénář [...].                                     Vzhledem k poněkud nejasné syntaktické struktuře
–> můžeme, nebot’ si k němu napsal i scénář                     těchto jevů při vyhodnocování automatické RA od případ-
    Podrobnější lingvistický rozbor slovosledných omezení         ných takto vzniklých nekorektností odhlížíme.
ve vztahu ke klitikám lze nalézt v knihách [19, 20].
Nejsme si však vědomi, že by problematika koordinační
spojky a postavení klitiky byla pro češtinu v lingvistické        Víceslovné výrazy a ,pojmenované entity‘. V datech
literatuře popsána.                                               PDT nejsou v (povrchových) stromech zachyceny tzv. po-
                                                                   jmenované entity, což jsou např. názvy osob (Petr Novák,
                                                                   Čao C’jang), zvířat (Alík), lokací (Hradec Králové), in-
Koordinace s elidovanými větnými členy. Podobně jako            stitucí (Česká národní banka, Koh-i-Noor) apod., a více-
u srovnávacích konstrukcí též u koordinačních spojení             slovné výrazy (např. státní zástupce, šelma kočkovitá) –
často dochází k elipse části syntaktické struktury (tzv.         jejich anotace podléhá stejným pravidlům jako anotace
aktuální elipsa). V (povrchových) závislostních stromech           obecných jmen. (Adekvátní anotace je zachycena až na
PDT se elipsa nerekonstruuje, větné členy syntakticky zá-        tektogramatické rovině.)
vislé na členu vypuštěném se zavěšují tam, kde by visel            Automatická RA tedy v těchto případech nezíská z dat
člen vypuštěný (a označují se speciální analytickou funkcí      dostatečné informace a oba tyto typy výrazů jsou zpraco-
ExD).                                                              vávány jako obecné konstrukce, což s sebou nese poněkud
    Takové případy ovšem způsobují při automatické RA           problematické redukce výrazů, které by měly být zpraco-
problémy, nebot’ při redukci může docházet k porušení            vávány v jednom kroku, např.:
plynulosti (či alespoň stylistické souvislosti) redukova-        Kupříkladu sedmdesátiletý Čchiao Š’ či pětasedmdesáti-
ných vět (i když z hlediska čistě formální syntaxe jsou         letý Čao C’jang.
správně):                                                         –> Kupříkladu sedmdesátiletý Š’ či pětasedmdesátiletý
[...], Flintstoneovi sice nepřinášejí zábavu náročnou, ale       Čao C’jang.
ani nevkusně prostoduchou. (= prostoduchou zábavu)                [ ...]
–> ??[...], Flintstoneovi sice nepřinášejí zábavu, ale ani        –> Š’ či pětasedmdesátiletý Čao C’jang.
nevkusně prostoduchou.                                            –> Š’ či pětasedmdesátiletý Čao jang.
[...] jsou a zdaleka ne tak časté jako ředění zmrzlin. (=       –> Š’ či pětasedmdesátiletý jang.
jako je časté ředění zmrzlin)                                      Vzhledem k tomu, že tyto jevy se primárně netýkají syn-
–> ?? [...] jsou a zdaleka ne časté jako ředění zmrzlin.        taxe, ale dostupné slovníkové informace, při návrhu auto-
  Možným řešením je zcela vyloučit eliptické konstruk-           matické RA od chyb ve zpracování pojmenovaných entit a
ce související s koordinací z automatického zpracování             víceslovných výrazů odhlížíme.
(vzhledem k takto vzniklým nepravidelnostem obvykle
nelze věty tohoto typu úspěšně automaticky redukovat až
na základní predikativní strukturu).                               Redukce valenčních doplnění. Při návrhu (povrchové)
                                                                   redukční analýzy vycházíme z povrchově syntaktické
                                                                   struktury vět (uchovávané na tzv. analytické rovině PDT),
Konstrukce s nejasnou závislostí – typ do konce roku.              která nepracuje s informací o valenční charakteristice jed-
U jistých konstrukcí, především u některých časových ur-        notlivých plnovýznamových slov a o tzv. vypustitelnosti
čení (např. těsně před Vánocemi, 185 minut týdně) a míst-    jejich valenčních doplnění (tato informace je doplňována
ních určení (dva kilometry od řeky), bývá někdy těžké roz-     až na tektogramatické rovině, která je už ovšem od povr-
hodnout, zda jsou na sobě nezávislá, či zda jedno rozvíjí        chové syntaxe poměrně vzdálena). Proto ani RA nemůže
druhé.                                                             pracovat s valenční informací.
   PDT v těchto případech vychází z poněkud technických            Tato skutečnost má zásadní dopad na (povrchovou) au-
pravidel anotačního manuálu [21]. Metoda RA zde nedává            tomatickou RA: protože RA nemá k dispozici valenční
spolehlivé výsledky, viz např.                                    slovník, redukuje postupně všechna objektová a adverbi-
V Bratislavě by mělo vzniknout do konce roku, stejně jako       ální doplnění sloves a atributivní doplnění substantiv, bez
66                                                                                                            M. Lopatková, J. Mírovský, V. Kuboň


ohledu na jejich (ne)valenční charakter a vypustitelnost.                    zejména spojení koordinace a postavení klitik či pořadí vy-
Ačkoli typicky jsou závislé členy vypustitelné, v řadě pří-              pouštění slovesných doplnění představují problémy, které
padů dochází k zásadnímu posunutí významu či k poru-                        zatím nebyly uspokojivě lingvisticky zpracovány.
šení plynulosti (či dokonce správnosti) redukovaných vět.
Následující příklady ilustrují posun významu (jít o něco
                                                                              Grantová podpora
–> jít) a neúplnou strukturu (redukce adjektivního objektu
v postpozici).                                                                Práce na tomto tématu je podpořena z grantu GAČR číslo
Jde o činorodost a právě ona [...] dělá ze všech protago-                  P202/10/1333. Tento článek využívá jazyková data vyvi-
nistů Genu [...] elitu.                                                      nutá a/nebo distribuovaná v rámci projektu MŠMT ČR
–> Jde a právě ona [...] dělá ze všech protagonistů Genu                   LINDAT/CLARIN (projekt LM2010013).
[...] elitu.
[...] odrážejí tendenci vývoje oproštěného od vlivů i od                    Reference
hodnot.
–> * [...] odrážejí tendenci vývoje oproštěného.                              [1] Tesnière, L.: Eléments de syntaxe structurale. Librairie C.
    Další problém spojený s valenční charakteristikou jed-                        Klincksieck, Paris (1959)
notlivých slov spočívá v pořadí vypouštění během RA.                       [2] Kuboň, V., Lopatková, M., Mírovský, J.: A Case Study of a
Pravidla pro vypouštění např. slovesných doplnění nejsou                        Free Word Order. In: Proceedings of PACLIC 2013. (2013)
v českých gramatikách (alespoň podle nám dostupných in-                      [3] Lopatková, M., Plátek, M., Kuboň, V.: Modeling Syntax
formací) formálně zpracována, přesto je zřejmé, že zde                          of Free Word-Order Languages: Dependency Analysis by
                                                                                   Reduction. In: Proceedings of TSD 2005. Volume 3658 of
platí nějaká omezení; např. vypouštění dativních doplnění
                                                                                   LNAI., Berlin Heidelberg, Springer-Verlag (2005) 140–147
či doplnění realizovaných předložkovou skupinou by ty-
                                                                               [4] Lopatková, M., Plátek, M., Sgall, P.: Towards a Formal
picky mělo předcházet vypouštění akuzativního doplnění
                                                                                   Model for Functional Generative Description: Analysis by
(a to i v případě aktuální elipsy), viz následující příklady:                   Reduction and Restarting Automata. The Prague Bulletin
[...] poskytují služby a činnost bud’ přímo nebo prostřed-                      of Mathematical Linguistics 87 (2007) 7–26
nictvím specializovaných institucí.                                            [5] Hajič, J., Panevová, J., Hajičová, E., Sgall, P., Pajas, P.,
–> ?? [...] poskytují bud’ přímo nebo prostřednictvím spe-                       Štěpánek, J., Havelka, J., Mikulová, M., Žabokrtský, Z.,
cializovaných institucí.                                                           Ševčíková-Razímová, M.: Prague Dependency Treebank
–> [...] poskytují služby a činnost.                                              2.0. LDC, Philadelphia, PA, USA (2006)
Občané si mohou vyšetření objednat v hygienických stani-                     [6] Mel’čuk, I.A.: Dependency in language. In: Proceedings
cích.                                                                              of DepLing 2011, Barcelona (2011) 1–16
–> ?? Občané si mohou objednat v hygienických stanicích.                      [7] Gerdes, K., Kahane, S.: Defining dependencies (and con-
–> Občané mohou vyšetření objednat v hygienických sta-                           stituents). In: Proceedings of DepLing 2011, Barcelona
nicích.                                                                            (2011) 17–27
   Vzhledem k nevyjasněným pravidlům a omezením na                           [8] Sgall, P., Hajičová, E., Panevová, J.: The Meaning of the
pořadí vypouštění jednotlivých doplnění4 při automatické                       Sentence in Its Semantic and Pragmatic Aspects. Reidel,
RA od stylistických pochybení či nekorektností způsobe-                          Dordrecht (1986)
ných nesprávným pořadím vypouštění valenčních dopl-                         [9] Jančar, P., Mráz, F., Plátek, M., Vogel, J.: On monotonic
nění odhlížíme.                                                                   automata with a restart operation. Journal of Automata,
                                                                                   Languages and Combinatorics 4 (1999) 287–311
                                                                              [10] Otto, F.: Restarting Automata. In: Recent Advances in
6 Závěrečné shrnutí                                                              Formal Languages and Applications, Studies in Compu-
                                                                                   tational Intelligence. Volume 25., Berlin, Springer-Verlag
Hlavním smyslem našich experimentů bylo ověřit použi-                           (2006) 269–303
telnost automatické redukční analýzy na složitější jazy-                    [11] Plátek, M., Mráz, F., Lopatková, M.: (In)Dependencies
kové jevy (koordinace, apozice) a vytipovat určité proble-                        in Functional Generative Description by Restarting Auto-
matické konstrukce, které v budoucnu poslouží jako ma-                             mata. In: Proceedings of NCMA 2010. Volume 263 of
teriál jak pro další lingvistický výzkum, tak i pro další                          books@ocg.at., Wien, Austria, Österreichische Computer
                                                                                   Gesellschaft (2010) 155–170
zjemnění či modifikaci samotné metody redukční analýzy
a pro formální popis vlastností přirozených jazyků. Ex-                     [12] Martin Plátek and Dana Pardubská and Markéta Lopat-
                                                                                   ková: On Minimalism of Analysis by Reduction by Re-
perimenty ukázaly, že i koordinace a apozice se ve vět-
                                                                                   starting Automata. In Morrill, G., Muskens, R., Osswald,
šině případů dají redukovat automaticky. Zároveň se po-                        R., Richter, F., eds.: Formal Grammar 2014. Volume 8612
dařilo objevit několik problematických konstrukcí, z nichž                       of LNCS., Berlin Heidelberg, Springer-Verlag (2014) 155–
     4 Podle [22] hrají roli nejen povrchové formy doplnění, ale i typ va-
                                                                                   170
lenčního vztahu a obligatornost doplnění, tedy informace náležející do      [13] Kuboň, V., Lopatková, M., Mírovský, J.: Automatic Pro-
valenčního slovníku, a tedy na tektogramatickou rovinu (nikoli na rovinu          cessing of Linguistic Data as a Feedback for Linguistic
povrchové syntaxe).                                                                Theory. In Castro, F., Gelbukh, A., González, M., eds.:
Gramatické závislosti vs. koordinace z pohledu redukční analýzy       67


     Proceedings of the 12th Mexican International Conference
     on Artificial Intelligence (MICAI 2013). Volume 8265 of
     LNCS., Berlin Heidelberg, Springer-Verlag (2013) 252–
     264 volume 1.
[14] Šmilauer, V.: Novočeská skladba. SPN, Praha (1966)
[15] Štěpánek, J.: Závislostní zachycení větné struktury v ano-
     tovaném syntaktickém korpusu (nástroje pro zajištění kon-
     zistence dat). PhD thesis, MFF UK, Prague (2006)
[16] Oliva, K.: Linguistics behind the Mirror. In Lopatková,
     M., ed.: Information Technologies – Applications and The-
     ory, Košice, Slovakia, Univerzita Pavla Jozefa Šafárika v
     Košiciach (2011) 1–6
[17] Karlík, P., Nekula, M., Pleskalová, J., eds.: Encyklope-
     dický slovník češtiny. Nakladatelství Lidové noviny, Praha
     (2002)
[18] Hana, J.: Czech Clitics in Higher Order Grammar. PhD
     thesis, The Ohio State University (2007)
[19] Běličová, H., Uhlířová, L.: Slovanská věta. Euroslavica,
     Praha (1996)
[20] Běličová, H., Sedláček, J.: Slovanské souvětí. Academia,
     Praha (1990)
[21] Hajič, J., Panevová, J., Buráňová, E., Urešová, Z., Bémová,
     A., Štěpánek, J., Pajas, P., Kárník, J.: Anotace na analytické
     rovině. návod pro anotátory. Technical Report TR-2004-23,
     UFAL MFF UK (2004)
[22] Lopatková, M.: O homonymii předložkových skupin. (Co
     umí počítač?). Karolinum, Praha (2003)