Dieci sfumature di marcatezza sintattica: verso una nozione computazionale di complessità Erica Tusa Università di Pisa ericatusa@hotmail.it Felice Dell’Orletta, Simonetta Montemagni, Giulia Venturi Istituto di Linguistica Computazionale “Antonio Zampolli” (ILC–CNR) ItaliaNLP Lab - www.italianlp.it {nome.cognome}@ilc.cnr.it Abstract contributo di Kučera (1982), che fondandosi sulla correlazione tra marcatezza e frequenza propone English. In this work, we will investiga- i risultati di uno studio computazionale della no- te whether and to what extent algorithms zione di marcatezza a livello lessicale e gramma- typically used to assess the reliability of ticale condotto sul Brown corpus. Se da un lato the output of syntactic parsers can be used l’evidenza raccolta conferma la correlazione atte- to study the correlation between proces- sa tra frequenza e marcatezza, dall’altro vengono sing complexity and the linguistic notion registrati casi interessanti in cui “the statistical evi- of markedness. Although still prelimina- dence from the Brown Corpus offers both greater ry, achieved results show the key role of problems and greater insight. [...] The frequen- features such as dependency direction and cy data is [...] the reverse of what one might have length in defining the markedness degrees assumed under the markedness analysis”. of a given syntactic construction. Oggi, a più di 40 anni dallo studio pioniestico di Italiano. In questo lavoro indagheremo Kučera (1982) che si fondava su un corpus anno- se e come algoritmi tipicamente utilizzati tato morfo–sintatticamente di circa un milione di per valutare l’affidabilità dell’analisi pro- parole, è possibile estrarre da corpora di ben mag- dotta da strumenti di annotazione sintat- giori dimensioni informazione linguistica accurata tica automatica possono essere utilizzati e variegata. L’affidabilità crescente degli strumen- per studiare la correlazione tra comples- ti di Trattamento Automatico del Linguaggio sta sità computazionale e la nozione lingui- rendendo infatti possibile l’acquisizione di eviden- stica di marcatezza. I risultati raggiunti, za quantitativa e computazionale che spazia attra- sebbene ancora preliminari, mostrano il verso diversi livelli di descrizione linguistica, in- ruolo chiave di fattori quali l’orientamen- cluso quello sintattico, che può contribuire in mo- to della relazione e la lunghezza della di- do significativo allo studio di questioni aperte del- pendenza nel definire le varie “sfumature” la letteratura linguistica: Merlo (2016) rappresenta di marcatezza di una stessa relazione. un importante esempio di questo rinnovato filone di studi. All’interno del quadro delineato sopra, l’obiet- 1 Introduzione tivo del presente contributo è verificare se e in che Fin dagli anni ’80, è andata affermandosi la con- misura algoritmi per l’identificazione dell’affida- vinzione che metodi e tecniche sviluppate nel- bilità e plausibilità dell’annotazione sintattica pos- l’ambito della linguistica computazionale potesse- sano contribuire allo studio di un fenomeno lin- ro contribuire a far avanzare la ricerca fornendo guistico quale la marcatezza. Con l’uso sempre nuova evidenza per lo studio di nozioni chiave del- più diffuso dell’annotazione sintattica a dipenden- la linguistica teorica. “Computational linguistics ze come punto di partenza per una vasta gamma provides important potential tools for the testing di applicazioni finalizzate all’estrazione di infor- of theoretical linguistic constructs and of their po- mazione da vaste collezioni documentali, tali al- wer to predict actual language use”: cosı̀ si apre il goritmi nascono dalla necessità di identificare al- l’interno delle annotazioni prodotte in modo auto- te a costruzioni caratterizzate da gradi crescenti matico quelle corrette o, più semplicemente, ca- di marcatezza. L’assunto di base sottostante a ta- ratterizzate da un maggior grado di affidabilità e le ipotesi si fonda sulla correlazione, ampiamen- plausibilità. Questo tipo di valutazione può av- te adottata nella letteratura linguistica, tra mar- venire in relazione sia all’intero albero sintattico catezza e complessità: se da un lato costruzio- assegnato alla singola frase (cfr. ad esempio Del- ni non marcate saranno caratterizzate da un mag- l’Orletta et al. (2011) e Reichart and Rappoport gior livello di plausibilità di annotazione (dun- (2009b)), sia alla singola relazione di dipendenza que da un minore livello di complessità), dall’al- (si vedano, tra gli altri, Dell’Orletta et al. (2013) tro costruzioni caratterizzate da gradi crescenti di e Che et al. (2014)). Se da un lato l’identifica- marcatezza saranno associate a punteggi di mi- zione di alberi sintattici corretti rappresenta un in- nore di plausibilità (equivalente a una maggiore grediente fondamentale all’interno di algoritmi di complessità). Active Learning (Settles, 2012) o di apprendimen- All’interno della letteratura linguistica, la “mar- to automatico semi–supervisionato e non supervi- catezza” rappresenta una nozione ampiamente di- sionato (Goldwasser et al., 2011), l’identificazione battuta e altamente polisemica. Secondo quan- dell’affidabilità di singole relazioni di dipenden- to affermato da Haspelmath (2006), a partire dal- za e/o sotto–alberi sintattici diventa fondamentale, le prime accezioni delineate negli anni ’30 (Ja- ad esempio, per fornire evidenza utile a migliora- kobson, 1932) essa può essere ricondotta a dodi- re le prestazioni di un sistema di analisi sintattica ci significati diversi, organizzati in quattro classi: automatica (vanNoord, 2007; Chen et al., 2009), “markedness as complexity, as difficulty, as abnor- oppure per l’estrazione di nuclei di informazione mality, or as a multidimensional operation”. Tra affidabili. queste, il presente contributo intende focalizzarsi Nel presente studio, ci focalizzeremo sul secon- sulla definizione di “markedness as abnormality” do tipo di algoritmi, ovvero quelli che operano a e, in particolare, sull’idea che quando consideria- livello della singola relazione di dipendenza, per mo “marcato” un determinato evento linguistico lo verificarne le potenzialità nello studio della nozio- stiamo considerando “abnormal”, ovvero devian- ne di marcatezza linguistica. Per quanto questi al- te rispetto a strutture linguistiche riconosciute co- goritmi operino tipicamente su corpora annotati in me basiche all’interno della “norma linguistica”. modo automatico (Dickinson, 2010), sono attesta- In questa ottica, la marcatezza come devianza ri- ti usi anche su corpora con annotazione validata spetto alla norma è strettamente connessa sia con manualmente (qualificata come “gold”): in questo la frequenza d’uso (cfr. “markedness as rarity in caso, il fine consiste nell’identificazione di errori texts”), sia rispetto alla distribuzione di un even- e incoerenze di annotazione (Dickinson, 2015). Il to linguistico all’interno di una varietà più o meno risultato di questi algoritmi varia da una classifica- ampia di contesti linguistici (cfr. “markedness as zione binaria della dipendenza (corretta vs. errata) restricted distribution”). come in Che et al. (2014), a un ordinamento del- In quanto segue, analizzeremo i risultati di le relazioni secondo l’affidabilità e la plausibilità un algoritmo per la valutazione della plausibilità dell’analisi, come proposto da Dell’Orletta et al. di singole relazioni alla luce delle accezioni di (2013). Al di là di differenze a livello dell’algorit- marcatezza selezionate. mo utilizzato e del tipo di risultato, in tutti i casi viene fatto uso di un esteso inventario di caratte- 3 Metodologia di analisi e corpora ristiche linguistiche selezionate come indicatori di complessità. L’algoritmo che abbiamo utilizzato per la misura della plausibilità dell’annotazione sulla base del- 2 L’ipotesi di ricerca la quale produrre l’ordinamento delle relazioni di dipendenza è costituito da LISCA (Dell’Orletta et Combinando la prospettiva linguistica e quella al., 2013). Tale algoritmo assegna a ogni relazio- linguistico–computazionale, l’ipotesi che inten- ne – definita come una tripla (d, h, t) dove d è il diamo esplorare è se il punteggio assegnato da dipendente, h è la testa, e t è il tipo di dipenden- algoritmi per la misura della plausibilità dell’an- za che connette d a h – un valore di plausibilità. notazione possa essere utilizzato per ricostruire LISCA opera in due fasi: 1) colleziona statistiche il passaggio graduale da costruzioni non marca- relative a un insieme di caratteristiche linguistica- mente motivate estratte da un ampio corpus di al- beri a dipendenze ottenuti attraverso un processo di annotazione sintattica automatica; 2) combina queste statistiche all’interno di una funzione de- scritta in Dell’Orletta et al. (2013) per ottenere il punteggio da associare all’arco sintattico in cor- so di valutazione. La combinazione viene calco- lata come il prodotto dei pesi associati a ciascuna caratteristica identificata. La Figura 1 descrive graficamente le caratteri- stiche prese in esame da LISCA per la misura della plausibilità dell’arco sintattico (d, h, t). Ai fini del presente studio, LISCA è stato utilizzato nella sua variante delessicalizzata per poter fare astrazione da variazioni di natura lessicale. In particolare, so- no stati presi in considerazione due diversi tipi di caratteristiche, entrambe associate nella letteratura linguistica alla nozione di complessità sintattica: Figura 1: Caratteristiche utilizzate LISCA per il • tratti locali, corrispondenti alle peculiarità calcolo della plausibilità dell’arco (d, h, t). dell’arco sintattico considerato, come ad esempio la distanza in termini di tokens al- l’interno della frase tra d e h, oppure la forza di dipendenza tra parole lessicali trattando le paro- associativa che unisce le categorie grammati- le grammaticali come dipendenti di parole seman- cali coinvolte (POSd e POSh ), o la POS della ticamente piene (Nivre, 2015). IUDT costituisce testa di h e il tipo di relazione sintattica che li anche il corpus di indagine di questo lavoro: at- lega; traverso LISCA a ogni arco sintattico del corpus è • tratti globali, volti a localizzare l’arco con- stato assegnato un punteggio. siderato all’interno della struttura sintattica della frase, ad esempio la distanza di d ri- 4 Analisi dei dati spetto alla radice dell’albero, oppure rispet- to alla foglia più vicina o a quella più lon- I punteggi assegnati da LISCA alle relazioni di di- tana, oppure il numero di nodi “fratelli” e pendenza della IUDT sono stati utilizzati per ordi- “figli” di d ricorrenti rispettivamente alla sua nare le relazioni in ordine descrescente di plausibi- destra–sinistra nell’ordine lineare della frase. lità. La lista ordinata cosı̀ ottenuta è stata suddivi- sa in 10 fasce di 24,644 relazioni ciascuna (corri- In questo studio, per estrarre le statistiche ri- spondente al 10% del totale). Partendo dall’analisi spetto alle caratteristiche linguistiche prese in esa- della variazione della distribuzione dei tipi di re- me, LISCA è stato applicato a un corpus di lazioni di dipendenza attraverso le fasce, ci siamo 1.104.237 frasi (22.830.739 tokens) estratte da poi focalizzati su singole relazioni, con l’intento di articoli del quotidiano La Repubblica, parte del ricostruire il passaggio da non marcato (o prototi- CLIC-ILC Corpus (Marinelli et al., 2003). Il cor- pico) a marcato, e di identificare i fattori che con- pus è stato annotato a livello morfosintattico con tribuiscono a determinare il grado di marcatezza l’ILC–POS–Tagger (Dell’Orletta et al., 2009) e a di una costruzione, definita in questo studio come livello sintattico a dipendenze con DeSR (Attardi una relazione di dipendenza all’interno del conte- et al., 2009). Gli strumenti di annotazione sono sto sintattico di occorrenza. Nella consapevolezza stati addestrati sulla Italian Universal Depende- che le relazioni sono distribuite all’interno delle cies Treebank, in breve IUDT (Bosco et al., 2013). fasce in virtù della combinazione di tutte le carat- Lo schema di annotazione utilizzato è quello delle teristiche locali e globali prese in considerazione, “Universal Dependencies”, concepito per massi- ci siamo focalizzati su due parametri ampiamente mizzare il parallelismo delle annotazioni in lingue indagati nella letteratura linguistica con l’intento diverse e che per questo motivo privilegia relazioni di verificare se e in che misura l’ordinamento di Figura 2: Distribuzione di una selezione di Figura 3: Orientamento generale delle dipenden- dipendenze. ze. LISCA rifletta note gerarchie di marcatezza. In La Figura 2 riporta l’andamento della distribu- particolare, è stato analizzato il ruolo i) dell’orien- zione di sei relazioni di dipendenza selezionate tamento della dipendenza, definito dalla direzione come segue: due relazioni concentrate principal- verso destra o sinistra dell’arco sintattico che lega mente nelle prime fasce (det, case), due relazio- d a h rispetto all’ordine lineare delle parole nella ni caratterizzate da una distribuzione più diffusa frase, e ii) della lunghezza della relazione di di- (amod, nmod) e due relazioni maggiormente ricor- pendenza, calcolata come la distanza in parole tra renti nelle ultime fasce (nsubj, dobj). La distribu- d e h. zione delle relazioni che vedono una parola gram- maticale come dipendente all’interno delle prime 4.1 Distribuzione delle dipendenze fasce può essere ricondotta alle strutture general- Partiamo dall’analisi della distribuzione delle di- mente fisse o poco variabili, che le rendono facil- pendenze nelle 10 fasce. Nelle prime fasce si os- mente trattabili computazionalmente. D’altro lato, serva un insieme ristretto di tipi di dipendenze, le parole lessicali tendono ad inserirsi in costruzio- la cui frequenza diminuisce proporzionalmente al ni più complesse, caratterizzate da una maggiore decrescere dei punteggi assegnati da LISCA. Man flessibilità a livello dell’ordine lineare all’interno mano che si prosegue verso le fasce intermedie, i della frase, e potenzialmente soggette a condizio- tipi di dipendenza all’interno di ciascuna fascia si namenti di tipo pragmatico che portano alla for- fanno più numerosi e variabili. Gli archi con i pun- mazione di strutture sintattiche più complesse. La teggi più alti, che si collocano nelle prime fasce, presenza diffusa della relazione amod attraverso mettono in relazione parole grammaticali e paro- le fasce rappresenta un caso diverso, non ricondu- le lessicali, come det(erminer), case e mark(er), cibile alla libertà di movimento ma piuttosto al- che collegano, rispettivamente, articoli, preposi- la direzione degli archi sintattici che li collegano zioni, congiunzioni subordinanti o avverbi alla re- alla loro testa: mentre la distanza media tra d e lativa testa. Proseguendo oltre le prime due fasce, h in amod rimane tendenzialmente costante attra- troviamo relazioni come advmod (adverbial mo- verso le fasce, la direzione della relazione varia difier), nummod (numerical modifier), cop(ula) e significativamente. In quanto segue, ci concentre- aux(iliary) che collegano, rispettivamente, avver- remo su due dei parametri che sembrano svolgere bi, numerali, copule e ausiliari (verbi modali com- un ruolo chiave nella distribuzione delle relazioni presi) alla loro testa. A partire dalla quinta fascia si attraverso le fasce. osserva un’incidenza sempre maggiore di relazio- ni che collegano parole lessicali come sostantivi 4.2 Orientamento delle dipendenze e verbi alla loro testa, ad esempio nsubj (nominal La Figura 3 riporta la distribuzione attraverso le fa- subject), dobj (direct object), ccomp (clausal com- sce di tutte le relazioni di dipendenza, facendo di- plement), xcomp (clausal complement with con- stinzione tra dipendenze con testa a destra (d > h) trolled subject) e root. Un caso a parte è rappre- e dipendenze con testa a sinistra (h < d). Si sentato dalle relazioni amod e nmod che collegano osserva che i due tipi di orientamento, nonostan- modificatori aggettivali o nominali con la relativa te ricorrano con frequenza molto simile (112.886 testa: esse si distribuiscono in modo simile in tutte d > h vs 104.301 h < d), sono descritti da anda- le fasce. menti opposti: nelle prime fasce si concentrano le Figura 4: Orientamento di una selezione di Figura 6: Andamento della lunghezza media di dipendenze. una selezione di dipendenze per fascia. centrarsi nelle prime fasce, come det e case, ma anche relazioni dalla distribuzione più bilanciata come amod e dobj risultano essere quelle più bre- vi (la loro lunghezza in media non supera una di- stanza di 2 parole tra testa e dipendente); dipen- denze come nsubj e nmod, che collegano unità dall’ordinamento più flessibile, cioè caratterizza- te da una maggiore libertà di movimento rispetto alla loro testa, raggiungono in media, soprattutto Figura 5: Andamento generale della lunghezza verso le ultime fasce, le lunghezze maggiori. Con- media delle dipendenze per fascia. siderando il ruolo ampiamente ascritto in letteratu- ra, non solo linguistico–computazionale ma anche relazioni di tipo d > h, nelle ultime quelle h < d. linguistica e psicolinguistica, alla lunghezza del- Nella Figura 4 è riportato l’andamento attra- le dipendenze come fattore di complessità lingui- verso le fasce dell’orientamento di due relazioni, stica, questi dati costituiscono una prova ulteriore amod e nsubj. Nel caso di amod le teste dei modi- che l’ordinamento prodotto da LISCA riflette la ficatori aggettivali si trovano in netta maggioran- marcatezza della costruzione. za a sinistra, soprattutto nella seconda fascia: gli aggettivi postnominali, dunque in posizione non 5 Conclusione marcata, sono stati valutati come più plausibili e computazionalmente trattabili. Invece, nsubj, che In questo studio abbiamo esplorato l’ipotesi che collega il soggetto nominale alla testa verbale, nel- algoritmi sviluppati per valutare l’affidabilità e la la maggior parte dei casi presenta la testa a destra: plausibilità di annotazioni sintattiche a dipenden- il soggetto preverbale corrisponde all’ordine non ze possano fornire evidenza utile a una riflessione marcato in italiano. La sequenza verbo–soggetto è attorno al tema della complessità sintattica, e in attestata, con andamento crescente, a partire dalla particolare a ricostruire “sfumature” di marcatez- fascia 6. Le relazioni che sono state valutate con za crescente in relazione alla stessa relazione di di- i punteggi più alti, ovvero det e case, mostrano la pendenza. I primi risultati raggiunti sono incorag- testa sempre a destra. gianti: quanto osservato in relazione alla distribu- zione delle dipendenze attraverso le fasce ci porta 4.3 Lunghezza delle dipendenze a ipotizzare una forte correlazione tra la comples- Nella Figura 5, per ciascuna fascia è riportata la sità computazionale dell’analisi individuata da LI- media delle lunghezze delle relazioni di dipenden- SCA e la nozione di marcatezza sintattica. È sta- za: si osserva che il punteggio di LISCA decre- to indagato in particolare il ruolo di fattori quali sce in maniera inversamente proporzionale al va- l’orientamento della relazione e la lunghezza della lore della lunghezza media. Nella Figura 6 sono dipendenza, con risultati che mostrano chiaramen- riportate le medie all’interno di ogni fascia delle te che un algoritmo come LISCA può essere un lunghezze di un gruppo selezionato di dipenden- valido strumento anche per analisi di tipo lingui- ze: alcune delle relazioni che abbiamo visto con- stico. Attraverso l’analisi della distribuzione delle relazioni di dipendenza nelle fasce definite sulla Computational Natural Language Learning, CoNLL base dell’ordinamento di LISCA è stato possibi- 2011, Portland, Oregon, USA, June 23-24, 2011, pp. 115–124. le non solo discriminare tra costruzioni marcate e non marcate (dato tipicamente recuperabile sulla Dell’Orletta F., Venturi G., Montemagni S. 2013. base della frequenza), ma anche identificare – re- Linguistically-driven Selection of Correct Arcs for Dependency Parsing. In Computaciòn y Sistemas. lazione per relazione – i fattori che hanno contri- ISSN 1405-5546, vol. 17, No. 2, pp. 125-136. buito a renderla marcata. Se l’orientamento della relazione gioca un ruolo cruciale nel caso di amod, Dickinson M. 2010. Detecting Errors in Automatically-Parsed Dependency Relations. In nel caso di nsubj è piuttosto la distanza tra la testa Proceedings of the 48th Annual Meeting of the As- e il dipendente a determinare la marcatezza della sociation for Computational Linguistics. Uppsala, costruzione. Ovviamente, questa metodologia di Sweden, Association for Computational Linguistics, analisi dovrebbe essere estesa alla vasta tipologia pp. 729–738. di caratteristiche linguistiche considerate. Dickinson M. 2015. Detection of annotation errors Gli sviluppi correnti di questo lavoro includo- in corpora. In Language and Linguistics Compass. no: l’estensione, al di là della lunghezza e l’orien- ISSN 1749-818X, vol. 9, No. 3, pp. 119-138. tamento della relazione, della tipologia di fattori Goldwasser D., Reichart R., Clarke J., Roth D. 2011. linguistici esplorati, per arrivare anche allo studio Confidence Driven Unsupervised Semantic Parsing. In Proceedings of the The 49th Annual Meeting dell’impatto di fattori lessicali; l’estensione del- of the Association for Computational Linguistics: la tipologia di costruzioni analizzate, che potreb- Human Language Technologies, Proceedings of the bero anche includere combinazioni di dipendenze Conference, 19-24 June, 2011, Portland, Oregon, corrispondenti a sotto–alberi sintattici. Riteniamo USA (ACL–2011). pp. 1486–1495. che la metodologia dovrebbe anche essere applica- Haspelmath M. 2006. Against markedness (and what ta a treebank di lingue diverse, cosı̀ come diversi to replace it with). In Journal of Linguistics. ISSN generi testuali all’interno della stessa lingua. 1469-7742, vol. 42, No. 01, pp. 25–70. Jakobson R. 1932. Zur Struktur des russischen Verbums. In Charisteria Gvilelmo Mathesio. References Kučera H. 1982. Markedness and Frequency: a Com- Attardi G., Dell’Orletta F., Simi M., Turian J. 2009. putational Analysis. In Proceedings of COLING 82. Accurate dependency parsing with a stacked multi- pp. 167-173. layer perceptron. In Proceedings of EVALITA 2009 - Evaluation of NLP and Speech Tools for Italian Marinelli R., L. Biagini, R. Bindi, S. Goggi, M. Mona- 2009, Reggio Emilia, Italia, Dicembre 2009. chini, P. Orsolini, E. Picchi, S. Rossi, N. Calzolari, A. Zampolli. 2003. The Italian PAROLE corpus: Bosco C., Montemagni, S., Simi, M. 2013. Conver- an overview. In Zampolli A. et al. (eds.), Computa- ting Italian Treebanks: Towards an Italian Stanford tional Linguistics in Pisa, Special Issue, XVI–XVII, Dependency Treebank. In Proceedings of the ACL Pisa-Roma, IEPI. Tomo I, pp. 401-421. Linguistic Annotation Workshop & Interoperability Merlo P. 2016. Quantitative computational syn- with Discourse, Sofia, Bulgaria, August 2013. tax: some initial results. In Italian Journal of Computational Linguistics. vol. 2. Che W., Guo J., Liu T. 2014. ReliAble dependency arc recognition. In Expert Systems with Applications. Nivre J. 2015. Towards a Universal Grammar for volume 41, number 4, pp. 17161722. Natural Language Processing. In Proceedings of the 16th International Conference, CICLing 2015, Chen W., Kazama J., Uchimoto K., Torisawa K. 2009. Cairo, Egypt, April 14-20, 2015, Part I. pp. 3–16. Improving Dependency Parsing with Subtrees from Auto-parsed Data. In Proceedings of the 2009 Reichart Roi and Ari Rappoport. 2009b. Sample Selec- Conference on Empirical Methods in Natural Lan- tion for Statistical Parsers: Cognitively Driven Al- guage Processing (EMNLP ’09). Association for gorithms and Evaluation Measures. In Proceedings Computational Linguistics. volume 2, pp. 570–579. of CoNLL 2009, pp. 3–11. Dell’Orletta F. 2009. Ensemble system for part-of- Settles B. 2012. Active Learning. Synthesis Lectu- speech tagging. In Proceedings of EVALITA 2009 - res on Artificial Intelligence and Machine Learning, Evaluation of NLP and Speech Tools for Italian 2009 Morgan & Claypool Publishers. Reggio Emilia, Italia, Dicembre 2009. van Noord G. 2007. In Proceedings of the 10th International Conference on Parsing Technolo- Dell’Orletta F. 2011. ULISSE: an Unsupervised gies (IWPT–2007). Association for Computational Algorithm for Detecting Reliable Dependency Par- Linguistics, pp. 1–10. ses. In Proceedings of the Fifteenth Conference on