=Paper=
{{Paper
|id=Vol-1749/paper44
|storemode=property
|title=Studio sull'Ordine dei Costituenti nel Confronto tra Generi e Complessità
(Analysis of Constituents Order Across Textual Genres and Complexity)
|pdfUrl=https://ceur-ws.org/Vol-1749/paper44.pdf
|volume=Vol-1749
|authors=Giulia Pieri,Dominique Brunato,Felice Dell'Orletta
|dblpUrl=https://dblp.org/rec/conf/clic-it/PieriBD16
}}
==Studio sull'Ordine dei Costituenti nel Confronto tra Generi e Complessità
(Analysis of Constituents Order Across Textual Genres and Complexity)==
Studio sull’ordine dei costituenti nel confronto tra generi e complessità Giulia Pieri• , Dominique Brunato , Felice Dell’Orletta • Università di Pisa, Emm&mmE Informatica giulia.pieri@mminformatica.it Istituto di Linguistica Computazionale “Antonio Zampolli” (ILC–CNR) ItaliaNLP Lab - www.italianlp.it {dominique.brunato, felice.dellorletta}@ilc.cnr.it Abstract 1994; Gibson, 1998; Gibson, 2000). Esaminan- do in maniera comparativa due treebank del La- Italiano. In questo articolo presentiamo tino e del Greco antico, lo studio di (Gulordava uno studio sull’ordine dei costituenti in e Merlo, 2015) ha dimostrato come la flessibili- italiano basato su corpora annotati in ma- tà dell’ordine sintattico, misurata come la distanza niera automatica fino all’analisi sintattica tra l’effettiva lunghezza delle dipendenze di una a dipendenze. L’indagine comparativa ha frase e la sua lunghezza ottimale (Gildea e Tem- permesso di valutare l’influenza sia del ge- perley, 2010), sia un elemento di complessità che nere testuale sia della complessità lingui- si può desumere tanto dalla minor precisione del stica nella distribuzione dei fenomeni di parsing automatico nell’analisi di queste lingue, marcatezza sintattica. quanto dalla tendenza che si riscontra nel tempo English. In this paper we present a study verso modelli di ordine fisso dei costituenti. on the order of constituents in Italian ba- Questo articolo propone uno studio quantitativo sed on automatically dependency–parsed per l’italiano, lingua di tipo VO (o a testa inizia- corpora. The comparative investigation le) e relativamente poco flessibile, volto a indagare has allowed to evaluate the influence of the se, e in che misura, la disposizione naturale o non textual genre and the linguistic complexi- marcata dei costituenti nella frase sia influenzata ty on the distribution of phenonemena of dal genere testuale e dalla complessità della lingua syntactic markedeness. usata nel testo. A questo scopo sono stati compa- rati due generi linguistici, narrativo e giornalistico, a loro volta distinti in due varietà linguistiche dif- 1 Introduzione ferenti per grado di complessità, dove tale grado Sebbene non esista una metrica universalmente è definito in relazione al lettore di riferimento. A valida con la quale poter classificare le lingue differenza delle analisi tradizionali di tipo corpus– secondo una scala di complessità (McWorther, based sull’ordine dei costituenti in italiano, tutti i 2001), esistono alcuni indicatori che, a diversi li- dati qui discussi sono ricavati da corpora annota- velli linguistici, possono essere assunti come in- ti in maniera automatica fino al livello di analisi dici di complessità ‘universalmente’ validi (Fio- sintattica a dipendenze. Anche se la ricostruzione rentino, 2009). Sul piano sintattico, uno di essi è della struttura sintattica da parte di un parser sta- rappresentato dall’ordine dei costituenti, per cui le tistico è soggetta inevitabilmente ad alcuni errori lingue che ammettono un ordine libero sono consi- (Montemagni, 2013), che aumentano per i testi di derate più complesse di quelle a ordine fisso. Nel- un dominio distante da quello del training (Gildea, la letteratura linguistica e psicolinguistica la fles- 2001), la varietà dei fenomeni che si possono mo- sibilità dell’ordine viene ricondotta, a sua volta, a nitorare con affidabilità a partire da un’analisi lin- fattori diversi che tengono in considerazione, da guistica automatica è molto ampia e complessa. La un lato, i principi semantici e pragmatici deter- prospettiva linguistico–computazionale apre dun- minati dalla struttura dell’informazione (Diessel, que prospettive di ricerca promettenti per la co- 2005), dall’altro i vincoli di performances, per cui struzione e la validazione su larga scala di model- le strutture non marcate sono quelle cognitivamen- li teorici sul funzionamento dei sistemi linguistici te meno costose che permettono al parlante di ela- sia in chiave tipologica sia rispetto ai tradizionali borare l’informazione più velocemente (Hawkins, assi di variazione linguistica. In quanto segue, verranno prima presentati i tokens) che include tutti gli articoli pubblicati dal corpora utilizzati in questo studio e successiva- 2000 al 2005 sul quotidiano La Repubblica, che si mente la metodologia di monitoraggio sui cui si rivolge ad una platea di lettori con un profilo cul- è basata l’estrazione delle caratteristiche linguisti- turale medio-alto. Il secondo (2Par) è un corpus che oggetto di indagine (Paragrafo 2.1); nel Pa- di 73.314 tokens che trae il nome dall’omonimo ragrafo 3 discuteremo i principali risultati ottenu- quotidiano Due Parole, un mensile di facile lettu- ti e infine trarremmo alcune conclusioni di questa ra curato da linguisti esperti in semplificazione dei ricerca. testi che hanno utilizzato un linguaggio control- lato per un pubblico adulto con un basso livello 2 I corpora di alfabetizzazione o con lievi disabilità intellet- tuali (Piemontese, 1996). Il corpus qui analizzato I corpora esaminati appartengono a due diversi ge- comprende tutti gli articoli scritti tra il 2001 e il neri testuali, narrativo e giornalistico. Per ciascun 2006. È importante sottolineare che, a differen- genere sono state selezionate due collezioni di te- za dei corpora di narrativa, il corpus giornalistico sti rappresentative di due varietà di lingua che si non è parallelo, in quanto i relativi testi “sempli- possono collocare a due poli opposti per comples- ci” (quelli di Due Parole) non sono il risultato di sità linguistica, dove il grado di complessità è de- un processo di semplificazione dei testi originali finito in base al destinatario previsto; ogni macro- di Repubblica. raccolta, dunque, contiene una collezione di testi “complessi” e una di testi “semplici”. 2.1 Analisi linguistica dei corpora I due corpora narrativi, Terence e Teacher, rappre- Come passo preliminare allo studio dei fenome- sentano la prima risorsa italiana per lo studio del- ni di ordinamento sintattico riportati in Sezione la semplificazione automatica e semi-automatica 3, i corpora sono stati arricchiti automaticamente dei testi (Brunato et al., 2015). Entrambi sono con annotazione morfo–sintattica e sintattica uti- costituiti da testi nella versione originale e nella lizzando la catena di analisi linguistica LinguA2 , rispettiva versione semplificata, allineate per cia- che integra il Part–of–Speech tagger descritto in scun corpus a livello di frase. Le versioni semplifi- (Dell’Orletta, 2009) e il parser a dipendenze De- cate derivano da due differenti strategie di sempli- SR (Attardi et al., 2009). L’annotazione linguisti- ficazione manuale: la strategia “strutturale”, che ca multi–livello ha permesso di analizzare gli stes- implica una semplificazione cumulativa (ovvero si tramite MONITOR–IT: questo strumento, adot- su diversi livelli linguistici) prodotta da esperti nel tando la metodologia di monitoraggio descritta in caso di Terence, e la strategia “intuitiva”, che si Montemagni (2013), consente di ricavare la distri- avvale invece dell’intuizione e dell’esperienza del- buzione di un’ampia gamma di caratteristiche les- l’insegnante nel caso di Teacher. In particolare, sicali, morfo–sintattiche e sintattiche rintracciate Terence si compone di 32 racconti brevi per l’in- automaticamente in un corpus a partire dall’output fanzia e delle rispettive versioni semplificate rivol- dei diversi livelli di annotazione linguistica. te a bambini dai 7 agli 11 anni con deficit uditivi o con difficoltà nella comprensione dei testi 1 . Tea- 3 Analisi dei dati cher è un corpus formato da 24 coppie di testi ori- ginali e semplificati raccolti da siti web educativi Per gli scopi di questa indagine sono di interesse specializzati che forniscono risorse gratuite per gli caratteristiche di ordine sintattico che fanno rife- insegnanti; in questo caso, il target della semplifi- rimento alla posizione lineare di un elemento ri- cazione sono principalmente studenti di lingua ita- spetto alla “testa” da cui è retto in una rappresen- liana L2. tazione sintattica a dipendenze. Gli elementi con- Per il genere giornalistico, invece, il materiale ana- siderati sono stati: il soggetto, l’oggetto, l’avver- lizzato è costituito da due corpora che raccolgono bio, l’aggettivo e la clausola subordinata, di cui rispettivamente testi esemplificativi di una varie- sono state calcolate: i) le occorrenze nella posi- tà complessa, Repubblica, e di una varietà sem- zione “canonica” rispetto alla matrice prevalente plice, Due Parole. Il primo (Rep) consiste in un SVO dell’italiano (preposta o posposta alla testa ampio corpus di testi giornalistici (pari a 232.908 a seconda dell’elemento indagato) e nella posizio- ne opposta, dunque “marcata” sintatticamente e/o 1 Questo corpus deriva dall’omonimo progetto dell’Unio- 2 ne Europea (Terence Consortium, 2012). http://linguistic-annotation-tool.italianlp.it/ Corpus Oggetto Soggetto Aggettivo Avverbio Pre-V Post-V Pre-V Post-V Pre-N Post-N Pre-V Post-V % AvD % AvD % AvD % AvD % AvD % AvD % AvD % AvD TT orig 9.18 1.93 90.82 2.52 85.38 2.56 14.62 2.88 53.91 1.11 46.09 1.2 55.49 2.4 44.51 1.61 Rep 8.37 2.43 91.63 2.72 80.14 3.87 19.86 3.45 41.87 1.19 58.13 1.32 56.11 2.66 43.89 1.47 TT sempl 7.87 1.93 92.13 2.43 84.28 2.23 15.72 2.63 56.53 1.12 43.47 1.16 56.24 2.19 43.76 1.47 2Par 3.47 1.6 96.53 2.56 89.11 3.07 10.89 3.5 24.97 1.09 75.03 1.12 56.69 3.84 43.31 1.4 Tabella 1: Ordine relativo dei costituenti (%) e distanza media (AvD) rispetto alla testa verbale (V) o nominale (N). pragmaticamente; ii) la distanza (in numero di to- pubblica (80,14%). La variazione rispetto al gra- kens) del dipendente dalla testa sintattica in en- do di complessità produce invece risultati coeren- trambe le posizioni. Per ognuno di questi dati, il ti alle aspettative solo per la prosa giornalistica, confronto tra i corpora è avvenuto su due livel- dove lo scarto tra Rep e 2Par è quasi di 10 punti li: la variazione di genere e il grado di comples- percentuali in favore dell’ordine canonico (2Par: sità. Infatti, scopo dello studio è stato verificare 89,11%). Al contrario, la semplificazione dei te- quali sono gli ordini degli elementi che vengono sti narrativi ha prodotto un aumento, seppure mi- condizionati dal genere testuale e quali dipendo- nimo, di soggetti postverbali (TT orig: 14,62%; no dal grado di complessità: l’ipotesi di partenza TT semp: 15,72%). Pur considerando che i testi era che fosse possibile ritrovare una somiglianza narrativi originali sono comunque più semplici di dell’ordine degli elementi in relazione al genere, quelli di Repubblica, proprio perché rivolti a bam- ma soprattutto verificare che, indipendentemente bini, questo dato potrebbe segnalare che forme di dal genere, i testi semplici sono più fedeli a segui- marcatezza sintattica sono talvolta preferite come re l’ordine canonico degli elementi, mentre i testi esito della semplificazione, perché permettono di complessi presentano una più alta percentuale di ottenere un testo narrativo più coeso, mantenendo- casi di ordine marcato. ne la progressione tematica. Interessanti sono an- La Tabella 1 mostra i risultati del monitorag- che i dati sulla distanza lineare tra soggetto e ver- gio relativi all’oggetto, al soggetto, all’aggettivo e bo che, in entrambi i generi della varietà semplice, all’avverbio3 . Partiamo dall’analisi degli elemen- aumenta quando il soggetto è in posizione postver- ti che, nel confronto complessivo tra corpora, di- bale. Si può ipotizzare, tuttavia, che la presenza mostrano una tendenza più netta a ricorrere nella dei tratti di accordo sul verbo in una lingua come posizione canonica: l’oggetto e il soggetto. Nel l’italiano renda meno difficoltosa la ricostruzione caso dell’oggetto, si osserva che i testi giornali- della dipendenza soggetto–verbo, anche quando il stici si attengono maggiormente all’ordine cano- soggetto è in posizione marcata. nico, mentre nei testi narrativi aumentano lieve- A differenza del soggetto e dell’oggetto, l’agget- mente le occorrenze dell’oggetto in posizione pre- tivo in italiano ha una posizione meno rigida nel verbale. L’ordine marcato con anteposizione del- sintagma nominale. Infatti, anche se la posizione l’oggetto alla testa verbale è inoltre influenzato dal non marcata è generalmente postnominale, essa grado di complessità della lingua: in ciascun gene- varia in base alla funzione semantica che l’agget- re infatti, quest’ordine ricorre in percentuale mi- tivo svolge rispetto al nome (Cinque, 2010). Que- nore nei testi semplici e tale differenza è evidente sta flessibilità trova conferme nell’analisi empiri- soprattutto in 2Par che registra poco più del 3% ca, tuttavia con differenze rispetto al genere: i te- di oggetti in posizione preverbale. Anche rispet- sti giornalistici, infatti, privilegiano l’ordine ten- to alla posizione del soggetto, è possibile notare denzialmente non marcato mentre quelli narrati- un’influenza sia del genere sia della complessità. vi mostrano la tendenza opposta. Anche in que- In questo caso, però, sono i testi narrativi origi- sto caso, sul piano della variazione testi comples- nali a rispettare maggiormente l’ordine canonico si/testi semplici, l’effetto è marcato solo per il ge- soggetto–verbo (85,38%) rispetto a quelli di Re- nere giornalistico (Rep: 58,13; 2Par: 75,03). Considerazioni analoghe possono essere avanzate 3 Per rendere possibile il confronto tra gradi di complessi- per l’avverbio, la cui posizione in italiano, pur es- tà, i corpora Terence e Teacher sono stati uniti così da ottenere sendo tendenzialmente postverbale, gode di ampia due corpora, l’uno composto di tutti i testi narrativi originali (TT orig), pari a 26.311 tokens, e l’altro di tutti i relativi testi flessibilità in relazione alla classe semantica di ap- semplificati (TT semp), pari a 24.083 tokens. partenenza (Bonvino et al., 2008). In tutti e quattro domini di riconoscimento delle relazioni sintatti- i corpora è preferita la posizione preposta al verbo, che (Hawkins, 1994). Anche se meno frequenti, che è anche quella a generare link sintattici me- i casi di anteposizione della subordinata si verifi- diamente più lunghi (si veda il dato riportato nella cano maggiormente nel genere giornalistico, addi- terzultima colonna). Si tratta di un dato significa- rittura nella varietà semplice (2Par: 15.71% Rep: tivo, soprattutto se si considera che il valore me- 15.37%). Questi dati sono riconducibili alle teo- dio più elevato è riportato proprio dai testi di 2Par rie che chiamano in causa l’interazione tra sintassi (3.84 tokens). Come per il caso del soggetto, an- e fattori pragmatici e semantici, per cui il gene- che questo dato suggerisce la necessità di raffinare re giornalistico sarebbe più propenso ad anteporre una nota misura di complessità sintattica quale la la subordinata alla principale poiché costituisce lo distanza dei link sintattici, tenendo in considera- sfondo tematico dell’evento principale e conferi- zione proprietà semantiche e morfologiche degli sce la funzione di collegamento tematico e intro- elementi coinvolti nella relazione di dipendenza. duzione per l’informazione nuova (Diessel, 2005). Infine, abbiamo condotto uno studio più detta- Come prevedibile, l’anteposizione della subordi- gliato sulla subordinazione (Tabella 2). Anche in nata determina dipendenze sintattiche mediamente questo caso sono state estratte sia le distribuzioni più lunghe; la difficoltà di processing che ne deri- percentuali della subordinata in posizione preposta va è compensata dall’uso di subordinate più sem- e posposta alla reggente sia la distanza (in nume- plici, non solo in termini di lunghezza totale ma ro di tokens) che separa la part–of–speech che in- soprattutto strutturalmente: in tutti i corpora, in- troduce la subordinata 4 dal verbo della reggente. fatti, le “catene” subordinanti hanno una profondi- Inoltre, questo dato è stato ulteriormente raffinato tà media minore quando la subordinata precede la andando a calcolare la lunghezza totale (in tokens) principale. dell’intera clausola subordinata e la sua profon- dità media, quest’ultima computata come nume- 4 Conclusione ro di relazioni di dipendenza che intercorrono tra la radice del sotto–albero della subordinata e una Questo articolo ha proposto uno studio comparati- parola senza dipendenti (foglia). vo su un particolare fenomeno relativo alla com- plessità sintattica, ovvero l’ordine dei costituen- Corpus Subordinata ti in italiano. Il confronto è stato condotto su Pre-Principale due livelli: la variazione di genere e il grado di % AvD Length Depth TT orig 10.12 9.71 8.93 3.86 complessità. Rep 15.37 11.51 9.49 4.16 Per quanto riguarda il primo, è stato possibi- TT sempl 11.03 8.0 7.19 3.63 le constatare che i testi giornalistici sono quelli 2Par 15.71 10.26 7.43 3.72 Post-Principale che maggiormente si attengono all’ordine canoni- TT orig 89.88 3.27 8.62 4.19 co degli elementi, mentre i testi narrativi hanno ri- Rep 84.63 3.44 12.07 5.28 portato una frequenza superiore di ordini marcati. TT sempl 88.97 2.94 7.91 4.12 2Par 84.29 3.0 8.39 4.36 Dal punto di vista della complessità, è chiara la tendenza in entrambi i generi a utilizzare l’ordi- Tabella 2: Ordine della clausola subordinata rispetto alla ne canonico come esito della semplificazione, sia principale. Per ciascuna posizione, vengono riportate la di- a seguito di un processo di semplificazione di un stribuzione percentuale (%), la distanza media dalla principa- le (AvD), la lunghezza media (Length) e la profondità media testo originale, sia quando il testo nativamente è (Depth) dell’intera subordinata. concepito come testo semplice. Indipendentemente dal genere, il fenomeno che I risultati indicano una netta preferenza per la è risultato più legato alla complessità riguarda l’u- posizione posposta rispetto alla principale. Il dato so delle subordinate. In entrambi i generi preval- è coerente con le previsioni dei modelli di proces- gono nettamente subordinate posposte alla prin- sing secondo cui questo ordinamento comporta un cipale in quanto più facili da processare e quan- impegno cognitivo minore da parte del parlante e do questa posizione non è rispettata si registra dell’ascoltatore perché consente di minimizzare i una tendenza alla semplificazione della subordina- 4 ta stessa sia in termine di numero di parole, ma so- Sono state considerate sia le subordinate esplicite, intro- dotte da una congiunzione subordinante, sia quelle implicite, prattutto strutturalmente, in termini di profondità introdotte da un verbo di modo infinito o da una preposizione. del sottoalbero sintattico. Va infine ricordato che tutte le osservazioni ri- Edward Gibson. 1998. Linguistic complexity: portate in questo studio sono basate su testi lingui- Locality of syntactic dependencies. Cognition, 68:1–76. sticamente annotati in maniera automatica, dun- que soggetti a errore. Nonostante ciò, ci aspet- Edward Gibson. 2000. The dependency Locality tiamo che almeno limitatamente all’analisi di testi Theory: A distance–based theory of linguistic com- dello stesso dominio e varietà di lingua, le distri- plexity. Image, Language and Brain, In W.O.A. Marants and Y. Miyashita (Eds.), Cambridge, MA: buzioni degli errori siano simili, permettendo dun- MIT Press, 95–126. que un confronto interno rispetto ai parametri lin- guistici indagati. L’affidabilità dei dati discussi è Daniel Gildea. 2001. Corpus variation and parser performance. Proceedings of Empirical Methods inoltre corroborata dal fatto che sono stati conside- in Natural Language Processing (EMNLP 2001), rati testi standard, linguisticamente vicini a quelli Pittsburgh, PA. sui quali gli strumenti di annotazione automatica sono tipicamente addestrati. D’altra parte, proprio Daniel Gildea, David Temperley. 2010. Do Grammars Minimize Dependency Length? Cognitive Science, perché la distribuzione degli errori potrebbe varia- 34(2):286–310. re al variare del dominio dei testi, tra gli sviluppi di questo lavoro intendiamo condurre delle anali- Kristina Gulordava, Paola Merlo. 2015. Diachronic Trends in Word Order Freedom and Dependency si a campione per verificare l’impatto dell’errore Length in Dependency-Annotated Corpora of Latin sui confronti ottenuti rispetto alle diverse strutture and Ancient Greek. In Proceedings of the Third In- esaminate. ternational Conference on Dependency Linguistics (Depling 2015), Uppsala, Sweden, August 24–26 2015, pp. 121–130. References John A. Hawkins 1994. A performance theory of or- Giuseppe Attardi, Felice Dell’Orletta, Maria Simi, Jo- der and constituency. Cambridge studies in Lingui- seph Turian. 2009. Accurate dependency parsing stics. Cambridge studies in Linguistics, Cambridge with a stacked multilayer perceptron. In Procee- University Press., Numero 73. dings of EVALITA 2009 - Evaluation of NLP and John. H. McWorther. 2001. The world’s sim- Speech Tools for Italian 2009, Reggio Emilia, Italia, plest grammars are creole grammars. Linguistic Dicembre 2009. Typology, 5, 125-166. Elisabetta Bonvino, Mara Frascarelli, Paola Pietran- Simonetta Montemagni. 2013. Tecnologie linguistico- drea. 2008. Semantica, sintassi e prosodia di alcune computazionali e monitoraggio della lingua italia- espressioni avverbiali nel parlato spontaneo. La co- na. Studi Italiani di Linguistica Teorica e Applicata municazione parlata, Massimo Pettorino, Antonel- (SILTA), (1), 145-172. la Giannini, Marianna Vallone, Renata Savy (Eds), Napoli, Liguori, 565–607. Maria Emanuela Piemontese. 1996. Capire e farsi capire. Teorie e tecniche della scrittura controllata. Dominique Brunato, Felice Dell’Orletta, Giulia Ventu- Napoli, Tecnodid. ri, Simonetta Montemagni. 2015. Design and an- notation of the first italian corpus for text simplifica- Terence Consortium. 2012. Story simplification: User tion. In Proceedings of LAW IX - The 9th Linguistic guide. Restricted Distribution. Annotation Workshop. Denver, Colorado, Giugno 2015. Guglielmo Cinque. 2010. The syntax of adjectives: A comparative study. In MIT Press. Felice Dell’Orletta. 2009. Ensemble system for part- of-speech tagging. In Proceedings of EVALITA 2009 - Evaluation of NLP and Speech Tools for Italian 2009, Reggio Emilia, Italia, Dicembre 2009. Holger Diessel. 2005. Competing motivations for the ordering of main and adverbial clauses. Linguistics, 43 (3): 449–470. Giuliana Fiorentino. 2009. Complessità linguistica e variazione sintattica. Studi Italiani di Linguistica Teorica e Applicata (SILTA), (2), 281-312.