<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Dalla Word Sense Disambiguation alla Sintassi: il Problema dell'Articolo Partitivo in Italiano</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Ignazio Mauro Mirto Emanuele Cipolla</string-name>
          <email>ignazio.mauro.mirto@unipa.it</email>
          <email>posta@emanuelecipolla.net</email>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Universita` degli Studi di Palermo Dipartimento Culture e Societa` V.le delle Scienze Ed.</institution>
          <addr-line>15 - 90128 Palermo</addr-line>
        </aff>
      </contrib-group>
      <abstract>
        <p>Italiano. Fuori contesto, un nesso come dei professori non da` certezza di dove collocare dei in relazione alle parti del discorso. Il nesso puo` per esempio valere o alcuni professori (per es. in Dei professori intervennero) o esprimere appartenenza (per es. i libri dei professori). Nel primo caso dei e` l'articolo partitivo di un nesso nominale, nel secondo e` la preposizione che introduce un complemento di specificazione. Questo caso di omonimia si puo` far rientrare nell'area del Word Sense Disambiguation, ma la sua rilevanza per la sintassi e per il NLP e` evidente. Nonostante cio`, in letteratura di esso non abbiamo trovato tracce. Il lavoro distingue diverse funzioni dei membri della serie e propone un algoritmo per disambiguare i due usi riferiti e altri, per esempio i complementi retti (come in Approfittano dei tuoi fratelli) che rendono la disambiguazione ancora piu` complessa.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>English. Out of context, a phrase of
Italian such as dei professori ’of.the teachers’
is ambiguous: it can either mean some
teachers (e.g. Dei professori
intervennero ’Some teachers attended’) or carry
the value of a Saxon genitive (e.g. i libri
dei professori ’the teachers’ books’). The
part of speech to which dei belongs cannot
be identified: dei could be a partitive
article in a noun phrase or a preposition in
a prepositional phrase. This key difference
raises a problem in the area of Word Sense
Disambiguation. Despite its relevance for
NLP, to the best of our knowledge this case
of homonymy has so far been disregarded
in the literature. The paper distinguishes
a number of functions dei carries and
proposes an algorithm that can automatically
discriminate between the two uses
mentioned above, but also identify others that
make the picture more complex.</p>
    </sec>
    <sec id="sec-2">
      <title>1 Introduzione</title>
      <p>Questo lavoro verte sull’articolo partitivo in
italiano, etimologicamente formato da di e da un
articolo determinativo. L’intera serie, del, dello, dell’,
della, dei, degli, delle, si presenta in superficie
identica alle omonime preposizioni articolate.</p>
      <p>Anche a un primo sguardo, la varieta` di esiti
che si ottiene collocando una sequenza come dei
professori in contesti differenti, con dei qui preso
come elemento rappresentativo dei sette membri
della serie, desta stupore per la numerosita` degli
usi e le conseguenti difficolta` che cio` crea nel NLP.</p>
      <p>
        Obiettivo del nostro lavoro e` la
disambiguazione automatica. Le difficolta` che un
tale compito pone sono numerose. Lo studio e`
parte di una ricerca piu` ampia che ha come fine
l’individuazione automatica del Soggetto1 di una
frase semplice
        <xref ref-type="bibr" rid="ref2">(Mirto and Cipolla, 2017)</xref>
        . In
genere, l’articolo partitivo non e` elemento
frequente nei testi, ma la sua rilevanza al fine di
ottenere maggiore precisione nella ricerca del
Soggetto e` evidente, come si vedra` nel prosieguo.
      </p>
      <p>
        La sezione 2 e` dedicata alle ambiguita`
semantiche che l’omonimia genera, derivanti da
ambiguita` strutturali. La sezione 3 presenta alcuni degli
a`mbiti grammaticali che creano ostacoli per la
corretta identificazione degli articoli partitivi.
Ognuno di questi a`mbiti ha determinato una parte
dello script presentato, che e` stato messo alla
prova su un corpus formato da 463 occorrenze
(casualmente scelte tra le complessive 580) degli
ele1Che, a giudicare dal numero di lavori reperibili in
letteratura, non sembra argomento che susciti grande interesse, in
particolare per l’italiano. Si veda almeno
        <xref ref-type="bibr" rid="ref1">(Dell’Orletta et al.,
2005)</xref>
        e i riferimenti ivi contenuti.
menti del paradigma rinvenute nel romanzo
Palomar di Italo Calvino. La sezione 4 conclude il
lavoro presentando i risultati ottenuti.
2
      </p>
    </sec>
    <sec id="sec-3">
      <title>Ambiguita`</title>
      <p>La frase Parlarono dei professori e`
semanticamente ambigua: il nesso dei professori puo` infatti
essere interpretato come complemento di
argomento (i professori sono l’argomento di cui
qualcuno parla) oppure come Soggetto post-verbale,
con dei equivalente, in buona sostanza, ad alcuni
(Parlarono dei/alcuni professori).</p>
      <p>Anche la frase Sono dei professori risulta
ambigua, visto che "oscilla" tra un significato di
appartenenza (Questi libri sono dei professori, se il
Soggetto questi libri viene omesso) e un
significato equativo, cioe` con identita` referenziale tra
nesso preverbale e nesso postverbale (Loro/Questi
sono dei professori, con loro/questi e professori
che rimandano allo stesso referente). Gia` da questi
casi e` possibile intuire alcune delle difficolta` di
parsing per l’italiano generate dall’articolo
partitivo, che ricorre in ognuno dei due casi di
ambiguita` presentati.</p>
      <p>Caratteristica precipua dell’articolo partitivo
dell’italiano e` la frequente possibilita` di farne a
meno, di ometterlo, a parita` di significato e
mantenendo inalterata l’accettabilita` della frase. E`
possibile farlo, per esempio, in Parlarono professori,
ovviamente non piu` ambigua, cos`ı come e`
possibile farne a meno negli usi equativi: Loro sono
professori. Di contro, l’omissione risulta
impossibile nel significato di appartenenza o di possesso:
*Questi libri sono professori e, chiaramente,
anche in quello del complemento di argomento
(*Loro parlarono professori), qualora si desideri
mantenere identico il significato e l’ineccepibilita`
della frase.</p>
      <p>
        Ecco succintamente illustrato uno dei
frequentissimi casi di ambiguita` che si presentano nelle
lingue naturali. Chiamata in causa e` l’area di
ricerca nota come Word Sense Disambiguation
        <xref ref-type="bibr" rid="ref3">(Stevenson and Wilks, 2003)</xref>
        . E` bene riaffermare
che l’ambiguita` non e` di tipo lessicale, essendo dei
composto da morfemi grammaticali, quindi privi
di contenuto descrittivo.
      </p>
      <p>Un paio di tentativi su demo disponibili
online2, che fanno uso di dependency parsing, con
2Reperibili ai seguenti indirizzi: http://
linguistic-annotation-tool.italianlp.
it/syntactic_trees (figura 1), http:
frasi come Degli alunni hanno starnutito o Dei
ragazzi starnutirono, entrambe con articolo
partitivo, hanno dato per dei il lemma di e la categoria
’preposizione’ (si noti che, di fatto, cio` esclude
erroneamente il nesso dalla funzione di Soggetto):
Al di la` dei tentativi di soluzione per fini pratici,
si puo` affermare, piu` in generale, che a questo
problema di omonimia in italiano la linguistica
teorica e la semantica formale hanno dedicato
molte attenzioni. Di contro, nel campo del NLP
esso sembra essere passato inosservato.</p>
      <p>L’algoritmo che presentiamo e` stato
implementato nel linguaggio Python 2.73. Per
effettuare part of speech e lemma tagging, al
fine di identificare ad esempio nomi, verbi
ed aggettivi, e` stato utilizzato TreeTagger
(http://www.cis.uni-muenchen.de/
(˜schmid/tools/TreeTagger/) con il
file di parametro per l’italiano realizzati da
//hlt-services2.fbk.eu/textpro-demo/
textpro.php (figura 2)</p>
      <p>3A IMM si deve la parte dello script che disambigua i
potenziali articoli partitivi. EC si e` fatto carico di tutte le
indispensabili operazioni di annotazione su TreeTagger.
Marco Baroni, richiamato utilizzando il modulo
treetagger-python (https://github.com/
miotto/treetagger-python).4</p>
      <p>
        L’algoritmo non si basa sulla nozione di
costituente e le strategie adottate non fanno uso di
’alberi’ di stampo chomskiano ne´ di dependency
parsing. Il parsing non e` ne´ bottom up ne´ top
down. Riteniamo che ai fini di una maggiore
efficacia, cioe` per un parsing in grado di identificare
e risolvere ambiguita` strutturali e semantiche, sara`
indispensabile fare ricorso alla struttura
argomentale dei predicati, o ’valenza’, particolarmente di
quelli verbali
        <xref ref-type="bibr" rid="ref4">(Tesnie`re, 1959)</xref>
        .
3
      </p>
    </sec>
    <sec id="sec-4">
      <title>L’Algoritmo di Disambiguazione</title>
      <p>Questa sezione mostra la suddivisione dello script
di disambiguazione, basata sui diversi contesti
di occorrenza dei morfemi della serie indagata.
Complessivamente, nel corpus abbiamo
identificato sette diversi casi: (I) complementi di
specificazione; (II) complementi retti; (III) casi in cui
ricorre il verbo essere o con funzione di ausiliare
perfettivo o come copula; (IV) articoli partitivi con
verbi transitivi e intransitivi; (V) comparativi e
superlativi; (VI) nessi la cui testa e` un pronome
indefinito, (VII) locuzioni (in fin dei conti, del
resto, del tipo (per es. un larvato rimprovero del
tipo "potresti pensarci un po’ tu")). Il
trattamento degli ultimi tre gruppi (tre occorrenze per
(V), cinque per (VI), tre per (VII)) sara` oggetto di
un’integrazione successiva.
3.1</p>
    </sec>
    <sec id="sec-5">
      <title>Dei nel Complemento di Specificazione</title>
      <p>Un nesso nominale come i libri dei professori
esemplifica il complemento di specificazione. La
serie che manifesta questo complemento contiene
tutti gli elementi gia` elencati per l’articolo
partitivo, ma, significativamente, se ne distingue
perche´ include la forma di (i libri di Leo). Pur con
questa massiccia sovrapposizione di forme, si
ottengono distinte parti del discorso: se da un lato
il partitivo e` una forma di articolo (un
determinante), dall’altro cio` che pare lo stesso elemento e`
invece una preposizione, che puo` essere articolata
o semplice. Con l’unica differenza della
preposizione semplice, tuttavia, al parser le forme si
presentano identiche, fatto che impone una qualche
4Il tratto [ Numerabile] del sostantivo che segue dei
consentirebbe di escludere che in un nesso come della penna
ricorra un articolo partitivo (* Voglio della penna). La ricerca
ne verrebbe semplificata. Questa risorsa non e` stata utilizzata
perche` TreeTagger non fornisce il tratto.
risorsa che sia in grado di differenziare i due usi.
Cos`ı, se la frase soggetta al parsing fosse Abbiamo
letto i libri di fisica dei professori, non si avrebbe
difficolta` a collocare di tra le preposizioni, mentre
per dei si rivela necessaria un’operazione di
disambiguazione.</p>
      <p>Su questo caso di omonimia non siamo stati in
grado di trovare in letteratura proposte precedenti.
Suggeriamo in questa sede di individuare un
complemento di specificazione grazie alla parola che
precede la preposizione, che il piu` delle volte e` o
un nome o un aggettivo. La parte di codice
rilevante, abbreviata e semplificata, e` qui di seguito
illustrata (frase[i] e` il pivot):
# classificazione: 0=complemento
# di specificazione
for i in range(len(frase)):
precedenti = frase[0:i]
successivi = frase[i+2:len(frase)]
compl_specificazione =
frase[i] in maybe_partitive \
and (frase[i-1] in nomi \
or frase[i-1] in agg)
if compl_specificazione is True:</p>
      <p>classificazione=0</p>
      <p>Se tra gli elementi che precedono
immediatamente una qualsiasi delle sette forme della serie,
inserite nella tupla denominata maybe partitive,
si includono (a) i dimostrativi (per es. il passo
delle zampe posteriori [...] quello delle
anteriori), (b) i verbi all’infinito (per es. l’espandersi
della sabbia), (c) alcune congiunzioni (l’alfabeto
delle onde marine o delle erbe d’un prato), (d)
casi di ricorsivita` (per es. del tessuto del fondo)
e, infine, (f) occorrenze multiple con virgola (per
es. la percezione precisa dei contorni, dei colori,
delle ombre), la porzione di script sopra illustrata
consente di identificare correttamente 388
complementi di specificazione, pari al 97; 7% delle
occorrenze. Oltre a questi true positives si sono avuti 9
false negatives, 3 false positives e 63 true
negatives; cio` da` luogo a una precision di 0:99 e ad una
recall di 0:97; la F1-score e` pari a 0:97. Alcuni
casi problematici sono: (i) la topicalizzazione del
nesso preposizionale (per es. Della conoscenza
mitica degli astri egli capta solo qualche stanco
barlume); (ii) le nominalizzazioni (per es. tutto il
non detto della sua condizione); oppure (iii) quello
di Ho trovato sul selciato degli uccelli malconci,
in cui degli svolge la funzione di articolo partitivo,
ma viene erroneamente intercettato come
complemento di specificazione a causa del locativo sul
selciato che ricorre tra il verbo e il nesso nominale
post-verbale.</p>
      <p>Un paio di osservazioni finali. La prima: dal
punto di vista semantico, il complemento di
specificazione puo` esprimere un significato affine a
quello di frasi copulative (§ 3.3) come I libri sono
dei professori, significato cui ci si riferisce
comunemente con ’appartenenza’ o ’possesso’. La
seconda: e` bene ribadire che ne´ in i libri dei
professori ne´ in I libri sono dei professori e` possibile
sottrarre dei (*I libri professori, *I libri sono
professori), proprio perche´ la sottrazione a parita`
semantica e` caratteristica esclusiva dell’articolo
partitivo, anche se tale opzione non e` sempre
praticabile.
3.2</p>
    </sec>
    <sec id="sec-6">
      <title>Dei come Complemento Retto</title>
      <p>Si tratta del caso esemplificato con il verbo
parlare. La gia` discussa ambiguita` della frase
Parlarono dei professori deriva proprio dal fatto che
parlare e` verbo potenzialmente bivalente (o
trivalente: Leo parlo` a Luigi di Ada). Se l’esempio
fosse modificato in Dei professori parlarono, con
Soggetto anteposto, la frase rimarrebbe ancora
ambigua, ma in modo diverso: o dei professori
e` un Soggetto canonicamente pre-verbale oppure,
se ancora interpretato come complemento di
argomento, esso e` allora collocato in una posizione
marcata e la frase, segmentata, necessita di un
particolare profilo intonativo, cioe` di una messa in
rilievo tramite enfasi, di seguito richiamata con
il maiuscoletto: DEI PROFESSORI parlarono (non
degli studenti). L’esplicitazione del Soggetto
porrebbe fine a ogni ambiguita`: Loro parlarono dei
professori.</p>
      <p>In italiano i predicati che idiosincraticamente
legittimano un complemento in di non sono
necessariamente verbali. Ecco alcuni dei casi
rinvenuti nel corpus, con verbi (il nesso non e` ne´
Soggetto ne´ Oggetto diretto), aggettivi, avverbi,
nomi e polirematiche (si notino le due
topicalizzazioni):
• tener conto degli aspetti complessi
• ripaga del sapere che si propaga
• dell’adeguato innaffiamento approfittano le
erbacce
• quello che ha pensato del prato
• spera d’essersi appropriato del pianeta
• faccio parte dei soggetti senzienti
• avrebbe piu` bisogno del nostro
interessamento
• e` specifico del sesso femminile
• anche del nulla non si puo` essere sicuri al
cento per cento
• prima della sua nascita
• al di la` delle abitudini sensoriali
• in balia della sovrapopolazione di questi
lumpen-pennuti [sic]</p>
      <p>Talvolta lo stesso verbo presenta piu` valenze,
con differenze semantiche come Chiedono dei
professori vs Chiedono professori, dunque con un
ulteriore caso di ambiguita`: Chiedono a proposito
dei professori vs Richiedono professori.
Individuare differenze cos`ı sottili richiede soluzioni
complesse.</p>
      <p>Nello script, i complementi di specificazione
sono rilevati dopo i complementi retti. Il motivo
e` semplice: se la frase sottoposta al parsing fosse
Sandro e` degno degli onori piu` grandi, la funzione
rileverebbe nella posizione precedente a degli un
aggettivo, restituendo quindi un errore, cioe` che
degli onori piu` grandi e` complemento di
specificazione. Lo stesso accadrebbe con una
polirematica come tener conto delle proporzioni, che nella
posizione precedente a delle presenta un
sostantivo.</p>
      <p>I complementi retti introdotti da una delle forme
omonime a quelle degli articoli partitivi sono
complessivamente 33, pari al 7; 1% delle 463
occorrenze indagate.</p>
      <p>Per l’individuazione dei complementi retti si
e` creata una lista, denominata trigger di,
contenente verbi, aggettivi, avverbi e locuzioni che
legittimano un complemento introdotto dalla
preposizione di. Con la suddivisione della stringa
in ’precedenti’ e ’successivi’ rispetto al pivot
l’algoritmo consente di calcolare se il
complemento retto e` anteposto al predicato che lo regge
(ordine marcato) o posposto (ordine canonico):
# Classificazione complemento retto:
# 1=posposto, 2=anteposto
for j in range(len(frase)):
if frase[j] in trigger_di:
if frase[j] in precedenti:</p>
      <p>classificazione=1
elif frase[j] in successivi:
classificazione=2</p>
    </sec>
    <sec id="sec-7">
      <title>Dei in frasi con essere come copula o con</title>
      <p>esserci
E` uno dei casi presentati nella sezione 3 con frasi
ambigue come Sono dei professori. Si noti che la
frase Ci sono dei professori, in superficie diversa
dalla precedente solo per la presenza del clitico
ci, esemplifica un tipo denominato in letteratura
’esistenziale’, che e` tutt’altra cosa. Nella frase
Ci sono dei professori il nesso dei professori
fornisce un esempio di articolo partitivo. Ne e` prova
il fatto che dei puo` o essere rimosso senza che la
frase collassi (Ci sono professori) o essere
sostituito con alcuni (Ci sono alcuni professori). Le due
frasi Sono dei professori e Ci sono dei professori
sono dunque diverse dal punto di vista strutturale,
al punto che mentre dei professori e` il Soggetto
dell’ultima, nella prima il Soggetto e` omesso (Essi
sono dei professori o Questi libri sono dei
professori). L’algoritmo deve poter individuare tali
differenze strutturali, come si propone nella porzione
di codice che segue, che ha individuato due
occorrenze di articolo partitivo con esserci (ci sono
delle forme e delle sequenze che si ripetono) senza
pero` essere riuscito ad individuare l’articolo
partitivo nel seguente esempio: ([le mani del gorilla]
sono ancora in realta` delle zampe):
elif is_copulativo is True:
if is_verbo(tt,frase[i-1],copulativi):
if frase[i-2] != 'ci':
classificazione = 3
casi essere puo` ovviamente ricorrere, ma come
ausiliare perfettivo, dunque in combinazione con
un participio passato: Delle ombre silenziose
si sono mosse sulla sabbia. Si tratta in tutto di
10 delle 13 occorrenze complessive di articolo
partitivo (2,7% del corpus, tre con esistere), cos`ı
identificate:
# classificazione: 5=articolo partitivo
# post-verbale
# 6=articolo partitivo pre-verbale
elif is_forma_verbale is True:
if frase[j] in precedenti:</p>
      <p>classificazione=5
elif frase[j] in successivi:</p>
      <p>classificazione=6
4</p>
      <p>Conclusioni</p>
      <p>classificazione = 4
elif is_verbo(tt,frase[i-2],copulativi):
if frase[i-3] != 'ci':</p>
      <p>classificazione = 3
else:</p>
      <p>classificazione = 4</p>
    </sec>
    <sec id="sec-8">
      <title>Dei in Soggetti o Oggetti di verbi</title>
      <p>transitivi e intransitivi
Se, al parsing, un elemento della serie
maybe partitive non e` riconosciuto come
complemento di specificazione, giacche´ non preceduto
ne´ da un nome ne´ da un aggettivo (§ 3.1), oppure
se la stringa non contiene ne´ complementi retti
(§ 3.2) ne´ un’occorrenza di essere copula o di
esserci (§ 3.3), allora siamo in presenza di un
articolo partitivo in un nesso legittimato da un
verbo transitivo o intransitivo, come in Lui per
trattenerla le da` dei piccoli morsi a una zampa
e Esistono delle vie e delle piazze. In questi</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          <string-name>
            <given-names>Felice</given-names>
            <surname>Dell'Orletta</surname>
          </string-name>
          , Alessandro Lenci, Simonetta Montemagni, and
          <string-name>
            <given-names>Vito</given-names>
            <surname>Pirrelli</surname>
          </string-name>
          .
          <year>2005</year>
          .
          <article-title>Climbing the path to grammar: A maximum entropy model of subject/object learning</article-title>
          .
          <source>In Proceedings of the Workshop on Psychocomputational Models of Human Language Acquisition</source>
          ,
          <source>PMHLA '05</source>
          , pages
          <fpage>72</fpage>
          -
          <lpage>81</lpage>
          , Stroudsburg, PA, USA. Association for Computational Linguistics.
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          <string-name>
            <given-names>Ignazio</given-names>
            <surname>Mauro</surname>
          </string-name>
          Mirto and
          <string-name>
            <given-names>Emanuele</given-names>
            <surname>Cipolla</surname>
          </string-name>
          .
          <year>2017</year>
          .
          <article-title>Nooj assisted automatic detection of errors in auxiliaries and past participles in italian</article-title>
          .
          <source>In Proceedings of the NooJ 2017 International Conference.</source>
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          <string-name>
            <given-names>Mark</given-names>
            <surname>Stevenson</surname>
          </string-name>
          and
          <string-name>
            <given-names>Yorick</given-names>
            <surname>Wilks</surname>
          </string-name>
          .
          <year>2003</year>
          .
          <article-title>Word sense disambiguation</article-title>
          .
          <source>The Oxford Handbook of Comp. Linguistics</source>
          , pages
          <fpage>249</fpage>
          -
          <lpage>265</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          Lucien Tesnie`re.
          <year>1959</year>
          . Ele´ments de Syntaxe Structurale. Paris.
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>