<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Strategie di classificazione per servizi di search della Pubblica Amministrazione</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Marco Bianchi</string-name>
          <email>bianchi@mat.uniroma2.it</email>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Mauro Draoli</string-name>
          <email>draoli@digitpa.gov.it</email>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Giorgio Gambosi</string-name>
          <email>gambosi@mat.uniroma2.it</email>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Alessandro Ligi</string-name>
          <email>alessandro.ligi@digitpa.gov.it</email>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Marco Serrago</string-name>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>DigitPA</institution>
          ,
          <addr-line>Viale Marx 43 - 00137 Rome</addr-line>
          ,
          <country country="IT">Italy</country>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>University of Rome “Tor Vergata”</institution>
          ,
          <addr-line>Via della Ricerca Scientifica 1, 00133 Rome</addr-line>
          ,
          <country country="IT">Italy</country>
        </aff>
      </contrib-group>
      <abstract>
        <p>Sommario In questo lavoro si introducono le attivita` sperimentali finalizzate alla realizzazione di un servizio per la ricerca della modulistica pubblicata dalle Pubbliche Amministrazioni (PA) italiane sui propri siti istituzionali e condotte nell'ambito del progetto pubblico “Italia.gov.it - il motore della PA digitale”. In tale contesto la necessit`a di creare e aggiornare una collezione composta da soli moduli rende necessaria l'introduzione di classificatori automatici che siano in grado di supportare il filtering della grande mole di documenti che vengono recuperati a valle dell'attivita` di crawling. Il caso presentato `e interessante perch`e mostra quanto la scelta del classificatore da adottare possa essere influenzata dai vincoli economici e organizzativi tipicamente posti dalle Pubbliche Amministrazioni.</p>
      </abstract>
      <kwd-group>
        <kwd>vertical search engine</kwd>
        <kwd>classification</kwd>
        <kwd>active learning</kwd>
      </kwd-group>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>delle funzionalit`a di search erogate da Italia.gov.it e di come esse possono essere
implementate.</p>
      <p>Uno degli aspetti innovativi di Italia.gov.it risiede nella presenza di una base
di conoscenza da cui si attingono tutte le informazioni che vengono indicizzate
per la realizzazione dei singoli servizi di search. Tale base di conoscenza `e
caratterizzata da una modalita` di aggiornamento automatico eseguita per mezzo di
strumenti di Information Retrieval e Text Mining allo stato dell’arte. Nello
specifico, il servizio moduli-on-line indicizza tutti i documenti scoperti sul Web per
mezzo di una continua attivit`a di crawling e marcati come moduli da classificatori
binari precedentemente addestrati. Il lavoro svolto dai classificatori `e pertanto
determinante per ottenere una buona qualit`a degli indici di ricerca: se i
classificatori svolgono il proprio lavoro con precisione i risultati presentati agli utenti
saranno composti, per lo piu`, da modulistica, viceversa saranno “inquinati” da
errori di classificazione (falsi positivi) che potrebbero minare alla base la
fiducia sul funzionamento del sistema. Poich´e la qualit`a del servizio che si intende
realizzare `e cos`ı fortemente influenzata dal funzionamento dei classificatori, `e
stata avviata un’attivit`a finalizzata alla creazione di un benchmark utile per
l’addestramento, la misurazione e la scelta del miglior tipo di classificatore per
il problema in oggetto.</p>
      <p>
        In questo lavoro si descrive la strategia che si sta studiando per la gestione
del servizio moduli-on-line, conciliando esigenze di natura sia economica che
tecnica. Per quanto riguarda le esigenze economiche, l’architettura del sistema
Italia.gov.it, descritta in [
        <xref ref-type="bibr" rid="ref2">1</xref>
        ], prevede il possibile intervento di esperti di dominio
(oracoli, dal punto di vista del processo di classificazione) che da un lato eseguono
un monitoraggio continuo sulla precisione del sistema di classificazione, dall’altro
risolvono i casi di incertezza degli strumenti di classificazione contribuendo, di
fatto, a un arricchimento del training set [
        <xref ref-type="bibr" rid="ref6">5</xref>
        ]. In questo scenario, si richiede che,
in fase di produzione, gli oracoli siano messi nella condizione di classificare quanti
piu` moduli possibile, al fine di massimizzare il numero di documenti indicizzati.
E` evidente, infatti, come la classificazione di un non-modulo non sia
immediatamente riutilizzabile in fase di produzione. Dal punto di vista tecnico-scientifico,
invece, il training set deve essere rappresentativo del dominio di classificazione
e il suo aggiornamento deve essere finalizzato al miglioramento delle prestazioni
dei classificatori. Pertanto, anche gli esempi veri negativi e falsi positivi
possono essere utili per migliorare il sistema di classificazione. E` obiettivo della
sperimentazione in corso verificare la compatibilit`a tra le due esigenze.
      </p>
      <p>
        L’attivit`a di sperimentazione `e condotta concentrando l’attenzione su
classificatori di tipo Support Vector Machine (SVM) [
        <xref ref-type="bibr" rid="ref1 ref3">2</xref>
        ], Naive Bayes (NB) [
        <xref ref-type="bibr" rid="ref5">4</xref>
        ], Logistic
Regression (LR) [
        <xref ref-type="bibr" rid="ref4">3</xref>
        ] e Dynamic Language Model (DLM) [
        <xref ref-type="bibr" rid="ref7">6</xref>
        ].
      </p>
      <p>La prima versione del benchmark di moduli-on-line, `e composta da 8475
documenti recuperati a valle di un’attivit`a di crawling eseguita nel mese di marzo
2011 su 12 siti istituzionali di PA centrali indicati da esperti di dominio. Il crawler
`e stato configurato in modo da scaricare solamente documenti con estensioni .pdf,
.doc, .docx, .rtf, .xls e .xlsx in quanto si pensa possano essere i principali formati
utilizzati dalle PA per la pubblicazione della modulistica. L’intero insieme dei
file `e stato successivamente classificato a mano da esperti di dominio che hanno
individuato 793 documenti appartenenti alla categoria dei moduli e 7461 a quella
dei non-moduli. Per la fase di valutazione si `e considerato come modulo ogni
documento testuale realizzato per scopi amministrativi e burocratici comprensivo di
una serie di campi compilabili da un generico utente. Nella classe complementare
sono invece stato inseriti tutti gli altri documenti. Esempi tipici di documenti
classificati come non-moduli sono le Determinazioni Dirigenziali, le Disposizioni
Direttoriali, le Leggi, i Decreti Legge, gli Avvisi Pubblici. Si evidenzia la presenza
di casi che potrebbero essere considerati di ambiguita`. Esistono infatti
documenti che sono caratterizzati dalla presenza di una prima parte documentale, e una
seconda parte compilabile. Un esempio di questa tipologia di documenti `e un
Bando di Concorso che `e tipicamente composto da un certo numero di articoli
che regolamentano la procedura concorsuale e da alcuni modelli di modulo in
appendice. Su indicazione degli esperti di dominio, i casi di incertezza sono stati
aggiunti alla categoria dei moduli.</p>
      <p>Un primo training set delle dimensioni di 547 documenti (composto da 325
documenti e 222 moduli) `e stato costruito da esperti di dominio. La Tabella 1
riporta le prestazioni dei classificatori presi in esame sul test-set composto dai
rimanenti 7707 documenti.</p>
      <p>Classif. Precision FP-rate Recall Accuracy F-measure
DLM 0.88 0.01 0.82 0.97 0.84
LR 0.79 0.02 0.58 0.92 0.67
SVM 0.66 0.04 0.70 0.94 0.68</p>
      <p>NB 0.51 0.05 0.71 0.93 0.60
Tabella 1. Tabella che riassume le prestazioni dei classificatori analizzati. La stabilit`a
dei risultati `e stata verificata mediante cross-validation.</p>
      <p>A una prima analisi, il classificatore che sembra fornire le migliori prestazioni
`e il DLM con una precisione dell’88% e una recall dell’82%. Purtroppo per`o, per
requisiti di progetto, la precisione di classificazione deve superare il 95% anche
a costo di coinvolgere gli oracoli nel processo di classificazione. Di conseguenza
il problema diventa individuare quell’insieme di documenti da sottomettere agli
oracoli al fine di superare il 95% di precisione, non penalizzando eccessivamente
la recall e minimizzare il lavoro manuale svolto dagli oracoli.</p>
      <p>Per affrontare questo nuovo problema si `e pensato di osservare i valori di
probabilita` che i singoli classificatori assegnano ai documenti al fine di fornire
indicazione sul grado di confidenza con il quale determinano l’appartenenza a
una classe. La Tabella 2 mostra alcuni dettagli sul comportamento dei
classificatori DLM e SVM. Analizzando gli insiemi dei documenti classificati come
moduli si osserva come il classificatore DLM, assegni la classe di appartenenza
con probabilita` maggiore del 95% in ben 7680 casi; diversamente SVM ha un
comportamento che potremmo definire piu` cauto, assegnando solo in 3786 casi
una probabilita` maggiore del 95%. Fissato un intervallo (x − 5, x] consideriamo
il seguente processo semi-automatico di classificazione:
1. Tutti i documenti identificati come moduli dal classificatore con probabilita`
maggiore di x% sono accettati come tali;</p>
      <p>Denotiamo come Pinc(x) la precisione derivante da questo processo
semi-automatico di classificazione. Le stesse considerazioni possono essere effettuate riguardo
la recall indicata con Rinc(x). La Tabella 2 mostra come considerando una
strategia di classificazione semi-automatica, il classificatore SVN sia da considerarsi
preferibile in quanto mette il decisore finale nella condizione di poter “acquistare”
la precisione voluta pagando il costo di valutazione manuale delle classificazioni
incerte (es. 466 valutazioni per raggiungere il 95.7% di precisione). Si evidenzia
che se si `e disposti a perdere in recall, la precisione puo` addirittura aumentare
riducendo il costo di valutazione manuale. Ci`o `e possibile passando agli oracoli un
pacchetto di documenti selezionato negli intervalli di confidenza con probabilita`
piu` alta. E` obiettivo di questa sperimentazione verificare che questa modalita` di
scelta dei documenti da passare agli oracoli non penalizzi le prestazioni dei
classificatori successivamente alle attivit`a di ri-addestramento. A tal fine si `e deciso
di incrementare sensibilmente la dimensione del benchmark, che sar`a ampliato
fino a raggiungere circa 30.000 documenti classificati a mano.
DLM
TP+FP
TN+FN</p>
      <p>Pinc
Rinc</p>
      <p>SVM
TP+FP
TN+FN</p>
      <p>Pinc
Rinc
98 68 60 47 46 50 31 36 30
99 150 199 237 316 415 584 620 837
0.706 0.749 0.785 0.815 0.846 0.880 0.914 0.940 0.957
0.782 0.846 0.881 0.902 0.926 0.954 0.958 0.969 0.972
Tabella 2. Dettaglio dei comportamenti dei classificatori DLM e SVM.
Riferimenti bibliografici</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          <article-title>2. I documenti classificati come moduli con probabilita` compresa tra 50% e x% sono sottoposti alla valutazione manuale assumendo che tale valutazione abbia errore nullo</article-title>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          1.
          <string-name>
            <surname>Bianchi</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Draoli</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          , and
          <string-name>
            <surname>Gambosi</surname>
            ,
            <given-names>G.</given-names>
          </string-name>
          <article-title>An innovative approach to the development of e-government search services</article-title>
          . In EGOVIS (
          <year>2011</year>
          ),
          <string-name>
            <given-names>K. N.</given-names>
            <surname>Andersen</surname>
          </string-name>
          ,
          <string-name>
            <given-names>E.</given-names>
            <surname>Francesconi</surname>
          </string-name>
          ,
          <string-name>
            <surname>A</surname>
          </string-name>
          ˚. Gr¨onlund, and T. M. van Engers, Eds., vol.
          <volume>6866</volume>
          of Lecture Notes in Computer Science, Springer, pp.
          <fpage>41</fpage>
          -
          <lpage>55</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          2.
          <string-name>
            <surname>Cortes</surname>
            ,
            <given-names>C.</given-names>
          </string-name>
          , and
          <string-name>
            <surname>Vapnik</surname>
            ,
            <given-names>V.</given-names>
          </string-name>
          <article-title>Support-vector networks</article-title>
          .
          <source>Machine Learning</source>
          <volume>20</volume>
          (
          <year>1995</year>
          ),
          <fpage>273</fpage>
          -
          <lpage>297</lpage>
          .
          <fpage>10</fpage>
          .1007/BF00994018.
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          3.
          <string-name>
            <surname>Hosmer</surname>
            ,
            <given-names>D. W.</given-names>
          </string-name>
          , and
          <string-name>
            <surname>Lemeshow</surname>
          </string-name>
          ,
          <source>S. Applied logistic regression (Wiley Series in probability and statistics)</source>
          , 2 ed. Wiley-Interscience Publication,
          <year>2000</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          4. John, G.,
          <article-title>and</article-title>
          <string-name>
            <surname>Langley</surname>
            ,
            <given-names>P.</given-names>
          </string-name>
          <article-title>Estimating continuous distributions in bayesian classifiers</article-title>
          .
          <source>In In Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence</source>
          (
          <year>1995</year>
          ), Morgan Kaufmann, pp.
          <fpage>338</fpage>
          -
          <lpage>345</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          5.
          <string-name>
            <surname>Settles</surname>
            ,
            <given-names>B.</given-names>
          </string-name>
          <article-title>Active learning literature survey</article-title>
          .
          <source>Tech. rep.</source>
          ,
          <year>2010</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          6.
          <string-name>
            <surname>Zhai</surname>
            ,
            <given-names>C.</given-names>
          </string-name>
          <article-title>Statistical Language Models for Information Retrieval</article-title>
          . Now Publishers Inc., Hanover, MA, USA,
          <year>2008</year>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>