<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Un prototipo per la ricerca di opinioni sui blog dedicati alle trasmissioni televisive d'interesse nazionale</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Giambattista Amati</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Marco Bianchi</string-name>
          <email>mbianchi@fub.it</email>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Giuseppe Marcone</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Fondazione Ugo Bordoni Viale del Policlinico</institution>
          ,
          <addr-line>147 00161 Rome</addr-line>
          ,
          <country country="IT">Italy</country>
        </aff>
      </contrib-group>
      <abstract>
        <p>Sommario In questo lavoro si riporta l'esperienza maturata durante la realizzazione di un prototipo per la ricerca delle opinioni pubblicate sui blog dedicati ai programmi televisivi trasmessi dalle emittenti italiane. Il contributo per la comunita` scientifica italiana dell'Information Retrieval e` duplice: da un lato si presenta il primo benchmark per il task dell'opinion finding applicato a piattaforme di blog in lingua italiana e si riporta la metodologia adottata per la sua creazione. In secondo luogo si descrive l'architettura di un sistema che implementa un algoritmo dictionary-based di comprovata efficacia utile ad affrontare il problema dell'opinion finding su testi in lingua italiana. Tale sistema, basato su componenti open-source, supporta la creazione di ulteriori benchmark a partire dai quali genera in modo automatico i dizionari necessari al funzionamento dell'algoritmo che implementa. Proprio quest'ultima funzionalita` e` da considerarsi strategica per la comunita` scientifica vista la scarsa disponibilita` di risorse linguistiche italiane e il costo necessario alla loro creazione e aggiornamento.</p>
      </abstract>
      <kwd-group>
        <kwd>Information Retrieval</kwd>
        <kwd>Sentiment Analysis</kwd>
        <kwd>Opinion Finding</kwd>
      </kwd-group>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>
        La disciplina scientifica il cui fine e` lo sviluppo di tecniche di estrazione della
conoscenza da documenti contenenti opinioni e` nota in letteratura con il nome di sentiment
analysis. Oggigiorno le principali comunita` scientifiche che si occupano di sentiment
analysis sono due: la comunita` dell’Intelligenza Artificiale, che utilizza prevalentemente
tecniche di Processamento del Linguaggio Naturale (NLP) finalizzate alla classificazione
automatica dei documenti e di estrazione puntuale di informazioni da documenti [
        <xref ref-type="bibr" rid="ref10">10</xref>
        ],
e la comunita` dell’Information Retrieval, che ha specializzato il problema al mondo del
Web. La differenza fondamentale tra le ricerche effettuate dalla due comunita` risiede
nella tipologia di collezioni che prendono a riferimento.
      </p>
      <p>
        Infatti la comunita` dell’Intelligenza Artificiale basa i sui studi, nella maggior parte
dei casi, su collezioni composte esclusivamente da documenti contenenti opinioni e
strutturalmente omogenei. In questi casi il problema diventa quello di classificare, ad
esempio, i documenti contenenti opinioni positive da quelli contenenti opinioni
negative, oppure quello di estrarre informazioni puntuali, come le caratteristiche piu` o meno
apprezzate di un prodotto commerciale [
        <xref ref-type="bibr" rid="ref11 ref4">4,11</xref>
        ].
      </p>
      <p>
        Diversamente numerosi studi della comunita` dell’Information Retrieval sono basati
su collezioni Web. Tali collezioni sono caratterizzate, tra l’altro, dalla presenza di
documenti non contenti opinioni e dalla eterogeneita` a livello strutturale delle pagine Web,
quasi sempre scaricate da siti diversi. In questo scenario la sentiment analysis viene
generalmente considerato un problema di re-rank a due fasi [
        <xref ref-type="bibr" rid="ref7">7</xref>
        ]: nella prima si cerca di
individuare i documenti che sono rilevanti rispetto all’esigenza informativa dell’utente
(topic), indipendentemente dalla presenza di opinioni rispetto al topic cercato; nella
seconda l’insieme dei documenti individuati a valle di un processo di riordinato (re-rank)
in funzione presenza o assenza di opinioni. L’intero processo di recupero,
denominato opinion-finding1, ha quindi l’obiettivo di recupere pagine Web contenenti opinioni
rispetto ad un determinato topic.
      </p>
      <p>Questo lavoro si inquadra nell’ambito delle attivita` finalizzate alla realizzazione del
prototipo di un motore ricerca in grado di trovare le opinioni che i telespettatori di
programmi televisivi riportano sui blog in lingua italiana. Tale motore puo` essere utile
sia ai telespettatori che vogliono leggere, o scrivere, recensioni o commenti relativi ai
loro programmi preferiti, sia alle emittenti televisive che intendono indagare l’opinione
del popolo del Web in merito ai programmi trasmessi.</p>
      <p>
        A partire dall’analisi dei requisi e` stato eseguito uno studio dello stato dell’arte che
ha confermato quanto gia` riportato in [
        <xref ref-type="bibr" rid="ref7">7</xref>
        ] e cioe` che le principali tecniche di
opinionfinding possono essere classificate in due principali categorie: strategie basate su
classificatori (classification-based) e strategie basate su dizionari (lexicon-based).
Considerata l’efficacia dimostrata da quest’ultima classe di tecniche, si e` deciso di applicare la
strategia lexicon-based presentata in [
        <xref ref-type="bibr" rid="ref1">1</xref>
        ]. Tale tecnica e` di particolare interesse non solo
perche` si e` dimostrata tra le piu` performanti nelle varie edizioni della TREC, ma anche
perche` permette la creazione automatica di dizionari di termini “portatori” di opinione
(opinion-bearing terms). Considerato che non esistono, ad oggi, dizionari italiani per la
sentiment analysis si ritiene che la realizzazione di un prototipo che supporti la
generazione automatica di dizionari italiani sia da considerarsi un valore aggiunto per l’intera
comunita` scientifica italiana. Il basso costo di generazione, e quindi di aggiornamento,
del dizionario va infatti incontro a quel requisito di economicita` che dovrebbe
contraddistinguere la voce “costo di manutenzione” di ogni sistema software. E` tuttavia
necessario precisare che a fronte di un risparmio in termini di impiego di risorse umane, si e`
costretti ad accettare la presenza, all’interno del dizionario, di termini “intrusi”, ovvero
termini che, almeno in apparenza, non sono portatori di opinione.
      </p>
      <p>
        Il prototipo, presentato nella Sezione 4, e` caratterizzato dall’originale integrazione
tra la catena di tool nutch-solr [
        <xref ref-type="bibr" rid="ref12 ref3">3,12</xref>
        ], lo standard di fatto della comunita`
dell’opensource per la realizzazione di motori di ricerca, e il framework Terrier [
        <xref ref-type="bibr" rid="ref8">8</xref>
        ], strumento
di Information Retrieval estremamente diffuso nella comunita` scientifica e necessario
per l’implementazione della tecnica presentata in [
        <xref ref-type="bibr" rid="ref1">1</xref>
        ]. Grazie a tale integrazione e`
possibile soddisfare anche due importanti requisiti non funzionali aventi come obiettivo la
realizzazione di un motore di ricerca che sia:
1 Nomenclatura introdotta nell’ambito della Blog Track di TREC 2006 [
        <xref ref-type="bibr" rid="ref13 ref9">9,13</xref>
        ].
1. in grado di scalare alle dimensioni tipiche del Web, proprio per rendere possibile il
monitoraggio di una porzione significativa della blogosfera italiana;
2. caratterizzato da un basso costo di realizzazione e manutenzione.
      </p>
      <p>Il prototipo supporta anche il processo per la realizzazione di generici benchmark
per l’Information retrieval. Proprio grazie a tale supporto, e` stato creato il primo
benchmark per la sperimentazione di soluzioni al problema dell’opinion finding su testi
italiani, come riportato nella Sezione 3.</p>
      <p>Tra i contributi del lavoro si evidenzia la descrizione di due diverse strategie per
l’acquisizione dei contenuti pubblicati su blog con relativi vantaggi e svantaggi. Le
considerazioni relative ai due approcci, oggetto della Sezione 2, sono generalizzabili a
tutti i contesti in cui i contenuti su cui effettuare le ricerche sono fortemente condizionati
da eventi esterni alla Rete quali, appunto, la trasmissione di un programma televisivo o
la diffusione di notizie.</p>
      <p>Infine la Sezione 5 conclude il lavoro.
2</p>
    </sec>
    <sec id="sec-2">
      <title>Metodologie per l’acquisizione dei contenuti di un blog</title>
      <p>Al fine di rendere piu` chiara la presentazione delle metodologie per l’acquisizione dei
contenuti pubblicati su un blog, le componenti logiche di una piattaforma di blogging
da tenere in considerazione sono:
– permalink, o link permanente: URL relativo a una pagina Web che contiene un post
e i relativi commenti. Il contenuto testuale raggiungibile con permalink e` l’obiettivo
finale dell’attivita` di acquisizione;
– homepage: pagina dinamica sulla quale vengono riportati gli ultimi post pubblicati
e i relativi permalink;
– navigatore: strumento che implementa una tecnica di “navigazione a faccette” (faceted
search) al fine di semplificare la ricerca dei post di interesse. In genere su tutte le
pagine di un blog sono presenti un numero significativo di navigatori;
– pagina di aggregazione: pagine dinamiche che contengono tutti i post che
soddisfano un criterio di navigazione a faccette (ad esempio tutti i post pubblicati in un
determinato mese);
– RSS feed: file in formato RSS (Really Simple Syndication)2 sul quale vengono
periodicamente riportati i permalink degli ultimi post pubblicati.</p>
      <p>A partire dalle componenti logiche appena elencate, l’acquisizione dei contenuti
pubblicati su una piattaforma di blog puo` avvenire adottando due diverse strategie a
seconda delle esigenze.</p>
      <p>La prima strategia consiste nell’effettuare una sorta di “fotografia” dei contenuti
presenti sull’intero blog mediante attivita` di crawling. In questo caso l’idea e` quella di
fornire al crawler la URL della homepage e lasciare a quest’ultimo la responsabilita` di
navigare (in modo automatico) sul blog al fine di scaricarne i contenuti. Il vantaggio
di questa tecnica e` dato dalla completezza del risultato (alta recall): cio` significa che al
2 Per le specifiche del procollo RSS far riferimento al sito http://www.rssboard.org/
termine dell’attivita` di crawling tutti i contenuti indirizzati da permalink saranno stati
scaricati. Lo svantaggio principale sara` dato dalla bassa precisione (precision) poiche`
un crawler non e` in grado di distinguere un permalink da altre URL (a meno dello
sviluppo di filtri di URL specializzati per le singole piattaforme di blog, operazione che
pero` ha controindicazioni in termini di costo di scalabilita` e manutenzione del sistema).
Di conseguenza il crawler scarichera` anche l’homepage e, soprattutto, le pagine di
aggregazione di post. Queste ultime sono da considerarsi “rumore”, in quanto replicano
il testo dei post gia` raggiungibile seguendo i permalink. Vale la pena evidenziare che il
numero di pagine di aggregazione e` proporzionale al numero di navigatori e che puo` , di
conseguenza, anche essere consistente.</p>
      <p>
        La seconda strategia consiste nell’individuare e scaricare i permalink dei nuovi post
mediante il monitoraggio degli RSS feed. Questa tecnica, adottata per la realizzazione
di due benchmark internazionali utilizzati nell’ambito delle gare TREC [
        <xref ref-type="bibr" rid="ref6">6</xref>
        ], ha il
vantaggio di produrre una elenco composto esclusivamente da permalink. Purtroppo pero`
il monitoraggio degli RSS non permette lo scaricamento dei vecchi permalink, ossia
delle URL che sono gia` state eliminate dall’RSS perche´ la pubblicazione del post da
loro riferito non rappresenta piu` una “novita`” per gli utenti del blog.
      </p>
      <p>Indipendentemete dai vantaggi e dagli svantaggi, l’adozione della prima strategia e`
obbligatoria quando si vuole includere nella collezione post poco recenti, o quando non
si e` nella condizione di aspettare il tempo necessario per eseguire il monitoraggio degli
RSS. Nel caso dell’acquisizione dei contenuti pubblicati su blog che trattano
trasmissioni televisive, la prima strategia e` da considerarsi una scelta obbligata anche quando
le trasmissioni di interesse sono gia` andate in onda.
3</p>
    </sec>
    <sec id="sec-3">
      <title>Un benchmark per l’opinion finding task in lingua italiana</title>
      <p>In genere un tipico benchmark di Information Retrieval e` composto da:
1. un insieme di topic, ovvero un elenco di esigenze informative, esprimibili come
query, definite da esperti di dominio in modo tale da essere rappresentative
dell’utenza reale;
2. una collezione di documenti;
3. un insieme di valutazioni, ottenute grazie all’apporto degli esperti di dominio, nel
quale a ogni topic viene associato un sottoinsieme di documenti della collezione
rilevante rispetto a tale topic.</p>
      <p>Coerentemente con quanto appena riportato, la creazione del benchmark per
l’opinion finding task applicato al dominio delle trasmissioni televisive trasmesse da emittenti
TV ha richiesto le seguenti attivita`:
– definizione di un elenco di trasmissioni televisive su cui eseguire ricerche (topics) e
che, almeno sulla carta, suscitino dibattito tra gli utenti del Web. Nel caso specifico
sono state individuate 65 trasmissioni televisive di vario genere (es. attualita`, reality,
fiction, satira, ecc.);
– individuazione delle piattaforme di blog dalle quali acquisire i contenuti: grazie al
coinvolgimento di esperti di dominio e` stato stilato un elenco di 100 URL (seeds)
relative a piattaforme di blog tematiche;
– conduzione dell’attivita` di crawling. Considerato che molti dei programmi selezionati
non andavano in onda durante il periodo dedicato all’acquisizione dei contenuti
(periodo che va dai primi di novembre 2010 e alla prima meta` di dicembre 2010), si
e` deciso di adottare la strategia del crawling dei blog. Al termine dell’attivita` di
crawling la collezione risulta composta da 6.067.494 pagine HTML, tra le quali
sono compresi permalink, homepage, pagine di aggregazione e duplicati (per lo
piu` ottenuti a causa dell’utilizzo di pagine dinamiche da parte delle piattaforme di
blog);
– rimozione dei duplicati. Successivamente alla fase di crawling, le pagine duplicate
sono state rimosse a seguito di un controllo sul valore MD5 e riducendo il numero
di documenti della collezione a 1.531.837 pagine Web;
– creazione dell’insieme delle valutazioni. Dopo aver indicizzato l’intera collezione
con Lucene, sono state selezionate 30 trasmissioni televisive tra le 65
precedentemente individuate e, per ognuna di queste, e` stato eseguito un recupero di 200
risultati utilizzando il nome della trasmissione come query e il search handler di
seguito riportato3:
&lt;requestHandler name="/topicSearch"
class="solr.SearchHandler"&gt;
&lt;lst name="defaults"&gt;
&lt;str name="defType"&gt;dismax&lt;/str&gt;
&lt;str name="echoParams"&gt;explicit&lt;/str&gt;
&lt;float name="tie"&gt;0.01&lt;/float&gt;
&lt;str name="qf"&gt;contentˆ1.0&lt;/str&gt;
&lt;str name="pf"&gt;anchorˆ1.0 titleˆ0.1&lt;/str&gt;
&lt;int name="ps"&gt;3&lt;/int&gt;
&lt;str name="fl"&gt;url&lt;/str&gt;
&lt;bool name="hl"&gt;false&lt;/bool&gt;
&lt;/lst&gt;
&lt;/requestHandler&gt;
Per ognuna delle 6.000 URL cos`ı individuate, un esperto di dominio ha
registrato (mediante un’applicazione Web appositamente sviluppata) il proprio parere in
merito a:
• la pertinenza della pagina recuperata rispetto al topic. Piu` precisamente la
domanda di riferimento per i valutatori e` stata: “La pagina Web associata alla
URL e` pertinente rispetto alla trasmissione televisiva in oggetto?” con possibili
valori di risposta: rilevante e non rilevante.
• la tipologia di pagina Web. In questo caso la domanda di riferimento per i
valutatori e` stata: “La pagina Web associata alla URL e` una home-page, una pagina
di aggregazione o un permalink?”, con possibili valori di risposta: homepage,
pagina di aggregazione post, permalink o altro.
• la presenza di opinioni nella pagina Web, con la seguente domanda di
riferimento: “La pagina Web associata alla URL contiene opinioni positive, opinioni
negative, opinioni miste o nessuna opinione?” con possibili valori di risposta:
nessuna opinione, opinioni positive, opinioni negative o opinioni miste.
3 Per approfondimenti sui parametri del request
http://wiki.apache.org/solr/DisMaxQParserPlugin
handler
si
veda</p>
    </sec>
    <sec id="sec-4">
      <title>Un prototipo per la ricerca di opinioni sui blog</title>
      <p>Nell’ambito del progetto TV++ condotto dalla Fondazione Ugo Bordoni e dall’Istituto
Superiore delle Comunicazioni e delle Tecnologie dell’Informazione e` stato realizzato
un prototipo per l’applicazione della tecnica dell’opinion finding al dominio dei blog
dedicati ai programmi televisivi trasmessi dalle emittenti italiane.</p>
      <p>
        Come gia` anticipato nella Sezione 1, il prototipo implementa la tecnica
dictionarybased presentata in [
        <xref ref-type="bibr" rid="ref1">1</xref>
        ]. In estrema sintesi tale tecnica prevede due passi principali:
1. Costruzione automatica di un dizionario composto da termini che caratterizzano
i documenti in cui vengono espresse opinioni (termini opinion-bearing). A ogni
termine del dizionario e` associato un peso che fornisce, informalmente parlando,
una misura del suo grado di soggettivita`, ove per termine soggettivo s’intende un
termine che usualmente compare in una frase soggettiva. Ad esempio i termini
“credo” e “penso” si suppone che abbiano un grado di soggettivita` alto in quanto
spesso usati in frasi che esprimono opinioni. La costruzione automatica del dizionario
avviene adottando un approccio di tipo statistico-probabilistico basato su modelli
della famiglia Divergence from Randomness (DFR) [
        <xref ref-type="bibr" rid="ref2">2</xref>
        ].
2. Esecuzione di un algoritmo di opinion retrieval che, sfruttando le informazioni
presenti nel dizionario appena descritto, assegni ad ogni documento uno score funzione
sia della rilevanza rispetto alla query, sia della presenza di opinioni nel testo.
L’algoritmo tendera` pertanto a far emergere nelle prime posizioni i documenti rilevanti
e contenenti opinioni, a discapito dei documenti solo rilevanti o contenenti solo
opinioni.
      </p>
      <p>
        A livello realizzativo, l’implementazione della metodologia appena richiamata rende
necessario l’utilizzo di Terrier [
        <xref ref-type="bibr" rid="ref8">8</xref>
        ], l’unico framework per l’IR che, ad oggi,
supporta nativamente i modelli di recupero DFR. Terrier e` quindi indispensabile sia per la
creazione del dizionario che per l’implementazione dell’algoritmo di re-rank. D’altro
canto la comunita` dell’open-source di Apache Software Foundation4 sta, gia` da qualche
anno, concentrando le energie sullo sviluppo del crawler Nutch [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ] e del framework per
motori di ricerca Solr [
        <xref ref-type="bibr" rid="ref12">12</xref>
        ]. Tale impegno si concretizza nel frequente rilascio di versioni
sempre piu` stabili e di funzionalita` sempre piu` avanzate. Inoltre, se l’uso di
componenti open-source va incontro al requisito non funzionale di economicita` dichiarato nella
Sezione 1, si evidenzia come la scelta di Nutch permetta di soddisfare anche il requisito
di scalabita` grazie al suo supporto nativo verso la piattaforma Hadoop [
        <xref ref-type="bibr" rid="ref15">15</xref>
        ].
      </p>
      <p>La Figura 1 riporta uno schema architetturale a partire dal quale e` possibile
descrivere sia le modalita` di creazione del dizionario (linee piene etichettate con numeri), sia
quelle relative al suo utilizzo (linee tratteggiate contrassegnate da lettere).</p>
      <p>
        Per quanto riguarda la creazione del dizionario, Nutch viene utilizzato per eseguire
la strategia di crawling (1) descritta nella Sezione 2. La collezione cos`ı prodotta viene
indicizzata da Solr (2). Successivamente l’indice viene ripulito (3) per mezzo delle
funzionalita` di rimozione dei duplicati offerte dalle librerie Lucene [
        <xref ref-type="bibr" rid="ref5">5</xref>
        ] . A partire dal
contenuto dell’indice viene generato il benchmark (4), secondo le modalita` descritte nella
Sezione 3, ed esportata una collezione in formato TREC (5) grazie alla quale risulta
4 http://www.apache.org/
semplice generare un indice Terrier i cui documenti condividono un identificativo
comune con i documenti presenti nell’indice della piattaforma Solr. A partire dall’indice
Terrier viene infine generato il dizionario (6).
      </p>
      <p>L’algoritmo di re-rank entra in gioco durante la fase di recupero. Piu` precisamente
a fronte di una query eseguita dall’utente (a), il sistema Solr esegue un primo recupero
sul proprio indice e inoltra il risultato a Terrier (b). Quest’ultimo esegue l’algoritmo di
re-rank (c) e restituisce i risultati a Solr (d) che si incarica di farli visualizzare all’utente
(e).</p>
      <p>Figura 1. Schema architetturale del prototipo realizzato. Le frecce piene, etichettate con numeri,
delineano il processo di creazione del dizionario. Le frecce tratteggiate, etichettare con lettere,
mostrano il processo di interrogazione del sistema.
5</p>
    </sec>
    <sec id="sec-5">
      <title>Conclusioni e sviluppi futuri</title>
      <p>In questo lavoro si riporta l’esperienza maturata nell’applicazione di tecniche di
opinion finding al dominio dei blog dedicati ai programmi televisivi trasmessi dalle
emittenti italiane. Le attivita` hanno condotto alla realizzazione di un prototipo, basato su
componenti open-source, in grado non solo di fornire una risposta al problema in
questione, ma anche di supportare la creazione di benchmark per l’Information retrieval e la
creazione automatica di dizionari italiani composti da termini “opinion-bearing”. In tal
senso l’intera piattaforma puo` essere riutilizzata in altri domini applicativi, favorendo
sia la realizzazione di nuovi benchmark che la creazione di nuovi dizionari specializzati
per i singoli domini.</p>
    </sec>
    <sec id="sec-6">
      <title>Riferimenti bibliografici</title>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          1.
          <string-name>
            <given-names>Giambattista</given-names>
            <surname>Amati</surname>
          </string-name>
          , Edgardo Ambrosi, Marco Bianchi, Carlo Gaibisso, and
          <string-name>
            <given-names>Giorgio</given-names>
            <surname>Gambosi</surname>
          </string-name>
          .
          <article-title>Automatic construction of an opinion-term vocabulary for ad hoc retrieval</article-title>
          . In Craig Macdonald, Iadh Ounis, Vassilis Plachouras, Ian Ruthven, and Ryen W. White, editors,
          <source>ECIR</source>
          , volume
          <volume>4956</volume>
          of Lecture Notes in Computer Science, pages
          <fpage>89</fpage>
          -
          <lpage>100</lpage>
          . Springer,
          <year>2008</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          2.
          <string-name>
            <given-names>Gianni</given-names>
            <surname>Amati and Cornelis Joost Van Rijsbergen</surname>
          </string-name>
          .
          <article-title>Probabilistic models of information retrieval based on measuring the divergence from randomness</article-title>
          .
          <source>ACM Trans. Inf</source>
          . Syst.,
          <volume>20</volume>
          :
          <fpage>357</fpage>
          -
          <lpage>389</lpage>
          ,
          <year>October 2002</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          3.
          <string-name>
            <given-names>Mike</given-names>
            <surname>Cafarella</surname>
          </string-name>
          and
          <string-name>
            <given-names>Doug</given-names>
            <surname>Cutting</surname>
          </string-name>
          .
          <article-title>Building nutch: Open source search</article-title>
          .
          <source>Queue</source>
          ,
          <volume>2</volume>
          :
          <fpage>54</fpage>
          -
          <lpage>61</lpage>
          ,
          <year>April 2004</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          4.
          <string-name>
            <given-names>Kushal</given-names>
            <surname>Dave</surname>
          </string-name>
          , Steve Lawrence, and
          <string-name>
            <given-names>David M.</given-names>
            <surname>Pennock</surname>
          </string-name>
          .
          <article-title>Mining the peanut gallery: opinion extraction and semantic classification of product reviews</article-title>
          .
          <source>In Proceedings of the 12th international conference on World Wide Web, WWW '03</source>
          , pages
          <fpage>519</fpage>
          -
          <lpage>528</lpage>
          , New York, NY, USA,
          <year>2003</year>
          . ACM.
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          5.
          <string-name>
            <surname>Lucene</surname>
          </string-name>
          .
          <source>The Lucene search engine</source>
          ,
          <year>2005</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          6.
          <string-name>
            <given-names>Craig</given-names>
            <surname>Macdonald</surname>
          </string-name>
          and
          <string-name>
            <given-names>Iadh</given-names>
            <surname>Ounis</surname>
          </string-name>
          .
          <article-title>The TREC Blog06 collection: Creating and analysing a blog test collection</article-title>
          .
          <source>Technical report</source>
          , Department of Computing Science, University of Glasgow, Scotland, United Kingdom,
          <year>2006</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          7.
          <string-name>
            <given-names>Craig</given-names>
            <surname>Macdonald</surname>
          </string-name>
          , Rodrygo L. T. Santos, Iadh Ounis, and
          <string-name>
            <given-names>Ian</given-names>
            <surname>Soboroff</surname>
          </string-name>
          .
          <source>Blog track research at TREC. SIGIR Forum</source>
          ,
          <volume>44</volume>
          (
          <issue>1</issue>
          ):
          <fpage>57</fpage>
          -
          <lpage>74</lpage>
          ,
          <year>2010</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          8.
          <string-name>
            <given-names>I.</given-names>
            <surname>Ounis</surname>
          </string-name>
          ,
          <string-name>
            <given-names>G.</given-names>
            <surname>Amati</surname>
          </string-name>
          ,
          <string-name>
            <given-names>V.</given-names>
            <surname>Plachouras</surname>
          </string-name>
          ,
          <string-name>
            <given-names>B.</given-names>
            <surname>He</surname>
          </string-name>
          ,
          <string-name>
            <given-names>C.</given-names>
            <surname>Macdonald</surname>
          </string-name>
          , and
          <string-name>
            <given-names>C.</given-names>
            <surname>Lioma</surname>
          </string-name>
          .
          <article-title>Terrier: A High Performance and Scalable Information Retrieval Platform</article-title>
          .
          <source>In Proceedings of ACM SIGIR'06 Workshop on Open Source Information Retrieval (OSIR</source>
          <year>2006</year>
          ),
          <year>2006</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          9.
          <string-name>
            <given-names>Iadh</given-names>
            <surname>Ounis</surname>
          </string-name>
          , Craig Macdonald, Maarten de Rijke, Gilad Mishne, and
          <string-name>
            <given-names>Ian</given-names>
            <surname>Soboroff</surname>
          </string-name>
          .
          <article-title>Overview of the trec 2006 blog track</article-title>
          .
          <source>In Voorhees and Buckland</source>
          [
          <volume>14</volume>
          ].
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          10.
          <string-name>
            <given-names>Bo</given-names>
            <surname>Pang</surname>
          </string-name>
          and
          <string-name>
            <given-names>Lillian</given-names>
            <surname>Lee</surname>
          </string-name>
          .
          <article-title>Opinion mining and sentiment analysis</article-title>
          .
          <source>Foundations and Trends in Information Retrieval</source>
          ,
          <volume>2</volume>
          (
          <issue>1</issue>
          -2):
          <fpage>1</fpage>
          -
          <lpage>135</lpage>
          ,
          <year>January 2008</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          11.
          <string-name>
            <surname>Bo</surname>
            <given-names>Pang</given-names>
          </string-name>
          ,
          <string-name>
            <given-names>Lillian</given-names>
            <surname>Lee</surname>
          </string-name>
          ,
          <string-name>
            <given-names>and Shivakumar</given-names>
            <surname>Vaithyanathan</surname>
          </string-name>
          .
          <article-title>Thumbs up? Sentiment classification using machine learning techniques</article-title>
          .
          <source>In Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing (EMNLP)</source>
          , pages
          <fpage>79</fpage>
          -
          <lpage>86</lpage>
          ,
          <year>2002</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          12. David Smiley and
          <string-name>
            <given-names>Eric</given-names>
            <surname>Pugh</surname>
          </string-name>
          .
          <article-title>Solr 1.4 Enterprise Search Server</article-title>
          . Packt Publishing,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          13.
          <string-name>
            <surname>Ellen</surname>
            <given-names>M.</given-names>
          </string-name>
          <string-name>
            <surname>Voorhees</surname>
          </string-name>
          .
          <article-title>Overview of the trec 2006</article-title>
          . In Voorhees and Buckland [
          <volume>14</volume>
          ].
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          14.
          <string-name>
            <surname>Ellen</surname>
            <given-names>M.</given-names>
          </string-name>
          <string-name>
            <surname>Voorhees</surname>
          </string-name>
          and Lori P. Buckland, editors.
          <source>Proceedings of the Fifteenth Text REtrieval Conference</source>
          , TREC 2006, Gaithersburg, Maryland,
          <source>November 14-17</source>
          ,
          <year>2006</year>
          , volume Special Publication 500-
          <fpage>272</fpage>
          . National Institute of Standards and
          <source>Technology (NIST)</source>
          ,
          <year>2006</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          15. Tom White.
          <article-title>Hadoop: The Definitive Guide. O'Reilly Media, original edition</article-title>
          ,
          <year>June 2009</year>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>