<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Un Approccio per la Valutazione della Credibilita del Contenuto Generato dagli Utenti nei Siti di Recensioni</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Marco Viviani</string-name>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Alessio Sera no</string-name>
          <email>a.serafino@campus.unimib.it</email>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Gabriella Pasi</string-name>
          <email>pasig@disco.unimib.it</email>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>20126 Milano WWW home page:</institution>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>Universita degli Studi di Milano-Bicocca / DISCo / IR Lab Viale Sarca</institution>
          ,
          <addr-line>336</addr-line>
        </aff>
      </contrib-group>
      <abstract>
        <p>Sommario Attraverso la di usione dei Social Media e stata data agli utenti la possibilita di pubblicare contenuto sul Web senza intermediari e la possibilita di costituire relazioni a molteplici livelli. Cio comporta il rischio di dare spazio a fonti poco a dabili e falsa informazione. In questo scenario e interessante veri care la bonta del contenuto generato dagli utenti nei siti di recensioni. Utenti non a dabili possono infatti fornire recensioni fasulle al ne di migliorare/a ossare l'immagine di un'attivita commerciale, ingannando in questo modo altri utenti che non hanno strumenti oggettivi per valutare l'a dabilita delle recensioni stesse. In questo articolo si propone percio un approccio basato su tecniche di apprendimento automatico supervisionato per il supporto all'utente nella veri ca della credibilita dell'informazione nei siti di recensioni. In base alle valutazioni ottenute si e deciso di investigare, per sviluppi futuri, l'apporto che lo studio del linguaggio utilizzato dagli utenti potrebbe avere nel giudicare correttamente le recensioni in esame.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>
        Negli ultimi anni si e assistito ad una esplosione dell'informazione disponibile
online, in particolare di contenuto generato dagli utenti, comunemente noto come
User Generated Content (UGC). Con questa espressione si indicano le varie
forme di contenuto multimediale e non, liberamente accessibile e pubblicato dagli
utenti senza intermediazioni [
        <xref ref-type="bibr" rid="ref1">1</xref>
        ]. Complice di questa di usione e stato lo sviluppo
di siti Web e di applicazioni mobili che rientrano nella categoria dei cosiddetti
Social Media; essi, oltre a consentire all'utente un'enorme liberta espressiva,
permettono lo scambio diretto di informazione e la costituzione di relazioni tra
utenti a molteplici livelli.
      </p>
      <p>In questo scenario si rischia di dare spazio a fonti non riconosciute,
informazione non a dabile o non veri cabile. Le motivazioni che spingono gli utenti
a generare contenuto falso possono essere molteplici: da quelle economiche (ad
esempio attivita commerciali interessate a dare di se un'immagine migliore o a
denigrare la concorrenza) a quelle di natura piu strettamente personale (come
ad esempio l'attivita di self-promotion per aumentare la popolarita del proprio
pro lo/pagina Web). Venendo a mancare i tradizionali intermediari che
potevano veri care l'a dabilita di una fonte o di una informazione e lasciati gli utenti
giudicare autonomamente sulla base delle proprie esperienze personali e sul buon
senso, emerge quindi il bisogno di studiare e sviluppare sistemi automatici che li
possano aiutare nella veri ca della credibilita delle informazioni e delle fonti in
base a criteri oggettivi.</p>
      <p>Un ambito in cui lo studio del problema di valutare la veridicita del
contenuto generato dagli utenti e particolarmente interessante e quello dei siti di
recensioni, o review site. In questo tipo di siti, gli utenti forniscono recensioni
su attivita commerciali e servizi, senza controlli da terze parti. Essi sono
caratterizzati da un'ampia mole di contenuto testuale, da innumerevoli metadati
collegati sia alle recensioni sia agli utenti e da una forte interazione tra questi
ultimi, grazie all'aspetto social che completa nella maggior parte dei casi questi
siti. Scopo di questo articolo e innanzitutto l'analisi delle principali
caratteristiche (le cosiddette feature) collegate ai siti di recensioni che possono essere
prese in considerazione come criteri oggettivi per la valutazione della credibilita
dell'informazione (ad esempio il numero di amici di un utente, la valutazione
fornita dall'utente rispetto alla valutazione media, la lunghezza della review, ecc.).
Come caso di studio e stato considerato il sito di recensioni Yelp e
successivamente, sulla base delle caratteristiche (testuali e non testuali) estratte da tale
piattaforma e attraverso l'applicazione di metodi di apprendimento automatico
supervisionato ad un insieme di recensioni, e stata fornita una classi cazione
di queste ultime sulla base della loro (possibile) veridicita/falsita. L'approccio
proposto e stato valutato in termini di e cacia; nonostante i risultati ottenuti
siano incoraggianti, e emerso come ci sia spazio per possibili miglioramenti. Si e
dunque voluto investigare come l'utilizzo di language model che rappresentano
il contenuto delle recensioni possa avere una in uenza sulla valutazione della
credibilita delle stesse. Questa ipotesi e stata presentata come proof of concept
e verra sviluppata in futuri lavori di ricerca.</p>
      <p>L'articolo e strutturato come segue: in Sezione 2 vengono illustrati gli
approcci proposti in letteratura per l'identi cazione di falsa informazione, in particolare
nei siti di recensioni. La Sezione 3 descrive il funzionamento e le caratteristiche
principali della piattaforma prescelta. In Sezione 4 viene illustrato l'approccio
proposto per la classi cazione delle recensioni, mentre in Sezione 5 viene
illustrato il possibile contributo dell'analisi del linguaggio nella valutazione della
credibilita. In ne, in Sezione 6, vengono illustrate le conclusioni e discussi gli
sviluppi futuri.
2</p>
    </sec>
    <sec id="sec-2">
      <title>Lavori correlati</title>
      <p>
        Nel corso degli anni sono stati proposti di erenti approcci in letteratura per la
valutazione automatica della credibilita di UGC in diversi Social Media [
        <xref ref-type="bibr" rid="ref1">1</xref>
        ] [
        <xref ref-type="bibr" rid="ref2">2</xref>
        ] [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ].
Come illustrato precedentemente, in questo articolo si a ronta in particolare il
problema dell'identi cazione di fake review (recensioni false) nei review site. Esso
riguarda spesso lo studio di caratteristiche linguistiche (language features )
legate al contenuto della recensione, caratteristiche comportamentali (behavioural
features) relative al comportamento dei recensori o a loro peculiarita,
caratteristiche sociali (social features ) rispetto alle interazioni tra utenti, utilizzate in
associazione con tecniche di apprendimento automatico (sia supervisionato che
non supervisionato). Tra i lavori che considerano caratteristiche testuali, Liu et
al. in [
        <xref ref-type="bibr" rid="ref4">4</xref>
        ] propongono un sistema di rilevamento automatico di recensioni false
su Amazon.com, basato unicamente sulla rilevazione di recensioni duplicate nei
pro li degli utenti. In [
        <xref ref-type="bibr" rid="ref5">5</xref>
        ], Ott et al. sviluppano un approccio basato su
caratteristiche psicolinguistiche e n-grammi de nendo al tempo stesso il primo dataset
di grandi dimensioni da utilizzare come gold standard. Altri approcci recenti che
utilizzano caratteristiche linguistiche e techiche di machine learning
supervisionato sono [
        <xref ref-type="bibr" rid="ref6 ref7 ref8">6,7,8</xref>
        ]. In [
        <xref ref-type="bibr" rid="ref10 ref11 ref9">9,10,11</xref>
        ] vengono illustrati alcuni interessanti approcci che
utilizzano tecniche di apprendimento automatico semi-supervisionato e feature
esclusivamente linguistiche. Li et al. in [
        <xref ref-type="bibr" rid="ref12">12</xref>
        ] propongono un approccio basato su
tecniche di apprendimento automatico supervisionato in cui le feature
coinvolte comprendono sia attributi legati al contenuto testuale della recensione sia al
pro lo dell'utente. Il lavoro di letteratura che ha ottenuto i migliori risultati e
che si avvicina maggiormente all'approccio proposto in questo articolo e
quello proposto da Mukherjee et al. in [
        <xref ref-type="bibr" rid="ref13">13</xref>
        ]. Vengono utilizzate caratteristiche sia
comportamentali sia linguistiche in associazione con tecniche di apprendimento
supervisionato e viene presa come gold standard la classi cazione delle recensioni
e ettuata da Yelp.
2.1
      </p>
      <sec id="sec-2-1">
        <title>Il problema della valutazione della classi cazione</title>
        <p>
          La maggior parte degli approcci sopracitati che considerano caratteristiche
multiple e che forniscono migliori risultati sono basati principalmente su tecniche di
apprendimento automatico di tipo supervisionato. Le valutazioni vengono
condotte su dataset etichettati (rispetto alla credibilita), ovvero insiemi di dati la
cui credibilita sia nota. Da questo punto di vista e necessario sottolineare come
nel caso dei siti di recensioni non esistano dataset di review in cui la classi
cazione in veritiere o meno possa essere garantita a dabile al 100% a priori. Per
questa ragione in letteratura sono state considerate diverse soluzioni in cui, nella
maggior parte dei casi, ci si basa su pseudo-recensioni etichettate anziche su
vere recensioni. In [
          <xref ref-type="bibr" rid="ref4">4</xref>
          ] ad esempio si assume che le recensioni duplicate siano false,
non considerano che anche gli utenti onesti a volte producono delle recensioni
simili, e che quelli malintenzionati spesso attingono dai testi di recensioni vere
per produrne di false. In [
          <xref ref-type="bibr" rid="ref12">12</xref>
          ] le recensioni vengono classi cate manualmente; cio
non permette di creare un gold standard di dimensioni signi cative per le analisi.
Ott. et al. in [
          <xref ref-type="bibr" rid="ref5">5</xref>
          ] costruiscono il primo dataset di dimensioni maggiori, attraverso
l'impiego dagli Amazon Mechanical Turkers. E stato tuttavia dimostrato in [
          <xref ref-type="bibr" rid="ref13">13</xref>
          ]
che anche questa soluzione non e e cace nel momento in cui viene utilizzata
per classi care recensioni vere. Nello stesso lavoro viene proposta la soluzione di
sfruttare il sistema di categorizzazione fornito da Yelp. L'algoritmo e proprietario
e non pubblicamente accessibile; e tuttavia in grado di fornire una suddivisione
in recensioni recommended e not recommended. Seppur non si possano conoscere
i criteri con cui viene attuata questa suddivisione e consci del fatto che essa
possa fornire solo un riscontro parziale, si e deciso di considerare questa soluzione
nell'utilizzo di tecniche di apprendimento automatico supervisionato, in quanto
in grado di fornire un grande numero di recensioni (reali) classi cate.
3
        </p>
      </sec>
    </sec>
    <sec id="sec-3">
      <title>Il sito di recensioni Yelp</title>
      <p>Yelp.com e un'azienda multinazionale americana che opera attualmente in 32
paesi nel mondo; alla ne del 2015 i suoi utenti hanno prodotto circa 90 milioni
di recensioni relative ad attivita commerciali o servizi. Per la pubblicazione di
una recensione e richiesta la registrazione al sito; cio non e necessario per la
consultazione, che e libera. Tre sono le principali entita che caratterizzano Yelp:
l'attivita commerciale (business ), la recensione (review ) e l'utente (user ).
Business Per ogni attivita commerciale Yelp permette di visualizzare una serie
di informazioni organizzate in diverse sezioni della pagina dedicata, tra cui:
{ il nome dell'attivita commerciale,
{ l'indirizzo,
{ il recapito telefonico e l'indirizzo e-mail,
{ il numero di recensioni pubblicate dagli utenti e il numero medio di stelle1,
{ l'orario di apertura e la possibilita di consultare il menu online,
{ la fascia di prezzo (tra \$" e \$$$$").
{ le cosiddette more business info, ad esempio la possibilita di ordinare
takeaway, se il ristorante accetta prenotazioni o se e disponibile un parcheggio.
Review A sua volta, ogni recensione e caratterizzata da:
{ il testo della recensione,
{ la valutazione espressa in stelle (per la singola recensione),
{ la data di quando e stata e ettuata la recensione,
{ le foto eventualmente scattate dall'utente che ha redatto la recensione,
{ il check-in, che identi ca la propria presenza nel locale attivando il GPS se
la recensione viene e ettuata tramite dispositivo mobile,
{ i compliments, attraverso i quali chi consulta una review ha la possibilita
di attribuire un complimento alla stessa, nel caso in cui sia stata utile
(useful ), divertente (funny ) o bella (cool ). Tutti gli utenti possono attribuire un
complimento ad una recensione, anche quelli non registrati al sito.
User Ogni utente e caratterizzato da una pagina pro lo su Yelp. La
quantita di informazioni presenti su ogni pro lo puo variare sia in base al livello
di arricchimento che lo user stesso vuole dare alla propria pagina, sia al
livello di \partecipazione" dell'utente sul sito. Attraverso questa pagina e possibile
visualizzare:
1 Le stelle (da 1 a 5) vengono utilizzate nelle review per valutare il business.
{ il nome o il nickname dell'utente,
{ la lista e il numero di amici dell'utente e dei suoi follower,
{ tutte le sue recensioni,
{ le foto scattate in un business e allegate alle recensioni,
{ i compliments (relativi all'utente) ricevuti dagli altri utenti.
{ i tips, vale a dire tutti i suggerimenti pubblicati2,
{ i bookmark, cioe la lista di tutte le attivita a cui si e assegnato un segnalibro,
{ le list, che raccolgono tutte le attivita per le quali l'utente ha scritto almeno
una recensione, suddivise per categoria,
{ l'eventuale appartenenza al gruppo di utenti Elite Squad : utenti molto attivi
sul sito ed in qualche modo \certi cati" (le cui recensioni sono molto spesso
a dabili).
3.1</p>
      <sec id="sec-3-1">
        <title>Il processo di estrazione e memorizzazione dei dati</title>
        <p>Le informazioni che caratterizzano le tre entita sono state estratte dal sito di
Yelp attraverso un processo di crawling e memorizzate in un database. Per e
ettuare il crawling si e adottata una tecnica di Web scraping, ovvero il reperimento
dei dati direttamente dalle pagine HTML. In particolare si e utilizzata la libreria
software JSoup3 e le informazioni estratte sono state memorizzate in un DBMS
relazionale SQLite4. In particolare, impostando la seguente ricerca:
\Ristoranti italiani nell'area geogra ca di New York City", e stato possibile estrarre e
memorizzare le informazioni sopracitate per il seguente numero di entita:
{ 1.000 ristoranti;
{ 4.604 utenti;
{ 278.692 recensioni (di cui 13.905 per le quali si conosce la classi cazione di
Yelp: 7.514 recommended e 6.391 not recommended ).</p>
        <p>La di erenza tra il numero totale di recensioni scaricate e quelle di cui si
conosce la classi cazione e determinata dalle limitazioni imposte da Yelp. Nella
fase di de nizione dell'approccio per la classi cazione delle recensioni, le
informazioni (e quindi le feature) prese in considerazione per ogni entita sono state
ridotte sulla base della loro signi cativita rispetto alla credibilita. Il processo di
selezione delle feature sara illustrato nella prossima sezione.
4</p>
      </sec>
    </sec>
    <sec id="sec-4">
      <title>L'approccio di classi cazione proposto</title>
      <p>
        In letteratura, gli approcci che hanno dato sinora i migliori risultati nella
classi cazione di recensioni in base al loro livello di veridicita utilizzano tecniche di
apprendimento automatico supervisionato [
        <xref ref-type="bibr" rid="ref14">14</xref>
        ], in cui si dispone di una classi
cazione nota a priori. In questo articolo si e scelto di utilizzare le stesse tecniche,
2 I tips sono delle brevissime recensioni in cui ci si focalizza su un aspetto particolare
del business recensito.
3 http://jsoup.org
4 http://www.sqlite.org
tenendo in considerazione un numero maggiore di feature rispetto a quelle
utilizzate in letteratura, e con con gurazioni diverse, come verra illustrato in
Sezione 4.1. Nel caso di Yelp e stato selezionato un sottoinsieme di feature estratte
dal sito relative alle entita user, business e review. Come classi cazione nota e
stata considerata quella fornita direttamente da Yelp, che identi ca recensioni
recommended e not recommended.
      </p>
      <p>
        Tra i diversi algoritmi di apprendimento automatico supervisionato, in
questo articolo si e considerato il modello basato su macchine a vettori di supporto,
meglio conosciute con il nome di Support Vector Machine (SVM), utilizzate con
successo in [
        <xref ref-type="bibr" rid="ref12 ref13 ref9">12,13,9</xref>
        ] per la valutazione della credibilita di recensioni. In
particolare, come dimostrato in [
        <xref ref-type="bibr" rid="ref5">5</xref>
        ] e [
        <xref ref-type="bibr" rid="ref13">13</xref>
        ], l'impiego di SVM lineari rappresenta la scelta
migliore per un problema di classi cazione come quello a rontato nel contesto
della credibilita. Per lo sviluppo del sistema di apprendimento automatico si e
scelto di utilizzare il linguaggio Python, in particolare la libreria scikit-learn5,
basata su altre due librerie molto note per operazioni su dati, calcoli statistici e
matematici: NumPy 6 e SciPy 7. Le recensioni memorizzate nel dataset descritto
in Sezione 3.1 sono state suddivise tra training-set e test-set come segue:
{ training-set : 9.908 recensioni etichettate, di cui 5.514 recensioni
recommended e 4.394 recensioni not recommended ;
{ test-set : 3.997 recensioni etichettate, di cui 2.000 recensioni recommeded e
1.997 recensioni not recommended.
4.1
      </p>
      <sec id="sec-4-1">
        <title>Selezione delle feature</title>
        <p>Come illustrato in Sezione 2, altri approcci in letteratura si sono occupati della
scelta di quali feature utilizzare per la valutazione della credibilita delle
recensioni. Nell'approccio proposto, a di erenza dei lavori precedenti, e stato aumentato
il numero e il tipo delle caratteristiche coinvolte, tenendo in considerazione (i)
sia le caratteristiche non testuali collegate alle entita prese in esame (business,
review e user ), (ii) sia le caratteristiche che si possono estrarre dal testo delle
recensioni. Di quest'ultimo sono stati analizzati sia aspetti strutturali (il modo
in cui e stato redatto il testo, le sua dimensione e la suddivisione in periodi), sia
aspetti semantici, legati al signi cato e al messaggio che il testo vuole
trasmettere. In particolare, alcune di queste feature sono state prese dalla letteratura,
altre sono state scelte sulla base dell'analisi del loro valore medio riespetto alla
classi cazione delle recensioni in recommended e not recommended fornita da
Yelp, come illustrato in Tabella 1. Per gli utenti sono state scelte:
{ nr review : il numero di review scritte da un utente, che puo indicare il livello
di \attivita" di un utente all'interno del social media;
{ nr friends: il numero medio di legami di \amicizia" con altri utenti,
proporzionale al livello di a dabilita della fonte. Chi crea un pro lo appositamente
5 http://scikit-learn.org/stable/
6 http://www.numpy.org/
7 http://www.scipy.org/
Tabella 1. I valori medi delle feature prese in considerazione rispetto alla classi cazione
e ettuata da Yelp.</p>
        <p>User
Features Rec Not Rec Features
nr review 108,8 11,8 rating
nr friends 73,7 7,1 extreme rating
nr followers 0,04 0 check-in
nr photos 84,3 3,9 polarity
nr tips 14,1 0,4 subjectivity
nr compliments 425 77 text length
elite squad 23,2% 0,04% nr sentences
pro le picture 78,9% 44%
per promuovere o denigrare un business non detiene infatti un alto numero
di relazioni;
{ nr followers : vale lo stesso discorso fatto per il numero di amici;
{ nr photos: il numero di foto amatoriali scattate da un utente nel business
recensito, che dovrebbe provare il fatto di averlo e ettivamente visitato;
{ nr tips: il numero di suggerimenti pubblicati;
{ nr compliments : il numero di \complimenti" ricevuti dagli altri utenti
(useful, funny e cool ). Tale valore puo dare un'idea dell'opinione che altre persone
hanno sull'utente della cui recensione si sta analizzando la credibilita;
{ elite squad : l'appartenenza ad un gruppo Elite Squad puo essere un buon
indicatore del livello di reputazione di un utente e della veridicita delle sue
opinioni sui ristoranti;
{ pro le picture: la presenza della foto di pro lo. Chi crea un account per
produrre contenuto falso solitamente non vuole rivelare la propria identita con
una foto, o comunque non si preoccupa nemmeno di metterne una ttizia. Cio
e stato confermato dall'analisi del valore medio di questa caratteristica nella
classi cazione di Yelp per le recensioni etichettate come not recommended.
Le feature selezionate per le recensioni sono:
{ rating : il numero di stelle attribuite dall'utente alla recensione;
{ extreme rat : l'indicazione che il voto attribuito alla recensione ha un valore
estremo (1 stella o 5 stelle). Le recensioni false sono spesso caratterizzate da
un giudizio eccessivamente positivo o negativo;
{ check-in: l'indicazione che l'utente ha e ettuato il check-in nell'attivita
commerciale tramite la geolocalizzazione (e quindi dovrebbe attestare l'e ettiva
presenza nel business recensito);
{ polarity : e un indice che rientra nella disciplina della sentiment analysis. Essa
racchiude tutte quelle tecniche di elaborazione del linguaggio per estrarre
informazioni di carattere semantico. La polarita, in particolare, indica se il
testo ha un'accezione negativa, neutra o positiva;
{ subjectivity : tale valore di sentiment analysis indica il livello di \oggettivita"
e \soggettivita" di un testo e puo essere utile per distinguere descrizioni
oggettive di cio che si sta recensendo (un'opinione avvalorata da fatti) da
giudizi puramente personali o con uno scarso riscontro nella realta;
{ text length: la lunghezza del testo, intesa come numero di caratteri;
{ nr sentences: il numero di frasi, dove ogni frase e rappresentata da una
porzione di testo delimitata da punti.</p>
        <p>Sulla base di queste feature sono state condotte valutazioni preliminari
attraverso due sperimentazioni distinte, scegliendo due gruppi di caratteristiche:
1. Nel prima sperimentazione si sono considerate quelle feature legate piu ai
metadati collegati alle recensioni e agli utenti piuttosto che al testo
delle recensioni, vale a dire: rating, avg rating (il numero medio di stelle
assegnate da un utente, calcolato da tutte le recensioni da lui pubblicate),
extreme rat, check-in, nr review, nr friends, nr followers, nr photos, nr tips,
nr compliments, elite squad, pro le picture.
2. Nella seconda sperimentazione, alle feature considerate precedentemente,
sono state aggiunte le caratteristiche legate al testo della recensione: text length,
nr sentences, polarity, subjectivity.</p>
        <p>Per il calcolo della polarita e della soggettivita e stata impiegata la
libreria TextBlob8 di Python, che fornisce un set di funzioni di sentiment analysis
(sentiment.polarity e sentiment.subjetity), basate su tecniche di natural
language processing (NLP), atte a tale scopo. Le funzioni restituiscono dei valori
compresi nell'intervallo [ 1; 1]; nel caso della polarita, 1 rappresenta il massimo
valore di positivita, e -1 di negativita; nel caso della soggettivita, 1 ne
rappresenta il massimo valore, mentre -1 indica un'alta oggettivita del testo. Ad esempio,
un documento con polarity = -0.86 e subjetivity = 0.7 e caratterizzato da polarita
molto negativa e da un livello di soggettivita molto alto.
4.2</p>
      </sec>
      <sec id="sec-4-2">
        <title>Valutazioni preliminari</title>
        <p>
          Per la valutazione dell'e cacia del sistema di apprendimento automatico, e
delle feature utilizzate, sono stati presi in esame una serie di parametri noti in
Information Retrieval, chiamati indici di prestazioni (performance evaluation
indexes). In particolare sono stati presi in considerazione: precisione, richiamo,
accuratezza, speci cita e f1-score. In Tabella 2 vengono confrontati i valori
ottenuti dall'approccio presentato in questo articolo a quelli ottenuti dai principali
lavori di letteratura che hanno applicato algoritmi di apprendimento automatico
per la classi cazione di recensioni, da Yelp in particolare [
          <xref ref-type="bibr" rid="ref13 ref15 ref9">13,9,15</xref>
          ]. E necessario
considerare che in [
          <xref ref-type="bibr" rid="ref15">15</xref>
          ] vengono impiegate tecniche di apprendimento non
supervisionato, al contrario che negli altri due approcci. Per questo motivo i risultati
sono meno soddisfacenti rispetto a [
          <xref ref-type="bibr" rid="ref13 ref9">13,9</xref>
          ]. Risulta chiaro come a livello di
precisione, i risultati ottenuti dall'approccio proposto siano apprezzabili. Al contrario,
il livello di richiamo e inferiore rispetto agli altri approcci (in particolare
rispetto a [
          <xref ref-type="bibr" rid="ref13">13</xref>
          ]). Di conseguenza anche il valore f1-score e inferiore. Nessuno dei tre
8 https://textblob.readthedocs.org/en/dev/
approcci precedenti ha preso in considerazione l'indice di speci cita dei risultati,
mentre soltanto in [
          <xref ref-type="bibr" rid="ref13">13</xref>
          ] e stato calcolato il livello di accuratezza. Quest'ultimo
valore risulta, anche in questo caso, inferiore. Pertanto, malgrado la precisione
ottenuta sia in generale al di sopra della media, non sono stati raggiunti
globalmente risultati soddisfacenti per quanto riguarda gli altri indici. La causa
del problema e imputabile all'elevato numero di falsi negativi generati, ovvero
tutti quei campioni positivi del test-set giudicati negativi dalla macchina. Per
campioni positivi si intendono le recensioni classi cate come not recommended,
mentre i campioni negativi sono costituiti dalle recensioni recommended.
Tabella 2. Confronto degli indici di prestazioni dell'approccio proposto con quelli
prodotti dai lavori in letteratura.
        </p>
        <p>Mukherjee et al. 2013
Li et al. 2014
Mukherjee et al. 2014
Approccio proposto</p>
        <p>Precisione Richiamo F1-score Accuratezza
0,84 0,87 0,85 0,86
0,59 0,89 0,71
0,56 0,63 0,59
0,9 0,53 0,66 0,73
5</p>
      </sec>
    </sec>
    <sec id="sec-5">
      <title>L'analisi del linguaggio nella valutazione della credibilita delle recensioni</title>
      <p>In questa sezione viene illustrato un esperimento che cerca di \ra nare" il
giudizio del classi catore SVM e quindi diminuire il numero di falsi negativi grazie
all'analisi del linguaggio degli utenti delle recensioni classi cate erroneamente.
Pur essendo consapevoli che i risultati prodotti dall'algoritmo di classi cazione
debbano essere unicamente utilizzati per valutare l'approccio proposto,
l'esperimento svolto ha avuto come unico scopo la rapida veri ca della potenziale
importanza dell'analisi del linguaggio utlizzato nelle recensioni per valutarne la
credibilita. Un approccio sistematico ed esteso all'incorporazione di vari tipi di
analisi e ettuate sul linguaggio sara l'oggetto di futuri lavori.</p>
      <p>
        L'esperimento e basato su language model, in particolare sul modello
descritto da Croft, Metzler e Strohman in [
        <xref ref-type="bibr" rid="ref16">16</xref>
        ], ovvero il query likelihood ranking : un
modello di linguaggio e costruito per ogni documento in una collezione e
l'ordinamento dei documenti e e ettuato rispetto alla probabilita di questi ultimi di
generare una determinata query. Formalmente, per calcolare la probabilita P (qjd)
dove q = fq1; q2; : : : ; qng rappresenta la query e le parole che la compongono e d
rappresenta il documento, e stata utilizzata la seguente formula:
log P (qjd) =
n
X log
i=1
fqi;d +
jdj +
cqi
jCj
dove fqi ; d rappresenta la frequenza con cui il termine qi appare nel documento
d, jdj e il numero di termini in d, cqi e la stima della probabilita del language
jCj
model della collezione per il termine qi, dove cqi e il numero di volte che il
termine della query appare nella collezione C di documenti, e jCj e il numero
totale di occorrenze dei termini nella collezione. In ne, e una costante il cui
valore viene settato empiricamente tra 1,000 e 2,000 (in base ai risultati migliori
ottenuti negli esperimenti TREC).
      </p>
      <p>In questo esperimento si considera come query una recensione nel test-set. In
questo modo e possibile e ettuare un confronto tra il modello di una recensione
nel training-set e una recensione nel test-set. In particolare e possibile calcolare
la probabilita che una recensione nel test-set possa essere generata da una
recensione nel training-set, sia che essa sia etichettata come recommended o not
recommended. Come precedentemente descritto, il problema principale del basso
di livello di richiamo ed accuratezza manifestato nel fase di analisi descritta in
Sezione 4.2 e da imputare alla presenza di un elevato numero di falsi negativi.
L'idea e quindi quella di prendere in considerazione i casi di test etichettati come
falsi negativi e, tramite i language model, veri care la possibilita di diminuire
gli \errori" generati dalla SVM. Lo scopo e quindi quello di portare i campioni
erroneamente giudicati come recommended ad essere attribuiti alla classe not
recommended (aumentando il valore dei veri positivi ). Lo stesso approccio e stato
applicato ai falsi positivi, ovvero quei campioni del test-set che la macchina a
vettori di supporto ha giudicato not recommended, malgrado non lo fossero.
5.1</p>
      <sec id="sec-5-1">
        <title>Valutazione dell'esperimento</title>
        <p>Date 100 recensioni dal training-set (50 recommended e 50 not recommended ),
di ognuna di queste ne viene fornita una rappresentazione formale (un le
contenente le parole presenti nel testo con la relativa frequenza). In seguito, per
ognuna delle recensioni del test-set che in seguito alla classi cazione sono
rientrate nei falsi negativi o nei falsi positivi, e stata calcolata la probabilita di essere
generata da ognuna delle cento recensioni prese a campione dal training-set. Si
ottengono in questo modo, per ogni recensione del test-set, cento score, uno per
ognuna delle cento recensioni nel training-set. Questi valori sono stati impiegati
per confermare o smentire il giudizio della classi cazione prodotta dalla SVM
riguardo alla recensione in esame. Speci catamente, vengono aggregati
separatamente gli score prodotti dal calcolo della probabilita della recensione di essere
stata generata dalle cinquanta recensioni recommended, e dalle cinquanta not
recommended. Il valore piu alto prodotto dalle distinte somme determina
l'appartenenza della recensione presa in esame ad una delle due classi, andando in
questo modo a smentire o confermare il responso della support vector machine.</p>
        <p>Tramite questo esperimento di \ra namento" della classi cazione basato sui
language model e stato possibile correggere 33 falsi positivi e 813 falsi negativi,
ottenendo cos 1.865 veri positivi, 1.922 veri negativi, 78 falsi positivi e 132
falsi negativi. In questo modo i valori degli indici di prestazioni hanno subito
un netto miglioramento, anche rispetto ad accuratezza e richiamo. In Figura
1 viene mostrato, a mero titolo di proof of concept, il confronto tra i risultati
ottenuti con la tecnica di machine learning, e quelli dell'esperimento basato sul
ra namento della classi cazione SVM tramite language model.</p>
        <p>Figura 1. Confronto degli indici di prestazioni dell'approccio basato su SVM e
dell'esperimento basato su SVM + language model.
6</p>
      </sec>
    </sec>
    <sec id="sec-6">
      <title>Conclusioni e sviluppi futuri</title>
      <p>Con lo sviluppo del Web sociale e la di usione dei Social Media agli utenti e
stata data la possibilita di generare contenuto { il cosiddetto User Generated
Content (UGC) { e di onderlo senza il controllo di intermediari o terze parti
ritenute a dabili, come succedeva prima dell'avvento del Web 2.0. Cio
comporta che pochi siano i mezzi oggettivi a disposizione di chi si trovi a dover/voler
valutere la credibilita dell'informazione sui Social Media. Emerge quindi il
problema di fornire strumenti automatici che aiutino gli utenti in questo compito.
Tra le diverse piattaforme che permettono la di usione di UGC, i siti di
recensioni rappresentano uno scenario particolarmente interessante in cui investigare
il problema della veridicita delle review che vi sono pubblicate. In questo
articolo, prendendo in considerazione il sito di recensioni Yelp, e stato presentato
un approccio basato su tecniche di apprendimento automatico supervisionato
per la classi cazione di recensioni. Rispetto ad altri approcci in letteratura, e
stato utilizzato un numero maggiore di caratteristiche (features) per la fase di
apprendimento; tali caratteristiche prendono in considerazione sia il contenuto
delle recensioni, sia i metadati associati alle recensioni e agli utenti che le hanno
prodotte. E stato inoltre illustrato un esperimento basato sui language model per
veri care l'in uenza del linguaggio utilizzato nelle recensioni nella valutazione
della credibilita, ra nando i risultati della classi cazione prodotti dall'approccio
machine learning. Per il futuro si e pensato di applicare l'approccio proposto ad
altri contesti e Social Media, di sperimentare tecniche di apprendimento
automatico non supervisionato o semi-supervisionato per superare il problema legato ad
un dataset di dati preclassi cati, o di applicare i modelli di linguaggio al
modello stesso, utilizzando per esempio i valori di probabilita ottenuti come ulteriori
feature da utilizzare durante il processo di apprendimento.</p>
    </sec>
    <sec id="sec-7">
      <title>Riferimenti bibliogra ci</title>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          1.
          <string-name>
            <surname>Kaplan</surname>
            ,
            <given-names>A.M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Haenlein</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          :
          <article-title>Users of the world, unite! the challenges and opportunities of social media</article-title>
          .
          <source>Business Horizons</source>
          <volume>53</volume>
          (
          <issue>1</issue>
          ) (
          <year>2010</year>
          )
          <volume>59</volume>
          {
          <fpage>68</fpage>
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          2.
          <string-name>
            <surname>Abbasi</surname>
            ,
            <given-names>M.A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Liu</surname>
          </string-name>
          , H.:
          <article-title>Measuring user credibility in social media</article-title>
          .
          <source>In: Social Computing</source>
          ,
          <string-name>
            <surname>Behavioral-Cultural Modeling</surname>
          </string-name>
          and Prediction. Springer (
          <year>2013</year>
          )
          <volume>441</volume>
          {
          <fpage>448</fpage>
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          3.
          <string-name>
            <surname>Westerman</surname>
            ,
            <given-names>D.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Spence</surname>
            ,
            <given-names>P.R.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Van Der Heide</surname>
            ,
            <given-names>B.</given-names>
          </string-name>
          :
          <article-title>Social media as information source: Recency of updates and credibility of information</article-title>
          .
          <source>Journal of ComputerMediated Communication</source>
          <volume>19</volume>
          (
          <issue>2</issue>
          ) (
          <year>2014</year>
          )
          <volume>171</volume>
          {
          <fpage>183</fpage>
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          4.
          <string-name>
            <surname>Jindal</surname>
            ,
            <given-names>N.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Liu</surname>
            ,
            <given-names>B.</given-names>
          </string-name>
          :
          <article-title>Opinion spam and analysis</article-title>
          .
          <source>In: Proceedings of the 2008 International Conference on Web Search and Data Mining</source>
          , ACM (
          <year>2008</year>
          )
          <volume>219</volume>
          {
          <fpage>230</fpage>
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          5.
          <string-name>
            <surname>Ott</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Choi</surname>
            ,
            <given-names>Y.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Cardie</surname>
            ,
            <given-names>C.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Hancock</surname>
            ,
            <given-names>J.T.</given-names>
          </string-name>
          :
          <article-title>Finding deceptive opinion spam by any stretch of the imagination</article-title>
          . In:
          <article-title>Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1, Association for Computational Linguistics (</article-title>
          <year>2011</year>
          )
          <volume>309</volume>
          {
          <fpage>319</fpage>
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          6.
          <string-name>
            <surname>Ott</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Cardie</surname>
            ,
            <given-names>C.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Hancock</surname>
            ,
            <given-names>J.T.</given-names>
          </string-name>
          :
          <article-title>Negative deceptive opinion spam</article-title>
          .
          <source>In: HLTNAACL</source>
          . (
          <year>2013</year>
          )
          <volume>497</volume>
          {
          <fpage>501</fpage>
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          7.
          <string-name>
            <surname>Shojaee</surname>
            ,
            <given-names>S.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Murad</surname>
            ,
            <given-names>M.A.A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Azman</surname>
            ,
            <given-names>A.B.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Sharef</surname>
            ,
            <given-names>N.M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Nadali</surname>
            ,
            <given-names>S.</given-names>
          </string-name>
          :
          <article-title>Detecting deceptive reviews using lexical and syntactic features</article-title>
          .
          <source>In: Intelligent Systems Design and Applications (ISDA)</source>
          ,
          <year>2013</year>
          13th International Conference on.
          <source>(Dec</source>
          <year>2013</year>
          )
          <volume>53</volume>
          {
          <fpage>58</fpage>
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          8.
          <string-name>
            <surname>Li</surname>
            ,
            <given-names>J.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Ott</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Cardie</surname>
            ,
            <given-names>C.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Hovy</surname>
            ,
            <given-names>E.H.</given-names>
          </string-name>
          :
          <article-title>Towards a general rule for identifying deceptive opinion spam</article-title>
          .
          <source>In: Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics</source>
          ,
          <string-name>
            <surname>ACL</surname>
          </string-name>
          <year>2014</year>
          , June 22-27,
          <year>2014</year>
          , Baltimore,
          <string-name>
            <surname>MD</surname>
          </string-name>
          , USA, Volume
          <volume>1</volume>
          :
          <string-name>
            <surname>Long</surname>
            <given-names>Papers</given-names>
          </string-name>
          , The Association for Computer Linguistics (
          <year>2014</year>
          )
          <volume>1566</volume>
          {
          <fpage>1576</fpage>
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          9.
          <string-name>
            <surname>Li</surname>
            ,
            <given-names>H.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Liu</surname>
            ,
            <given-names>B.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Mukherjee</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Shao</surname>
          </string-name>
          , J.:
          <article-title>Spotting fake reviews using positiveunlabeled learning</article-title>
          .
          <source>Computacion y Sistemas</source>
          <volume>18</volume>
          (
          <issue>3</issue>
          ) (
          <year>2014</year>
          )
          <volume>467</volume>
          {
          <fpage>475</fpage>
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          10.
          <string-name>
            <surname>Ren</surname>
            ,
            <given-names>Y.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Ji</surname>
            ,
            <given-names>D.</given-names>
          </string-name>
          , Zhang, H.:
          <article-title>Positive unlabeled learning for deceptive reviews detection</article-title>
          .
          <source>In: EMNLP</source>
          . (
          <year>2014</year>
          )
          <volume>488</volume>
          {
          <fpage>498</fpage>
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          11.
          <string-name>
            <given-names>Hernandez</given-names>
            <surname>Fusilier</surname>
          </string-name>
          ,
          <string-name>
            <given-names>D.</given-names>
            ,
            <surname>Montes-y Gomez</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            ,
            <surname>Rosso</surname>
          </string-name>
          ,
          <string-name>
            <given-names>P.</given-names>
            ,
            <surname>Guzman</surname>
          </string-name>
          <string-name>
            <surname>Cabrera</surname>
          </string-name>
          , R.:
          <article-title>Detecting positive and negative deceptive opinions using pu-learning</article-title>
          .
          <source>Inf. Process. Manage</source>
          .
          <volume>51</volume>
          (
          <issue>4</issue>
          )
          <issue>(</issue>
          <year>July 2015</year>
          )
          <volume>433</volume>
          {
          <fpage>443</fpage>
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          12.
          <string-name>
            <surname>Li</surname>
            ,
            <given-names>F.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Huang</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Yang</surname>
            ,
            <given-names>Y.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Zhu</surname>
            ,
            <given-names>X.</given-names>
          </string-name>
          :
          <article-title>Learning to identify review spam</article-title>
          .
          <source>In: IJCAI Proceedings-International Joint Conference on Arti cial Intelligence</source>
          . Volume
          <volume>22</volume>
          . (
          <year>2011</year>
          )
          <fpage>2488</fpage>
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          13.
          <string-name>
            <surname>Mukherjee</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Venkataraman</surname>
            ,
            <given-names>V.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Liu</surname>
            ,
            <given-names>B.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Glance</surname>
            ,
            <given-names>N.S.:</given-names>
          </string-name>
          <article-title>What yelp fake review lter might be doing</article-title>
          ? In: ICWSM. (
          <year>2013</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          14.
          <string-name>
            <surname>Mohri</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Rostamizadeh</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Talwalkar</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          :
          <article-title>Foundations of machine learning</article-title>
          . MIT press (
          <year>2012</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          15.
          <string-name>
            <surname>Mukherjee</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Venkataraman</surname>
            ,
            <given-names>V.</given-names>
          </string-name>
          :
          <article-title>Opinion spam detection: An unsupervised approach using generative models</article-title>
          .
          <source>Technical report, UH-CS-TR-2014</source>
          (
          <year>2014</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref16">
        <mixed-citation>
          16.
          <string-name>
            <surname>Croft</surname>
            ,
            <given-names>W.B.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Metzler</surname>
            ,
            <given-names>D.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Strohman</surname>
            ,
            <given-names>T.</given-names>
          </string-name>
          :
          <article-title>Search engines: Information retrieval in practice</article-title>
          . Volume
          <volume>283</volume>
          .
          <string-name>
            <surname>Addison-Wesley Reading</surname>
          </string-name>
          (
          <year>2010</year>
          )
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>