<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Una Strategia di Ranking di Attivita Commerciali Basata su User Generated Content</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Stefania Marrara</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Gabriella Pasi</string-name>
          <email>P@10</email>
          <email>P@5</email>
          <email>pasig@disco.unimib.it</email>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Simone Pellegrini</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>University of Milano - Bicocca</institution>
          ,
          <addr-line>DISCo Viale Sarca 336, 20126, Milano</addr-line>
        </aff>
      </contrib-group>
      <abstract>
        <p>Sommario Questo articolo presenta una strategia di ranking di attivita commerciali basata su tre criteri: la \topicalita" dell'attivita rispetto alla query dell'utente, il rapporto tra recensioni negative/positive e la popolarita forniti all'attivita direttamente dagli utenti. Il prototipo sviluppato su Yelp e testato sullo Yelp Academic Dataset ha dato risultati preliminari interessanti.</p>
      </abstract>
      <kwd-group>
        <kwd>User Generated Content</kwd>
        <kwd>Yelp</kwd>
        <kwd>ranking</kwd>
      </kwd-group>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>Introduzione</title>
    </sec>
    <sec id="sec-2">
      <title>La strategia di ranking proposta</title>
      <p>
        In questa sezione viene formalizzata la strategia di ranking di attivita
commerciali che, data una query, combina tre diversi valori per ciascuna attivita
reperita:
{ il valore (TR) prodotto dalla valutazione del matching tra query e descrizione
dell'attivita, calcolata sulla base di un modello di Information Retrieval (ad
esempio il vector space model [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ]),
{ il valore basato sulle recensioni (RS) che tiene in considerazione l'opinione
dell'utente cos come e espressa dal contenuto delle recensioni stesse,
{ un punteggio di popolarita (PS) assegnato direttamente dagli utenti (ad
esempio attraverso il meccanismo delle stelle in Yelp).
      </p>
      <p>La strategia di ranking qui proposta si basa su un ordine di priorita tra i
tre criteri coinvolti nella stima di rilevanza di ciascuna attivita commerciale: 1)
non vogliamo che, nella lista dei risultati di una query, un'attivita non rilevante
rispetto alla query stessa abbia una posizione migliore rispetto ad una rilevante
solo perche piu popolare, 2) il valore calcolato analizzando la polarita delle
recensioni descrive in modo piu signi cativo il reale sentimento degli utenti verso una
data attivita commerciale, rispetto al valore derivato dal punteggio assegnato
dagli utenti in base a criteri non ben de niti.</p>
      <p>
        Per queste ragioni si e scelto di aggregare i criteri per calcolare la stima di
rilevanza utilizzando un operatore di aggregazione con priorita Fp [
        <xref ref-type="bibr" rid="ref5">5</xref>
        ]. Questo
operatore combina linearmente diversi criteri ove: 1) per ciascuna attivita
commerciale a, il peso del criterio piu importante C1 ha sempre valore 1; 2) i pesi
degli altri criteri Ci, i = f2; 3g sono i = i 1 Ci 1(a) dove Ci 1(a) e il grado
di soddisfacimento del criterio Ci 1 per l'attivita a, mentre i 1 e il peso del
criterio Ci 1. Pertanto i 2 [0; 1]. In questo modo, dati due criteri Ci e Ci 1, piu
e alto il grado di soddisfacimento di Ci 1, piu il criterio Ci in uisce sul calcolo
del valore complessivo.
      </p>
      <p>L'operatore di aggregazione con priorita usato per calcolare il valore di
rilevanza complessivo e de nito come Fp : [0; 1]n ! [0; n], ed e tale che data
un'attivita a
n
Fp(C1(a); :::; Cn(a)) = X
i=1
i</p>
      <p>Ci(a)
(1)</p>
      <p>Siano a un'attivita commerciale, A l'insieme delle attivita indicizzate dal sito
e q una query dell'utente. Siano N P 2 N il numero di recensioni positive
dell'attivita a, N N 2 N il numero di recensioni negative di a, stars 2 f0; 0:5; 1; :::; 4:5; 5g
il valore di popolarita di a assegnato direttamente dagli utenti. Per ogni attivita
Yelp assegna un valore di popolarita calcolato come media dei punteggi
assegnati direttamente dagli utenti durante la recensione dell'attivita commerciale.
Questo valore avstars ha di nuovo valori in f0; 0:5; 1; :::; 4:5; 5g. T R 2 R+ e il
valore di topicalita del documento d rispetto alla query q.</p>
      <p>Il valore basato sulla polarita delle recensioni RS e calcolato attraverso una
funzione non simmetrica RS(N P; N N ) de nita in modo da promuovere le
attivita commerciali con un alto numero di recensioni positive rispetto a quelle con
un alto numero di recensioni negative.</p>
      <p>RS : N N ! [0; 1] ha la seguente de nizione
1
&gt;:1</p>
      <p>1
NP +1 ; se N N = 0</p>
      <p>NNNP ; se N P N N e N N &gt; 0;
Si noti che il valore cos calcolato dipende dal rapporto tra il numero di recensioni
negative e positive, non dal loro numero complessivo. In questo modo si evita
il noto problema del cold start in cui una nuova attivita commerciale, priva di
recensioni, di cilmente apparira nelle prime posizioni della lista dei risultati di
una query e avra pertanto la possibilita di essere recensita.</p>
      <p>Il valore di popolarita e calcolato mediante una funzione P S normalizzata
nell'intervallo [0; 1] e de nita come P S : f0; 0:5; 1; :::; 4:5; 5g ! [0; 1]: P S(avstars) =
avstars=5</p>
      <p>Sia T Rmax 2 R+ il valore massimo di TR di tutte le attivita commerciali
reperite rispetto alla query q nella collezione A.</p>
      <p>Il valore complessivo di stima della rilevanza qui de nito e calcolato dalla
funzione Fp(T R(a); RS(a); P S(a)) de nita come Fp : [0; 1]3 ! [0; 3]
(2)
T R(a)</p>
      <p>T Rmax
Fp(T R(a); RS(a); P S(a)) =</p>
      <p>T R
+</p>
      <p>RS RS(a) +</p>
      <p>P S P S(a)
(3)
dove T R = 1, RS =</p>
      <p>T R(a) , e P S =
T R T Rmax</p>
      <p>RS RS(a).</p>
      <p>Grazie a questa funzione la posizione di un'attivita commerciale nella lista dei
risultati risulta premiata o penalizzata dai due criteri derivanti dalla comunita
di utenti, senza pero che un'attivita non pertinente rispetto alla query risulti in
posizione migliore rispetto ad una pertinente solo a causa della popolarita.
3</p>
    </sec>
    <sec id="sec-3">
      <title>Implementazione</title>
      <p>
        Al momento della stesura di questo lavoro non e stata ancora e ettuata una
valutazione esaustiva del prototipo, ma sono state fatte alcune prove d'uso
utilizzando lo Yelp Academic Dataset. Il prototipo e stato sviluppato utilizzando
Lucene 5.2.1, JsonSimple 1.1.1 e SentiStrength 2. Ogni query e stata eseguita
due volte: nel primo caso la lista restituita e ordinata usando l'approccio
proposto, nell'altra invece viene utilizzato l'ordinamento basato sul vector space
model fornito da Lucene. Sono state de nite sette query nelle categorie "hotel
ristoranti" e "salute, cura della persona"; si e proceduto quindi ad una
valutazione manuale delle precedenti categorie contenute nello Yelp Academic
Dataset per costruire un piccolo benchmark. Gli utenti hanno valutato le attivita,
contenute nelle due categorie prescelte, classi candole in modo binario in
interessanti/non interessanti rispetto alle query espresse in linguaggio naturale. In
Tabella 1 sono mostrati i valori di precisione e di Normalized Discounted
Cumulative Gain [
        <xref ref-type="bibr" rid="ref1">1</xref>
        ] ottenuti considerando le prime cinque (P @5; N DCG@5) e le
prime 10 (P @10; N DCG@10) posizioni della lista dei risultati ottenuti grazie
alle due diverse strategie di ranking a confronto. Come evidente in tabella i
risultati ottenuti sono incoraggianti. Da notare ad esempio i valori della query 2
che chiede di trovare attivita di massaggi orientali: in questo caso un basso
gradimento da parte degli utenti di tutte le attivita gestite da cinesi ha abbassato
il ranking delle attivita pertinenti rispetto al ranking generato dalla stima della
sola topicalita. La stessa situazione si e veri cata con la query 7 che chiede di
trovare autonoleggi economici: la bassissima reputazione sociale ha penalizzato
il ranking delle attivita valutate piu pertinenti dalla stima di topicalita.
4
      </p>
    </sec>
    <sec id="sec-4">
      <title>Conclusioni</title>
      <p>In questo lavoro abbiamo presentato una funzione per il calcolo del ranking di
una lista di risultati per siti di attivita commerciali con recensioni che tiene conto
sia della stima di rilevanza basata sul concetto di topicalita che di fattori che
esprimono la popolarita dell'attivita stessa in una comunita di utenti.</p>
      <p>Come caso di studio abbiamo usato la collezione Yelp Academic Dataset ed
il prototipo sviluppato ha ottenuto risultati incoraggianti. Pertanto si procedera
ad una fase di valutazione completa con un benchmark adatto. Una possibile
scelta da valutare e il benchmark o erto dalla TREC Contextual Suggestion
Track, che pero e orientato al problema delle personalizzazione.</p>
      <p>Riferimenti bibliogra ci</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          1.
          <string-name>
            <given-names>Kalervo</given-names>
            <surname>Ja</surname>
          </string-name>
          <article-title>rvelin and Jaana Kekalainen. Cumulated gain-based evaluation of IR techniques</article-title>
          .
          <source>ACM Trans. Inf</source>
          . Syst.,
          <volume>20</volume>
          (
          <issue>4</issue>
          ):
          <volume>422</volume>
          {
          <fpage>446</fpage>
          ,
          <year>October 2002</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          2.
          <string-name>
            <given-names>Michael</given-names>
            <surname>Luca</surname>
          </string-name>
          .
          <article-title>Reviews, reputation, and revenue: The case of yelp.com</article-title>
          .
          <source>Com (September</source>
          <volume>16</volume>
          ,
          <year>2011</year>
          ). Harvard
          <string-name>
            <surname>Business School NOM Unit Working</surname>
            <given-names>Paper</given-names>
          </string-name>
          , (
          <volume>12</volume>
          -
          <fpage>016</fpage>
          ),
          <year>2011</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          3.
          <string-name>
            <given-names>Gerard</given-names>
            <surname>Salton</surname>
          </string-name>
          , Anita Wong, and
          <string-name>
            <surname>Chung-Shu Yang</surname>
          </string-name>
          .
          <article-title>A vector space model for automatic indexing</article-title>
          .
          <source>Communications of the ACM</source>
          ,
          <volume>18</volume>
          (
          <issue>11</issue>
          ):
          <volume>613</volume>
          {
          <fpage>620</fpage>
          ,
          <year>1975</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          4.
          <string-name>
            <given-names>Holley</given-names>
            <surname>Simmons</surname>
          </string-name>
          .
          <article-title>How some yelpers are holding restaurants hostage</article-title>
          . The Washington Post,
          <year>2015</year>
          . http://tinyurl.com/pc578ea.
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          5.
          <string-name>
            <surname>Ronald</surname>
            <given-names>R.</given-names>
          </string-name>
          <string-name>
            <surname>Yager</surname>
          </string-name>
          .
          <article-title>Prioritized aggregation operators</article-title>
          .
          <source>International Journal of Approximate Reasoning</source>
          ,
          <volume>48</volume>
          (
          <issue>1</issue>
          ):
          <volume>263</volume>
          {
          <fpage>274</fpage>
          ,
          <year>2008</year>
          . Special Section:
          <article-title>Perception Based Data Mining and Decision Support Systems</article-title>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>