<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>La sentiment analysis come strumento di studio del parlato emozionale?</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Paolo Mairano</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Enrico Zovato</string-name>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Vito Quinci</string-name>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>University of Lille</institution>
          ,
          <country country="FR">France</country>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>University of Turin</institution>
          ,
          <country country="IT">Italy</country>
        </aff>
      </contrib-group>
      <abstract>
        <p>Italiano. Vari studi in letteratura hanno dimostrato che il parlato emozionale è caratterizzato da vari indici acustici. Tuttavia, tali studi hanno quasi sempre utilizzato parlato recitato, ignorando il parlato elicitato in maniera ecologica a causa della difficoltà nel reperire adeguate produzioni emozionali. In questo contributo, esploriamo la possibilità di utilizzare la sentiment analysis per selezionare produzioni emozionali da corpora orali. Abbiamo utilizzato il corpus LibriSpeech, da cui abbiamo estratto valori di sentiment analysis a livello di frase e di parola, nonché vari indici acustici e spettrali associati al parlato emozionale. L'analisi della relazione tra i livelli acustico e testuale ha rivelato effetti significativi ma di portata ridotta. Questo ci fa pensare che tali due livelli (acustico e lessicale) tendano a essere relativamente indipendenti, rendendo inappropriato l'utilizzo di metriche testuali per la selezione di materiale acusticamente emozionale.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>English. Abundant literature has shown that
emotional speech is characterized by various
acoustic cues. However, most studies focused on
sentences produced by actors, disregarding
ecologically elicited speech due to difficulties in
finding suitable emotional data. In this
contribution we explore the possibility of using
sentiment analysis for the selection of emotional
chunks from speech corpora. We used the
LibriSpeech corpus and extracted sentiment
analysis scores at word and sentence levels, as
well as several acoustic and spectral parameters
of emotional voice. The analysis of the relation
between textual and acoustic indices revealed
significant but small effects. This suggests that
these two levels tend to be fairly independent,
making it improper to use sentiment analysis for
the selection of acoustically emotional speech.
1</p>
    </sec>
    <sec id="sec-2">
      <title>Introduzione</title>
      <p>
        L’espressione delle emozioni può avvenire
attraverso diversi componenti a vari livelli
linguistici
        <xref ref-type="bibr" rid="ref18">(Reilly &amp; Seibert, 2003)</xref>
        : lessicale
(verbi modali, elementi rafforzativi, attenuativi, o
valutativi), sintattico (es. le proposizioni relative
possono commentare azioni e comportamenti),
acustico (prosodia, qualità della voce), e
paralinguistico (espressioni del viso, gesti). I
framework tradizionali per l’analisi delle
emozioni sono basati su categorie
        <xref ref-type="bibr" rid="ref9">(Ekman, 2000)</xref>
        o su dimensioni
        <xref ref-type="bibr" rid="ref19">(Russell, 1980)</xref>
        . I primi
distinguono vari stati emozionali (rabbia, gioia,
paura, tristezza, etc.), mentre i secondi tendono a
definire le emozioni come coordinate in uno
spazio multidimensionale, in cui ogni
dimensione rappresenta una proprietà di uno
stato emozionale. Tra i numerosi framework
esistenti,
        <xref ref-type="bibr" rid="ref19">Russell (1980)</xref>
        ipotizza due dimensioni:
valence (valenza, positiva vs. negativa) e arousal
(attivazione, alta vs. bassa). La classificazione
degli stati emozionali tramite indizi linguistici si
è rivelata un compito arduo tanto nei framework
categoriali quanto in quelli dimensionali, e
l’interazione dei vari livelli linguistici complica
ulteriormente la situazione: non è ancora chiaro
se la componente lessicale / sintattica debba
essere considerata come dipendente o
complementare alla componente acustica.
      </p>
      <p>
        Nonostante tali problemi, molti studi hanno
analizzato il parlato emozionale con l’obiettivo
di individuare i correlati acustici specifici dei
vari stati emozionali. Alcuni studi hanno
dimostrato che variazioni sistematiche della
frequenza fondamentale (sia in termini di pitch
range, sia in termini di pitch medio)
accompagnano realizzazioni di parlato con
valenza positiva
        <xref ref-type="bibr" rid="ref6">(Burkhardt &amp; Sendlmeier,
2000)</xref>
        . Ma anche altri parametri prosodici
sembrano avere un ruolo importante nella
comunicazione delle emozioni: sono stati
riscontrati effetti dell’intensità e della velocità
d’eloquio
        <xref ref-type="bibr" rid="ref12">(Johnstone &amp; Scherer, 2000)</xref>
        ; infatti,
varie misure acustiche (deviazione standard della
frequenza fondamentale, energia media, durata
dei periodi, spectral-dropoff, etc.) sono state
usate per predire i giudizi di parlanti madrelingua
        <xref ref-type="bibr" rid="ref3">(Banse &amp; Scherer, 1996)</xref>
        e vari altri parametri
sono stati usati in altri studi
        <xref ref-type="bibr" rid="ref1">(cf. Schröder et al.,
2001, e Audibert, Aubergé &amp; Rilliard, 2005)</xref>
        .
      </p>
      <p>
        Tuttavia, uno dei limiti di questi studi riguarda
l’affidabilità dei dati: data la difficoltà di elicitare
parlato emozionale controllato, gran parte degli
studi utilizza registrazioni di parlato recitato, che
spesso risulta stereotipato o esagerato (Scherer,
2003). In questo contributo, verifichiamo se la
sentiment analysis (d’ora in poi: SA) possa
essere d’aiuto in questo senso. La SA, ovvero lo
studio delle opinioni, sentimenti, recensioni delle
persone in forma testuale (Liu, 2003), è un
settore NLP in rapida crescita, grazie anche
all’ampio ventaglio di applicazioni, quali la
classificazione di email
        <xref ref-type="bibr" rid="ref15 ref16">(Mohammad &amp; Yang,
2011)</xref>
        , romanzi
        <xref ref-type="bibr" rid="ref15 ref16">(Mohammad, 2011)</xref>
        , recensioni
cinematografiche
        <xref ref-type="bibr" rid="ref20">(Sadikov, 2009)</xref>
        , recensioni di
articoli o servizi acquistati
        <xref ref-type="bibr" rid="ref14">(McGlohon, Glance
&amp; Reiter, 2010)</xref>
        . I sistemi di SA vanno da metodi
a regole relativamente semplici, fino a tecniche
avanzate di deep learning - vedi
        <xref ref-type="bibr" rid="ref13">Liu (2012)</xref>
        per
una rassegna.
      </p>
      <p>
        In questo studio, verifichiamo la relazione tra i
valori di SA e le caratteristiche acustiche del
parlato letto elicitato in maniera naturale,
estrapolate da audiolibri. Il fine ultimo è quello
di estendere l’analisi a dati di parlato spontaneo;
tuttavia, dati i numerosi problemi che questo tipo
di parlato comporta, abbiamo preferito iniziare
da dati di parlato letto in cui le emozioni non
fossero state elicitate esplicitamente. Per
misurare il grado di emozione espresso dal testo
degli audiolibri, sono stati utilizzati
SentiWordNet
        <xref ref-type="bibr" rid="ref2">(Baccianella, Esuli &amp; Sebastiani,
2010)</xref>
        e Vader
        <xref ref-type="bibr" rid="ref10">(Gilbert &amp; Hutto, 2014)</xref>
        , che
operano principalmente a livello lessicale. Sul
piano acustico, abbiamo estratto vari indici (per
lo più prosodici) descritti in letteratura.
Un’analisi simile a questa, che studia la
correlazione tra SA e parametri acustici, è stata
condotta da
        <xref ref-type="bibr" rid="ref7">Charfuelan &amp; Schröder (2012)</xref>
        su
dati di un solo speaker e di un solo audiolibro.
Qui estendiamo l’analisi a 251 audiolibri letti da
speaker diversi, nella speranza che i risultati
abbiano sia rilevanza teorica (studio
dell’interazione tra livello lessicale e acustico nel
parlato emozionale), sia un risvolto pratico
(utilizzo della SA per la selezione di parlato
emozionale non recitato).
Per studiare la correlazione tra i valori della SA e
le caratteristiche acustiche del parlato
emozionale, abbiamo utilizzato LibriSpeech
        <xref ref-type="bibr" rid="ref17">(Panayotov et al., 2015)</xref>
        , un corpus open-source
contenente circa 1000 ore di parlato in inglese. I
dati di LibriSpeech provengono a loro volta dal
progetto LibriVox (una collezione di audiolibri di
dominio pubblico, disponibili su librivox.org), e i
testi sono stati segmentati e allineati
automaticamente dagli autori del corpus. Ai fini
di questo studio, abbiamo limitato l’analisi alla
sezione train-clean-100 del corpus (contenente
100 ore di parlato corretto e pulito,
originariamente concepito come training set per
sistemi ASR), che include i dati di 251
audiolibri. I lettori sono un mix di professionisti
e non-professionisti di sesso maschile e
femminile (l’età non è riportata). L’elenco dei
testi registrati (consultabile sul sito web di
LibriVox) include principalmente opere letterarie
britanniche e americane, antiche e moderne.
      </p>
      <p>
        Tutto il materiale è stato trascritto
foneticamente con il front-end del sistema TTS
Vocalizer di Nuance Communications, secondo il
modello di General American. Le trascrizioni
sono poi state allineate al segnale acustico e
infine convertite in formato TextGrid per essere
utilizzate con Praat
        <xref ref-type="bibr" rid="ref5">(Boersma &amp; Weenink,
2018)</xref>
        .
I valori di SA sono stati estratti dal testo di
ciascuna frase usando strumenti open-source,
quali Vader
        <xref ref-type="bibr" rid="ref10">(Gilbert &amp; Hutto, 2014)</xref>
        e
SentiWordNet
        <xref ref-type="bibr" rid="ref2">(Baccianella et al., 2010)</xref>
        ,
entrambi disponibili nella libreria NLTK di
Python. Si tratta di strumenti classici nella
letteratura sulla SA e relativamente semplici dal
punto di vista dell’utilizzo e
dell’implementazione (trattandosi di sistemi a regole). In futuro,
l’analisi potrebbe essere estesa utilizzando
strumenti più complessi e sofisticati, come i
modlui di SA dei progetti OpeNER
(http://www.opener-project.eu/) e StanfordNLP
(https://nlp.stanford.edu/).
      </p>
      <p>
        Vader fornisce tre valori: (a) un punteggio di
polarità positiva compreso tra 0 e 1
(Vader_comp), (b) un punteggio di polarità
negativa compreso tra 0 e 1, (c) un punteggio
derivato dagli altri due compreso tra -1
(negativo) e +1 (positivo). Questi valori sono
ricavati grazie a un sistema a regole, basato sul
lessico Vader, nel quale le parole sono associate
a un punteggio di polarità ottenuto dalle
valutazioni di 13 madrelingua. SentiWordNet
adotta un approccio leggermente diverso: le
parole nel suo lessico sono associate a punteggi
di polarità positiva o negativa procurati tramite
un’analisi quantitativa di ogni synset
        <xref ref-type="bibr" rid="ref2">(vedi
Baccianella et al., 2010, per maggiori dettagli)</xref>
        .
      </p>
      <p>I valori di Vader_comp sono stati valutati sulla
base di un sottoinsieme di 1000 frasi annotate
manualmente da uno degli autori (prendendo
frasi isolate, quindi senza informazioni sul
contesto o sul co-testo), ottenendo
un’accuratezza pari al 72%.
2.3</p>
      <sec id="sec-2-1">
        <title>Indici acustici del parlato emozionale</title>
        <p>
          Sebbene la maggior parte degli studi si
concentrino sui parametri acustici a livello di
frase, noi abbiamo applicato l’analisi anche a
livello di parola, sulla base dell’ipotesi che le
parole con carica emozionale possano essere
caratterizzate da specifici indici acustici
          <xref ref-type="bibr" rid="ref25">(Tsiakoulis et al., 2016)</xref>
          .
        </p>
        <p>
          Per l’analisi a livello di frase, gli indici
acustici sono stati estratti per ogni frase. Per
l’analisi a livello di parola, invece, gli indici
acustici sono stati estratti dalla vocale accentata
delle parole non funzionali al fine di controllare
le differenze spettrali dei vari fonemi vocalici (il
fonema vocalico è stato incluso come fattore
nell’analisi statistica). I seguenti indici acustici
sono stati estratti tramite Praat: F0 mean
(frequenza fondamentale media in semitoni), F0
stdev (in semitoni), F0 range (0.05-0.95), F0 max
(0.95), F0 min (0.05), shimmer, jitter,
Hammarberg index
          <xref ref-type="bibr" rid="ref11">(HAM, differenza tra il
massimo di energia nelle bande 0-2 kHz e
25kHz, cf. Hammarberg et al., 1980)</xref>
          , Do1000
(riduzione di energia spettrale oltre 1000 Hz),
Pe1000
          <xref ref-type="bibr" rid="ref21 ref8">(energia relativa a frequenze oltre 1000
Hz vs energia sotto i 1000 Hz, cf. Scherer, 1989,
e Drioli et al., 2003)</xref>
          . I valori di F0 sono stati
estratti tramite il metodo di autocorrelazione di
Praat (con i parametri di default) secondo una
procedura in 2 fasi: in una prima fase,
l’estrazione è stata fatta con un range fisso
75400 Hz; l’intervallo interquartile (IQR) è stato
calcolato sui valori così ottenuti, e una seconda
estrazione è stata realizzata nel range tra +50% e
-25% dall’IQR.
        </p>
        <p>Inoltre, per l’analisi a livello di frase abbiamo
estratto la durata totale in ms dal primo
all’ultimo fonema (DUR), speech rate (SR,
numero di fonemi diviso la durata complessiva
incluse le pause), articulation rate (AR, senza le
pause), pause/speech ratio (PSR).</p>
        <p>Tutti i parametri acustici estratti sono stati
trasformati in z-scores per ogni speaker, nel
tentativo di normalizzare le differenze tra
speakers. Le frasi contenenti meno di 3 secondi
di parlato sono state escluse dall’analisi. Per ogni
parametro acustico, i valori che si scostavano
&gt;2.5 deviazioni standard dalla media sono stati
esclusi come probabili errori di detezione.
3
3.1</p>
      </sec>
    </sec>
    <sec id="sec-3">
      <title>Risultati</title>
      <sec id="sec-3-1">
        <title>Analisi a livello di frase</title>
        <p>
          I dati sono stati analizzati su R tramite modelli a
effetti misti con la libreria lme4
          <xref ref-type="bibr" rid="ref4">(Bates et al.,
2014)</xref>
          per valutare la relazione tra valori di SA e
parametri acustici. In una prima analisi, abbiamo
costruito dei modelli per valutare l’effetto di
Vader_comp (che prendiamo come indicativo di
valenza) su ogni indice acustico separatamente,
includendo sempre il fattore speaker come effetto
aleatorio, es.: F0_range ~ Vader_comp + (1 |
speaker). Questa prima analisi ha rivelato che il
valore di Vader_comp ha un effetto significativo
sui valori di F0, in particolare F0 max, F0 range,
F0 mean e F0 stdev (v. tabella 1).
        </p>
      </sec>
      <sec id="sec-3-2">
        <title>Modello</title>
        <p>F0 min ~ Vader_comp + (1|speaker)
F0 max ~ Vader_comp + (1|speaker)
F0 range ~ Vader_comp + (1|speaker)
F0 mean ~ Vader_comp + (1|speaker)
F0 stdev ~ Vader_comp + (1|speaker)
AR ~ Vader_comp + (1|speaker)
PSR ~ Vader_comp + (1|speaker)
Shimmer ~ Vader_comp + (1|speaker)
Jitter ~ Vader_comp + (1|speaker)
HNR ~ Vader_comp + (1|speaker)
Do1000 ~ Vader_comp + (1|speaker)
Pe1000 ~ Vader_comp + (1|speaker)
HAM ~ Vader_comp + (1|speaker)
p val.
ns
***
***
***
***
ns
p = .05
ns
ns
ns
ns
ns
ns
Tabella 1. Effetto di Vader_comp sui valori
acustici.</p>
        <p>L’effetto di Vader_comp non è risultato
significativo per la predizione degli indici di
ritmo e durata. Quindi abbiamo voluto verificare
se questi parametri si correlino con l’intensità di
attivazione, piuttosto che con la valenza.
Abbiamo quindi valutato modelli separati per
frasi negative (Vader_comp &lt; 0) vs positive
(Vader_comp &gt; 0). Tali modelli hanno mostrato
che il valore Vader di positività (range:0-1) ha un
effetto significativo non solo sugli indici di F0,
ma anche su AR, PSR, shimmer, HNR, Do1000,
Pe1000 e HAM. Analogamente, il valore Vader
di negatività (range:0-1) ha un effetto
significativo per gli indici di F0, nonché su AR e
shimmer (v. tabella 2).</p>
        <p>Questi risultati sembrano quindi suggerire che
gli indici di F0 siano influenzati dalla valenza
della frase, mentre gli indici ritmici e spettrali si
correlano con l’intensità di positività o negatività
della frase. Tuttavia, la parte di varianza spiegata
dai vari modelli rimane bassa, con ad esempio R2
= 0.01 per il modello che predice AR.</p>
        <p>Infine, abbiamo costruito un modello a effetti
misti per predire Vader_comp a partire dagli
indici acustici, includendo il fattore ‘speaker’
come effetto aleatorio. Dopo l’eliminazione degli
effetti non significativi, abbiamo ottenuto R2 =
0.06 per la contribuzione cumulativa di tutti gli
indici acustici significativi. Considerando
separatamente le frasi con valori positive e
negativi (cercando quindi di predire i valori
Vader di positività e negatività sulla base degli
indici acustici), R2 sale a 0.09 per il modello che
predice i valori Vader di positività, e a 0.12 per il
modello che predice i valori Vader di negatività.
3.2</p>
      </sec>
      <sec id="sec-3-3">
        <title>Analisi a livello di parola</title>
        <p>Analogamente a quanto fatto a livello di parola,
in una prima analisi abbiamo costruito dei
modelli a effetti misti per valutare la relazione tra
valori di SA e ognuno dei parametri acustici
separatamente. Come variabile predictor
abbiamo utilizzato il valore di valenza per ogni
parola nel lessico di Vader, e abbiamo incluso il
fattore ‘speaker’ come effetto aleatorio. Inoltre,
per i parametri spettrali HNR, Do1000, Pe1000 e
HAM abbiamo incluso il fattore ‘fonema’ come
effetto aleatorio, poiché tali parametri variano in
funzione delle diverse vocali. Come per l’analisi
a livello di frase, i modelli ci dicono che il valore
di valenza di Vader ha un effetto significativo
sugli indici F0 min, F0 range, F0 mean, F0 stdev,
e questa volta anche shimmer e jitter (v. tabella
3).</p>
      </sec>
      <sec id="sec-3-4">
        <title>Modello</title>
        <p>F0 min ~ Vader + (1|speaker)
F0 max ~ Vader + (1|speaker)
F0 range ~ Vader + (1|speaker)
F0 mean ~ Vader + (1|speaker)
F0 stdev ~ Vader + (1|speaker)
Shimmer ~ Vader + (1|speaker)
Jitter ~ Vader + (1|speaker)
HNR ~ Vader + (1|speaker)
Do1000 ~ Vader + (1|speaker)
Pe1000 ~ Vader + (1|speaker)
HAM ~ Vader + (1|speaker)
p val.
***
ns
***
***
***
***
**
ns
ns
ns
ns
Tabella 3. Effetto di Vader sui valori acustici.</p>
        <p>In una seconda analisi, come a livello di frase,
abbiamo voluto verificare se i parametri acustici
fossero correlati all’intensità di attivazione
positiva o negativa della parola. Per far questo,
abbiamo costruito altri modelli separati per
parole con valenza positiva (SentiWordNet pos
value &gt; 0) in frasi positive (Vader_comp &gt; 0) e
per parole con valenza negativa (SentiWordNet
neg value &gt; 0) in frasi negative (Vader_com &lt; 0).
I modelli relativi a parole positive hanno rivelato
un effetto significativo di SentiWordNet pos
value su HNR, Do1000 e Pe1000, ma solo
marginalmente significativi sugli indici di F0. I
modelli relativi a parole negative in frasi
negative hanno rivelato un effetto significativo di
SentiWordNet neg value su HNR, Do1000,
Pe1000, e HAM (v. tabella 4).</p>
        <p>
          Nell’analisi a livello di frase, la parte di
varianza spiegata da questi modelli era più alta
(R2 = 0.4 per Do1000 e Pe1000) rispetto
all’analisi a livello di parola; tuttavia, ciò è
dovuto soprattutto all’integrazione del fattore
‘fonema’ all’interno dei modelli; la parte di
varianza spiegata dai valori di SentiWordNet ha
raggiunto solo 0.004 e 0.007 per Do1000 e
Pe1000 rispettivamente.
La correlazione tra indici lessicali e acustici del
parlato letto emozionale sembra essere
significativa, ma di portata ridotta, sia a livello di
parola, sia a livello di frase. Gli indici di F0
sembrano essere influenzati dalla valenza della
frase e della parola, ma la parte di varianza
spiegata rimane ridotta. Tali risultati confermano
ed estendono quanto riportato da
          <xref ref-type="bibr" rid="ref7">Charfuelan &amp;
Schröder (2012)</xref>
          su dati di un solo audiolibro, in
cui erano state osservate correlazioni moderate
per indici di F0 ed energia.
        </p>
        <p>
          I dati mostrano una grande quantità di
variabilità inter-speaker: risulta evidente che i
locutori utilizzano diversi indici acustici per
esprimere stati emozionali. Inoltre, un limite
della nostra analisi risiede nell’utilizzo
(inevitabile, data la mole di dati analizzati) di
trascrizioni e annotazione automatiche, i cui
errori causano senza dubbio un certo tasso di
rumore nei dati, riducendo le relazioni
osservabili tra le diverse variabili studiate. Infine,
l’assenza di puntuazione nel corpus LibriSpeech
rende impossibile (o molto complesso)
differenziare tra discorso indiretto e diretto, nel
quale ci si potrebbe aspettare un parlato più
prettamente emozionale. Per il futuro, simili
ipotesi potranno essere verificate su corpora più
recenti costruiti con fini più specifici e adatti,
come SynPaFlex
          <xref ref-type="bibr" rid="ref24">(Sini et al., 2008)</xref>
          .
        </p>
        <p>Per concludere, riprendiamo il tema
dell’interazione tra i vari livelli linguistici per
l’espressione delle emozioni nel parlato. I
risultati del nostro studio suggeriscono che i vari
livelli linguistici analizzati (lessicale e acustico)
sono relativamente slegati uno dall’altro per
l’espressione delle emozioni. Questo significa
che, per una determinata frase, i locutori hanno
tendenza ad affidare l’espressione dello stato
emozionale a uno solo dei due livelli analizzati.
Questo può essere vero soprattutto per il parlato
letto, in cui il locutore non è coinvolto
direttamente, soprattutto nel caso del narratore di
un audiolibro. Dunque, l’utilizzo della SA per lo
studio del parlato emozionale appare non del
tutto appropriato per selezionare materiale
emozionalmente marcato, in quanto si baserebbe
sull’assunzione che gli indici lessicali e acustici
di emozionalità vadano di pari passo e tendano a
co-occorrere. Tuttavia, rimane da esplorare la
correlazione tra variabili lessicali e acustiche per
altri tipi di parlato, in particolar modo per il
parlato spontaneo – in cui i locutori siano più
direttamente coinvolti rispetto al contenuto
semantico.</p>
      </sec>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          <string-name>
            <given-names>Audibert N.</given-names>
            ,
            <surname>Aubergé</surname>
          </string-name>
          <string-name>
            <given-names>V.</given-names>
            ,
            <surname>Rilliard</surname>
          </string-name>
          <string-name>
            <surname>A.</surname>
          </string-name>
          <year>2005</year>
          .
          <article-title>The prosodic dimensions of emotion in speech: the relative weights of parameters</article-title>
          .
          <source>Proc. of the Ninth European Conference on Speech Communication and Technology, 4-8 September</source>
          <year>2005</year>
          , Lisbon, Portugal.
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          <string-name>
            <given-names>Baccianella S.</given-names>
            ,
            <surname>Esuli</surname>
          </string-name>
          <string-name>
            <given-names>A.</given-names>
            ,
            <surname>Sebastiani</surname>
          </string-name>
          <string-name>
            <surname>F.</surname>
          </string-name>
          <year>2010</year>
          .
          <article-title>Sentiwordnet 3.0: an enhanced lexical resource for sentiment analysis and opinion mining</article-title>
          .
          <source>In Proc. of LREC</source>
          ,
          <fpage>17</fpage>
          -23 May, Valletta, Malta, pp.
          <fpage>2200</fpage>
          -
          <lpage>2204</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          <string-name>
            <given-names>Banse R.</given-names>
            ,
            <surname>Scherer</surname>
          </string-name>
          <string-name>
            <surname>K.R.</surname>
          </string-name>
          <year>1996</year>
          .
          <article-title>Acoustic profiles in vocal emotion expression</article-title>
          ,
          <source>Journal of personality and social psychology</source>
          , vol.
          <volume>70</volume>
          , no.
          <issue>3</issue>
          ,
          <fpage>614</fpage>
          -
          <lpage>636</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          <string-name>
            <given-names>Bates D.</given-names>
            ,
            <surname>Maechler</surname>
          </string-name>
          <string-name>
            <given-names>M.</given-names>
            ,
            <surname>Bolker</surname>
          </string-name>
          <string-name>
            <given-names>B.</given-names>
            ,
            <surname>Walker</surname>
          </string-name>
          <string-name>
            <surname>S.</surname>
          </string-name>
          <year>2014</year>
          .
          <article-title>Fitting Linear Mixed-Effects Models Using lme4</article-title>
          ,
          <source>Journal of Statistical Software</source>
          , vol.
          <volume>67</volume>
          , no.
          <issue>1</issue>
          ,
          <fpage>1</fpage>
          -
          <lpage>48</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          <string-name>
            <given-names>Boersma P.</given-names>
            ,
            <surname>Weenink</surname>
          </string-name>
          <string-name>
            <surname>D..</surname>
          </string-name>
          <year>2018</year>
          .
          <article-title>Praat: doing phonetics by computer</article-title>
          [Computer program].
          <source>Version 6.0.37, retrieved 3 February</source>
          <year>2018</year>
          from http://www.praat.org/
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          <string-name>
            <given-names>Burkhardt F.</given-names>
            ,
            <surname>Sendlmeier</surname>
          </string-name>
          <string-name>
            <surname>W.F.</surname>
          </string-name>
          <year>2000</year>
          .
          <article-title>Verification of acoustical correlates of emotional speech using formant-synthesis</article-title>
          .
          <source>In SpeechEmotion-2000</source>
          , pp.
          <fpage>151</fpage>
          -
          <lpage>156</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          <string-name>
            <surname>Charfuelan</surname>
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Schröder</surname>
            <given-names>M.</given-names>
          </string-name>
          <year>2012</year>
          .
          <article-title>Correlation analysis of sentiment analysis scores and acoustic features in audiobook narratives</article-title>
          .
          <source>In Proc. of the 4th International Workshop on Corpora for Research on Emotion Sentiment &amp; Social Signals (ES3)</source>
          ,
          <source>26 May</source>
          <year>2012</year>
          , Istanbul, Turkey, pp.
          <fpage>99</fpage>
          -
          <lpage>103</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          <string-name>
            <given-names>Drioli C.</given-names>
            ,
            <surname>Tisato</surname>
          </string-name>
          <string-name>
            <given-names>G.</given-names>
            ,
            <surname>Cosi</surname>
          </string-name>
          <string-name>
            <given-names>P.</given-names>
            ,
            <surname>Tesser</surname>
          </string-name>
          <string-name>
            <surname>F.</surname>
          </string-name>
          <year>2003</year>
          .
          <article-title>Emotions and voice quality: experiments with sinusoidal modeling</article-title>
          .
          <source>In Proc. of the Voice Quality: Functions Analysis and Synthesis (VOQUAL) Workshop</source>
          ,
          <fpage>27</fpage>
          -
          <lpage>29</lpage>
          August, Geneva, Switzerland.
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          <string-name>
            <surname>Ekman P.</surname>
          </string-name>
          <year>2000</year>
          .
          <article-title>Basic Emotions</article-title>
          . In T. Dalgleish and T. Power (eds.)
          <source>Handbook of Cognition and Emotion</source>
          ,
          <volume>39</volume>
          .6, London (UK), John Wiley &amp; Sons, pp.
          <fpage>45</fpage>
          -
          <lpage>60</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          <string-name>
            <given-names>Gilbert C.J.</given-names>
            ,
            <surname>Hutto</surname>
          </string-name>
          <string-name>
            <surname>E.</surname>
          </string-name>
          <year>2014</year>
          .
          <article-title>Vader: A parsimonious rule-based model for sentiment analysis of social media text</article-title>
          .
          <source>In Proc. of the Eighth International Conference on Weblogs and Social Media (ICWSM-14)</source>
          ,
          <fpage>2</fpage>
          -4 June, Ann Arbor MI, US.
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          <string-name>
            <surname>Hammarberg</surname>
            <given-names>B.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Fritzell</surname>
            <given-names>B.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Gauffin</surname>
            <given-names>J.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Sundberg</surname>
            <given-names>J.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Wedin</surname>
            <given-names>L.</given-names>
          </string-name>
          <year>1980</year>
          .
          <article-title>Perceptual and acoustic correlates of abnormal voice qualities</article-title>
          ,
          <source>Acta Otolaryngologica</source>
          , vol.
          <volume>90</volume>
          ,
          <fpage>441</fpage>
          -
          <lpage>451</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          <string-name>
            <surname>Johnstone</surname>
            <given-names>T.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Scherer</surname>
            <given-names>K.R.</given-names>
          </string-name>
          <year>2000</year>
          .
          <article-title>Vocal communication of emotion</article-title>
          .
          <source>In M. Lewis and J. Haviland (eds.) Handbook of emotions 2</source>
          , London-New York: The Guildford Press, pp.
          <fpage>220</fpage>
          -
          <lpage>235</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          <string-name>
            <surname>Liu</surname>
            <given-names>B.</given-names>
          </string-name>
          <year>2012</year>
          .
          <article-title>Sentiment analysis and opinion mining," Synthesis lectures on human language technologies</article-title>
          , vol.
          <volume>5</volume>
          , no.
          <issue>1</issue>
          ,
          <fpage>1</fpage>
          -
          <lpage>167</lpage>
          ,
          <year>2012</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          <string-name>
            <surname>McGlohon</surname>
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Glance</surname>
            <given-names>N.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Reiter</surname>
            <given-names>Z.</given-names>
          </string-name>
          <year>2010</year>
          .
          <article-title>Star quality: Aggregating reviews to rank products and merchants</article-title>
          .
          <source>In Proc. of the International Conference on Weblogs and Social Media (ICWSM-2010)</source>
          ,
          <fpage>23</fpage>
          -26 May, Washington DC, US.
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          <string-name>
            <surname>Mohammad S.</surname>
          </string-name>
          <year>2011</year>
          .
          <article-title>From Once Upon a Time to Happily Ever After: Tracking Emotions in Novels and Fairy Tales</article-title>
          .
          <source>In Proc. of the ACL 2011 Workshop on Language Technology for Cultural Heritage</source>
          ,
          <source>Social Sciences, and Humanities (LaTeCH)</source>
          ,
          <volume>24</volume>
          June, Oregon, US.
        </mixed-citation>
      </ref>
      <ref id="ref16">
        <mixed-citation>
          <string-name>
            <given-names>Mohammad S.</given-names>
            ,
            <surname>Yang</surname>
          </string-name>
          <string-name>
            <surname>T.</surname>
          </string-name>
          <year>2011</year>
          .
          <article-title>Tracking Sentiment in Mail: How Genders Differ on Emotional Axes</article-title>
          .
          <source>In Proc. of the ACL 2011 Workshop on Computational Approaches to Subjectivity and Sentiment Analysis (WASSA2011)</source>
          , 24 June, Alicante, Spain.
        </mixed-citation>
      </ref>
      <ref id="ref17">
        <mixed-citation>
          <string-name>
            <surname>Panayotov</surname>
            <given-names>V.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Chen</surname>
            <given-names>G.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Povey</surname>
            <given-names>D.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Khudanpur</surname>
            <given-names>S.</given-names>
          </string-name>
          <year>2015</year>
          .
          <article-title>Librispeech: an ASR corpus based on public domain audio books</article-title>
          .
          <source>In Proc. of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)</source>
          ,
          <fpage>19</fpage>
          -
          <lpage>24</lpage>
          April, Brisbane, Australia.
        </mixed-citation>
      </ref>
      <ref id="ref18">
        <mixed-citation>
          <string-name>
            <given-names>Reilly J.</given-names>
            ,
            <surname>Seibert</surname>
          </string-name>
          <string-name>
            <surname>L.</surname>
          </string-name>
          <year>2003</year>
          .
          <article-title>Language and emotion</article-title>
          . In R.J.
          <string-name>
            <surname>Davidson</surname>
            ,
            <given-names>K.R.</given-names>
          </string-name>
          <string-name>
            <surname>Scherer</surname>
            and
            <given-names>H.H.</given-names>
          </string-name>
          <string-name>
            <surname>Goldsmith</surname>
          </string-name>
          (eds.),
          <source>Handbook of affective sciences, OUP</source>
          , pp.
          <fpage>535</fpage>
          -
          <lpage>559</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref19">
        <mixed-citation>
          <string-name>
            <surname>Russell J.A.</surname>
          </string-name>
          <year>1980</year>
          .
          <article-title>A circumplex model of affect</article-title>
          ,
          <source>Journal of personality and social psychology</source>
          , vol.
          <volume>39</volume>
          , no.
          <issue>6</issue>
          ,
          <fpage>1161</fpage>
          -
          <lpage>1178</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref20">
        <mixed-citation>
          <string-name>
            <given-names>Sadikov E.</given-names>
            ,
            <surname>Parameswaran</surname>
          </string-name>
          <string-name>
            <given-names>A.</given-names>
            ,
            <surname>Venetis</surname>
          </string-name>
          <string-name>
            <surname>P.</surname>
          </string-name>
          <year>2009</year>
          .
          <article-title>Blogs as predictors of movie success</article-title>
          .
          <source>In Proc of the Third International Conference on Weblogs and Social Media (ICWSM-2009)</source>
          ,
          <fpage>17</fpage>
          -20 May, San Jose, CA, US.
        </mixed-citation>
      </ref>
      <ref id="ref21">
        <mixed-citation>
          <string-name>
            <surname>Scherer</surname>
            <given-names>K.R..</given-names>
          </string-name>
          <year>1989</year>
          .
          <article-title>Vocal correlates of emotion</article-title>
          . In A. Manstead and H. Wagner (eds.)
          <article-title>Handbook of psychophysiology: Emotion and social behavior</article-title>
          , London: Wiley, pp.
          <fpage>165</fpage>
          -
          <lpage>197</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref22">
        <mixed-citation>
          <string-name>
            <surname>Scherer</surname>
            <given-names>K.R.</given-names>
          </string-name>
          <year>2002</year>
          .
          <article-title>Vocal communication of emotion: A review of research paradigms, Speech Communication</article-title>
          , vol.
          <volume>40</volume>
          ,
          <fpage>227</fpage>
          -
          <lpage>256</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref23">
        <mixed-citation>
          <string-name>
            <surname>Schröder</surname>
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Cowie</surname>
            <given-names>R.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Douglas-Cowie</surname>
            <given-names>E.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Westerdijk</surname>
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Gielen</surname>
            <given-names>S.</given-names>
          </string-name>
          <year>2001</year>
          .
          <article-title>Acoustic correlates of emotion dimensions in view of speech synthesis</article-title>
          .
          <source>In Proc. of EUROSPEECH 2001 - Seventh European Conference on Speech Communication and Technology, 3-7 September</source>
          <year>2001</year>
          , Aalborg, Denmark.
        </mixed-citation>
      </ref>
      <ref id="ref24">
        <mixed-citation>
          <string-name>
            <given-names>Sini A.</given-names>
            ,
            <surname>Lolive</surname>
          </string-name>
          <string-name>
            <given-names>D.</given-names>
            ,
            <surname>Vidal</surname>
          </string-name>
          <string-name>
            <given-names>G.</given-names>
            ,
            <surname>Tahon</surname>
          </string-name>
          <string-name>
            <surname>M.</surname>
          </string-name>
          ,
          <string-name>
            <given-names>E.</given-names>
            <surname>Delais-Roussarie</surname>
          </string-name>
          .
          <year>2008</year>
          .
          <article-title>SynPaFlex-Corpus: An Expressive French Audiobooks Corpus Dedicated to Expressive Speech Synthesis</article-title>
          .
          <source>In Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC</source>
          <year>2018</year>
          ),
          <fpage>7</fpage>
          -12 May
          <year>2018</year>
          ,
          <string-name>
            <surname>Miyazaki</surname>
          </string-name>
          (Japan), pp.
          <fpage>4289</fpage>
          -
          <lpage>4296</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref25">
        <mixed-citation>
          <string-name>
            <given-names>Tsiakoulis P.</given-names>
            ,
            <surname>Raptis</surname>
          </string-name>
          <string-name>
            <given-names>S.</given-names>
            ,
            <surname>Karabetsos</surname>
          </string-name>
          <string-name>
            <given-names>S.</given-names>
            ,
            <surname>Chalamandaris</surname>
          </string-name>
          <string-name>
            <surname>A.</surname>
          </string-name>
          <year>2016</year>
          .
          <article-title>Affective word ratings for concatenative text-to-speech synthesis</article-title>
          .
          <source>In Proc. of the 20th Pan-Hellenic Conference on Informatics</source>
          ,
          <volume>10</volume>
          -
          <fpage>12</fpage>
          November, Patras, Greece.
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>