<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Ge´ne´ration automatique de HashTags</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Re´sume´</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
          <xref ref-type="aff" rid="aff1">1</xref>
          <xref ref-type="aff" rid="aff2">2</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Guillaume Tisserant LIRMM &amp; Awadac</institution>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>Mathieu Roche TETIS &amp; LIRMM</institution>
        </aff>
        <aff id="aff2">
          <label>2</label>
          <institution>Violaine Prince LIRMM</institution>
        </aff>
      </contrib-group>
      <pub-date>
        <year>2015</year>
      </pub-date>
      <fpage>141</fpage>
      <lpage>148</lpage>
      <abstract>
        <p>Les hashtags sont des mots-cle´s que les utilisateurs de re´seaux sociaux choisissent de mettre en avant dans leurs messages. Ils ont e´te´ popularise´s sur le re´seau social Twitter, qui a permis a` ses utilisateurs de se´lectionner des HashTags a` suivre et d'afficher l'ensemble des messages contenant un HashTag suivi. Ils sont aujourd'hui utilise´s sur les principaux re´seaux sociaux, tels que Facebook, Google+, Diaspora*, et sont un facteur important de la diffusion de l'information sur Internet. Dans cet article, nous proposons une me´thode fonde´e sur des informations statistiques, syntaxiques et se´mantiques pour ge´ne´rer des HashTags.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>1 Introduction</title>
      <p>Avec l’usage grandissant d’Internet, une
quantite´ d’information de plus en plus importante
se trouve a` notre disposition. La difficulte´
n’est donc plus seulement de multiplier les
ressources auxquelles nous pouvons acce´der
mais de trier les informations auxquelles nous
acce´dons. Pour permettre a` ses utilisateurs de
se´lectionner le contenu qui l’inte´resse, certains
re´seaux sociaux, comme Twitter, proposent aux
utilisateurs de se´lectionner des HashTags, qui
correspondent a` leurs centres d’inte´reˆts et
affichent dans leur flux les messages contenant
des HashTags suivis. Les utilisateurs voient les
HashTags contenus dans les messages de leur
flux, et peuvent les ajouter a` leur liste de
HashTags suivis.</p>
      <p>Toutefois, le choix de HashTags a` suivre ou a`
utiliser pour indexer un de ses tweets peut eˆtre
difficile a` re´aliser : un HashTag trop ge´ne´rique
va indexer le message dans un flux tre`s
important de donne´es, il ne sera donc pas mis
en valeur alors qu’un HashTag trop spe´cifique
risque de ne pas eˆtre suivi. L’exploitation des
HashTags demande donc un effort plus
important a` l’utilisateur. La cre´ation d’un syste`me
automatique de recommandation de HashTags
est donc une solution inte´ressante pour faciliter
l’acce`s aux ressources par les utilisateurs.
2
2.1</p>
    </sec>
    <sec id="sec-2">
      <title>Proble´matique</title>
      <sec id="sec-2-1">
        <title>Qu’est ce qu’un HashTag?</title>
        <p>Les HashTags sont des termes que les
utilisateurs des re´seaux sociaux, en particulier Twitter,
choisissent de mettre en avant dans leurs
messages en les faisant pre´ce´der du symbole #.</p>
        <p>
          Un HashTag peut avoir plusieurs
significations. Il peut servir a` re´fe´rencer un tweet par
rapport a` un sujet ou a` participer a` une
discussion en cours sur le sujet associe´ au HashTag
          <xref ref-type="bibr" rid="ref7">(Huang et al., 2010)</xref>
          . Par exemple, les
HashTags #2012, #Elyse´e, et #Elyse´e2012 ont servi
a` indiquer qu’un tweet e´voquait la campagne
pre´sidentielle de 2012. Mais les HashTags
servent aussi a` marquer son appartenance a` une
communaute´ ou une ide´ologie
          <xref ref-type="bibr" rid="ref4">(Conover et al.,
2011)</xref>
          . Twitter, pendant les dernie`res e´lections
pre´sidentielles en France, a vu se multiplier
des noms de candidats (#Eva pour Eva Joly,
#NS pour Nicolas Sarkozy), des partis (#UMP,
#PS) ou des slogans (#Placeaupeuple) utilise´s
comme HashTags.
        </p>
        <p>
          Re´cemment, de nombreux travaux ont
montre´ l’inte´reˆt d’exploiter les HashTags dans
le cadre de taˆches de fouille de texte.
          <xref ref-type="bibr" rid="ref4">(Conover
et al., 2011)</xref>
          , par exemple, utilisent les
HashTags comme descripteurs pour la
classification et mettent en avant le fait qu’ils sont
plus pertinents que les autres termes.
          <xref ref-type="bibr" rid="ref9">(Ozdikis
et al., 2012)</xref>
          utilisent les HashTags pour faire
du clustering. Ils montrent que les HashTags
permettent un meilleur partitionnement des
tweets. Ils montrent aussi que l’enrichissement
se´mantique pour des taˆches de partitionnement
est de meilleure qualite´ en se fondant sur les
HashTags plutoˆt que sur les termes. Cela
montre que les HashTags sont des donne´es a` la fois
exploitables par des eˆtres humains et par des
programmes automatiques.
2.2
        </p>
      </sec>
      <sec id="sec-2-2">
        <title>Comment ge´ne´rer des HashTags?</title>
        <p>
          La recommandation de HashTags est un
domaine encore peu explore´
          <xref ref-type="bibr" rid="ref8">(Kywe et al., 2012)</xref>
          .
La majorite´ des approches s’appuient sur des
me´thodes statistiques, comme
          <xref ref-type="bibr" rid="ref13">(Zangerle et al.,
2011)</xref>
          qui utilisent la ponde´ration TF-IDF ou
          <xref ref-type="bibr" rid="ref6">(Godin et al., 2013)</xref>
          qui exploitent le mode`le
Latent Dirichlet Allocation. Ces approches
se fondent sur l’ide´e qu’un HashTag contient
une information qui a pour but d’indexer un
tweet par rapport a` un sujet. Mais un
HashTag posse`de aussi une se´mantique importante
e´voque´e dans le tweet. Ge´ne´rer des HashTags
depuis les tweets demande donc de de´tecter
des termes qui soient a` la fois se´mantiquement
inte´ressants et marqueurs d’une opinion ou
d’une appartenance a` un groupe. Nous
allons, dans cet article, proposer une me´thode
a` la fois statistique et se´mantique,
permettant de de´tecter les termes les plus
discriminants pour l’indexation et les plus inte´ressants
se´mantiquement.
3
        </p>
      </sec>
    </sec>
    <sec id="sec-3">
      <title>Analyse</title>
      <p>Pour de´velopper notre me´thode de ge´ne´ration
de HashTags, nous avons commence´ par
analyser les termes utilise´s en tant que HashTags
dans un corpus de tweets, et nous les avons
compare´ a` des termes issus d’une analyse
statistique d’un corpus de tweets, et des termes
issus d’une ressource se´mantique en rapport
avec notre corpus. Dans cette section, nous
pre´senterons ces diffe´rentes ressources, ainsi
que notre corpus.
3.1</p>
      <sec id="sec-3-1">
        <title>Les ressources utilise´es</title>
        <p>
          Pour comprendre quels termes pouvaient eˆtre
des HashTags potentiellement inte´ressants,
nous sommes partis d’un corpus de tweets
politiques, et nous avons compare´ les termes utilise´s
en tant que HashTags avec des termes
statistiquement discriminants, et avec une liste de
termes politiquement clivants, mettant en avant
des opinions politiques. La me´thode
statistique pour favoriser les termes discriminants
provient d’une me´thode appele´e GenDesc
          <xref ref-type="bibr" rid="ref11">(Tisserant et al., 2014)</xref>
          et la ressource se´mantique
utilise´e pour se´lectionner les termes
politiquement clivants provient du GWAP (Game With
A Purpose) PolitIt
          <xref ref-type="bibr" rid="ref10">(Tisserant, 2015)</xref>
          .
        </p>
      </sec>
      <sec id="sec-3-2">
        <title>3.1.1 Le corpus</title>
        <p>
          Pour tester nos me´thodes et faire nos
mesures statistiques, nous avons utilise´ un
sousensemble du corpus POLOP (Political Opinion
Mining)
          <xref ref-type="bibr" rid="ref2">(Bouillot et al., 2012)</xref>
          . POLOP
rassemble des tweets e´crits en franc¸ais par des e´lus de
diffe´rents partis politiques pendant la campagne
pre´sidentielle de 2012. Nous avons travaille´
sur un sous-ensemble du corpus de 2500 tweets
e´quitablement re´partis entre 5 partis politiques.
Ces mouvements sont l’UMP, le MoDem, le
PS, le Front de Gauche, et EELV. Les tweets
se´lectionne´s font en moyenne 81 caracte`res. Le
plus petit tweet fait 31 caracte`res, le plus long
en fait 140.
        </p>
        <sec id="sec-3-2-1">
          <title>3.1.2 GenDesc</title>
          <p>
            GenDesc
            <xref ref-type="bibr" rid="ref11">(Tisserant et al., 2014)</xref>
            est une
me´thode que nous avons de´veloppe´e pour
re´pondre a` des proble´matiques de
classification de textes. L’objectif de notre me´thode est
de de´tecter les termes les moins discriminants
et de les remplacer par des descripteurs plus
ge´ne´riques de fac¸on a` obtenir une meilleure
repre´sentation en vue de son utilisation par un
algorithme de classification automatique. Nous
utilisons une formule statistique que nous
appelons D pour privile´gier les termes les plus
discriminants :
          </p>
          <p>occClasse(x)</p>
          <p>D(x) = occCorpus(x)
ou` occClasse(x) est le nombre d’occurrences de x dans la
classe qui le contient le plus et occCorpus(x) repre´sente le
nombre d’occurrences de x dans l’inte´gralite´ du corpus.</p>
          <p>
            La mesure D s’est re´ve´le´e pertinente pour
des taˆches de classification
            <xref ref-type="bibr" rid="ref11">(Tisserant et al.,
2014)</xref>
            . Nous allons montrer comment cette
mesure, en de´tectant les termes les plus
discriminants des tweets, peut eˆtre utilise´e pour
une taˆche de ge´ne´ration de HashTags. Les
classes conside´re´es seront les diffe´rents
mouvement politiques.
          </p>
        </sec>
        <sec id="sec-3-2-2">
          <title>3.1.3 PolitIt</title>
          <p>PolitIt est un GWAP qui traite de la “polarite´
politique” des termes. Dans ce jeu, une
interface propose des termes aux joueurs qu’ils
doivent associer a` un des six courants politiques
propose´s : Extreˆme-gauche, Ecologie, Gauche
mode´re´e, Droite mode´re´e, Droite, Extreˆme
droite. Lorsqu’ils conside`rent qu’aucun courant
ne correspond mieux que les autres, ils
peuvent passer a` un autre terme sans donner de
re´ponse. Les donne´es obtenues graˆce aux
parties joue´es permettent de rattacher des
termes aux centres d’inte´reˆts des courants
politiques. Par exemple, l’entite´ nomme´e Adam
Smith est associe´e par les joueurs a` la droite.
Cela ne veut pas force´ment dire que le
descripteur repre´sente un concept de´fendu par le
courant politique rattache´. Par exemple, le
terme nucle´aire est rattache´ au courant
politique Ecologie. Cela s’explique par le fait que,
bien qu’ils s’y opposent, le nucle´aire est un
sujet de pre´occupation important pour les
mouvements e´cologistes. Ces donne´es peuvent donc
eˆtre adapte´es pour de´tecter les termes clivants
dans notre corpus de tweets politiques.
3.2</p>
        </sec>
      </sec>
      <sec id="sec-3-3">
        <title>Les termes se´lectionne´s par chaque</title>
        <p>
          mesure
La Table 1 montre un e´chantillon des termes
appartenant a` une des cate´gories. Les termes de
PolitIt pre´sente´s sont ceux ayant le plus grand
nombre de re´ponses attachant le terme au meˆme
courant politique. Les HashTags mis en avant
sont les plus utilise´s dans le corpus. Les
termes en provenance de GenDesc sont ceux ayant
la valeur de la mesure D la plus e´leve´e. Une
version plus comple`te de ce tableau est donne´e
dans
          <xref ref-type="bibr" rid="ref10">(Tisserant, 2015)</xref>
          .
        </p>
        <p>PolitIt HashTag GenDesc
centriste air puteaux
dieu e´ducation metz
assurance marseille me´lenchon
elf jdd besanc¸on
bourse karachi front
rpr interview laurent
rtt optimisme edf
ss hollande nazaire
terre crise nucle´aires
altermondialiste se´nat de´manteler</p>
        <p>Nous voyons qu’une partie des termes
retourne´s par GenDesc semblent les plus difficiles
a` rattacher a` un mouvement politique. Le terme
de´manteler ou le pre´nom Laurent, par exemple,
sont impossibles a` analyser sans leur contexte.
Toutefois, en prenant en compte le contexte,
certains de ces termes deviennent politiquement
oriente´s. Metz, par exemple, fait re´fe´rence a`
un meeting qui a eu lieu pendant la campagne
le´gislative de 2012, au moment ou` le corpus de
tweets a e´te´ constitue´.</p>
        <p>Une partie des HashTags ne´cessite aussi
un contexte pour les rattacher a` un
mouvement politique. Toutefois, meˆme prive´s de
leur contexte, nous pouvons conside´rer qu’ils
repre´sentent des concepts politiques. Par
exemple, si nous prenons les termes e´ducation ou
se´nat, nous pouvons conside´rer qu’ils
appartiennent au champ lexical de la politique, meˆme
s’ils ne peuvent eˆtre rattache´s a` un mouvement
politique spe´cifique.</p>
        <p>Les termes de PolitIt peuvent en grande
partie eˆtre rattache´s a` un courant politique, meˆme
hors de tout contexte. Certains termes comme
RPR ou altermondialiste font meˆme
directement re´fe´rence a` des courants politiques.
Toutefois, il ne faut pas force´ment en de´duire que
ces termes vont eˆtre utilise´s par les courants
auxquels ils sont relie´s. Par exemple, le terme
SS est rattache´ a` l’extreˆme droite dans PolitIt,
mais il est principalement utilise´ sur Twitter par
des sympathisants d’extreˆme gauche pour
parler du Front National de manie`re pe´jorative.
4</p>
      </sec>
    </sec>
    <sec id="sec-4">
      <title>Contribution</title>
      <p>Nous allons dans cette Section pre´senter deux
me´thodes de ge´ne´ration de HashTags. Chaque
me´thode sera e´value´e quantitativement et
qualitativement sur un corpus de tweets politiques.</p>
      <p>Nous proposons dans la Section 4.1 une
me´thode pour se´lectionner, a` partir de tweets,
des termes candidats pour eˆtre des HashTags.
Puis, dans la Section 4.2, nous proposerons une
me´thode permettant de ge´ne´rer des HashTags
compose´s de plusieurs mots.
4.1</p>
      <sec id="sec-4-1">
        <title>Ge´ne´ration de HashTags simples</title>
        <p>Nous avons vu pre´ce´demment que les termes
provenant a` la fois de GenDesc et PolitIt sont
des HashTags potentiels inte´ressants. Nous
allons nous appuyer sur ce constat pour proposer
une premie`re me´thode de ge´ne´ration de
HashTags.</p>
      </sec>
      <sec id="sec-4-2">
        <title>4.1.1 Me´thodologie</title>
        <p>L’ide´e est d’exploiter les termes de´tecte´s par
GenDesc et ceux provenant de PolitIt pour
ge´ne´rer des HashTags. Les termes provenant
de GenDesc sont discriminants pour les tweets.
Cela indique qu’ils peuvent donner des
HashTags inte´ressants pour marquer politiquement
un tweet. Les termes provenant de PolitIt
sont des termes ayant une se´mantique politique
forte. A` ce titre, ils ont de fortes chances d’eˆtre
un marqueur d’attachement a` un mouvement
politique.</p>
        <p>Pour ve´rifier notre hypothe`se, nous avons
mene´ l’expe´rimentation suivante : Nous avons
se´lectionne´ 25 termes pour chaque cate´gorie
(GenDesc, PolitIt et GenDesc \ PolitIt). Les
termes de GenDesc e´tant ceux avec la mesure
D la plus importante, et les termes de PolitIt
sont ceux ayant e´te´ rattache´s le plus grand
nombre de fois au meˆme courant politique. Pour
l’intersection de GenDesc et PolitIt, nous avons
pris les termes ayant la mesure D la plus
importante qui sont rattache´s a` plus de 50 % a` un
meˆme courant politique dans PolitIt.</p>
      </sec>
      <sec id="sec-4-3">
        <title>4.1.2 Re´sultats</title>
        <p>Pour ve´rifier si les HashTags ge´ne´re´s
pouvaient s’ave´rer pertinents, nous avons
observe´, graˆce au site hashtags.org1, s’ils sont
aujourd’hui utilise´s comme HashTag. Les
mesures ont e´te´ effectue´es en Juillet 2014, soit
plus de deux ans apre`s la construction du
corpus. Les HashTags sont conside´re´s comme
utilise´s re´gulie`rement s’ils ont e´te´ utilise´s plus
de cent fois en moyenne par jour. Les re´sultats
de l’expe´rimentation sont donne´s en Table 2.</p>
        <p>GenDesc PolitIt GenDesc \ PolitIt
52 % 76 % 92 %</p>
      </sec>
      <sec id="sec-4-4">
        <title>4.1.3 Analyse</title>
        <p>Nous remarquons qu’a` peine plus de 50 %
des termes avec une valeur de la mesure D
e´leve´e sont utilise´s comme des HashTags, alors
que ceux provenant de PolitIt sont a` 76 %
utilise´s comme HashTags. Cela permet de
1www.hashtags.org
montrer que l’information se´mantique issue de
GWAP est plus pertinente que l’information
statistique pour la ge´ne´ration de HashTags.
Toutefois, nous voyons que l’information
statistique peut eˆtre pertinente pour la ge´ne´ration de
HashTags. En effet, en prenant l’intersection de
GenDesc et PolitIt, nous obtenons un meilleur
re´sultat (92 %) qu’en utilisant les termes de
PolitIt (76 %).</p>
        <p>Le fait que la combinaison des deux
me´thodes soit plus efficace que l’utilisation des
me´thodes isole´es vient du fait que GenDesc et
PolitIt apportent des informations diffe´rentes et
comple´mentaires :</p>
        <p>GenDesc nous permet de savoir qu’un
terme est marqueur d’une classe politique,
son apparition dans PolitIt montre qu’il
appartient au champ lexical de la politique.
4.2</p>
      </sec>
      <sec id="sec-4-5">
        <title>Ge´ne´ration de HashTags compose´s</title>
        <p>Nous avons vu dans la section pre´ce´dente que
nous pouvions ge´ne´rer des HashTags pertinents
compose´s d’un unique terme en combinant des
informations statistiques et se´mantiques. Mais
une partie importante des HashTags sont en
re´alite´ compose´s de plusieurs mots.</p>
      </sec>
      <sec id="sec-4-6">
        <title>4.2.1 Me´thodologie</title>
        <p>La proble´matique de ge´ne´ration de
HashTags compose´s de plusieurs mots est plus
complexe que celle de ge´ne´ration de
HashTags simples. En effet, il faut pouvoir
proposer des combinaisons de termes repre´sentant
des hashtags potentiels, et ensuite se´lectionner
ceux dont la combinaison offre une se´mantique
inte´ressante permettant d’identifier rapidement
la the´matique du tweet.</p>
        <p>Nous avons de´cide´ de nous appuyer sur
l’utilisation de patrons syntaxiques pour
effectuer une se´lection de termes candidats. Puis,
pour se´lectionner les termes les plus pertinents E´ tape 3 : Filtre se´mantique
pour eˆtre utilise´s en tant que HashTags, nous Nous avons ensuite applique´ un filtre
avons utilise´ les informations provenant de Poli- se´mantique, pour ne garder que les
coutIt et GenDesc. ples contenant des termes appartenant a` PolitIt.</p>
        <p>
          E´ tape 1 : Patrons syntaxiques Ce filtre nous permet de ne conserver que des
La premie`re e´tape de la ge´ne´ration consiste a` syntagmes repre´sentant des concepts politiques.
choisir un ensemble de syntagmes candidats. Ainsi, certains syntagmes candidats comme
Nous avons choisi d’utiliser des patrons syntax- ”fdg cre´e´” ou ”projet irresponsable” vont eˆtre
iques pour se´lectionner des syntagmes candi- e´carte´s de la liste des HashTags candidats.
dats. Cette approche est proche de celle adopte´e E´ tape 4 : Filtre statistique exoge`ne
par certaines me´thodes d’extraction de termi- Un certain nombre de HashTags ge´ne´re´s a`
parnologie
          <xref ref-type="bibr" rid="ref1">(Aussenac-Gilles et al., 2000)</xref>
          . Nous tir des patrons syntaxiques ne repre´sentent pas
avons recouru a` trois patrons syntaxiques clas- de concepts. Le nombre important de ce type
siques
          <xref ref-type="bibr" rid="ref5">(Daille, 1994)</xref>
          , pre´sente´s dans la Table 3. de HashTags s’explique, en partie, par la
mauvaise construction grammaticale des tweets,
Patron syntaxique Exemple qui a tendance a` induire en erreur l’analyseur
NOM - ADJECTIF listes e´lectorales syntaxique. Nous avons donc utilise´ un
filtransition e´nerge´tique tre statistique exoge`ne pour de´tecter la
pertiADJECTIF - NOM haute surveillance nence de l’association de termes. L’ide´e est
affreux dictateur de nous appuyer sur un corpus diffe´rent qui
NOM - PREPOSITION -NOM syndicalisme de lutte est a` la fois inde´pendant et de taille supe´rieure
gaz de schiste pour y mesurer la fre´quence d’apparition des
syntagmes se´lectionne´s. Ce filtre a pour but
Table 3: Patrons syntaxiques et exemples de termes de supprimer des syntagmes ne repre´sentant
associe´s pre´sents dans le corpus. pas force´ment un concept, comme
”consommation collaborative” ou ”petitjournal politesse”.
        </p>
        <p>
          Nous avons choisi d’utiliser internet comme
corpus pour ce filtre. Nous avons mesure´ la
fre´quence d’apparition des syntagmes graˆce au
moteur de recherche Bing, en conside´rant le
nombre de re´sultats retourne´s
          <xref ref-type="bibr" rid="ref12">(Turney, 2001)</xref>
          .
        </p>
        <p>Ce filtre nous a permis de supprimer des
groupes de termes apparaissant rarement
ensemble sur Internet, et qui ne repre´sentent pas
force´ment une se´mantique inte´ressante.</p>
        <p>
          Pour de´tecter les patrons syntaxiques dans les
tweets, nous avons choisi d’utiliser l’e´tiqueteur
grammatical SYGFRAN
          <xref ref-type="bibr" rid="ref3">(Chauche´, 1984)</xref>
          .
        </p>
        <p>E´ tape 2 : Filtre statistique endoge`ne
Nous avons ensuite applique´ un filtre statistique
endoge`ne sur nos candidats, pour ne conserver
que les syntagmes dont au moins un e´tait
conside´re´ comme pertinent par GenDesc. Ce
filtre permet de supprimer les HashTags n’e´tant
pas conside´re´s comme discriminants par notre
mesure statistique. Ainsi, des syntagmes
comme ”journal de campagne” ou ”texte a`
trous” vont eˆtre supprime´s de la liste des
HashTags candidats.</p>
        <p>Apre`s application du processus, nous avons
releve´ qu’un grand nombre de HashTags
ge´ne´re´s e´taient en rapport direct avec des
e´ve`nements survenus a` la pe´riode ou` le corpus
4.2.2</p>
      </sec>
      <sec id="sec-4-7">
        <title>Re´sultats</title>
        <p>a e´te´ constitue´. Nous avons choisi d’e´valuer
chaque HashTag en prenant en compte deux
types d’informations se´mantiques :
la repre´sentation d’un concept du champ
lexical politique.</p>
        <p>le marquage d’une orientation politique.</p>
        <p>Des exemples de HashTags illustrant ces
notions sont donne´s dans la Table 4.</p>
        <p>Concept politique #voteutile
#pouvoirdachat
Orientation politique #buffetsurcanalplus
#gauchea`bastia</p>
        <p>Concept politique #drapeaurouge
et Orientation politique #alliancecentriste
#agriculturepaysanne
HashTag apolitiques #nouvellechanson
#textea`trous</p>
        <p>Nous avons e´value´ notre me´thode de
ge´ne´ration de HashTags compose´s. Pour cela,
nous avons annote´ manuellement 40 HashTags
pour chaque type de filtre utilise´ (GenDesc,
PolitIt, GenDesc \ PolitIt, GenDesc \ PolitIt \
Web). Les re´sultats sont donne´s dans la Table
5.</p>
      </sec>
      <sec id="sec-4-8">
        <title>4.2.3 Analyse</title>
        <p>La Table 5 nous montre que le filtre fonde´
sur GenDesc est efficace pour e´carter les
HashTags ge´ne´re´s n’ayant pas d’orientation
politique. Au contraire, le filtre fonde´ sur
PolitIt, se montre plus efficace pour supprimer les
HashTags ne repre´sentant pas un concept
politique. L’utilisation des deux filtres combine´s
permet d’obtenir un pourcentage de HashTags
repre´sentant un concept politique supe´rieur a`
Aucun
GenDesc</p>
        <p>PolitIt
GenDesc
\ PolitIt
GenDesc
\ PolitIt
\ Web
n’importe lequel des deux filtres utilise´s seul.
Le recours au filtre utilisant Bing combine´
aux deux autres filtres permet d’ame´liorer
encore la qualite´ des HashTags ge´ne´re´s. La
combinaison des trois filtres correspondant
a` l’application du processus dans sa
globalite´ permet de ge´ne´rer des HashTags dont
80 % sont porteurs d’une se´mantique
politique et 47.5 % sont a` la fois porteurs d’une
se´mantique politique et marqueur d’une
orientation politique.</p>
        <p>Le fait que 80 % des HashTags ge´ne´re´s avec
l’utilisation des trois filtres repre´sentent un
concept politique indique que l’algorithme ne
propose que 20 % de HashTags re´ellement non
pertinents. Par ailleurs, plus de la moitie´ des
HashTags ge´ne´re´s sont porteurs d’une
orientation politique. La combinaison de filtres que
nous proposons nous permet donc de ge´ne´rer
des HashTags pertinents, a` la fois porteurs de
sens et d’une orientation politique.
Nous avons de´crit dans cet article deux
me´thodes de ge´ne´ration de HashTags. Nous
avons vu que les donne´es statistiques comme
les donne´es se´mantiques permettaient de
de´velopper des me´thodes de ge´ne´ration de
HashTags. Nous avons de´veloppe´ une me´thode
meˆlant informations se´mantiques,
informations syntaxiques, et approches statistiques
s’appuyant sur des donne´es endoge`nes et
exoge`nes. Nous avons montre´ que la
combinaison de ces me´thodes permet d’obtenir de
meilleurs re´sultats que chacune des me´thodes
utilise´e se´pare´ment.</p>
        <p>Toutefois, nos travaux sur la ge´ne´ration de
HashTags contiennent plusieurs limites. Nous
nous sommes place´s dans un contexte ou`
nous avions connaissance des the´matiques des
tweets. Nous pensons e´tendre notre me´thode a`
un cadre non supervise´, sans connaissances a
priori des the´matiques aborde´es dans le corpus
ni des diffe´rentes opinions exprime´es.</p>
        <p>Une autre limite importante de nos travaux
vient du faible nombre de patrons syntaxiques
utilise´s pour la se´lection de HashTags
candidats. Or de nombreux HashTags ont des
structures complexes, non repre´sente´es par ces
patrons. Nos futurs travaux s’appuieront sur les
syntagmes verbaux et l’association de termes ou
de n-grammes de caracte`res extraits a` partir des
tweets.</p>
      </sec>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          <string-name>
            <surname>Aussenac-Gilles</surname>
            ,
            <given-names>N.</given-names>
          </string-name>
          , Bie´bow,
          <string-name>
            <given-names>B.</given-names>
            ,
            <surname>Szulman</surname>
          </string-name>
          ,
          <string-name>
            <surname>S.</surname>
          </string-name>
          , et al. (
          <year>2000</year>
          ).
          <article-title>Mode´lisation du domaine par une me´thode fonde´e sur l'analyse de corpus</article-title>
          .
          <source>In Actes Inge´nierie des Connaissances (IC)</source>
          , pages
          <fpage>93</fpage>
          -
          <lpage>104</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          <string-name>
            <surname>Bouillot</surname>
            ,
            <given-names>F.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Poncelet</surname>
            ,
            <given-names>P.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Roche</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Ienco</surname>
            ,
            <given-names>D.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Bigdeli</surname>
            ,
            <given-names>E.</given-names>
          </string-name>
          , and
          <string-name>
            <surname>Matwin</surname>
            ,
            <given-names>S.</given-names>
          </string-name>
          (
          <year>2012</year>
          ).
          <article-title>French presidential elections: what are the most efficient measures for tweets?</article-title>
          <source>In Proc. of the Workshop on Politics, elections and data</source>
          , pages
          <fpage>23</fpage>
          -
          <lpage>30</lpage>
          . ACM.
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          <string-name>
            <surname>Chauche´</surname>
            ,
            <given-names>J.</given-names>
          </string-name>
          (
          <year>1984</year>
          ).
          <article-title>Un outil multidimensionnel de l'analyse du discours</article-title>
          .
          <source>In Proc. of Int. Conf. on Computational Linguistics</source>
          , pages
          <fpage>11</fpage>
          -
          <lpage>15</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          <string-name>
            <surname>Conover</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          , Gonc¸alves,
          <string-name>
            <given-names>B.</given-names>
            ,
            <surname>Ratkiewicz</surname>
          </string-name>
          ,
          <string-name>
            <given-names>J.</given-names>
            ,
            <surname>Flammini</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A.</given-names>
            , and
            <surname>Menczer</surname>
          </string-name>
          ,
          <string-name>
            <surname>F.</surname>
          </string-name>
          (
          <year>2011</year>
          ).
          <article-title>Predicting the political alignment of twitter users</article-title>
          .
          <source>In Proc. of Conference on Social Computing (SocialCom).</source>
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          <string-name>
            <surname>Daille</surname>
            ,
            <given-names>B.</given-names>
          </string-name>
          (
          <year>1994</year>
          ).
          <article-title>Approche mixte pour l'extraction de terminologie: statistique lexicale et filtres linguistiques</article-title>
          .
          <source>PhD thesis.</source>
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          <string-name>
            <surname>Godin</surname>
            ,
            <given-names>F.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Slavkovikj</surname>
            ,
            <given-names>V.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>De Neve</surname>
            ,
            <given-names>W.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Schrauwen</surname>
            ,
            <given-names>B.</given-names>
          </string-name>
          , and Van de Walle,
          <string-name>
            <surname>R.</surname>
          </string-name>
          (
          <year>2013</year>
          ).
          <article-title>Using topic models for twitter hashtag recommendation</article-title>
          .
          <source>In Proc. of Int. conference on World Wide Web companion</source>
          , pages
          <fpage>593</fpage>
          -
          <lpage>596</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          <string-name>
            <surname>Huang</surname>
            ,
            <given-names>J.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Thornton</surname>
            ,
            <given-names>K. M.</given-names>
          </string-name>
          , and
          <string-name>
            <surname>Efthimiadis</surname>
            ,
            <given-names>E. N.</given-names>
          </string-name>
          (
          <year>2010</year>
          ).
          <article-title>Conversational tagging in twitter</article-title>
          .
          <source>In Proc. of Conference on Hypertext and hypermedia</source>
          , pages
          <fpage>173</fpage>
          -
          <lpage>178</lpage>
          . ACM.
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          <string-name>
            <surname>Kywe</surname>
            ,
            <given-names>S. M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Hoang</surname>
          </string-name>
          , T.-A.,
          <string-name>
            <surname>Lim</surname>
            ,
            <given-names>E.-P.</given-names>
          </string-name>
          , and
          <string-name>
            <surname>Zhu</surname>
            ,
            <given-names>F.</given-names>
          </string-name>
          (
          <year>2012</year>
          ).
          <article-title>On recommending hashtags in twitter networks</article-title>
          .
          <source>In Proc. of Int. Conference on Social Informatics, SocInfo</source>
          , pages
          <fpage>337</fpage>
          -
          <lpage>350</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          <string-name>
            <surname>Ozdikis</surname>
            ,
            <given-names>O.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Senkul</surname>
            ,
            <given-names>P.</given-names>
          </string-name>
          , and
          <string-name>
            <surname>Oguztuzun</surname>
            ,
            <given-names>H.</given-names>
          </string-name>
          (
          <year>2012</year>
          ).
          <article-title>Semantic expansion of hashtags for enhanced event detection in twitter</article-title>
          .
          <source>In Proc. of International Workshop on Online Social Systems.</source>
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          <string-name>
            <surname>Tisserant</surname>
            ,
            <given-names>G.</given-names>
          </string-name>
          (
          <year>2015</year>
          ).
          <article-title>Ge´ne´ralisation de donne´es textuelles adapte´e a` la classification automatique</article-title>
          .
          <source>PhD thesis</source>
          , Univ. Montpellier.
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          <string-name>
            <surname>Tisserant</surname>
            ,
            <given-names>G.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Prince</surname>
            ,
            <given-names>V.</given-names>
          </string-name>
          , and
          <string-name>
            <surname>Roche</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          (
          <year>2014</year>
          ).
          <article-title>Gendesc: Vers une nouvelle repre´sentation des donne´es textuelles</article-title>
          .
          <source>Num</source>
          . sp. ”Fouille de Donne´es Complexes”,
          <source>RNTI</source>
          , pages
          <fpage>127</fpage>
          -
          <lpage>146</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          <string-name>
            <surname>Turney</surname>
            ,
            <given-names>P.</given-names>
          </string-name>
          (
          <year>2001</year>
          ).
          <article-title>Mining the web for synonyms: Pmi-ir versus LSA on TOEFL</article-title>
          .
          <source>In Proc. of European Conference on Machine Learning</source>
          , pages
          <fpage>491</fpage>
          -
          <lpage>502</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          <string-name>
            <surname>Zangerle</surname>
            ,
            <given-names>E.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Gassler</surname>
            ,
            <given-names>W.</given-names>
          </string-name>
          , and
          <string-name>
            <surname>Specht</surname>
            ,
            <given-names>G.</given-names>
          </string-name>
          (
          <year>2011</year>
          ). Recommending#
          <article-title>-tags in twitter</article-title>
          .
          <source>In Proc. of Workshop on Semantic Adaptive Social Web (SASWeb</source>
          <year>2011</year>
          ). CEUR, volume
          <volume>730</volume>
          , pages
          <fpage>67</fpage>
          -
          <lpage>78</lpage>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>