1 Introduction

Ge´ne´ration automatique de HashTags

Re´sume´

0 1 2 0 Guillaume Tisserant LIRMM & Awadac 1 Mathieu Roche TETIS & LIRMM 2 Violaine Prince LIRMM

2015

141 148

Les hashtags sont des mots-cle´s que les utilisateurs de re´seaux sociaux choisissent de mettre en avant dans leurs messages. Ils ont e´te´ popularise´s sur le re´seau social Twitter, qui a permis a` ses utilisateurs de se´lectionner des HashTags a` suivre et d'afficher l'ensemble des messages contenant un HashTag suivi. Ils sont aujourd'hui utilise´s sur les principaux re´seaux sociaux, tels que Facebook, Google+, Diaspora*, et sont un facteur important de la diffusion de l'information sur Internet. Dans cet article, nous proposons une me´thode fonde´e sur des informations statistiques, syntaxiques et se´mantiques pour ge´ne´rer des HashTags.

1 Introduction

Avec l’usage grandissant d’Internet, une quantite´ d’information de plus en plus importante se trouve a` notre disposition. La difficulte´ n’est donc plus seulement de multiplier les ressources auxquelles nous pouvons acce´der mais de trier les informations auxquelles nous acce´dons. Pour permettre a` ses utilisateurs de se´lectionner le contenu qui l’inte´resse, certains re´seaux sociaux, comme Twitter, proposent aux utilisateurs de se´lectionner des HashTags, qui correspondent a` leurs centres d’inte´reˆts et affichent dans leur flux les messages contenant des HashTags suivis. Les utilisateurs voient les HashTags contenus dans les messages de leur flux, et peuvent les ajouter a` leur liste de HashTags suivis.

Toutefois, le choix de HashTags a` suivre ou a` utiliser pour indexer un de ses tweets peut eˆtre difficile a` re´aliser : un HashTag trop ge´ne´rique va indexer le message dans un flux tre`s important de donne´es, il ne sera donc pas mis en valeur alors qu’un HashTag trop spe´cifique risque de ne pas eˆtre suivi. L’exploitation des HashTags demande donc un effort plus important a` l’utilisateur. La cre´ation d’un syste`me automatique de recommandation de HashTags est donc une solution inte´ressante pour faciliter l’acce`s aux ressources par les utilisateurs. 2 2.1

Proble´matique Qu’est ce qu’un HashTag?

Les HashTags sont des termes que les utilisateurs des re´seaux sociaux, en particulier Twitter, choisissent de mettre en avant dans leurs messages en les faisant pre´ce´der du symbole #.

Un HashTag peut avoir plusieurs significations. Il peut servir a` re´fe´rencer un tweet par rapport a` un sujet ou a` participer a` une discussion en cours sur le sujet associe´ au HashTag (Huang et al., 2010) . Par exemple, les HashTags #2012, #Elyse´e, et #Elyse´e2012 ont servi a` indiquer qu’un tweet e´voquait la campagne pre´sidentielle de 2012. Mais les HashTags servent aussi a` marquer son appartenance a` une communaute´ ou une ide´ologie (Conover et al., 2011) . Twitter, pendant les dernie`res e´lections pre´sidentielles en France, a vu se multiplier des noms de candidats (#Eva pour Eva Joly, #NS pour Nicolas Sarkozy), des partis (#UMP, #PS) ou des slogans (#Placeaupeuple) utilise´s comme HashTags.

Re´cemment, de nombreux travaux ont montre´ l’inte´reˆt d’exploiter les HashTags dans le cadre de taˆches de fouille de texte. (Conover et al., 2011) , par exemple, utilisent les HashTags comme descripteurs pour la classification et mettent en avant le fait qu’ils sont plus pertinents que les autres termes. (Ozdikis et al., 2012) utilisent les HashTags pour faire du clustering. Ils montrent que les HashTags permettent un meilleur partitionnement des tweets. Ils montrent aussi que l’enrichissement se´mantique pour des taˆches de partitionnement est de meilleure qualite´ en se fondant sur les HashTags plutoˆt que sur les termes. Cela montre que les HashTags sont des donne´es a` la fois exploitables par des eˆtres humains et par des programmes automatiques. 2.2

Comment ge´ne´rer des HashTags?

La recommandation de HashTags est un domaine encore peu explore´ (Kywe et al., 2012) . La majorite´ des approches s’appuient sur des me´thodes statistiques, comme (Zangerle et al., 2011) qui utilisent la ponde´ration TF-IDF ou (Godin et al., 2013) qui exploitent le mode`le Latent Dirichlet Allocation. Ces approches se fondent sur l’ide´e qu’un HashTag contient une information qui a pour but d’indexer un tweet par rapport a` un sujet. Mais un HashTag posse`de aussi une se´mantique importante e´voque´e dans le tweet. Ge´ne´rer des HashTags depuis les tweets demande donc de de´tecter des termes qui soient a` la fois se´mantiquement inte´ressants et marqueurs d’une opinion ou d’une appartenance a` un groupe. Nous allons, dans cet article, proposer une me´thode a` la fois statistique et se´mantique, permettant de de´tecter les termes les plus discriminants pour l’indexation et les plus inte´ressants se´mantiquement. 3

Analyse

Pour de´velopper notre me´thode de ge´ne´ration de HashTags, nous avons commence´ par analyser les termes utilise´s en tant que HashTags dans un corpus de tweets, et nous les avons compare´ a` des termes issus d’une analyse statistique d’un corpus de tweets, et des termes issus d’une ressource se´mantique en rapport avec notre corpus. Dans cette section, nous pre´senterons ces diffe´rentes ressources, ainsi que notre corpus. 3.1

Les ressources utilise´es

Pour comprendre quels termes pouvaient eˆtre des HashTags potentiellement inte´ressants, nous sommes partis d’un corpus de tweets politiques, et nous avons compare´ les termes utilise´s en tant que HashTags avec des termes statistiquement discriminants, et avec une liste de termes politiquement clivants, mettant en avant des opinions politiques. La me´thode statistique pour favoriser les termes discriminants provient d’une me´thode appele´e GenDesc (Tisserant et al., 2014) et la ressource se´mantique utilise´e pour se´lectionner les termes politiquement clivants provient du GWAP (Game With A Purpose) PolitIt (Tisserant, 2015) .

3.1.1 Le corpus

Pour tester nos me´thodes et faire nos mesures statistiques, nous avons utilise´ un sousensemble du corpus POLOP (Political Opinion Mining) (Bouillot et al., 2012) . POLOP rassemble des tweets e´crits en franc¸ais par des e´lus de diffe´rents partis politiques pendant la campagne pre´sidentielle de 2012. Nous avons travaille´ sur un sous-ensemble du corpus de 2500 tweets e´quitablement re´partis entre 5 partis politiques. Ces mouvements sont l’UMP, le MoDem, le PS, le Front de Gauche, et EELV. Les tweets se´lectionne´s font en moyenne 81 caracte`res. Le plus petit tweet fait 31 caracte`res, le plus long en fait 140.

3.1.2 GenDesc

GenDesc (Tisserant et al., 2014) est une me´thode que nous avons de´veloppe´e pour re´pondre a` des proble´matiques de classification de textes. L’objectif de notre me´thode est de de´tecter les termes les moins discriminants et de les remplacer par des descripteurs plus ge´ne´riques de fac¸on a` obtenir une meilleure repre´sentation en vue de son utilisation par un algorithme de classification automatique. Nous utilisons une formule statistique que nous appelons D pour privile´gier les termes les plus discriminants :

occClasse(x)

D(x) = occCorpus(x) ou` occClasse(x) est le nombre d’occurrences de x dans la classe qui le contient le plus et occCorpus(x) repre´sente le nombre d’occurrences de x dans l’inte´gralite´ du corpus.

La mesure D s’est re´ve´le´e pertinente pour des taˆches de classification (Tisserant et al., 2014) . Nous allons montrer comment cette mesure, en de´tectant les termes les plus discriminants des tweets, peut eˆtre utilise´e pour une taˆche de ge´ne´ration de HashTags. Les classes conside´re´es seront les diffe´rents mouvement politiques.

3.1.3 PolitIt

PolitIt est un GWAP qui traite de la “polarite´ politique” des termes. Dans ce jeu, une interface propose des termes aux joueurs qu’ils doivent associer a` un des six courants politiques propose´s : Extreˆme-gauche, Ecologie, Gauche mode´re´e, Droite mode´re´e, Droite, Extreˆme droite. Lorsqu’ils conside`rent qu’aucun courant ne correspond mieux que les autres, ils peuvent passer a` un autre terme sans donner de re´ponse. Les donne´es obtenues graˆce aux parties joue´es permettent de rattacher des termes aux centres d’inte´reˆts des courants politiques. Par exemple, l’entite´ nomme´e Adam Smith est associe´e par les joueurs a` la droite. Cela ne veut pas force´ment dire que le descripteur repre´sente un concept de´fendu par le courant politique rattache´. Par exemple, le terme nucle´aire est rattache´ au courant politique Ecologie. Cela s’explique par le fait que, bien qu’ils s’y opposent, le nucle´aire est un sujet de pre´occupation important pour les mouvements e´cologistes. Ces donne´es peuvent donc eˆtre adapte´es pour de´tecter les termes clivants dans notre corpus de tweets politiques. 3.2

Les termes se´lectionne´s par chaque

mesure La Table 1 montre un e´chantillon des termes appartenant a` une des cate´gories. Les termes de PolitIt pre´sente´s sont ceux ayant le plus grand nombre de re´ponses attachant le terme au meˆme courant politique. Les HashTags mis en avant sont les plus utilise´s dans le corpus. Les termes en provenance de GenDesc sont ceux ayant la valeur de la mesure D la plus e´leve´e. Une version plus comple`te de ce tableau est donne´e dans (Tisserant, 2015) .

PolitIt HashTag GenDesc centriste air puteaux dieu e´ducation metz assurance marseille me´lenchon elf jdd besanc¸on bourse karachi front rpr interview laurent rtt optimisme edf ss hollande nazaire terre crise nucle´aires altermondialiste se´nat de´manteler

Nous voyons qu’une partie des termes retourne´s par GenDesc semblent les plus difficiles a` rattacher a` un mouvement politique. Le terme de´manteler ou le pre´nom Laurent, par exemple, sont impossibles a` analyser sans leur contexte. Toutefois, en prenant en compte le contexte, certains de ces termes deviennent politiquement oriente´s. Metz, par exemple, fait re´fe´rence a` un meeting qui a eu lieu pendant la campagne le´gislative de 2012, au moment ou` le corpus de tweets a e´te´ constitue´.

Une partie des HashTags ne´cessite aussi un contexte pour les rattacher a` un mouvement politique. Toutefois, meˆme prive´s de leur contexte, nous pouvons conside´rer qu’ils repre´sentent des concepts politiques. Par exemple, si nous prenons les termes e´ducation ou se´nat, nous pouvons conside´rer qu’ils appartiennent au champ lexical de la politique, meˆme s’ils ne peuvent eˆtre rattache´s a` un mouvement politique spe´cifique.

Les termes de PolitIt peuvent en grande partie eˆtre rattache´s a` un courant politique, meˆme hors de tout contexte. Certains termes comme RPR ou altermondialiste font meˆme directement re´fe´rence a` des courants politiques. Toutefois, il ne faut pas force´ment en de´duire que ces termes vont eˆtre utilise´s par les courants auxquels ils sont relie´s. Par exemple, le terme SS est rattache´ a` l’extreˆme droite dans PolitIt, mais il est principalement utilise´ sur Twitter par des sympathisants d’extreˆme gauche pour parler du Front National de manie`re pe´jorative. 4

Contribution

Nous allons dans cette Section pre´senter deux me´thodes de ge´ne´ration de HashTags. Chaque me´thode sera e´value´e quantitativement et qualitativement sur un corpus de tweets politiques.

Nous proposons dans la Section 4.1 une me´thode pour se´lectionner, a` partir de tweets, des termes candidats pour eˆtre des HashTags. Puis, dans la Section 4.2, nous proposerons une me´thode permettant de ge´ne´rer des HashTags compose´s de plusieurs mots. 4.1

Ge´ne´ration de HashTags simples

Nous avons vu pre´ce´demment que les termes provenant a` la fois de GenDesc et PolitIt sont des HashTags potentiels inte´ressants. Nous allons nous appuyer sur ce constat pour proposer une premie`re me´thode de ge´ne´ration de HashTags.

4.1.1 Me´thodologie

L’ide´e est d’exploiter les termes de´tecte´s par GenDesc et ceux provenant de PolitIt pour ge´ne´rer des HashTags. Les termes provenant de GenDesc sont discriminants pour les tweets. Cela indique qu’ils peuvent donner des HashTags inte´ressants pour marquer politiquement un tweet. Les termes provenant de PolitIt sont des termes ayant une se´mantique politique forte. A` ce titre, ils ont de fortes chances d’eˆtre un marqueur d’attachement a` un mouvement politique.

Pour ve´rifier notre hypothe`se, nous avons mene´ l’expe´rimentation suivante : Nous avons se´lectionne´ 25 termes pour chaque cate´gorie (GenDesc, PolitIt et GenDesc \ PolitIt). Les termes de GenDesc e´tant ceux avec la mesure D la plus importante, et les termes de PolitIt sont ceux ayant e´te´ rattache´s le plus grand nombre de fois au meˆme courant politique. Pour l’intersection de GenDesc et PolitIt, nous avons pris les termes ayant la mesure D la plus importante qui sont rattache´s a` plus de 50 % a` un meˆme courant politique dans PolitIt.

4.1.2 Re´sultats

Pour ve´rifier si les HashTags ge´ne´re´s pouvaient s’ave´rer pertinents, nous avons observe´, graˆce au site hashtags.org1, s’ils sont aujourd’hui utilise´s comme HashTag. Les mesures ont e´te´ effectue´es en Juillet 2014, soit plus de deux ans apre`s la construction du corpus. Les HashTags sont conside´re´s comme utilise´s re´gulie`rement s’ils ont e´te´ utilise´s plus de cent fois en moyenne par jour. Les re´sultats de l’expe´rimentation sont donne´s en Table 2.

GenDesc PolitIt GenDesc \ PolitIt 52 % 76 % 92 %

4.1.3 Analyse

Nous remarquons qu’a` peine plus de 50 % des termes avec une valeur de la mesure D e´leve´e sont utilise´s comme des HashTags, alors que ceux provenant de PolitIt sont a` 76 % utilise´s comme HashTags. Cela permet de 1www.hashtags.org montrer que l’information se´mantique issue de GWAP est plus pertinente que l’information statistique pour la ge´ne´ration de HashTags. Toutefois, nous voyons que l’information statistique peut eˆtre pertinente pour la ge´ne´ration de HashTags. En effet, en prenant l’intersection de GenDesc et PolitIt, nous obtenons un meilleur re´sultat (92 %) qu’en utilisant les termes de PolitIt (76 %).

Le fait que la combinaison des deux me´thodes soit plus efficace que l’utilisation des me´thodes isole´es vient du fait que GenDesc et PolitIt apportent des informations diffe´rentes et comple´mentaires :

GenDesc nous permet de savoir qu’un terme est marqueur d’une classe politique, son apparition dans PolitIt montre qu’il appartient au champ lexical de la politique. 4.2

Ge´ne´ration de HashTags compose´s

Nous avons vu dans la section pre´ce´dente que nous pouvions ge´ne´rer des HashTags pertinents compose´s d’un unique terme en combinant des informations statistiques et se´mantiques. Mais une partie importante des HashTags sont en re´alite´ compose´s de plusieurs mots.

4.2.1 Me´thodologie

La proble´matique de ge´ne´ration de HashTags compose´s de plusieurs mots est plus complexe que celle de ge´ne´ration de HashTags simples. En effet, il faut pouvoir proposer des combinaisons de termes repre´sentant des hashtags potentiels, et ensuite se´lectionner ceux dont la combinaison offre une se´mantique inte´ressante permettant d’identifier rapidement la the´matique du tweet.

Nous avons de´cide´ de nous appuyer sur l’utilisation de patrons syntaxiques pour effectuer une se´lection de termes candidats. Puis, pour se´lectionner les termes les plus pertinents E´ tape 3 : Filtre se´mantique pour eˆtre utilise´s en tant que HashTags, nous Nous avons ensuite applique´ un filtre avons utilise´ les informations provenant de Poli- se´mantique, pour ne garder que les coutIt et GenDesc. ples contenant des termes appartenant a` PolitIt.

E´ tape 1 : Patrons syntaxiques Ce filtre nous permet de ne conserver que des La premie`re e´tape de la ge´ne´ration consiste a` syntagmes repre´sentant des concepts politiques. choisir un ensemble de syntagmes candidats. Ainsi, certains syntagmes candidats comme Nous avons choisi d’utiliser des patrons syntax- ”fdg cre´e´” ou ”projet irresponsable” vont eˆtre iques pour se´lectionner des syntagmes candi- e´carte´s de la liste des HashTags candidats. dats. Cette approche est proche de celle adopte´e E´ tape 4 : Filtre statistique exoge`ne par certaines me´thodes d’extraction de termi- Un certain nombre de HashTags ge´ne´re´s a` parnologie (Aussenac-Gilles et al., 2000) . Nous tir des patrons syntaxiques ne repre´sentent pas avons recouru a` trois patrons syntaxiques clas- de concepts. Le nombre important de ce type siques (Daille, 1994) , pre´sente´s dans la Table 3. de HashTags s’explique, en partie, par la mauvaise construction grammaticale des tweets, Patron syntaxique Exemple qui a tendance a` induire en erreur l’analyseur NOM - ADJECTIF listes e´lectorales syntaxique. Nous avons donc utilise´ un filtransition e´nerge´tique tre statistique exoge`ne pour de´tecter la pertiADJECTIF - NOM haute surveillance nence de l’association de termes. L’ide´e est affreux dictateur de nous appuyer sur un corpus diffe´rent qui NOM - PREPOSITION -NOM syndicalisme de lutte est a` la fois inde´pendant et de taille supe´rieure gaz de schiste pour y mesurer la fre´quence d’apparition des syntagmes se´lectionne´s. Ce filtre a pour but Table 3: Patrons syntaxiques et exemples de termes de supprimer des syntagmes ne repre´sentant associe´s pre´sents dans le corpus. pas force´ment un concept, comme ”consommation collaborative” ou ”petitjournal politesse”.

Nous avons choisi d’utiliser internet comme corpus pour ce filtre. Nous avons mesure´ la fre´quence d’apparition des syntagmes graˆce au moteur de recherche Bing, en conside´rant le nombre de re´sultats retourne´s (Turney, 2001) .

Ce filtre nous a permis de supprimer des groupes de termes apparaissant rarement ensemble sur Internet, et qui ne repre´sentent pas force´ment une se´mantique inte´ressante.

Pour de´tecter les patrons syntaxiques dans les tweets, nous avons choisi d’utiliser l’e´tiqueteur grammatical SYGFRAN (Chauche´, 1984) .

E´ tape 2 : Filtre statistique endoge`ne Nous avons ensuite applique´ un filtre statistique endoge`ne sur nos candidats, pour ne conserver que les syntagmes dont au moins un e´tait conside´re´ comme pertinent par GenDesc. Ce filtre permet de supprimer les HashTags n’e´tant pas conside´re´s comme discriminants par notre mesure statistique. Ainsi, des syntagmes comme ”journal de campagne” ou ”texte a` trous” vont eˆtre supprime´s de la liste des HashTags candidats.

Apre`s application du processus, nous avons releve´ qu’un grand nombre de HashTags ge´ne´re´s e´taient en rapport direct avec des e´ve`nements survenus a` la pe´riode ou` le corpus 4.2.2

Re´sultats

a e´te´ constitue´. Nous avons choisi d’e´valuer chaque HashTag en prenant en compte deux types d’informations se´mantiques : la repre´sentation d’un concept du champ lexical politique.

le marquage d’une orientation politique.

Des exemples de HashTags illustrant ces notions sont donne´s dans la Table 4.

Concept politique #voteutile #pouvoirdachat Orientation politique #buffetsurcanalplus #gauchea`bastia

Concept politique #drapeaurouge et Orientation politique #alliancecentriste #agriculturepaysanne HashTag apolitiques #nouvellechanson #textea`trous

Nous avons e´value´ notre me´thode de ge´ne´ration de HashTags compose´s. Pour cela, nous avons annote´ manuellement 40 HashTags pour chaque type de filtre utilise´ (GenDesc, PolitIt, GenDesc \ PolitIt, GenDesc \ PolitIt \ Web). Les re´sultats sont donne´s dans la Table 5.

4.2.3 Analyse

La Table 5 nous montre que le filtre fonde´ sur GenDesc est efficace pour e´carter les HashTags ge´ne´re´s n’ayant pas d’orientation politique. Au contraire, le filtre fonde´ sur PolitIt, se montre plus efficace pour supprimer les HashTags ne repre´sentant pas un concept politique. L’utilisation des deux filtres combine´s permet d’obtenir un pourcentage de HashTags repre´sentant un concept politique supe´rieur a` Aucun GenDesc

PolitIt GenDesc \ PolitIt GenDesc \ PolitIt \ Web n’importe lequel des deux filtres utilise´s seul. Le recours au filtre utilisant Bing combine´ aux deux autres filtres permet d’ame´liorer encore la qualite´ des HashTags ge´ne´re´s. La combinaison des trois filtres correspondant a` l’application du processus dans sa globalite´ permet de ge´ne´rer des HashTags dont 80 % sont porteurs d’une se´mantique politique et 47.5 % sont a` la fois porteurs d’une se´mantique politique et marqueur d’une orientation politique.

Le fait que 80 % des HashTags ge´ne´re´s avec l’utilisation des trois filtres repre´sentent un concept politique indique que l’algorithme ne propose que 20 % de HashTags re´ellement non pertinents. Par ailleurs, plus de la moitie´ des HashTags ge´ne´re´s sont porteurs d’une orientation politique. La combinaison de filtres que nous proposons nous permet donc de ge´ne´rer des HashTags pertinents, a` la fois porteurs de sens et d’une orientation politique. Nous avons de´crit dans cet article deux me´thodes de ge´ne´ration de HashTags. Nous avons vu que les donne´es statistiques comme les donne´es se´mantiques permettaient de de´velopper des me´thodes de ge´ne´ration de HashTags. Nous avons de´veloppe´ une me´thode meˆlant informations se´mantiques, informations syntaxiques, et approches statistiques s’appuyant sur des donne´es endoge`nes et exoge`nes. Nous avons montre´ que la combinaison de ces me´thodes permet d’obtenir de meilleurs re´sultats que chacune des me´thodes utilise´e se´pare´ment.

Toutefois, nos travaux sur la ge´ne´ration de HashTags contiennent plusieurs limites. Nous nous sommes place´s dans un contexte ou` nous avions connaissance des the´matiques des tweets. Nous pensons e´tendre notre me´thode a` un cadre non supervise´, sans connaissances a priori des the´matiques aborde´es dans le corpus ni des diffe´rentes opinions exprime´es.

Une autre limite importante de nos travaux vient du faible nombre de patrons syntaxiques utilise´s pour la se´lection de HashTags candidats. Or de nombreux HashTags ont des structures complexes, non repre´sente´es par ces patrons. Nos futurs travaux s’appuieront sur les syntagmes verbaux et l’association de termes ou de n-grammes de caracte`res extraits a` partir des tweets.

Aussenac-Gilles , N. , Bie´bow, B. , Szulman , S. , et al. ( 2000 ). Mode´lisation du domaine par une me´thode fonde´e sur l'analyse de corpus . In Actes Inge´nierie des Connaissances (IC) , pages 93 - 104 .

Bouillot , F. , Poncelet , P. , Roche , M. , Ienco , D. , Bigdeli , E. , and Matwin , S. ( 2012 ). French presidential elections: what are the most efficient measures for tweets? In Proc. of the Workshop on Politics, elections and data , pages 23 - 30 . ACM.

Chauche´ , J. ( 1984 ). Un outil multidimensionnel de l'analyse du discours . In Proc. of Int. Conf. on Computational Linguistics , pages 11 - 15 .

Conover , M. , Gonc¸alves, B. , Ratkiewicz , J. , Flammini , A. , and Menczer , F. ( 2011 ). Predicting the political alignment of twitter users . In Proc. of Conference on Social Computing (SocialCom).

Daille , B. ( 1994 ). Approche mixte pour l'extraction de terminologie: statistique lexicale et filtres linguistiques . PhD thesis.

Godin , F. , Slavkovikj , V. , De Neve , W. , Schrauwen , B. , and Van de Walle, R. ( 2013 ). Using topic models for twitter hashtag recommendation . In Proc. of Int. conference on World Wide Web companion , pages 593 - 596 .

Huang , J. , Thornton , K. M. , and Efthimiadis , E. N. ( 2010 ). Conversational tagging in twitter . In Proc. of Conference on Hypertext and hypermedia , pages 173 - 178 . ACM.

Kywe , S. M. , Hoang , T.-A., Lim , E.-P. , and Zhu , F. ( 2012 ). On recommending hashtags in twitter networks . In Proc. of Int. Conference on Social Informatics, SocInfo , pages 337 - 350 .

Ozdikis , O. , Senkul , P. , and Oguztuzun , H. ( 2012 ). Semantic expansion of hashtags for enhanced event detection in twitter . In Proc. of International Workshop on Online Social Systems.

Tisserant , G. ( 2015 ). Ge´ne´ralisation de donne´es textuelles adapte´e a` la classification automatique . PhD thesis , Univ. Montpellier.

Tisserant , G. , Prince , V. , and Roche , M. ( 2014 ). Gendesc: Vers une nouvelle repre´sentation des donne´es textuelles . Num . sp. ”Fouille de Donne´es Complexes”, RNTI , pages 127 - 146 .

Turney , P. ( 2001 ). Mining the web for synonyms: Pmi-ir versus LSA on TOEFL . In Proc. of European Conference on Machine Learning , pages 491 - 502 .

Zangerle , E. , Gassler , W. , and Specht , G. ( 2011 ). Recommending# -tags in twitter . In Proc. of Workshop on Semantic Adaptive Social Web (SASWeb 2011 ). CEUR, volume 730 , pages 67 - 78 .