Proceedings of the conference Terminology and Artificial Intelligence 2015 (Granada, Spain) 141 Génération automatique de HashTags Guillaume Tisserant Mathieu Roche Violaine Prince LIRMM & Awadac TETIS & LIRMM LIRMM tisserant@lirmm.fr mroche@cirad.fr prince@lirmm.fr Résumé réseaux sociaux, comme Twitter, proposent aux utilisateurs de sélectionner des HashTags, qui Les hashtags sont des mots-clés que les correspondent à leurs centres d’intérêts et af- utilisateurs de réseaux sociaux choisis- fichent dans leur flux les messages contenant sent de mettre en avant dans leurs mes- des HashTags suivis. Les utilisateurs voient les sages. Ils ont été popularisés sur le réseau HashTags contenus dans les messages de leur social Twitter, qui a permis à ses util- isateurs de sélectionner des HashTags à flux, et peuvent les ajouter à leur liste de Hash- suivre et d’afficher l’ensemble des mes- Tags suivis. sages contenant un HashTag suivi. Ils Toutefois, le choix de HashTags à suivre ou à sont aujourd’hui utilisés sur les princi- utiliser pour indexer un de ses tweets peut être paux réseaux sociaux, tels que Facebook, difficile à réaliser : un HashTag trop générique Google+, Diaspora*, et sont un facteur va indexer le message dans un flux très im- important de la diffusion de l’information portant de données, il ne sera donc pas mis sur Internet. Dans cet article, nous pro- en valeur alors qu’un HashTag trop spécifique posons une méthode fondée sur des in- formations statistiques, syntaxiques et risque de ne pas être suivi. L’exploitation des sémantiques pour générer des HashTags. HashTags demande donc un effort plus impor- tant à l’utilisateur. La création d’un système automatique de recommandation de HashTags 1 Introduction est donc une solution intéressante pour faciliter l’accès aux ressources par les utilisateurs. Avec l’usage grandissant d’Internet, une quan- tité d’information de plus en plus importante 2 Problématique se trouve à notre disposition. La difficulté n’est donc plus seulement de multiplier les 2.1 Qu’est ce qu’un HashTag? ressources auxquelles nous pouvons accéder Les HashTags sont des termes que les utilisa- mais de trier les informations auxquelles nous teurs des réseaux sociaux, en particulier Twitter, accédons. Pour permettre à ses utilisateurs de choisissent de mettre en avant dans leurs mes- sélectionner le contenu qui l’intéresse, certains sages en les faisant précéder du symbole #. Proceedings of the conference Terminology and Artificial Intelligence 2015 (Granada, Spain) 142 Un HashTag peut avoir plusieurs significa- Latent Dirichlet Allocation. Ces approches tions. Il peut servir à référencer un tweet par se fondent sur l’idée qu’un HashTag contient rapport à un sujet ou à participer à une discus- une information qui a pour but d’indexer un sion en cours sur le sujet associé au HashTag tweet par rapport à un sujet. Mais un Hash- (Huang et al., 2010). Par exemple, les Hash- Tag possède aussi une sémantique importante Tags #2012, #Elysée, et #Elysée2012 ont servi évoquée dans le tweet. Générer des HashTags à indiquer qu’un tweet évoquait la campagne depuis les tweets demande donc de détecter présidentielle de 2012. Mais les HashTags ser- des termes qui soient à la fois sémantiquement vent aussi à marquer son appartenance à une intéressants et marqueurs d’une opinion ou communauté ou une idéologie (Conover et al., d’une appartenance à un groupe. Nous al- 2011). Twitter, pendant les dernières élections lons, dans cet article, proposer une méthode présidentielles en France, a vu se multiplier à la fois statistique et sémantique, permet- des noms de candidats (#Eva pour Eva Joly, tant de détecter les termes les plus discrimi- #NS pour Nicolas Sarkozy), des partis (#UMP, nants pour l’indexation et les plus intéressants #PS) ou des slogans (#Placeaupeuple) utilisés sémantiquement. comme HashTags. Récemment, de nombreux travaux ont 3 Analyse montré l’intérêt d’exploiter les HashTags dans le cadre de tâches de fouille de texte. (Conover Pour développer notre méthode de génération et al., 2011), par exemple, utilisent les Hash- de HashTags, nous avons commencé par anal- Tags comme descripteurs pour la classifica- yser les termes utilisés en tant que HashTags tion et mettent en avant le fait qu’ils sont dans un corpus de tweets, et nous les avons plus pertinents que les autres termes. (Ozdikis comparé à des termes issus d’une analyse statis- et al., 2012) utilisent les HashTags pour faire tique d’un corpus de tweets, et des termes du clustering. Ils montrent que les HashTags issus d’une ressource sémantique en rapport permettent un meilleur partitionnement des avec notre corpus. Dans cette section, nous tweets. Ils montrent aussi que l’enrichissement présenterons ces différentes ressources, ainsi sémantique pour des tâches de partitionnement que notre corpus. est de meilleure qualité en se fondant sur les HashTags plutôt que sur les termes. Cela mon- 3.1 Les ressources utilisées tre que les HashTags sont des données à la fois Pour comprendre quels termes pouvaient être exploitables par des êtres humains et par des des HashTags potentiellement intéressants, programmes automatiques. nous sommes partis d’un corpus de tweets poli- tiques, et nous avons comparé les termes utilisés 2.2 Comment générer des HashTags? en tant que HashTags avec des termes statis- La recommandation de HashTags est un do- tiquement discriminants, et avec une liste de maine encore peu exploré (Kywe et al., 2012). termes politiquement clivants, mettant en avant La majorité des approches s’appuient sur des des opinions politiques. La méthode statis- méthodes statistiques, comme (Zangerle et al., tique pour favoriser les termes discriminants 2011) qui utilisent la pondération TF-IDF ou provient d’une méthode appelée GenDesc (Tis- (Godin et al., 2013) qui exploitent le modèle serant et al., 2014) et la ressource sémantique Proceedings of the conference Terminology and Artificial Intelligence 2015 (Granada, Spain) 143 utilisée pour sélectionner les termes politique- 2014). Nous allons montrer comment cette ment clivants provient du GWAP (Game With mesure, en détectant les termes les plus dis- A Purpose) PolitIt (Tisserant, 2015). criminants des tweets, peut être utilisée pour une tâche de génération de HashTags. Les 3.1.1 Le corpus classes considérées seront les différents mouve- Pour tester nos méthodes et faire nos ment politiques. mesures statistiques, nous avons utilisé un sous- ensemble du corpus POLOP (Political Opinion 3.1.3 PolitIt Mining) (Bouillot et al., 2012). POLOP rassem- PolitIt est un GWAP qui traite de la “polarité ble des tweets écrits en français par des élus de politique” des termes. Dans ce jeu, une in- différents partis politiques pendant la campagne terface propose des termes aux joueurs qu’ils présidentielle de 2012. Nous avons travaillé doivent associer à un des six courants politiques sur un sous-ensemble du corpus de 2500 tweets proposés : Extrême-gauche, Ecologie, Gauche équitablement répartis entre 5 partis politiques. modérée, Droite modérée, Droite, Extrême Ces mouvements sont l’UMP, le MoDem, le droite. Lorsqu’ils considèrent qu’aucun courant PS, le Front de Gauche, et EELV. Les tweets ne correspond mieux que les autres, ils peu- sélectionnés font en moyenne 81 caractères. Le vent passer à un autre terme sans donner de plus petit tweet fait 31 caractères, le plus long réponse. Les données obtenues grâce aux en fait 140. parties jouées permettent de rattacher des ter- mes aux centres d’intérêts des courants poli- 3.1.2 GenDesc tiques. Par exemple, l’entité nommée Adam GenDesc (Tisserant et al., 2014) est une Smith est associée par les joueurs à la droite. méthode que nous avons développée pour Cela ne veut pas forcément dire que le de- répondre à des problématiques de classifica- scripteur représente un concept défendu par le tion de textes. L’objectif de notre méthode est courant politique rattaché. Par exemple, le de détecter les termes les moins discriminants terme nucléaire est rattaché au courant poli- et de les remplacer par des descripteurs plus tique Ecologie. Cela s’explique par le fait que, génériques de façon à obtenir une meilleure bien qu’ils s’y opposent, le nucléaire est un su- représentation en vue de son utilisation par un jet de préoccupation important pour les mouve- algorithme de classification automatique. Nous ments écologistes. Ces données peuvent donc utilisons une formule statistique que nous ap- être adaptées pour détecter les termes clivants pelons D pour privilégier les termes les plus dans notre corpus de tweets politiques. discriminants : 3.2 Les termes sélectionnés par chaque occClasse(x) D(x) = mesure occCorpus(x) où occClasse(x) est le nombre d’occurrences de x dans la La Table 1 montre un échantillon des termes ap- classe qui le contient le plus et occCorpus(x) représente le partenant à une des catégories. Les termes de nombre d’occurrences de x dans l’intégralité du corpus. PolitIt présentés sont ceux ayant le plus grand nombre de réponses attachant le terme au même La mesure D s’est révélée pertinente pour courant politique. Les HashTags mis en avant des tâches de classification (Tisserant et al., sont les plus utilisés dans le corpus. Les ter- Proceedings of the conference Terminology and Artificial Intelligence 2015 (Granada, Spain) 144 mes en provenance de GenDesc sont ceux ayant Les termes de PolitIt peuvent en grande par- la valeur de la mesure D la plus élevée. Une tie être rattachés à un courant politique, même version plus complète de ce tableau est donnée hors de tout contexte. Certains termes comme dans (Tisserant, 2015). RPR ou altermondialiste font même directe- ment référence à des courants politiques. Toute- PolitIt HashTag GenDesc fois, il ne faut pas forcément en déduire que centriste air puteaux ces termes vont être utilisés par les courants dieu éducation metz auxquels ils sont reliés. Par exemple, le terme assurance marseille mélenchon SS est rattaché à l’extrême droite dans PolitIt, elf jdd besançon mais il est principalement utilisé sur Twitter par bourse karachi front des sympathisants d’extrême gauche pour par- rpr interview laurent ler du Front National de manière péjorative. rtt optimisme edf ss hollande nazaire 4 Contribution terre crise nucléaires Nous allons dans cette Section présenter deux altermondialiste sénat démanteler méthodes de génération de HashTags. Chaque méthode sera évaluée quantitativement et qual- Table 1: Mots n’apparaissant que dans un seul des itativement sur un corpus de tweets politiques. trois ensembles Nous proposons dans la Section 4.1 une méthode pour sélectionner, à partir de tweets, Nous voyons qu’une partie des termes re- des termes candidats pour être des HashTags. tournés par GenDesc semblent les plus difficiles Puis, dans la Section 4.2, nous proposerons une à rattacher à un mouvement politique. Le terme méthode permettant de générer des HashTags démanteler ou le prénom Laurent, par exemple, composés de plusieurs mots. sont impossibles à analyser sans leur contexte. Toutefois, en prenant en compte le contexte, 4.1 Génération de HashTags simples certains de ces termes deviennent politiquement Nous avons vu précédemment que les termes orientés. Metz, par exemple, fait référence à provenant à la fois de GenDesc et PolitIt sont un meeting qui a eu lieu pendant la campagne des HashTags potentiels intéressants. Nous al- législative de 2012, au moment où le corpus de lons nous appuyer sur ce constat pour proposer tweets a été constitué. une première méthode de génération de Hash- Une partie des HashTags nécessite aussi Tags. un contexte pour les rattacher à un mouve- ment politique. Toutefois, même privés de 4.1.1 Méthodologie leur contexte, nous pouvons considérer qu’ils L’idée est d’exploiter les termes détectés par représentent des concepts politiques. Par ex- GenDesc et ceux provenant de PolitIt pour emple, si nous prenons les termes éducation ou générer des HashTags. Les termes provenant sénat, nous pouvons considérer qu’ils apparti- de GenDesc sont discriminants pour les tweets. ennent au champ lexical de la politique, même Cela indique qu’ils peuvent donner des Hash- s’ils ne peuvent être rattachés à un mouvement Tags intéressants pour marquer politiquement politique spécifique. un tweet. Les termes provenant de PolitIt Proceedings of the conference Terminology and Artificial Intelligence 2015 (Granada, Spain) 145 sont des termes ayant une sémantique politique montrer que l’information sémantique issue de forte. À ce titre, ils ont de fortes chances d’être GWAP est plus pertinente que l’information un marqueur d’attachement à un mouvement statistique pour la génération de HashTags. politique. Toutefois, nous voyons que l’information statis- Pour vérifier notre hypothèse, nous avons tique peut être pertinente pour la génération de mené l’expérimentation suivante : Nous avons HashTags. En effet, en prenant l’intersection de sélectionné 25 termes pour chaque catégorie GenDesc et PolitIt, nous obtenons un meilleur (GenDesc, PolitIt et GenDesc ∩ PolitIt). Les résultat (92 %) qu’en utilisant les termes de termes de GenDesc étant ceux avec la mesure PolitIt (76 %). D la plus importante, et les termes de PolitIt Le fait que la combinaison des deux sont ceux ayant été rattachés le plus grand nom- méthodes soit plus efficace que l’utilisation des bre de fois au même courant politique. Pour méthodes isolées vient du fait que GenDesc et l’intersection de GenDesc et PolitIt, nous avons PolitIt apportent des informations différentes et pris les termes ayant la mesure D la plus im- complémentaires : portante qui sont rattachés à plus de 50 % à un même courant politique dans PolitIt. • GenDesc nous permet de savoir qu’un terme est marqueur d’une classe politique, 4.1.2 Résultats • son apparition dans PolitIt montre qu’il ap- Pour vérifier si les HashTags générés pou- partient au champ lexical de la politique. vaient s’avérer pertinents, nous avons ob- servé, grâce au site hashtags.org1 , s’ils sont 4.2 Génération de HashTags composés aujourd’hui utilisés comme HashTag. Les Nous avons vu dans la section précédente que mesures ont été effectuées en Juillet 2014, soit nous pouvions générer des HashTags pertinents plus de deux ans après la construction du cor- composés d’un unique terme en combinant des pus. Les HashTags sont considérés comme informations statistiques et sémantiques. Mais utilisés régulièrement s’ils ont été utilisés plus une partie importante des HashTags sont en de cent fois en moyenne par jour. Les résultats réalité composés de plusieurs mots. de l’expérimentation sont donnés en Table 2. 4.2.1 Méthodologie GenDesc PolitIt GenDesc ∩ PolitIt La problématique de génération de Hash- 52 % 76 % 92 % Tags composés de plusieurs mots est plus Table 2: Tag utilisés fréquemment complexe que celle de génération de Hash- Tags simples. En effet, il faut pouvoir pro- poser des combinaisons de termes représentant 4.1.3 Analyse des hashtags potentiels, et ensuite sélectionner Nous remarquons qu’à peine plus de 50 % ceux dont la combinaison offre une sémantique des termes avec une valeur de la mesure D intéressante permettant d’identifier rapidement élevée sont utilisés comme des HashTags, alors la thématique du tweet. que ceux provenant de PolitIt sont à 76 % Nous avons décidé de nous appuyer sur utilisés comme HashTags. Cela permet de l’utilisation de patrons syntaxiques pour ef- 1 www.hashtags.org fectuer une sélection de termes candidats. Puis, Proceedings of the conference Terminology and Artificial Intelligence 2015 (Granada, Spain) 146 pour sélectionner les termes les plus pertinents Étape 3 : Filtre sémantique pour être utilisés en tant que HashTags, nous Nous avons ensuite appliqué un filtre avons utilisé les informations provenant de Poli- sémantique, pour ne garder que les cou- tIt et GenDesc. ples contenant des termes appartenant à PolitIt. Étape 1 : Patrons syntaxiques Ce filtre nous permet de ne conserver que des La première étape de la génération consiste à syntagmes représentant des concepts politiques. choisir un ensemble de syntagmes candidats. Ainsi, certains syntagmes candidats comme Nous avons choisi d’utiliser des patrons syntax- ”fdg créé” ou ”projet irresponsable” vont être iques pour sélectionner des syntagmes candi- écartés de la liste des HashTags candidats. dats. Cette approche est proche de celle adoptée Étape 4 : Filtre statistique exogène par certaines méthodes d’extraction de termi- Un certain nombre de HashTags générés à par- nologie (Aussenac-Gilles et al., 2000). Nous tir des patrons syntaxiques ne représentent pas avons recouru à trois patrons syntaxiques clas- de concepts. Le nombre important de ce type siques (Daille, 1994), présentés dans la Table 3. de HashTags s’explique, en partie, par la mau- vaise construction grammaticale des tweets, Patron syntaxique Exemple qui a tendance à induire en erreur l’analyseur NOM - ADJECTIF listes électorales syntaxique. Nous avons donc utilisé un fil- transition énergétique tre statistique exogène pour détecter la perti- ADJECTIF - NOM haute surveillance nence de l’association de termes. L’idée est affreux dictateur de nous appuyer sur un corpus différent qui NOM - PREPOSITION -NOM syndicalisme de lutte est à la fois indépendant et de taille supérieure gaz de schiste pour y mesurer la fréquence d’apparition des syntagmes sélectionnés. Ce filtre a pour but Table 3: Patrons syntaxiques et exemples de termes de supprimer des syntagmes ne représentant associés présents dans le corpus. pas forcément un concept, comme ”consomma- tion collaborative” ou ”petitjournal politesse”. Pour détecter les patrons syntaxiques dans les Nous avons choisi d’utiliser internet comme tweets, nous avons choisi d’utiliser l’étiqueteur corpus pour ce filtre. Nous avons mesuré la grammatical SYGFRAN (Chauché, 1984). fréquence d’apparition des syntagmes grâce au Étape 2 : Filtre statistique endogène moteur de recherche Bing, en considérant le Nous avons ensuite appliqué un filtre statistique nombre de résultats retournés (Turney, 2001). endogène sur nos candidats, pour ne conserver Ce filtre nous a permis de supprimer des que les syntagmes dont au moins un était groupes de termes apparaissant rarement en- considéré comme pertinent par GenDesc. Ce semble sur Internet, et qui ne représentent pas filtre permet de supprimer les HashTags n’étant forcément une sémantique intéressante. pas considérés comme discriminants par notre mesure statistique. Ainsi, des syntagmes 4.2.2 Résultats comme ”journal de campagne” ou ”texte à Après application du processus, nous avons trous” vont être supprimés de la liste des relevé qu’un grand nombre de HashTags HashTags candidats. générés étaient en rapport direct avec des évènements survenus à la période où le corpus Proceedings of the conference Terminology and Artificial Intelligence 2015 (Granada, Spain) 147 a été constitué. Nous avons choisi d’évaluer Sémantique chaque HashTag en prenant en compte deux Politique ∩ types d’informations sémantiques : Sémantique Orientation Orientation Politique Politique Politique • la représentation d’un concept du champ Aucun 27.5 % 5% 5% lexical politique. GenDesc 42.5 % 50 % 27.5 % • le marquage d’une orientation politique. PolitIt 55 % 22.5 % 17.5 % GenDesc Des exemples de HashTags illustrant ces no- ∩ PolitIt 62.5 % 50 % 32.5 % tions sont donnés dans la Table 4. GenDesc ∩ PolitIt Concept politique #voteutile ∩ Web 80 % 52.5 % 47.5 % #pouvoirdachat Orientation politique #buffetsurcanalplus Table 5: Pourcentage de HashTags générés #gaucheàbastia représentant un concept politique ou une orienta- Concept politique #drapeaurouge tion politique en fonction des filtres utilisés. La et Orientation politique #alliancecentriste ligne Aucun correspond à l’ensemble des HashTags #agriculturepaysanne sélectionnés grâce aux patrons syntaxiques. HashTag apolitiques #nouvellechanson #texteàtrous n’importe lequel des deux filtres utilisés seul. Table 4: Exemple de HashTags générés et classés en Le recours au filtre utilisant Bing combiné fonction de leur sémantique politique aux deux autres filtres permet d’améliorer en- core la qualité des HashTags générés. La Nous avons évalué notre méthode de combinaison des trois filtres correspondant génération de HashTags composés. Pour cela, à l’application du processus dans sa glob- nous avons annoté manuellement 40 HashTags alité permet de générer des HashTags dont pour chaque type de filtre utilisé (GenDesc, 80 % sont porteurs d’une sémantique poli- PolitIt, GenDesc ∩ PolitIt, GenDesc ∩ PolitIt ∩ tique et 47.5 % sont à la fois porteurs d’une Web). Les résultats sont donnés dans la Table sémantique politique et marqueur d’une ori- 5. entation politique. 4.2.3 Analyse Le fait que 80 % des HashTags générés avec La Table 5 nous montre que le filtre fondé l’utilisation des trois filtres représentent un con- sur GenDesc est efficace pour écarter les Hash- cept politique indique que l’algorithme ne pro- Tags générés n’ayant pas d’orientation poli- pose que 20 % de HashTags réellement non tique. Au contraire, le filtre fondé sur Poli- pertinents. Par ailleurs, plus de la moitié des tIt, se montre plus efficace pour supprimer les HashTags générés sont porteurs d’une orienta- HashTags ne représentant pas un concept poli- tion politique. La combinaison de filtres que tique. L’utilisation des deux filtres combinés nous proposons nous permet donc de générer permet d’obtenir un pourcentage de HashTags des HashTags pertinents, à la fois porteurs de représentant un concept politique supérieur à sens et d’une orientation politique. Proceedings of the conference Terminology and Artificial Intelligence 2015 (Granada, Spain) 148 5 Conclusion dential elections: what are the most efficient mea- sures for tweets? In Proc. of the Workshop on Nous avons décrit dans cet article deux Politics, elections and data, pages 23–30. ACM. méthodes de génération de HashTags. Nous Chauché, J. (1984). Un outil multidimensionnel de avons vu que les données statistiques comme l’analyse du discours. In Proc. of Int. Conf. on les données sémantiques permettaient de Computational Linguistics, pages 11–15. développer des méthodes de génération de Conover, M., Gonçalves, B., Ratkiewicz, J., Flam- mini, A., and Menczer, F. (2011). Predicting the HashTags. Nous avons développé une méthode political alignment of twitter users. In Proc. of mêlant informations sémantiques, informa- Conference on Social Computing (SocialCom). tions syntaxiques, et approches statistiques Daille, B. (1994). Approche mixte pour l’extraction s’appuyant sur des données endogènes et de terminologie: statistique lexicale et filtres lin- exogènes. Nous avons montré que la combi- guistiques. PhD thesis. naison de ces méthodes permet d’obtenir de Godin, F., Slavkovikj, V., De Neve, W., Schrauwen, meilleurs résultats que chacune des méthodes B., and Van de Walle, R. (2013). Using topic utilisée séparément. models for twitter hashtag recommendation. In Proc. of Int. conference on World Wide Web com- Toutefois, nos travaux sur la génération de panion, pages 593–596. HashTags contiennent plusieurs limites. Nous Huang, J., Thornton, K. M., and Efthimiadis, E. N. nous sommes placés dans un contexte où (2010). Conversational tagging in twitter. In nous avions connaissance des thématiques des Proc. of Conference on Hypertext and hyperme- tweets. Nous pensons étendre notre méthode à dia, pages 173–178. ACM. un cadre non supervisé, sans connaissances a Kywe, S. M., Hoang, T.-A., Lim, E.-P., and Zhu, priori des thématiques abordées dans le corpus F. (2012). On recommending hashtags in twitter networks. In Proc. of Int. Conference on Social ni des différentes opinions exprimées. Informatics, SocInfo, pages 337–350. Une autre limite importante de nos travaux Ozdikis, O., Senkul, P., and Oguztuzun, H. (2012). vient du faible nombre de patrons syntaxiques Semantic expansion of hashtags for enhanced utilisés pour la sélection de HashTags candi- event detection in twitter. In Proc. of Interna- dats. Or de nombreux HashTags ont des struc- tional Workshop on Online Social Systems. tures complexes, non représentées par ces pa- Tisserant, G. (2015). Généralisation de données trons. Nos futurs travaux s’appuieront sur les textuelles adaptée à la classification automatique. PhD thesis, Univ. Montpellier. syntagmes verbaux et l’association de termes ou Tisserant, G., Prince, V., and Roche, M. (2014). de n-grammes de caractères extraits à partir des Gendesc: Vers une nouvelle représentation des tweets. données textuelles. Num. sp. ”Fouille de Données Complexes”, RNTI, pages 127–146. Turney, P. (2001). Mining the web for synonyms: References Pmi-ir versus LSA on TOEFL. In Proc. of Eu- Aussenac-Gilles, N., Biébow, B., Szulman, S., ropean Conference on Machine Learning, pages et al. (2000). Modélisation du domaine par une 491–502. méthode fondée sur l’analyse de corpus. In Actes Zangerle, E., Gassler, W., and Specht, G. (2011). Ingénierie des Connaissances (IC), pages 93– Recommending#-tags in twitter. In Proc. of 104. Workshop on Semantic Adaptive Social Web (SASWeb 2011). CEUR, volume 730, pages 67– Bouillot, F., Poncelet, P., Roche, M., Ienco, D., 78. Bigdeli, E., and Matwin, S. (2012). French presi-