-

1613-0073

RETUYT en TASS 2017: Analisis de Sentimiento de Tweets en Espan~ol utilizando SVM y CNN

Aiala Rosa

Santiago Castro

0 0 Luis Chiruzzo Mathias Etcheverry Facultad de Ingenier a, Universidad de la Republica Montevideo , Uruguay

2017

77 83

This article presents classi ers based on SVM and Convolutional Neural Networks (CNN) for the TASS 2017 challenge on tweets sentiment analysis. The classi er with the best performance in general uses a combination of SVM and CNN. The use of word embeddings was particularly useful for improving the classi ers performance.

Dentro del area analisis de sentimiento, el analisis de tweets resulta especialmente interesante debido al gran volumen de informacion que se genera diariamente, la naturaleza subjetiva de la mayor a de los mensajes, y el facil acceso a este material para su analisis y procesamiento. La existencia de tareas espec cas vinculadas a este problema desde hace ya varios an~os evidencia el interes de la comunidad del Procesamiento de Lenguaje Natural en trabajar en este tema.

Desde el an~o 2012 se viene realizando el Taller de Analisis de Semantico de la SEPLN (TASS)1, que esta centrado en la clasi cacion de tweets. Tambien en el marco de la SemEval2, desde el an~o 2013 se incluye una tarea sobre analisis de sentimiento en tweets, abordando el problema para el idioma ingles, y a partir de este an~o tambien para el arabe.

Los resultados reportados en las ultimas ediciones de estas tareas (Garc a-Cumbreras et al., 2016; Rosenthal, Farra, y Nakov, 2017) no alcanzan aun niveles satisfactorios, principalmente para el espan~ol, por lo que el problema sigue resultando desa ante y se hace necesa1http://www.sepln.org/workshops/tass 2https://aclweb.org/aclwiki/SemEval_Portal

Los trabajos que obtuvieron los mejores resultados en la clasi cacion de tweets en espan~ol en la edicion 2016 del TASS se basaron en la de nicion de atributos para entrenar varios clasi cadores y luego combinarlos. En (Ceron-Guzman, 2016) se describe la construccion de un conjunto de clasi cadores de tipo Regresion Log stica que combinan diferentes atributos, entre los cuales se incluyen pertenencia a un lexico subjetivo, procesamiento de la negacion, informacion morfo-sintactica y atributos basados en n-gramas. En (Hurtado y Pla, 2016) se entrena un conjunto de clasi cadores de tipo SVM utilizando atributos morfo-sintacticos y atributos basados en n-gramas. Otros trabajos presentados incluyen el uso de word embeddings (Montejo-Raez y D az-Galiano, 2016; Quiros, Segura-Bedmar, y Mart nez, 2016) , alcanzando resultados un poco mas bajos.

Por otro lado, la mayor a de los enfoques presentados en la tarea 4 de la SemEval 2017, aplicados para el idioma ingles, se basan en redes neuronales profundas.

En este art culo se describen los sistemas presentados al TASS 2017 (Mart nezCamara et al., 2017) por el grupo RETUYT.

Copyright © 2017 by the paper's authors. Copying permitted for private and academic purposes. Se abordo la problematica principalmente mediante el uso de word embeddings, considerando dos enfoques independientes. Por un lado, se utilizo Support Vector Machines (SVM) sobre un conjunto de atributos de nidos manualmente, incluyendo informacion proveniente de los embeddings y de un lexico subjetivo. Por otro lado, se utilizo Convolutional Neural Networks (CNN) consumiendo como entrada los embeddings del tweet. Finalmente se utilizo un enfoque h brido basado en la combinacion de los dos metodos anteriores, fundado en sus cualidades probabil sticas.

Los resultados muestran que los dos enfoques, SVM y CNN, dieron resultados interesantes en los diferentes corpus de evaluacion, y que la combinacion de los metodos aporto mejoras en casi todos los casos. 2

Preprocesamiento

La organizacion del TASS genero dos corpus de tweets anotados con su polaridad (P, N, NEU o NONE) para utilizar durante el entrenamiento: InterTASS y General TASS, de 1008 y 7219 tweets respectivamente. Mas adelante se proveyo un nuevo corpus de desarrollo con caracter sticas similares a InterTASS de 506 tweets. En nuestro trabajo decidimos utilizar ambos corpus combinados, y realizamos nuestra propia particion de los corpus en entrenamiento y desarrollo (validacion), intentando mantener las mismas proporciones de tweets de cada categor a. Se separo el corpus General TASS en dos particiones: 85 % para entrenamiento y 15 % para desarrollo, y se unieron esos datos con las particiones de InterTass. El taman~o total de los corpus y las cantidades por categor a pueden verse en la tabla 1.

P N NEU NONE

Total Entrenamiento

2782 (39 %) 2295 (32 %) 721 (10 %) 1346 (19 %) 7144

Desarrollo 576 (36 %) 524 (33 %) 151 (10 %) 338 (21 %) 1589 Tabla 1: Taman~o de los corpus utilizados

Cada corpus fue preprocesado de la siguiente manera:

Se eliminan caracteres de espacio redundantes, referencias a URLs y elipsis.

Todas las referencias a usuarios de Twitter se sustituyen por el token \@user". Se buscan repeticiones de un mismo caracter que aparezcan tres o mas veces seguidas y se las sustituye por una sola instancia del caracter. Por ejemplo, sustituir \holaaaa" por \hola".

Se sustituyen todas las interjecciones que denotan risa (por ejemplo \jajajaja", \jejeje", \jajaj") por el token \jaja".

Se pasa todo el texto a minusculas.

No se considero informacion gramatical, como lema, categor a lexica, informacion morfologica o informacion sintactica. 3 3.1

Recursos utilizados Lexicos de palabras positivas y negativas

Se tomaron como punto de partida tres lexicos subjetivos disponibles para el espan~ol (Cruz et al., 2014; Saralegi y San Vicente, 2013; Brooke, To loski, y Taboada, 2009) , a partir de los cuales de genero un nuevo lexico, constituido por los elementos de la interseccion de los tres lexicos originales, con un total de 312 lemas negativos y 301 lemas positivos. Este lexico fue expandido con las formas exivas de cada lema, alcanzando un total de 4730 palabras. Esto permite paliar la decision de no lematizar los tweets para su procesamiento. Para la expansion del lexico se utilizo el diccionario de FreeLing (Padro y Stanilovsky, 2012) . 3.2

Colecciones de word

embeddings Se utilizaron los word embeddings entrenados por (Azzinnari y Mart nez, 2016) . Fueron obtenidos mediante la tecnica word2vec (Mikolov et al., 2013) y tienen dimension 300. Estan basados en un conjunto de datos de casi seis mil millones de palabras. Su procedencia es en mayor a texto de prensa extra do de Internet.

Tambien se utilizaron word embeddings entrenados a partir de la Wikipedia utilizando la tecnica GloVe (Pennington, Socher, y Manning, 2014) , presentadas en (Etcheverry y Wonsever, 2016) . Esta coleccion de vectores tuvo menor desempen~o en nuestros experimentos, lo cual probablemente se deba a una menor cobertura lexica. Finalmente se experimento con el uso de fastText (Bojanowski et al., 2016) entrenandolo con la Wikipedia en espan~ol junto con 400,000 tweets en espan~ol provenientes de la API de Streaming de Twitter sample para construir los embeddings. Estos vectores fueron posteriormente descartados ya que no se obtuvo una mejora en los resultados para las pruebas realizadas. 3.3

Predictor de polaridad por palabra

Se construyo un algoritmo de regresion basado en SVM utilizando los lexicos de palabras positivas y negativas como conjunto de entrenamiento. El objetivo es que este modelo sea capaz de obtener un valor real que represente la polaridad para cualquier palabra del lenguaje. El modelo toma como entrada los 300 valores reales del vector que representa la palabra y devuelve un valor real. Para el entrenamiento se considero que las palabras positivas deb an tener un valor positivo (1), y las negativas un valor negativo (-1). 3.4

Marcadores de categor a

Se obtuvo una lista de todas las palabras del corpus de entrenamiento y para cada palabra se calculo la distribucion de las categor as de todos los tweets en que aparece. Consideramos que una palabra es un marcador de categor a si la proporcion de veces que dicha palabra aparece en la categor a es mayor o igual a 75 %. Utilizando esta informacion, se confeccionaron listas de marcadores para las cuatro categor as: 429 positivas, 438 negativas, 12 neutras, y 33 marcadores de no opinion.

Clasi cadores 4

4.1

Enfoque basado en SVM

Para la tarea 1, que consiste en evaluar la polaridad de un tweet, se construyo un clasi cador SVM (Support Vector Machine) entrenado con los siguientes atributos: Centroide de los embeddings de las palabras del tweet. Trabajos anteriores han mostrado que el uso del centroide, o promedio de los embeddings, si bien es una tecnica muy simple, para algunos problemas da buenos resultados, en particular para el analisis de sentimiento (White et al., 2015) . (300 valores reales) Polaridad de las nueve palabras principales del tweet segun el clasi cador de polaridad. La cantidad de palabras es el largo promedio de los tweets del corpus de entrenamiento, ltrando stopwords. Se toma como mas relevantes los valores de mayor valor absoluto. Si el tweet tiene menos de nueve palabras se completan los nueve valores repitiendo las polaridades de las palabras del mismo tweet. (9 valores reales) Cantidad de palabras que pertenecen a los lexicos positivo y negativo. (2 valores naturales) Cantidad de palabras cuyas representaciones vectoriales estan cercanas a los vectores promedio del lexico positivo y el lexico negativo. (2 valores naturales) Cantidad de palabras que pertenecen a las listas de marcadores de categor a. (4 valores naturales) Atributos que indican si el tweet original contiene repeticion de caracteres o alguna palabra escrita completamente en mayusculas. (2 valores booleanos) Calculo de polaridad tentativa (P, N, NEU, NONE) en base a cantidad de palabras positivas y negativas, teniendo en cuenta el alcance de las negaciones. Se considera una lista de negadores que invierten la polaridad de las palabras, su alcance va desde el negador hasta algun signo de puntuacion. (4 categor as) Cinco palabras mas relevantes en el corpus de entrenamiento segun bag of words. El valor cinco se de nio de manera heur stica, ltrando las palabras pertenecientes a una lista de stopwords, adaptada a la tarea de analisis de sentimientos (se elimino de la lista de stopwords un conjunto de palabras consideradas relevantes para el calculo de la polaridad como \no", \pero", \aunque", etc.). Es interesante destacar que, en los experimentos realizados sobre el corpus de entrenamiento que utilizamos durante el desarrollo del trabajo, la lista de cinco palabras mas relevantes obtenida fue: \feliz", \gracias", \no", \pero", \portada" (5 valores booleanos).

Este conjunto nal de atributos utilizado para el entrenamiento del modelo se obtuvo a partir de varios experimentos, evaluando su desempen~o sobre el corpus de desarrollo. Se comenzo utilizando solamente atributos de tipo bag of words, comprobandose que el nivel de acierto y M-F1 aumentaba utilizando una mayor cantidad de palabras, estancandose al llegar al entorno de las mil palabras mas relevantes. Luego se entreno un clasi cador que utiliza el centroide de los embeddings, obteniendo un mejor desempen~o. Pero se comprobo que combinar ambos tipos de atributos (centroide y bag of words) permit a obtener aun mejores resultados, aumentando el acierto hasta en 13 puntos y la M-F1 hasta en 12 puntos. La combinacion optima encontrada utiliza los atributos del centroide mas las cinco palabras mas relevantes segun bag of words.

Los demas atributos considerados fueron aportando pequen~os aumentos en los resultados a medida que se fueron incorporando. Si bien ninguno de estos atributos en particular aporta una mejora sustancial, la inclusion de todos ellos permite una aumento aproximado de 2 puntos en acierto y M-F1, respecto a los resultados que se obtienen utilizando solamente el centroide y las cinco palabras mas relevantes. En particular, se observa que el aporte del lexico subjetivo es poco relevante.

Para todos los experimentos con el modelo SVM se utilizo la librer a scikit-learn (Pedregosa et al., 2011) de Python. Los modelos SVM de scikit-learn se entrenan de manera diferente dependiendo de si se habilita o no la salida con probabilidades por categor a. El calculo de probabilidades para una salida multiclase se realiza utilizando el metodo de (Wu, Lin, y Weng, 2004) , el cual es un proceso mas lento y puede dar salidas diferentes a las obtenidas entrenando el modelo sin probabilidades. Para nuestros datos, en particular, se constato una mejora importante (2.5 %) en los valores de M-F1 utilizando el entrenamiento con probabilidades, por lo que optamos por utilizar este modelo.

La tarea 2 consiste en clasi car la polaridad de tweets segmentada por aspectos. Para esta tarea se entrenaron dos clasi cadores tipo SVM utilizando atributos similares a los utilizados para la tarea 1. El clasi cador svm1 utiliza atributos tipo bag of words para los tweets, si el tweet original conten a repeticion de caracteres o palabras en completamente en mayusculas, cantidades de palabras que pertenecen a las listas de marcadores de categor a, y el aspecto sobre el que se esta clasi cando. El clasi cador svm2 utiliza solamente los 300 atributos reales que corresponden al centroide de los word embeddings del texto del tweet y el aspecto sobre el que se esta clasi cando. 4.2

Enfoque basado en CNN

Se realizaron experimentos con redes neuronales para la tarea 1 tomando como entrada representaciones distribuidas de las palabras.

Con el objetivo de obtener una representacion de la oracion a partir de las representaciones vectoriales de las palabras, se consideraron dos enfoques. Por un lado, se considero como l nea base la concatenacion de una ventana de palabras, enfoque similar a Etcheverry y Wonsever (2017), aunque en una problematica distinta. Por otro lado se considero la representacion provista por convoluciones unidimensionales de las palabras del tweet, basados en el trabajo de Kim (2014) , presentando este ultimo resultados ampliamente superiores.

Se consideraron dos variantes estructurales de modelos de redes neuronales convolucionales (CNN). Por un lado, modelos con una unica capa convolucional y, por otro, modelos con varias capas convolucionales que reciben la entrada de forma independiente y sus salidas son concatenadas (ver g. 1). En ambos casos, luego de la representacion provista por las convoluciones (o de la concatenacion en el caso de varias ramas), se utilizo max pooling 3, capas completamente conectadas, dropout y softmax en la salida.

Se utilizo la misma particion de entrenamiento y evaluacion mencionada anteriormente, separando 783 tweets del corpus de entrenamiento para validacion. Todos los modelos fueron entrenados con adam (Kingma y Ba, 2014) , considerando un learning rate de 1 10 4, beta1 = 9 10 1, beta2 = 0;999, epsilon = 1 10 8 y decay = 0. Para evitar el sobreajuste de los modelos se utilizo dropout (ver g. 1) y early stopping.

Para la codi cacion se utilizo Keras (Chollet, 2015). La codi cacion del modelo de una rama fue inspirada en el codigo provisto por Francois Chollet4 y el de multiples ramas en 3 Alternativamente, average pooling fue considerado sin obtener mejores resultados.

4https://github.com/fchollet/keras/blob/ master/examples/imdb_cnn.py Figura 1: Arquitectura de red con varias ramas convolucionales. el de Chang-Uk Shin5.

En las variantes estructurales consideradas para los modelos convolucionales, se observo mayor poder de generalizacion en la variante de multiples ramas, por este motivo fue la utilizada para los resultados reportados (cnn1, ..., cnn4). El modelo nal (denominado cnn4) consiste en 3 ramas convolucionales, con 2, 3 y 4 palabras en la convolucion, 56 ltros y desplazamiento de a una palabra; una capa completamente conectada de dimension 200; 0;2 de probabilidad de perdida para dropout ; y funcion de activacion selu (Klambauer et al., 2017) . 4.3

Enfoque h brido

Dado que tanto en el enfoque de SVM como en el de CNN entrenamos modelos que devuelven una distribucion de probabilidades sobre las categor as predichas, utilizamos esta caracter stica para entrenar un nuevo clasi cador que combina las salidas de los dos clasi cadores anteriores para la tarea 1. El nuevo clasi cador devuelve la categor a C para el tweet T que maximice el promedio de las probabilidades de los clasi cadores anteriores, como se muestra en la formula 1. argmax

PSV M (CjT ) + PCNN (CjT ) 2 (1) 5https://github.com/tflearn/tflearn/ blob/master/examples/nlp/cnn_sentence_ classification.py

Analisis de resultados

Los resultados para los experimentos realizados sobre el corpus de validacion para la tarea 1 se muestran en la tabla 2. Como se puede observar, el modelo h brido fue el que obtuvo mejores resultados. Se muestra la matriz de confusion para este modelo en la tabla 3.

Clasif. svm cnn4 svm cnn

Tabla 3: Matriz de confusion para svm cnn. Las las representan las clases reales, mientras que las columnas representan las clases predichas.

El modelo muestra buenos resultados para las clases P, N y NONE, pero no alcanza resultados aceptables para la clase NEU. Los tres modelos, y en particular este, fallan al intentar predecir los tweets neutros. Esto se puede deber a que hay pocas instancias pertenecientes a esta clase, siendo dif cil poder aprender a partir de ellas. Otra particularidad que presentan los tweets neutros es el hecho de contener tanto elementos positivos como negativos, esto explicar a la tendencia del clasi cador a confundirlos con esas dos clases, como muestra la matriz. Notar que para lograr mejorar los resultados de M-F1 es fundamental mejorar la medida F1 en los tweets neutros, ya que es la clase que da el numero mas bajo.

Los resultados para los experimentos realizados sobre los corpus de evaluacion de la competencia se muestran en la tabla 4. A diferencia de lo constatado sobre el corpus de validacion, el clasi cador CNN obtuvo un desempen~o menor que el SVM sobre los corpus de evaluacion, lo cual puede indicar que la red se sobreajusto al corpus utilizado para entrenar. Por otra parte, en casi todas las evaluaciones la combinacion entre SVM y CNN se desempen~o mejor que cada uno de los clasi cadores independientes en los tres corpus.

Corpus InterTASS InterTASS InterTASS Gral. TASS Gral. TASS Gral. TASS Gral. TASS 1k Gral. TASS 1k Gral. TASS 1k Clasif.

Se observa que los resultados sobre el corpus InterTASS son notoriamente mas bajos que los obtenidos sobre los otros corpus. Esto puede deberse a que entrenamos nuestros sistemas con un conjunto unico de tweets, provenientes en su mayor a del corpus General TASS, que contiene tweets con caracter sticas diferentes a los contenidos en el InterTASS.

Los resultados de los clasi cadores svm1 y svm2 para la tarea 2 se muestran en la tabla 5. El clasi cador svm2, basado principalmente en el centroide de los tweets, es el que obtiene mejor desempen~o en los dos corpus de evaluacion.

Corpus

social-TV social-TV stompol stompol

Clasif. svm1 svm2 svm1 svm2

M-F1 Este trabajo muestra tres enfoques para la tarea 1 del TASS 2017 sobre analisis de sentimiento de tweets en espan~ol: SVM con atributos elaborados a mano, que incluyen informacion proveniente de los vectores de palabras; redes neuronales con un fuerte uso de vectores de palabras; y un enfoque h brido, que combina los dos enfoques anteriores. El enfoque que funciono mejor fue el h brido. En cuanto a la tarea 2, que trata sobre la clasi cacion de la polaridad de los tweets segmentados por aspectos, el enfoque SVM utilizando embeddings mostro tener buenos resultados, aunque aun queda mucho espacio de mejora.

En base al analisis experimental se observa que el sistema es poco efectivo en la deteccion de los tweets clasi cados como neutros. El hecho de que esta clase tenga pocos representantes en los corpus y su similitud tanto con los tweets negativos como con los positivos podr an ser las causas del bajo desempen~o en su deteccion.

Bibliograf a

Azzinnari, A. y A. Mart nez. 2016. Representacion de Palabras en Espacios de Vectores. Proyecto de grado, Universidad de la Republica, Uruguay.

Bojanowski, P., E. Grave, A. Joulin, y T. Mikolov. 2016. Enriching word vectors with subword information. arXiv preprint arXiv:1607.04606.

Brooke, J., M. To loski, y M. Taboada. 2009.

Cross-linguistic sentiment analysis: From english to spanish. En RANLP, paginas 50{54.

Ceron-Guzman, J. A. 2016. Jacerong at tass 2016: An ensemble classi er for sentiment tweets at global level. En Proceedings of TASS 2016: Workshop on Sentiment Analysis at SEPLN co-located with 32nd SEPLN Conference (SEPLN 2016), Salamanca, Spain.

Chollet, F. 2015. Keras. https://github.

com/fchollet/keras.

Cruz, F. L., J. A. Troyano, B. Pontes, y F. J.

Ortega. 2014. Building layered, multilingual sentiment lexicons at synset and lemma levels. Expert Systems with Applications, 41(13):5984{5994.

Etcheverry, M. y D. Wonsever. 2016. Spanish word vectors from wikipedia. Language Resource Conference (LREC 2016). Etcheverry, M. y D. Wonsever. 2017. Time expressions recognition with word vectors and neural networks. 24th International Symposium on Temporal Representation and Reasoning (TIME 2017), forthcoming.

Garc a-Cumbreras, M., J. Villena-Roman, E. Mart nez-Camara, M. D az-Galiano, M. Mart n-Valdivia, y L. na Lopez. 2016. Overview of tass 2016. En Proceedings of TASS 2016: Workshop on Sentiment Analysis at SEPLN co-located with the 32nd SEPLN Conference (SEPLN 2016), Salamanca, Spain, September.

Hurtado , L. F. y F.

Pla . 2016 . Elirfupv en tass 2016: Analisis de sentimientos en twitter . En Proceedings of TASS 2016: Workshop on Sentiment Analysis at SEPLN co-located with 32nd SEPLN Conference (SEPLN 2016 ), Salamanca, Spain.

Kim , Y.

2014 . Convolutional neural networks for sentence classi cation . CoRR, abs/1408 .5882.

Kingma , D. P. y J.

Ba . 2014 . Adam: A method for stochastic optimization . CoRR, abs/1412 .6980.

Klambauer , G., T.

Unterthiner , A . Mayr, y

Hochreiter . 2017 . Self-Normalizing Neural Networks. ArXiv e-prints, Junio.

Mart nez-Camara, E. , M. C.

D az-

Galiano , M. A.

Garc a-Cumbreras, M. Garc aVega, y J. Villena-Roman . 2017 . Overview of tass 2017 . En J. Villena Roman M. A. Garc a Cumbreras D. G. M. C. Mart nez-Camara, Eugenio, y M. Garc a Vega, editores , Proceedings of TASS 2017: Workshop on Semantic Analysis at SEPLN (TASS 2017 ), volumen 1896 de CEUR Workshop Proceedings, Murcia, Spain, September. CEURWS.

Mikolov , T. ,

Chen , G. Corrado,

y J.

Dean . 2013 . E cient estimation of word representations in vector space . arXiv preprint arXiv:1301 . 3781 .

Montejo-Raez , A. y M. C. D az-Galiano. 2016 . Participacion de SINAI en TASS 2016 . En Proceedings of TASS 2016: Workshop on Sentiment Analysis at SEPLN co-located with 32nd SEPLN Conference (SEPLN 2016 ), Salamanca, Spain.

Padro , L. y E.

Stanilovsky . 2012 . Freeling 3.0: Towards wider multilinguality . En Proceedings of the Language Resources and Evaluation Conference (LREC 2012 ), Istanbul, Turkey, May. ELRA.

Pedregosa , F. ,

Varoquaux ,

Gramfort ,

Michel ,

Thirion ,

Grisel ,

Blondel ,

Prettenhofer ,

Weiss ,

Dubourg ,

Vanderplas ,

Passos ,

Cournapeau ,

Brucher , M. Perrot,

y E.

Duchesnay . 2011 . Scikit-learn: Machine learning in Python . Journal of Machine Learning Research , 12 : 2825 { 2830 .

Pennington , J. , R. Socher, y

C. D.

Manning . 2014 . Glove: Global vectors for word representation . Conference on Empirical Methods in Natural Language Processing (EMNLP).

Quiros , A. , I. Segura-Bedmar, y P. Mart nez. 2016 . LABDA at the 2016 TASS challenge task: Using word embeddings for the sentiment analysis task . En Proceedings of TASS 2016: Workshop on Sentiment Analysis at SEPLN co-located with 32nd SEPLN Conference (SEPLN 2016 ), Salamanca, Spain.

Rosenthal , S. , N. Farra,

y P.

Nakov . 2017 . SemEval -2017 task 4: Sentiment analysis in Twitter . En Proceedings of the 11th International Workshop on Semantic Evaluation, SemEval '17 , Vancouver, Canada, August. Association for Computational Linguistics.

Saralegi , X. y I. San

Vicente . 2013 . Elhuyar at tass 2013 . XXIX Congreso de la Sociedad Espaola de Procesamiento de lenguaje natural, Workshop on Sentiment Analysis at SEPLN (TASS2013) , paginas 143 { 150 .

White , L. ,

Togneri , W. Liu, y

Bennamoun . 2015 . How well sentence embeddings capture meaning . En Proceedings of the 20th Australasian Document Computing Symposium, pagina 9 . ACM.

Wu , T.-F., C.-J. Lin , y R. C. Weng . 2004 . Probability estimates for multi-class classi cation by pairwise coupling . Journal of Machine Learning Research , 5 (Aug): 975 { 1005 .