Significado, distribución y frecuencia en la categoría preposicional. Una aproximación computacional Meaning, distribution and frequency of the prepositional category in Spanish. A computational approach Francesc Reina González Doctorando de Ciencia Cognitiva y Lenguaje. Departamento de Lingüística de la Universidad de Barcelona frareina@hotmail.com Resumen: Desde las primeras definiciones de la teoría lingüística sobre la preposición se ha considerado una categoría lingüística controvertida. El origen de esa discusión procede de la dificultad para explicar, simultáneamente, su supuesta nuclearidad sintáctica y su valor léxico-semántico. Los utensilios matemáticos que proceden del procesamiento del lenguaje natural, de la lingüística del corpus, así como los algorítmicos del aprendizaje automático están permitiendo acercarse al significado preposicional con resultados muy reveladores, desplazando el debate categorial. Mi investigación sugiere que el significado preposicional pueda ser gradual de manera que su distribución en las secuencias sintácticas será determinante en su caracterización. Palabras claves: significado preposicional, análisis computacional, semántica distribucional, hipótesis gradual, aprendizaje automático, entropía semántica. Abstract: Since the first definitions of the linguistic theory of the preposition has been considered a controversial linguistic category. The origin of this discussion comes from the difficulty to explain, simultaneously, its supposed syntactic nuclearity and its lexical-semantic value. The mathematical tools that come from the processing of natural language, corpus linguistics, as well as the algorithms of machine learning are allowing us to approach the prepositional meaning with very revealing results, displacing the categorical debate. My research suggests that prepositional meaning can be gradual so that its distribution in the syntactic sequences will be decisive in its characterization. Keywords: prepositional meaning, computational analysis, distributional semantics, gradual hypothesis, automatic learning, semantic entropy. (con presencia de caso morfológico y preposiciones, o con posposiciones). 1. La naturaleza de las preposiciones: Ambas circunstancias, cierta imposición límites y dificultades empírico-teórica y las dificultades La preposición ha sido, descriptivas propician, según creo, el tradicionalmente, una categoría desplazamiento del debate categorial y la lingüística controvertida desde su búsqueda desde otras perspectivas más conducta sintáctica hasta su valor léxico- esclarecedoras en sus predicciones semántico. Estos conflictos descriptivos empíricas y teóricas. han estimulado aproximaciones teóricas muy apriorísticas en la explicación de su 2. De la teoría lingüística a las comportamiento dentro del español y en aproximaciones computacionales lenguas de otras familias tipológicas Lloret, E.; Saquete, E.; Martı́nez-Barco, P.; Moreno, I. (eds.) Proceedings of the Doctoral Symposium of the XXXIV International Conference of the Spanish Society for Natural Language Processing (SEPLN 2018), p. 1–5 Sevilla, Spain, September 19th 2018. Copyright c 2018 by the paper’s authors. Copying permitted for private and academic purposes. Hace ya más de medio siglo que desde Asimismo, desde los años noventa del diferentes perspectivas de la teoría siglo XX, se han acumulado evidencias lingüística, la gramática generativista o la descriptivas nuevas, no solo en la teoría gramática cognitiva, la preposición ha lingüística más formalista, sino en otras que supuesto muchos retos de distinta se asientan en cuestiones y hechos condición empírica y estilo analítico. Los semánticos. Sería el caso de (Zelinsky- trabajos categoriales pioneros de Wibblet 1993), (Saint-Dizier 2006), o las (Chomsky 1970, 1981), (Jackendoff 1977) compilaciones de (Kurzon & Adler 2008) y o (Van Riemsdijk 1978) incluyen la (Hagège 2010) para cualquier tipo de preposición entre las categorías léxicas adposición (pre- o post- posicional). Una de mayores con los rasgos [-N -V]. Además, las mejores síntesis del estado del arte en el la distinción empírico-conceptual, entre ámbito computacional fue el monográfico categorías léxicas y funcionales de finales de (Baldwin, Timothy; Kordoni; Valia y de la década de los años 80 del siglo XX, Villavicencio, Aline 2009) recogido en la permitió abrir una línea de investigación en influyente revista Computational la cartografía sintáctica y los grados de Linguistics. Allí se despliega un abanico de interpretación en piezas lingüísticas como cuestiones sobre cómo procesa esta clase de la preposición, ya que sabemos que partículas, sobre el especial significado que comparte rasgos de ambas. aporta, sobre el valor de su frecuencia en los Sendas caracterizaciones binarias de la corpus y sobre la diversidad de aplicaciones preposición [-N –V] o [± F ± L] han estado que se ven afectadas por la comprensión de sometida, igualmente, a discusiones de esta clase de palabras. diversa consideración. Y, de hecho, todavía Por último, con la progresiva sigue viva. Quizás una de las propuestas construcción de corpus lingüísticos en más radicales, al negarle su lugar entre las diferentes lenguas, incluso antes del actual categorías léxicas, fue la de (Mark C. Baker desarrollo de la minería de datos o Big Data, 2003). se han venido multiplicando las Mientras tanto, el progreso en los generalizaciones sobre la distribución procedimientos y las heurísticas sintáctica preposicional así como de los computacionales (estadísticos o valores semánticos de las preposiciones en algorítmicos) han permitido investigar el multitud de lenguas. En ese sentido, tanto la papel de esta clase de partículas con otros nueva semántica formal y distribucional, propósitos y con otras consecuencias véase (Boleda, G. and A. Herbelot 2016), explicativas. Se pueden leer una multitud de como las herramientas de aprendizaje monografías sobre la conformación de esos automático (conocidas como Machine recursos, desde (Grishman 1986) hasta Learning), véase (Mikolov 2014), están (Clark, Fox y Lappin 2013), pasando por los favoreciendo un acercamiento más afinado clásicos de (Charnik 1993) y el didáctico a la multitud de datos heterogéneos que compendio de (Manning y Schütze (1999). suelen conformar la preposición. Además se han desarrollado proyectos aplicados globales en el tratamiento computacional de esta categoría. Una de la 3. Frecuencia, distribución y significado más exhaustivas para el inglés fue The de las preposiciones. preposition Project de Litowski La hipótesis de la gradualidad semántica (http://www.clres.com/prepositions.html), cuyo objetivo fue la desambiguación de la La perspectiva metodológica se enmarca en semántica preposicional (un problema una visión empírica y computacional esencial en la traducción automática, por respecto de los recursos de observación, ejemplo). predicción, medición y generalización de los hechos lingüísticos. Así, y a partir de 2 tres conceptos recurrentes en el d). Observar, identificar y analizar procesamiento del lenguaje natural, como la posibles correlaciones semánticas a partir frecuencia de piezas léxicas, su distribución de valores como la entropía en corpus del y el significado propongo una hipótesis español y a través de clasificaciones general para la semántica que subyace a las ontosemánticas estandarizadas procedentes preposiciones en español. de la red ontosemántica de Wordnet El enunciado hipotético es el siguiente: (experimento 2). Para su funcionamiento y los valores semánticos de las preposiciones organización se puede leer (Fellbaum del español pueden ordenarse de manera 2006). gradual que alcanza desde la funcionalidad e). Proponer, a la luz de los resultados completa hasta la lexicidad. En esta anteriores, un eje-espacio gradual de secuencia, y según la diversidad de valores-piezas preposicionales desde la construcciones, sintagmas y contextos, funcionalidad absoluta (marcadoras de podemos identificar y medir ese valor a caso, por ejemplo) hasta el significado más partir de la distribución ontosemántica de cuantificable (valores locativo-espaciales, los SSNN u otras clases de sintagmas que temporales o nocionales). Ese eje tendría coocurran. tres zonas continuas de significado: La gradualidad oscila entre los valores y funcional, semifuncional y léxico. los usos más funcionales o vacíos como las f). Explorar las posibilidades preposiciones que conforman las locuciones interlingüísticas de la propuesta (con prepositivas, la a del CD/CI o el por del lenguas que admitan caso, preposiciones o complemento agente en las oraciones en posposiciones) y comprobar su capacidad voz pasiva, y los valores y los usos locativos generalizadora. de a, de, en, por, hacia, sobre o hasta, los temporales de a, entre, bajo, desde, durante o tras, o los nocionales de mediante, por y 4. Trabajo metodológico y experimentos para, considerados léxicos o plenos. El desarrollo de esta hipótesis se articula Se están realizando tres experimentos en torno a seis objetivos que se relacionan a diferentes con objeto de verificar continuación. empíricamente las diferentes fases y/o a). Presentar los elementos grados semánticos de las preposiciones, tal historiográficos, descriptivos y teóricos de y como se estipula en la hipótesis. la categoría gramatical a lo largo de los El primero de ellos ha analizado la hitos más valiosos de la tradición y de los gradualidad en el caso de tres modelos de investigación lingüística más preposiciones: a, hacia y hasta en los recientes. contextos sintácticos para 90 verbos de b). Caracterizar las limitaciones de las movimiento del español. A través de la propuestas que se han ido aportando en el herramienta CLUTO (agrupación por Word análisis de casos concretos para la Embedding), véase (Karypis 2003) para su preposición en español y en otras lenguas. funcionamiento, hemos procedido a c). Medir la frecuencia de similitudes realizar agrupaciones (clustering) de 71.000 semánticas de las piezas preposicionales, en sintagmas preposicionales (SSPP) algunas estructuras sintáctico-argumentales disponibles en los corpus WikiCorpus, con el uso de herramientas de algoritmos Ancora y Semsem, en 3, 4 y 5 grupos. Estos probabilísticos del campo del aprendizaje recursos de “agrupación” se fundan en el automático para el procesamiento del “Word embedding”. El objetivo de este lenguaje natural en corpus lingüísticos (al procedimiento es cuantificar y categorizar estilo de redes neurales, como Word2vec o propiedades semánticas entre elementos Gcluto). (Experimentos 1 y 3). lingüísticos a partir de los contextos donde coocurren y que se representarán en vectores. Estos modelos de espacio 3 vectorial representan (“embed”, incrustan) semifuncionales, complementos de régimen palabras en un espacio vectorial continuo en verbal con de, en o con, y (iii) los léxicos, el que palabras semánticamente similares se complementos adjuntos o circunstanciales, asignan a puntos cercanos. con preposiciones como de, en, con, sin, a. Los resultados han sido muy Una vez obtenidos los ficheros con los satisfactorios en la medida en que SSPP coincidentes para cada verbo se porcentualmente se verifican y se procede a su asignación semántica según las confirman las agrupaciones realizadas por siguientes clases: humano, entidad dos anotadores humanos. El aprendizaje abstracta, locativo, temporal, evento o automático acredita la predicción humana actividad, objeto o artefacto, y modalidad en la asignación de significados. Nos (elegidas, por su importancia encontramos con un 51,65 % para la representativa, de la red ontosemántica de preposición a, un 55,17 para la preposición Wordnet). Los datos obtenidos se hacia y un 64,6 para la preposición hasta. introducen en una tabla con la función logarítmica de la entropía que se aplica a los Gráfico 1 tres grupos, funcionales (F), semifuncionales (SF) y léxicos (L). Porcentajes de Las cifras indican que la entropía, es decir, el grado de azar o desorden de esos coincidencia de agrupación subgrupos es el más bajo en los funcionales para las tres preposiciones (1,568), el más alto en los léxicos (2,512), e 80 intermedio en los semifuncionales (2,321), donde se encuentran los verbos de régimen. 60 La predicción coincide con la descripción 40 gramatical: cuánta más restricción argumental tiene el verbo más previsible es 20 el significado del SN seleccionado. La 0 preposición, por tanto, sigue la gradación semántica y la medida entrópica está A, HACIA y HASTA justificada como recurso explicativo. Tabla 1 En el segundo experimento hemos utilizado el concepto de entropía (H) de TIPOS DE SSPP F SF L (Claude E. Shannon 1948), procedente de la Humanos 287 86 22 teoría de la información, para medir la clase Abstractos 33 273 58 de significado que contienen los SSPP en Locativos 42 35 128 los verbos de régimen en comparación con Temporales 12 23 33 otras clases de verbos. Hemos seleccionado Eventos 7 50 47 un total de 140 verbos, de los cuales 48 Objetos 5 103 20 poseen SSPP considerados de régimen Modales 26 41 102 verbal (obligatorios argumentalmente con TOTAL 412 611 410 una determinada preposición). Hemos Entropía (H) 1,568 2,321 2,512 realizado una búsqueda de SSPP en el Corpes anotado de la RAE que se ha El tercer experimento está en curso y en cruzado con el Wikicorpus, es decir, se ha fase explorativa. El propósito es intentar comprobado la coincidencia entre ambos que parte del reconocimiento entrópico del repertorios. Y por último, los hemos segundo experimento se pueda producir de clasificado en tres tipos: (i) los funcionales, manera automática gracias a un parset, es cuya preposición es la a (ii) los decir, que los tres grupos de SSPP emerjan 4 sin la necesidad de la intervención humana, Fellbaum, C. 2006. WordNet(s. En Keith o con un grado de reconocimiento Brown, (Ed.) Encyclopedia of Language & representativo. Linguistics, 2da. edición, Vol. 13, páginas 665- Al final de la investigación, 670, Elsevier, Oxford. procederemos a elegir algunas lenguas con Grishman, Ralhp 1986. Computational caso y preposición (alemán, ruso o polaco), Linguistics. An introduction, Cambridge posposiciones (vasco, chino, húngaro o University Press, Cambridge. hindi), o con muy pocas preposiciones (igbo, hablada en Nigeria) y someterlas al Hagège, Claude 2010. Adpositions, Oxford contraste experimental que hemos realizado University Press, Oxford. con el español. Jackendoff, Ray 1977. X’ Syntax: A Study of Phrase Structure, The MIT Press, Cambridge. Agradecimientos Karypis, George 2003. CLUTO. A clustering A mis directores de tesis la Dra. Irene toolkit, University of Minnesota, Technical Castellón y el Dr. Lluís Padró por sus ideas, Report, 02-017. sugerencias y orientaciones; y al Dr. Kurzon, Dennis & Adler, Silvia 2008. Horacio Rodríguez por sus comentarios y su Adpositions. Pragmatic, semantic and syntactic generosidad durante el Simposio. perspectives, John Benjamins, Amsterdam. Bibliografía Litkowski, Ken y O. Hargraves, O. 2005. The Preposition Project. En ACL-SIGSEM Baker, Mark C. 2003. Lexical Categories. Verbs, Workshop on the Linguistic Dimensions of nouns and adjectives, Cambridge University Prepositions and their Use in Computational Press, Cambridge. Linguistics Formalisms and Applications, páginas 171–179, Colchester. Baldwin, Timothy; Kordoni, Valia y Villavicencio, Aline 2009. Prepositions in Mannig, Christopher D. y Schütze, Hinrich Applications: A Survey and Introduction to the 1999. Foundations on statistical natural Special Issue, Computational Linguistics, languages processing, The MIT Press, Londres. 35(2), páginas 119-149. Mikolov, Tomas; Le, Quoc 2014. Distributed Boleda, Gemma y Herbelot, Aurélie 2017. Representations of Sentences and Documents, Formal Distributional Semantics: Introduction to Proceedings of the 31th Internacional Special Issue, Computational Linguistics, 42(4), Conference on Machine Learning, vol. 32(2), páginas 619-635. pàgines 1118-1196, Beijing. Charniak, Eugene 1993. Statistical Language Riemsdijk, Van, Henk 1978. A Case Study in Learning, The MIT Press, Cambridge. Syntactic Markedness: the Binding Nature of Chomsky, Noam. 1970. Remarks on Prepositional Phrases, Foris, Dordrecht. Nominalization. En Jacobs, Roderick A. and Shannon, Claude E. 1948. A Mathematical Rosenbaum, Peter S. (eds.), Readings in Theory of Communication, The Bell System English Transformational Grammar, Technical Journal, Vol. 27, páginas 379–423, páginas184-221. Ginn, Boston. 623–656, julio y octubre. Chomsky, Noam 1981. Lectures on Government and Binding, Foris, Dordrecht. Saint-Dizier, Patrick 2006. Syntax and Semantics of prepositions, Springer, Dordrecht. Clark, Alexander; Fox, Chris y Lappin, Shalom 2013. The Handbook of Computational Zelinsky-Wibblet, Cornelia (ed.) 1993. The Linguistics and Natural Language Processing, semantics of Prepositions, Mouton de Gruyter, Wiley-Blackwell, Oxford. Berlín. 5