=Paper= {{Paper |id=Vol-2251/paper1 |storemode=property |title= Significado, distribución y frecuencia en la categoría preposicional. Una aproximación computacional (Meaning, distribution and frequency of the prepositional category in spanish. A computational approach) |pdfUrl=https://ceur-ws.org/Vol-2251/paper1.pdf |volume=Vol-2251 |authors=Francesc Reina González }} == Significado, distribución y frecuencia en la categoría preposicional. Una aproximación computacional (Meaning, distribution and frequency of the prepositional category in spanish. A computational approach) == https://ceur-ws.org/Vol-2251/paper1.pdf
                Significado, distribución y frecuencia en la categoría
                  preposicional. Una aproximación computacional

       Meaning, distribution and frequency of the prepositional category in
                       Spanish. A computational approach
                                     Francesc Reina González
            Doctorando de Ciencia Cognitiva y Lenguaje. Departamento de Lingüística de la
                         Universidad de Barcelona frareina@hotmail.com



          Resumen: Desde las primeras definiciones de la teoría lingüística sobre la
          preposición se ha considerado una categoría lingüística controvertida. El origen de
          esa discusión procede de la dificultad para explicar, simultáneamente, su supuesta
          nuclearidad sintáctica y su valor léxico-semántico. Los utensilios matemáticos que
          proceden del procesamiento del lenguaje natural, de la lingüística del corpus, así
          como los algorítmicos del aprendizaje automático están permitiendo acercarse al
          significado preposicional con resultados muy reveladores, desplazando el debate
          categorial. Mi investigación sugiere que el significado preposicional pueda ser
          gradual de manera que su distribución en las secuencias sintácticas será determinante
          en su caracterización.
          Palabras claves: significado preposicional, análisis computacional, semántica
          distribucional, hipótesis gradual, aprendizaje automático, entropía semántica.


          Abstract: Since the first definitions of the linguistic theory of the preposition has
          been considered a controversial linguistic category. The origin of this discussion
          comes from the difficulty to explain, simultaneously, its supposed syntactic
          nuclearity and its lexical-semantic value. The mathematical tools that come from the
          processing of natural language, corpus linguistics, as well as the algorithms of
          machine learning are allowing us to approach the prepositional meaning with very
          revealing results, displacing the categorical debate. My research suggests that
          prepositional meaning can be gradual so that its distribution in the syntactic
          sequences will be decisive in its characterization.
          Keywords: prepositional meaning, computational analysis, distributional semantics,
          gradual hypothesis, automatic learning, semantic entropy.


                                                               (con presencia de caso morfológico y
                                                               preposiciones, o con posposiciones).
   1. La naturaleza de las preposiciones:
                                                               Ambas circunstancias, cierta imposición
   límites y dificultades
                                                               empírico-teórica y las dificultades
   La        preposición       ha       sido,                  descriptivas propician, según creo, el
   tradicionalmente,      una      categoría                   desplazamiento del debate categorial y la
   lingüística controvertida desde su                          búsqueda desde otras perspectivas más
   conducta sintáctica hasta su valor léxico-                  esclarecedoras en sus predicciones
   semántico. Estos conflictos descriptivos                    empíricas y teóricas.
   han estimulado aproximaciones teóricas
   muy apriorísticas en la explicación de su                   2. De la teoría lingüística a las
   comportamiento dentro del español y en                      aproximaciones computacionales
   lenguas de otras familias tipológicas

Lloret, E.; Saquete, E.; Martı́nez-Barco, P.; Moreno, I. (eds.) Proceedings of the Doctoral Symposium of the XXXIV
International Conference of the Spanish Society for Natural Language Processing (SEPLN 2018), p. 1–5 Sevilla, Spain,
September 19th 2018. Copyright c 2018 by the paper’s authors. Copying permitted for private and academic purposes.
 Hace ya más de medio siglo que desde                    Asimismo, desde los años noventa del
 diferentes perspectivas de la teoría                 siglo XX, se han acumulado evidencias
 lingüística, la gramática generativista o la         descriptivas nuevas, no solo en la teoría
 gramática cognitiva, la preposición ha               lingüística más formalista, sino en otras que
 supuesto muchos retos de distinta                    se asientan en cuestiones y hechos
 condición empírica y estilo analítico. Los           semánticos. Sería el caso de (Zelinsky-
 trabajos     categoriales      pioneros     de       Wibblet 1993), (Saint-Dizier 2006), o las
 (Chomsky 1970, 1981), (Jackendoff 1977)              compilaciones de (Kurzon & Adler 2008) y
 o (Van Riemsdijk 1978) incluyen la                   (Hagège 2010) para cualquier tipo de
 preposición entre las categorías léxicas             adposición (pre- o post- posicional). Una de
 mayores con los rasgos [-N -V]. Además,              las mejores síntesis del estado del arte en el
 la distinción empírico-conceptual, entre             ámbito computacional fue el monográfico
 categorías léxicas y funcionales de finales          de (Baldwin, Timothy; Kordoni; Valia y
 de la década de los años 80 del siglo XX,            Villavicencio, Aline 2009) recogido en la
 permitió abrir una línea de investigación en         influyente       revista       Computational
 la cartografía sintáctica y los grados de            Linguistics. Allí se despliega un abanico de
 interpretación en piezas lingüísticas como           cuestiones sobre cómo procesa esta clase de
 la preposición, ya que sabemos que                   partículas, sobre el especial significado que
 comparte rasgos de ambas.                            aporta, sobre el valor de su frecuencia en los
    Sendas caracterizaciones binarias de la           corpus y sobre la diversidad de aplicaciones
preposición [-N –V] o [± F ± L] han estado            que se ven afectadas por la comprensión de
sometida, igualmente, a discusiones de                esta clase de palabras.
diversa consideración. Y, de hecho, todavía              Por último, con la progresiva
sigue viva. Quizás una de las propuestas              construcción de corpus lingüísticos en
más radicales, al negarle su lugar entre las          diferentes lenguas, incluso antes del actual
categorías léxicas, fue la de (Mark C. Baker          desarrollo de la minería de datos o Big Data,
2003).                                                se han venido multiplicando las
    Mientras tanto, el progreso en los                generalizaciones sobre la distribución
procedimientos       y      las     heurísticas       sintáctica preposicional así como de los
computacionales           (estadísticos       o       valores semánticos de las preposiciones en
algorítmicos) han permitido investigar el             multitud de lenguas. En ese sentido, tanto la
papel de esta clase de partículas con otros           nueva semántica formal y distribucional,
propósitos y con otras consecuencias                  véase (Boleda, G. and A. Herbelot 2016),
explicativas. Se pueden leer una multitud de          como las herramientas de aprendizaje
monografías sobre la conformación de esos             automático (conocidas como Machine
recursos, desde (Grishman 1986) hasta                 Learning), véase (Mikolov 2014), están
(Clark, Fox y Lappin 2013), pasando por los           favoreciendo un acercamiento más afinado
clásicos de (Charnik 1993) y el didáctico             a la multitud de datos heterogéneos que
compendio de (Manning y Schütze (1999).               suelen conformar la preposición.
Además se han desarrollado proyectos
aplicados globales en el tratamiento
computacional de esta categoría. Una de la            3. Frecuencia, distribución y significado
más exhaustivas para el inglés fue The                de las preposiciones.
preposition       Project      de     Litowski        La hipótesis de la gradualidad semántica
(http://www.clres.com/prepositions.html),
cuyo objetivo fue la desambiguación de la             La perspectiva metodológica se enmarca en
semántica preposicional (un problema                  una visión empírica y computacional
esencial en la traducción automática, por             respecto de los recursos de observación,
ejemplo).                                             predicción, medición y generalización de
                                                      los hechos lingüísticos. Así, y a partir de


                                                  2
tres conceptos recurrentes en el                        d). Observar, identificar y analizar
procesamiento del lenguaje natural, como la          posibles correlaciones semánticas a partir
frecuencia de piezas léxicas, su distribución        de valores como la entropía en corpus del
y el significado propongo una hipótesis              español y a través de clasificaciones
general para la semántica que subyace a las          ontosemánticas estandarizadas procedentes
preposiciones en español.                            de la red ontosemántica de Wordnet
   El enunciado hipotético es el siguiente:          (experimento 2). Para su funcionamiento y
los valores semánticos de las preposiciones          organización se puede leer (Fellbaum
del español pueden ordenarse de manera               2006).
gradual que alcanza desde la funcionalidad              e). Proponer, a la luz de los resultados
completa hasta la lexicidad. En esta                 anteriores, un eje-espacio gradual de
secuencia, y según la diversidad de                  valores-piezas preposicionales desde la
construcciones, sintagmas y contextos,               funcionalidad absoluta (marcadoras de
podemos identificar y medir ese valor a              caso, por ejemplo) hasta el significado más
partir de la distribución ontosemántica de           cuantificable (valores locativo-espaciales,
los SSNN u otras clases de sintagmas que             temporales o nocionales). Ese eje tendría
coocurran.                                           tres zonas continuas de significado:
   La gradualidad oscila entre los valores y         funcional, semifuncional y léxico.
los usos más funcionales o vacíos como las              f).    Explorar     las     posibilidades
preposiciones que conforman las locuciones           interlingüísticas de la propuesta (con
prepositivas, la a del CD/CI o el por del            lenguas que admitan caso, preposiciones o
complemento agente en las oraciones en               posposiciones) y comprobar su capacidad
voz pasiva, y los valores y los usos locativos       generalizadora.
de a, de, en, por, hacia, sobre o hasta, los
temporales de a, entre, bajo, desde, durante
o tras, o los nocionales de mediante, por y          4. Trabajo metodológico y experimentos
para, considerados léxicos o plenos.
   El desarrollo de esta hipótesis se articula       Se están realizando tres experimentos
en torno a seis objetivos que se relacionan a        diferentes con objeto de verificar
continuación.                                        empíricamente las diferentes fases y/o
   a).      Presentar      los     elementos         grados semánticos de las preposiciones, tal
historiográficos, descriptivos y teóricos de         y como se estipula en la hipótesis.
la categoría gramatical a lo largo de los               El primero de ellos ha analizado la
hitos más valiosos de la tradición y de los          gradualidad en el caso de tres
modelos de investigación lingüística más             preposiciones: a, hacia y hasta en los
recientes.                                           contextos sintácticos para 90 verbos de
   b). Caracterizar las limitaciones de las          movimiento del español. A través de la
propuestas que se han ido aportando en el            herramienta CLUTO (agrupación por Word
análisis de casos concretos para la                  Embedding), véase (Karypis 2003) para su
preposición en español y en otras lenguas.           funcionamiento,        hemos procedido a
   c). Medir la frecuencia de similitudes            realizar agrupaciones (clustering) de 71.000
semánticas de las piezas preposicionales, en         sintagmas       preposicionales       (SSPP)
algunas estructuras sintáctico-argumentales          disponibles en los corpus WikiCorpus,
con el uso de herramientas de algoritmos             Ancora y Semsem, en 3, 4 y 5 grupos. Estos
probabilísticos del campo del aprendizaje            recursos de “agrupación” se fundan en el
automático para el procesamiento del                 “Word embedding”. El objetivo de este
lenguaje natural en corpus lingüísticos (al          procedimiento es cuantificar y categorizar
estilo de redes neurales, como Word2vec o            propiedades semánticas entre elementos
Gcluto). (Experimentos 1 y 3).                       lingüísticos a partir de los contextos donde
                                                     coocurren y que se representarán en
                                                     vectores. Estos modelos de espacio

                                                 3
vectorial representan (“embed”, incrustan)            semifuncionales, complementos de régimen
palabras en un espacio vectorial continuo en          verbal con de, en o con, y (iii) los léxicos,
el que palabras semánticamente similares se           complementos adjuntos o circunstanciales,
asignan a puntos cercanos.                            con preposiciones como de, en, con, sin, a.
   Los resultados han sido muy                           Una vez obtenidos los ficheros con los
satisfactorios en la medida en que                    SSPP coincidentes para cada verbo se
porcentualmente se verifican y se                     procede a su asignación semántica según las
confirman las agrupaciones realizadas por             siguientes clases: humano, entidad
dos anotadores humanos. El aprendizaje                abstracta, locativo, temporal, evento o
automático acredita la predicción humana              actividad, objeto o artefacto, y modalidad
en la asignación de significados. Nos                 (elegidas,      por      su      importancia
encontramos con un 51,65 % para la                    representativa, de la red ontosemántica de
preposición a, un 55,17 para la preposición           Wordnet). Los datos obtenidos se
hacia y un 64,6 para la preposición hasta.            introducen en una tabla con la función
                                                      logarítmica de la entropía que se aplica a los
                   Gráfico 1                          tres      grupos,       funcionales       (F),
                                                      semifuncionales (SF) y léxicos (L).
               Porcentajes de                            Las cifras indican que la entropía, es
                                                      decir, el grado de azar o desorden de esos
         coincidencia de agrupación                   subgrupos es el más bajo en los funcionales
         para las tres preposiciones                  (1,568), el más alto en los léxicos (2,512), e
    80                                                intermedio en los semifuncionales (2,321),
                                                      donde se encuentran los verbos de régimen.
    60                                                La predicción coincide con la descripción
    40                                                gramatical:    cuánta     más restricción
                                                      argumental tiene el verbo más previsible es
    20                                                el significado del SN seleccionado. La
     0
                                                      preposición, por tanto, sigue la gradación
                                                      semántica y la medida entrópica está
                A, HACIA y HASTA                      justificada como recurso explicativo.

                                                                        Tabla 1
   En el segundo experimento hemos
utilizado el concepto de entropía (H) de                 TIPOS DE
                                                         SSPP                F       SF         L
(Claude E. Shannon 1948), procedente de la
                                                         Humanos           287       86        22
teoría de la información, para medir la clase            Abstractos         33      273        58
de significado que contienen los SSPP en                 Locativos          42       35       128
los verbos de régimen en comparación con                 Temporales         12       23        33
otras clases de verbos. Hemos seleccionado               Eventos             7       50        47
un total de 140 verbos, de los cuales 48                 Objetos             5      103        20
poseen SSPP considerados de régimen                      Modales            26       41       102
verbal (obligatorios argumentalmente con                 TOTAL             412      611       410
una determinada preposición). Hemos                      Entropía
                                                         (H)             1,568     2,321     2,512
realizado una búsqueda de SSPP en el
Corpes anotado de la RAE que se ha
                                                         El tercer experimento está en curso y en
cruzado con el Wikicorpus, es decir, se ha
                                                      fase explorativa. El propósito es intentar
comprobado la coincidencia entre ambos
                                                      que parte del reconocimiento entrópico del
repertorios. Y por último, los hemos
                                                      segundo experimento se pueda producir de
clasificado en tres tipos: (i) los funcionales,
                                                      manera automática gracias a un parset, es
cuya preposición es la a (ii) los
                                                      decir, que los tres grupos de SSPP emerjan

                                                  4
sin la necesidad de la intervención humana,            Fellbaum, C. 2006. WordNet(s. En Keith
o con un grado de reconocimiento                       Brown, (Ed.) Encyclopedia of Language &
representativo.                                        Linguistics, 2da. edición, Vol. 13, páginas 665-
   Al     final   de     la    investigación,          670, Elsevier, Oxford.
procederemos a elegir algunas lenguas con              Grishman, Ralhp 1986. Computational
caso y preposición (alemán, ruso o polaco),            Linguistics. An introduction, Cambridge
posposiciones (vasco, chino, húngaro o                 University Press, Cambridge.
hindi), o con muy pocas preposiciones
(igbo, hablada en Nigeria) y someterlas al             Hagège, Claude 2010. Adpositions, Oxford
contraste experimental que hemos realizado             University Press, Oxford.
con el español.                                        Jackendoff, Ray 1977. X’ Syntax: A Study of
                                                       Phrase Structure, The MIT Press, Cambridge.
Agradecimientos
                                                       Karypis, George 2003. CLUTO. A clustering
A mis directores de tesis la Dra. Irene                toolkit, University of Minnesota, Technical
Castellón y el Dr. Lluís Padró por sus ideas,          Report, 02-017.
sugerencias y orientaciones; y al Dr.                  Kurzon, Dennis & Adler, Silvia 2008.
Horacio Rodríguez por sus comentarios y su             Adpositions. Pragmatic, semantic and syntactic
generosidad durante el Simposio.                       perspectives, John Benjamins, Amsterdam.

Bibliografía                                           Litkowski, Ken y O. Hargraves, O. 2005. The
                                                       Preposition Project. En ACL-SIGSEM
Baker, Mark C. 2003. Lexical Categories. Verbs,        Workshop on the Linguistic Dimensions of
nouns and adjectives, Cambridge University             Prepositions and their Use in Computational
Press, Cambridge.                                      Linguistics Formalisms and Applications,
                                                       páginas 171–179, Colchester.
Baldwin, Timothy; Kordoni, Valia y
Villavicencio, Aline 2009. Prepositions in             Mannig, Christopher D. y Schütze, Hinrich
Applications: A Survey and Introduction to the         1999. Foundations on statistical natural
Special Issue, Computational Linguistics,              languages processing, The MIT Press, Londres.
35(2), páginas 119-149.
                                                       Mikolov, Tomas; Le, Quoc 2014. Distributed
Boleda, Gemma y Herbelot, Aurélie 2017.                Representations of Sentences and Documents,
Formal Distributional Semantics: Introduction to       Proceedings of the 31th Internacional
Special Issue, Computational Linguistics, 42(4),       Conference on Machine Learning, vol. 32(2),
páginas 619-635.                                       pàgines 1118-1196, Beijing.
Charniak, Eugene 1993. Statistical Language            Riemsdijk, Van, Henk 1978. A Case Study in
Learning, The MIT Press, Cambridge.                    Syntactic Markedness: the Binding Nature of
Chomsky, Noam. 1970. Remarks on                        Prepositional Phrases, Foris, Dordrecht.
Nominalization. En Jacobs, Roderick A. and             Shannon, Claude E. 1948. A Mathematical
Rosenbaum, Peter S. (eds.), Readings in                Theory of Communication, The Bell System
English     Transformational     Grammar,              Technical Journal, Vol. 27, páginas 379–423,
páginas184-221. Ginn, Boston.                          623–656, julio y octubre.
Chomsky, Noam 1981. Lectures on Government
and Binding, Foris, Dordrecht.                         Saint-Dizier, Patrick 2006. Syntax and Semantics
                                                       of prepositions, Springer, Dordrecht.
Clark, Alexander; Fox, Chris y Lappin, Shalom
2013. The Handbook of Computational                    Zelinsky-Wibblet, Cornelia (ed.) 1993. The
Linguistics and Natural Language Processing,           semantics of Prepositions, Mouton de Gruyter,
Wiley-Blackwell, Oxford.                               Berlín.




                                                   5