Resumen

Simpli cacion automatica de textos en euskera

Donostia

itziar.gonzalezd@ehu.es

45 50

En este art culo presentamos el trabajo llevado a cabo dentro del proyecto de tesis doctoral llamado \Egitura sintaktiko konplexuen identi kazioa eta sinpli kazioa euskararen tratamendu automatikoan" (Identi cacion y simpli cacion de las estructuras sintacticas complejas en el procesamiento automatico del Euskera) que se realiza bajo la direccion de las doctoras Arantza D az de Ilarraza y Mar a Jesus Aranzabe. Este trabajo esta enmarcado dentro de las actividades del grupo IXA1 de la Universidad del Pa s Vasco (UPV/EHU)2 y sigue la l nea investigacion de la simpli cacion automatica de textos [GDADdI13, Sha14]. Las principales motivaciones para esta tesis son, por una parte, resolver los problemas que las oraciones complejas y largas crean en las aplicaciones avanzadas (traductores automaticos, analizadores, generadores de preguntas...) del PLN y ayudar a la gente que aprende lenguas extranjeras, en nuestro caso, el aprendizaje del euskera, a comprender mejor los textos. Para ello, queremos crear oraciones simples manteniendo el signi cado de la oracion de origen, es decir, queremos convertir un texto complejo en un texto mas facil que mantenga el signi cado y la informacion del original. Con intencion de cumplir dichos objetivos, nuestro planteamiento tiene dos pilares: desarrollar la arquitectura del sistema (seccion 2) creando herramientas y recursos para ella y analizar las estructuras sintacticas del euskera para proponer reglas de simpli cacion (seccion 3). De este modo, queremos crear tambien un corpus de textos simpli cados en Euskera, inexistente hasta ahora. En la seccion 2 explicaremos el proceso de simpli cacion y arquitectura del sistema que hemos disen~ado. Despues, en la seccion 3 describiremos las estructuras sintacticas que hemos analizado hasta el momento. Concluiremos resumiendo el trabajo realizado hasta ahora y expondremos su continuidad en la seccion 4.

Resumen

En este art culo presentamos el trabajo que se esta realizando en la tesis doctoral sobre la simpli cacion automatica de textos en euskera. Describimos las operaciones de simpli cacion y la arquitectura de sistema que las automatiza. A su vez, exponemos las estructuras sintacticas que hemos analizado.

Introduccion Proceso de simpli cacion y arquitectura del sistema

En esta seccion explicamos el proceso de simpli cacion que se hace con los textos y el modulo de la arquitectura que los realiza. Como se aprecia en la gura 1, el sistema tiene dos grandes bloques. El primero enmarca el preproceso que se realiza antes de simpli car el texto y el segundo engloba lo que es la simpli cacion en s .

Figura 1: La arquitectura del sistema En el preproceso se llevan a cabo dos tipos de analisis: primero, el texto se analiza lingu sticamente y luego se analiza la complejidad del texto. El analisis lingu stico se realiza por las siguientes herramientas desarrolladas en nuestro grupo: Analisis morfosintactico: Morpheus [AAE+02] Lematizacion: Eustagger [AAA+03] Identi cacion de terminos multipalabra [AAA+04b]

Identi cacion y clasi cacion de entidades nombradas: Eihera [AAB+04]

Analisis sintactico super cial: Ixati [AAA+04a]

Deteccion de l mites de oraciones compuestas: MuGak [ADdIGD13]

Deteccion y clasi cacion de aposiciones [GDAdIS13]

Una vez que tenemos el texto etiquetado con el analisis procedemos a analizar si el texto es complejo o no. Para ello, utilizamos ErreXail [GDADdIS14], un sistema que siguiendo diversos criterios lingu sticos y tecnicas de aprendizaje automatico nos indica si el texto es complejo o simple. Las caracter sticas lingu sticas que analiza son las siguientes:

Caracter sticas super ciales: longitud de la oracion, longitud de palabras y numero de oraciones (3 ratios) Caracter sticas lexicales: tipos de categor as, lemas, entidades nombradas... (39 ratios) Caracter sticas morfologicas: marcas de caso, tipos de verbos, morfolog a del verbo... (24 ratios) Caracter sticas morfosintacticas: sintagmas nominales, verbales, aposiciones... (5 ratios) Caracter sticas sintacticas: tipos de oraciones subordinadas... (10 ratios)

Caracter sticas pragmaticas: conectores, conjunciones... (12 ratios)

Tras calcular los ratios de dichas caracter sticas, se aplica un clasi cador SMO [Pla98] que es el que determina si el texto es simple o complejo. Si el texto ha sido categorizado como complejo, comienza el proceso de simpli cacion (segunda parte de la arquitectura) [ADdIGD12], que se inspira en los trabajos hechos para el ingles [Sid06] y el portugues [ASP+08, SAP08]. Explicaremos a continuacion nuestro proceso mediante el ejemplo (1). (1)

Taldeak gaizki jokatu duen arren, Bilbotarrak pozik daude.

'Aunque el equipo ha jugado mal, los Bilbainos estan contentos.'

La primera operacion, llamada Splitting, se encarga de dividir las oraciones compuestas, dividir las aposiciones y separar las estructuras parenteticas. Esta operacion la lleva a cabo el modulo MuGak y para ello dentro de esta tesis doctoral hemos desarrollado o adaptado los siguientes recursos y herramientas: Adaptacion y mejora del MuGak, gramatica para detectar los l mites de las oraciones compuestas [ADdIGD13] Desarrollo de la gramatica y herramienta para detectar las aposiciones [GDAdIS13] Desarrollo de una herramienta para separar las estructuras parenteticas [GDADdI14]

Division de oraciones subordinadas etiquetadas segun la Gramatica de Dependencias [ADdIGD13] Retomando el ejemplo (1), vemos que en esta operacion hemos conseguido dos oraciones: la subordinada concesiva (2a) y la principal (2b). (2) a. Taldeak gaizki jokatu duen arren

'Aunque el equipo ha jugado mal' b. Bilbotarrak pozik daude

'los Bilbainos estan contentos'

Habiendo dividido las oraciones compuestas, durante la segunda operacion se crean las oraciones simples. Esta fase se llama Reconstruction y se realiza en el modulo DAR (Deletion and Addition Rules). Debido a la tipolog a del euskera, las reglas implementadas aqu se basan en reglas morfologicas. Es as que se eliminaran, siempre segun la regla, los morfemas subordinantes, marcas de caso, etc. Para mantener la relacion anteriormente eliminada, se an~adiran adverbios, sintagmas nominales y marcas de caso. Volviendo al ejemplo, de la oracion subordinada (2a) se eliminara el morfema y conjuncion subordinante -en arren (aunque) y a la principal (2b) se le an~adira el conector Hala ere (aun y todo, no obstante). El resultado de esta operacion se ve en las oraciones (3a) y (3b). (3) a. Taldeak gaizki jokatu du

'El equipo ha jugado mal' b. Hala ere, Bilbotarrak pozik daude

'Aun y todo, los Bilbainos estan contentos'

La tercera operacion se llama Reordering y se realiza mediante el modulo ReordR. Los objetivos de esta operacion son ordenar los elementos dentro de las oraciones y ordenar las oraciones dentro del texto. Siguiendo con nuestro ejemplo, primero comprobaremos que el orden interior de la oracion sea el canonico y luego, al estar ante una estructura concesiva, el orden de las oraciones sera subordinada precediendo a la principal. Como ya se cumplen ambas condiciones no haremos ningun cambio en este caso.

Finalmente, ya teniendo el texto reconstruido y ordenado, procedemos a la operacion de correccion (Correction). Con ello queremos comprobar la correccion de las oraciones creadas y as garantizar la cohesion del texto. Tambien queremos asegurar que la puntuacion sea correcta. El modulo que se encarga de esta operacion es Xuxen.

Tras este proceso habremos conseguido una version simple y equivalente del texto de entrada. As pues, nuestro ejemplo (1) se habra convertido el las oraciones (4a) y (4b). (4) a. Taldeak gaizki jokatu du.

'El equipo ha jugado mal.' b. Hala ere, Bilbotarrak pozik daude.

'Aun y todo, los Bilbainos estan contentos.'

Estructuras analizadas

Como hemos mencionado en la introducion (seccion 1), nuestro planteamiento tiene dos pilares: la arquitectura del sistema que hemos explicado en la seccion 2 y el analisis de las estructuras sintacticas del euskera que describiremos en esta seccion.

Para realizar el estudio de las estructuras sintacticas, nos hemos basado en recursos y corpus como EPEC (Corpus de referencia para el procesamiento del euskera) [AAA+06], el Corpus Consumer [Alc05], la Wikipedia, y los corpus ZerNola (textos simples) y de la revista Elhuyar (textos tecnicos). Hemos creado esto dos ultimos especialmente para nuestra tarea de evaluar la complejidad de los textos [GDADdIS14]. A continuacion detallamos las estructuras y el numero de casos analizados:

Sobre EPEC, Consumer y Elhuyar:

Oraciones de relativo (2 casos) Oraciones subordinadas temporales (68 casos) Oraciones subordinadas de causa (17 casos) Oraciones subordinadas concesivas (6 casos) Oraciones subordinadas de modo (26 casos) Oraciones subordinadas condicionales (10 casos) Oraciones subordinadas de objetivo (2 casos)

Aposiciones (3 casos) Sobre la Wikipedia:

Estructuras parenteticas: datos biogra cos, or gen etimologico... (3 casos)

Hemos propuesto diferentes reglas de simpli cacion para dichos casos [GD11, ADdIGD12, GD14] y actualmente nos estamos concentrando en completar el analisis de las estructuras que hemos tratado hasta el momento y en estudiar nuevas estructuras. Las reglas que proponemos se incluiran en la arquitectura que hemos presentado en la seccion 2.

Conclusion y trabajo futuro

En este art culo hemos presentado el trabajo llevado a cabo hasta ahora para la tesis doctoral \Egitura sintaktiko konplexuen identi kazioa eta sinpli kazioa euskararen tratamendu automatikoan" (Identi cacion y simpli cacion de las estructuras sintacticas complejas en el procesamiento automatico del Euskera). Ademas de haber estudiado los trabajos que se han hecho para otros idiomas, hemos desarrollado un sistema que predice la complejidad de los textos (ErreXail), hemos implementado el modulo Mugak (splitting) y parte del modulo DAR (reconstruction) y hemos estudiado 137 fenomenos lingu sticos, para los que se han propuesto reglas de simpli cacion.

En los proximos meses vamos a continuar profundizando el analisis las estructuras sintacticas que nos quedan por formalizar (coordinadas, completivas, comparativas y consecutivas) y terminar la implementacion de los modulos del sistema. As crearemos un corpus paralelo compuesto por textos simpli cados y sus respectivos originales. Tambien tenemos la intencion de evaluar el sistema desde un punto de vista neorolingu stico. Finalmente, una vez acabada la simpli cacion sintactica, procederemos a estudiar la simpli cacion lexica.

Agradecimientos

Esta tesis doctoral se lleva a cabo gracias a una beca predoctoral del Gobierno Vasco (BFI-2011-392). [AAA+03] [AAA+04a] [AAA+04b] [AAA+06] [AAB+04] [AAE+02] Itziar Aduriz, Izaskun Aldezabal, In~aki Alegria, Jose Mari Arriola, Arantza D az de Ilarraza, Nerea Ezeiza, and Koldo Gojenola. Finite State Applications for Basque. In EACL'2003 Workshop on Finite-State Methods in Natural Language Processing., pages 3{11, 2003.

Itziar Aduriz, Mar a Jesus Aranzabe, Jose Mari Arriola, Arantza D az de Ilarraza, Koldo Gojenola, Maite Oronoz, and Larraitz Uria. A cascaded syntactic analyser for Basque. Computational Linguistics and Intelligent Text Processing, pages 124{134, 2004.

In~aki Alegria, Olatz Ansa, Xabier Artola, Nerea Ezeiza, Koldo Gojenola, and Ruben Urizar. Representation and treatment of multiword expressions in Basque. In Proceedings of the Workshop on Multiword Expressions: Integrating Processing, pages 48{55. Association for Computational Linguistics, 2004.

Itziar Aduriz, Mar a Jesus Aranzabe, Jose Mari Arriola, Aitziber Atutxa, Arantza D az de Ilarraza, Nerea Ezeiza, Koldo Gojenola, Maite Oronoz, Aitor Soroa, and Ruben Urizar. Methodology and steps towards the construction of EPEC, a corpus of written Basque tagged at morphological and syntactic levels for automatic processing, volume 56, pages 1{15. Rodopi, 2006.

In~aki Alegria, Olatz Arregi, Irene Balza, Nerea Ezeiza, Izaskun Fernandez, and Ruben Urizar. Design and Development of a Named Entity Recognizer for an Agglutinative Language. In First International Joint Conference on NLP (IJCNLP-04). Workshop on Named Entity Recognition, 2004.

In~aki Alegria, Mar a Jesus Aranzabe, Aitzol Ezeiza, Nerea Ezeiza, and Ruben Urizar. Robustness and customisation in an analyser/lemmatiser for Basque. In LREC-2002 Customizing knowledge in NLP applications workshop, pages 1{6, Las Palmas de Gran Canaria, May 2002.

Mar a Jesus Aranzabe, Arantza D az de Ilarraza, and Itziar Gonzalez-Dios. First Approach to Automatic Text Simpli cation in Basque. In Luz Rello and Horacio Saggion, editors, Proceedings of the Natural Language Processing for Improving Textual Accessibility (NLP4ITA) workshop (LREC 2012), pages 1{8, 2012.

Mar a Jesus Aranzabe, Arantza D az de Ilarraza, and Itziar Gonzalez-Dios. Transforming Complex Sentences using Dependency Trees for Automatic Text Simpli cation in Basque. Procesamiento de Lenguaje Natural, 50:61{68, 2013.

Asier Alcazar. Towards linguistically searchable text. In Proceedings of BIDE Summer School of Linguistics, 2005.

Sandra M. Alu sio, Lucia Specia, Thiago A. S. Pardo, Erick G. Maziero, Helena M. Caseli, and Renata P. M. Fortes. A corpus analysis of simple account texts and the proposal of simpli cation strategies: rst steps towards text simpli cation systems. In Proceedings of the 26th annual ACM international conference on Design of communication, SIGDOC '08, pages 15{22, New York, NY, USA, 2008. ACM.

Itziar Gonzalez-Dios. Euskarazko egitura sintaktikoen azterketa testuen sinpli kazio automatikorako: Aposizioak, erlatibozko perpausak eta denborazko perpausak [Study of the Basque Syntactic Structures for Automatic Text Simpl cation: Apposition, relative clauses and temporal clauses]. Master's thesis, University of the Basque Country (UPV/EHU), 2011.

Itziar Gonzalez-Dios. Euskarazko testuak errazten: euskal testuen sinpli kazio automatikoa [Making Basque Texts Easier: Automatic Simpli cation of Basque Texts]. In To appear in Buruxkak.

UEU, 2014. [GDADdI13] Itziar Gonzalez-Dios, Mar a Jesus Aranzabe, and Arantza D az de Ilarraza. Testuen sinpli kazio automatikoa: arloaren egungo egoera [Automatic Text Simpli cation: State of Art]. Linguamatica, 5(2):43{63, Dezembro 2013. [GDADdI14] Itziar Gonzalez-Dios, Mar a Jesus Aranzabe, and Arantza D az de Ilarraza. Making Biographical Data in Wikipedia Readable: A pattern-based Multilingual Approach. In To appear in Proceedings of Automatic Text Simpli cation - Methods and Applications in the Multilingual Society (ATSMA). Workshop at Coling 2014, 2014. [GDADdIS14] Itziar Gonzalez-Dios, Mar a Jesus Aranzabe, Arantza D az de Ilarraza, and Haritz Salaberri.

Simple or Complex? Assessing the readability of Basque Texts. In To appear in Proceedings of COLING 2014, 2014. [GDAdIS13] [Pla98] [SAP08] [Sha14] [Sid06]

Itziar Gonzalez-Dios, Mar a Jesus Aranzabe, Arantza D az de Ilarraza, and Ander Soraluze. Detecting Apposition for Text Simpli cation in Basque. In Computational Linguistics and Intelligent Text Processing, pages 513{524. Springer, 2013.

John C. Platt. Fast Training of Support Vector Machines using Sequential Minimal Optimization. In Bernhard Schalkopf, Christopher J. C Burges, and Alexander J. Smola, editors, Advances in Kernel Methods-Support Vector Learning. MIT Press, 1998.

Lucia Specia, Sandra M. Alu sio, and Thiago A.S. Pardo. Manual de Simpli cacao Sintatica para o Portugu^es. Technical Report NILC-TR-08-06, Sao Carlos-SP., 2008.

Matthew Shardlow. A Survey of Automated Text Simpli cation. International Journal of Advanced Computer Science and Applications (IJACSA), Special Issue on Natural Language Processing, pages 58{70, 2014.

Advaith Siddharthan. Syntactic Simpli cation and Text Cohesion. Research on Language & Computation, 4(1):77{109, 2006.