<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Simpli cacion automatica de textos en euskera</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Donostia</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>itziar.gonzalezd@ehu.es</string-name>
        </contrib>
      </contrib-group>
      <fpage>45</fpage>
      <lpage>50</lpage>
      <abstract>
        <p>En este art culo presentamos el trabajo llevado a cabo dentro del proyecto de tesis doctoral llamado \Egitura sintaktiko konplexuen identi kazioa eta sinpli kazioa euskararen tratamendu automatikoan" (Identi cacion y simpli cacion de las estructuras sintacticas complejas en el procesamiento automatico del Euskera) que se realiza bajo la direccion de las doctoras Arantza D az de Ilarraza y Mar a Jesus Aranzabe. Este trabajo esta enmarcado dentro de las actividades del grupo IXA1 de la Universidad del Pa s Vasco (UPV/EHU)2 y sigue la l nea investigacion de la simpli cacion automatica de textos [GDADdI13, Sha14]. Las principales motivaciones para esta tesis son, por una parte, resolver los problemas que las oraciones complejas y largas crean en las aplicaciones avanzadas (traductores automaticos, analizadores, generadores de preguntas...) del PLN y ayudar a la gente que aprende lenguas extranjeras, en nuestro caso, el aprendizaje del euskera, a comprender mejor los textos. Para ello, queremos crear oraciones simples manteniendo el signi cado de la oracion de origen, es decir, queremos convertir un texto complejo en un texto mas facil que mantenga el signi cado y la informacion del original. Con intencion de cumplir dichos objetivos, nuestro planteamiento tiene dos pilares: desarrollar la arquitectura del sistema (seccion 2) creando herramientas y recursos para ella y analizar las estructuras sintacticas del euskera para proponer reglas de simpli cacion (seccion 3). De este modo, queremos crear tambien un corpus de textos simpli cados en Euskera, inexistente hasta ahora. En la seccion 2 explicaremos el proceso de simpli cacion y arquitectura del sistema que hemos disen~ado. Despues, en la seccion 3 describiremos las estructuras sintacticas que hemos analizado hasta el momento. Concluiremos resumiendo el trabajo realizado hasta ahora y expondremos su continuidad en la seccion 4.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>Resumen</title>
      <p>En este art culo presentamos el trabajo que se esta realizando en la
tesis doctoral sobre la simpli cacion automatica de textos en euskera.
Describimos las operaciones de simpli cacion y la arquitectura de
sistema que las automatiza. A su vez, exponemos las estructuras sintacticas
que hemos analizado.</p>
    </sec>
    <sec id="sec-2">
      <title>Introduccion</title>
    </sec>
    <sec id="sec-3">
      <title>Proceso de simpli cacion y arquitectura del sistema</title>
      <p>En esta seccion explicamos el proceso de simpli cacion que se hace con los textos y el modulo de la arquitectura
que los realiza. Como se aprecia en la gura 1, el sistema tiene dos grandes bloques. El primero enmarca el
preproceso que se realiza antes de simpli car el texto y el segundo engloba lo que es la simpli cacion en s .</p>
      <sec id="sec-3-1">
        <title>Figura 1: La arquitectura del sistema En el preproceso se llevan a cabo dos tipos de analisis: primero, el texto se analiza lingu sticamente y luego se analiza la complejidad del texto. El analisis lingu stico se realiza por las siguientes herramientas desarrolladas en nuestro grupo:</title>
        <sec id="sec-3-1-1">
          <title>Analisis morfosintactico: Morpheus [AAE+02]</title>
        </sec>
        <sec id="sec-3-1-2">
          <title>Lematizacion: Eustagger [AAA+03]</title>
        </sec>
        <sec id="sec-3-1-3">
          <title>Identi cacion de terminos multipalabra [AAA+04b]</title>
          <p>Identi cacion y clasi cacion de entidades nombradas: Eihera [AAB+04]</p>
        </sec>
        <sec id="sec-3-1-4">
          <title>Analisis sintactico super cial: Ixati [AAA+04a]</title>
          <p>Deteccion de l mites de oraciones compuestas: MuGak [ADdIGD13]</p>
          <p>Deteccion y clasi cacion de aposiciones [GDAdIS13]</p>
          <p>Una vez que tenemos el texto etiquetado con el analisis procedemos a analizar si el texto es complejo o no.
Para ello, utilizamos ErreXail [GDADdIS14], un sistema que siguiendo diversos criterios lingu sticos y tecnicas
de aprendizaje automatico nos indica si el texto es complejo o simple. Las caracter sticas lingu sticas que analiza
son las siguientes:</p>
          <p>Caracter sticas super ciales: longitud de la oracion, longitud de palabras y numero de oraciones (3 ratios)
Caracter sticas lexicales: tipos de categor as, lemas, entidades nombradas... (39 ratios)
Caracter sticas morfologicas: marcas de caso, tipos de verbos, morfolog a del verbo... (24 ratios)
Caracter sticas morfosintacticas: sintagmas nominales, verbales, aposiciones... (5 ratios)
Caracter sticas sintacticas: tipos de oraciones subordinadas... (10 ratios)</p>
        </sec>
      </sec>
      <sec id="sec-3-2">
        <title>Caracter sticas pragmaticas: conectores, conjunciones... (12 ratios)</title>
        <p>Tras calcular los ratios de dichas caracter sticas, se aplica un clasi cador SMO [Pla98] que es el que determina si
el texto es simple o complejo. Si el texto ha sido categorizado como complejo, comienza el proceso de simpli cacion
(segunda parte de la arquitectura) [ADdIGD12], que se inspira en los trabajos hechos para el ingles [Sid06] y el
portugues [ASP+08, SAP08]. Explicaremos a continuacion nuestro proceso mediante el ejemplo (1).
(1)</p>
        <p>Taldeak gaizki jokatu duen arren, Bilbotarrak pozik daude.</p>
        <p>'Aunque el equipo ha jugado mal, los Bilbainos estan contentos.'</p>
        <p>La primera operacion, llamada Splitting, se encarga de dividir las oraciones compuestas, dividir las
aposiciones y separar las estructuras parenteticas. Esta operacion la lleva a cabo el modulo MuGak y para ello dentro
de esta tesis doctoral hemos desarrollado o adaptado los siguientes recursos y herramientas:
Adaptacion y mejora del MuGak, gramatica para detectar los l mites de las oraciones compuestas
[ADdIGD13]
Desarrollo de la gramatica y herramienta para detectar las aposiciones [GDAdIS13]
Desarrollo de una herramienta para separar las estructuras parenteticas [GDADdI14]</p>
        <p>Division de oraciones subordinadas etiquetadas segun la Gramatica de Dependencias [ADdIGD13]
Retomando el ejemplo (1), vemos que en esta operacion hemos conseguido dos oraciones: la subordinada
concesiva (2a) y la principal (2b).
(2) a. Taldeak gaizki jokatu duen arren</p>
        <p>'Aunque el equipo ha jugado mal'
b. Bilbotarrak pozik daude</p>
        <p>'los Bilbainos estan contentos'</p>
        <p>Habiendo dividido las oraciones compuestas, durante la segunda operacion se crean las oraciones simples.
Esta fase se llama Reconstruction y se realiza en el modulo DAR (Deletion and Addition Rules). Debido a la
tipolog a del euskera, las reglas implementadas aqu se basan en reglas morfologicas. Es as que se eliminaran,
siempre segun la regla, los morfemas subordinantes, marcas de caso, etc. Para mantener la relacion anteriormente
eliminada, se an~adiran adverbios, sintagmas nominales y marcas de caso. Volviendo al ejemplo, de la oracion
subordinada (2a) se eliminara el morfema y conjuncion subordinante -en arren (aunque) y a la principal (2b) se
le an~adira el conector Hala ere (aun y todo, no obstante). El resultado de esta operacion se ve en las oraciones
(3a) y (3b).
(3) a. Taldeak gaizki jokatu du</p>
        <p>'El equipo ha jugado mal'
b. Hala ere, Bilbotarrak pozik daude</p>
        <p>'Aun y todo, los Bilbainos estan contentos'</p>
        <p>La tercera operacion se llama Reordering y se realiza mediante el modulo ReordR. Los objetivos de esta
operacion son ordenar los elementos dentro de las oraciones y ordenar las oraciones dentro del texto. Siguiendo
con nuestro ejemplo, primero comprobaremos que el orden interior de la oracion sea el canonico y luego, al estar
ante una estructura concesiva, el orden de las oraciones sera subordinada precediendo a la principal. Como ya
se cumplen ambas condiciones no haremos ningun cambio en este caso.</p>
        <p>Finalmente, ya teniendo el texto reconstruido y ordenado, procedemos a la operacion de correccion
(Correction). Con ello queremos comprobar la correccion de las oraciones creadas y as garantizar la cohesion del
texto. Tambien queremos asegurar que la puntuacion sea correcta. El modulo que se encarga de esta operacion
es Xuxen.</p>
        <p>Tras este proceso habremos conseguido una version simple y equivalente del texto de entrada. As pues, nuestro
ejemplo (1) se habra convertido el las oraciones (4a) y (4b).
(4) a. Taldeak gaizki jokatu du.</p>
        <p>'El equipo ha jugado mal.'
b. Hala ere, Bilbotarrak pozik daude.</p>
        <p>'Aun y todo, los Bilbainos estan contentos.'</p>
      </sec>
    </sec>
    <sec id="sec-4">
      <title>Estructuras analizadas</title>
      <p>Como hemos mencionado en la introducion (seccion 1), nuestro planteamiento tiene dos pilares: la arquitectura
del sistema que hemos explicado en la seccion 2 y el analisis de las estructuras sintacticas del euskera que
describiremos en esta seccion.</p>
      <p>Para realizar el estudio de las estructuras sintacticas, nos hemos basado en recursos y corpus como EPEC
(Corpus de referencia para el procesamiento del euskera) [AAA+06], el Corpus Consumer [Alc05], la Wikipedia,
y los corpus ZerNola (textos simples) y de la revista Elhuyar (textos tecnicos). Hemos creado esto dos ultimos
especialmente para nuestra tarea de evaluar la complejidad de los textos [GDADdIS14]. A continuacion detallamos
las estructuras y el numero de casos analizados:</p>
      <p>Sobre EPEC, Consumer y Elhuyar:</p>
      <p>Oraciones de relativo (2 casos)
Oraciones subordinadas temporales (68 casos)
Oraciones subordinadas de causa (17 casos)
Oraciones subordinadas concesivas (6 casos)
Oraciones subordinadas de modo (26 casos)
Oraciones subordinadas condicionales (10 casos)
Oraciones subordinadas de objetivo (2 casos)</p>
      <p>Aposiciones (3 casos)
Sobre la Wikipedia:</p>
      <p>Estructuras parenteticas: datos biogra cos, or gen etimologico... (3 casos)</p>
      <p>Hemos propuesto diferentes reglas de simpli cacion para dichos casos [GD11, ADdIGD12, GD14] y actualmente
nos estamos concentrando en completar el analisis de las estructuras que hemos tratado hasta el momento y en
estudiar nuevas estructuras. Las reglas que proponemos se incluiran en la arquitectura que hemos presentado en
la seccion 2.</p>
    </sec>
    <sec id="sec-5">
      <title>Conclusion y trabajo futuro</title>
      <p>En este art culo hemos presentado el trabajo llevado a cabo hasta ahora para la tesis doctoral \Egitura
sintaktiko konplexuen identi kazioa eta sinpli kazioa euskararen tratamendu automatikoan" (Identi cacion y
simpli cacion de las estructuras sintacticas complejas en el procesamiento automatico del Euskera). Ademas de
haber estudiado los trabajos que se han hecho para otros idiomas, hemos desarrollado un sistema que predice
la complejidad de los textos (ErreXail), hemos implementado el modulo Mugak (splitting) y parte del modulo
DAR (reconstruction) y hemos estudiado 137 fenomenos lingu sticos, para los que se han propuesto reglas de
simpli cacion.</p>
      <p>En los proximos meses vamos a continuar profundizando el analisis las estructuras sintacticas que nos
quedan por formalizar (coordinadas, completivas, comparativas y consecutivas) y terminar la implementacion de los
modulos del sistema. As crearemos un corpus paralelo compuesto por textos simpli cados y sus respectivos
originales. Tambien tenemos la intencion de evaluar el sistema desde un punto de vista neorolingu stico. Finalmente,
una vez acabada la simpli cacion sintactica, procederemos a estudiar la simpli cacion lexica.</p>
    </sec>
    <sec id="sec-6">
      <title>Agradecimientos</title>
      <p>Esta tesis doctoral se lleva a cabo gracias a una beca predoctoral del Gobierno Vasco (BFI-2011-392).
[AAA+03]
[AAA+04a]
[AAA+04b]
[AAA+06]
[AAB+04]
[AAE+02]
Itziar Aduriz, Izaskun Aldezabal, In~aki Alegria, Jose Mari Arriola, Arantza D az de Ilarraza, Nerea
Ezeiza, and Koldo Gojenola. Finite State Applications for Basque. In EACL'2003 Workshop on
Finite-State Methods in Natural Language Processing., pages 3{11, 2003.</p>
      <p>Itziar Aduriz, Mar a Jesus Aranzabe, Jose Mari Arriola, Arantza D az de Ilarraza, Koldo Gojenola,
Maite Oronoz, and Larraitz Uria. A cascaded syntactic analyser for Basque. Computational
Linguistics and Intelligent Text Processing, pages 124{134, 2004.</p>
      <p>In~aki Alegria, Olatz Ansa, Xabier Artola, Nerea Ezeiza, Koldo Gojenola, and Ruben Urizar.
Representation and treatment of multiword expressions in Basque. In Proceedings of the Workshop
on Multiword Expressions: Integrating Processing, pages 48{55. Association for Computational
Linguistics, 2004.</p>
      <p>Itziar Aduriz, Mar a Jesus Aranzabe, Jose Mari Arriola, Aitziber Atutxa, Arantza D az de Ilarraza,
Nerea Ezeiza, Koldo Gojenola, Maite Oronoz, Aitor Soroa, and Ruben Urizar. Methodology and
steps towards the construction of EPEC, a corpus of written Basque tagged at morphological and
syntactic levels for automatic processing, volume 56, pages 1{15. Rodopi, 2006.</p>
      <p>In~aki Alegria, Olatz Arregi, Irene Balza, Nerea Ezeiza, Izaskun Fernandez, and Ruben Urizar.
Design and Development of a Named Entity Recognizer for an Agglutinative Language. In First
International Joint Conference on NLP (IJCNLP-04). Workshop on Named Entity Recognition,
2004.</p>
      <p>In~aki Alegria, Mar a Jesus Aranzabe, Aitzol Ezeiza, Nerea Ezeiza, and Ruben Urizar. Robustness
and customisation in an analyser/lemmatiser for Basque. In LREC-2002 Customizing knowledge
in NLP applications workshop, pages 1{6, Las Palmas de Gran Canaria, May 2002.</p>
      <p>Mar a Jesus Aranzabe, Arantza D az de Ilarraza, and Itziar Gonzalez-Dios. First Approach to
Automatic Text Simpli cation in Basque. In Luz Rello and Horacio Saggion, editors, Proceedings
of the Natural Language Processing for Improving Textual Accessibility (NLP4ITA) workshop
(LREC 2012), pages 1{8, 2012.</p>
      <p>Mar a Jesus Aranzabe, Arantza D az de Ilarraza, and Itziar Gonzalez-Dios. Transforming Complex
Sentences using Dependency Trees for Automatic Text Simpli cation in Basque. Procesamiento
de Lenguaje Natural, 50:61{68, 2013.</p>
      <p>Asier Alcazar. Towards linguistically searchable text. In Proceedings of BIDE Summer School of
Linguistics, 2005.</p>
      <p>Sandra M. Alu sio, Lucia Specia, Thiago A. S. Pardo, Erick G. Maziero, Helena M. Caseli, and
Renata P. M. Fortes. A corpus analysis of simple account texts and the proposal of simpli cation
strategies: rst steps towards text simpli cation systems. In Proceedings of the 26th annual ACM
international conference on Design of communication, SIGDOC '08, pages 15{22, New York, NY,
USA, 2008. ACM.</p>
      <p>Itziar Gonzalez-Dios. Euskarazko egitura sintaktikoen azterketa testuen sinpli kazio
automatikorako: Aposizioak, erlatibozko perpausak eta denborazko perpausak [Study of the Basque Syntactic
Structures for Automatic Text Simpl cation: Apposition, relative clauses and temporal clauses].
Master's thesis, University of the Basque Country (UPV/EHU), 2011.</p>
      <p>Itziar Gonzalez-Dios. Euskarazko testuak errazten: euskal testuen sinpli kazio automatikoa
[Making Basque Texts Easier: Automatic Simpli cation of Basque Texts]. In To appear in Buruxkak.</p>
      <p>UEU, 2014.
[GDADdI13] Itziar Gonzalez-Dios, Mar a Jesus Aranzabe, and Arantza D az de Ilarraza. Testuen sinpli kazio
automatikoa: arloaren egungo egoera [Automatic Text Simpli cation: State of Art]. Linguamatica,
5(2):43{63, Dezembro 2013.
[GDADdI14] Itziar Gonzalez-Dios, Mar a Jesus Aranzabe, and Arantza D az de Ilarraza. Making Biographical
Data in Wikipedia Readable: A pattern-based Multilingual Approach. In To appear in Proceedings
of Automatic Text Simpli cation - Methods and Applications in the Multilingual Society
(ATSMA). Workshop at Coling 2014, 2014.
[GDADdIS14] Itziar Gonzalez-Dios, Mar a Jesus Aranzabe, Arantza D az de Ilarraza, and Haritz Salaberri.</p>
      <p>Simple or Complex? Assessing the readability of Basque Texts. In To appear in Proceedings of
COLING 2014, 2014.
[GDAdIS13]
[Pla98]
[SAP08]
[Sha14]
[Sid06]</p>
      <p>Itziar Gonzalez-Dios, Mar a Jesus Aranzabe, Arantza D az de Ilarraza, and Ander Soraluze.
Detecting Apposition for Text Simpli cation in Basque. In Computational Linguistics and Intelligent
Text Processing, pages 513{524. Springer, 2013.</p>
      <p>John C. Platt. Fast Training of Support Vector Machines using Sequential Minimal
Optimization. In Bernhard Schalkopf, Christopher J. C Burges, and Alexander J. Smola, editors,
Advances in Kernel Methods-Support Vector Learning. MIT Press, 1998.</p>
      <p>Lucia Specia, Sandra M. Alu sio, and Thiago A.S. Pardo. Manual de Simpli cacao Sintatica para
o Portugu^es. Technical Report NILC-TR-08-06, Sao Carlos-SP., 2008.</p>
      <p>Matthew Shardlow. A Survey of Automated Text Simpli cation. International Journal of
Advanced Computer Science and Applications (IJACSA), Special Issue on Natural Language Processing,
pages 58{70, 2014.</p>
      <p>Advaith Siddharthan. Syntactic Simpli cation and Text Cohesion. Research on Language &amp;
Computation, 4(1):77{109, 2006.</p>
    </sec>
  </body>
  <back>
    <ref-list />
  </back>
</article>