=Paper= {{Paper |id=Vol-2633/paper1 |storemode=property |title= Desarrollo de la capacidad de resumen y procesamiento de los resúmenes de textos escolares (Development of the capacity of summarization and scholars’ texts summaries processing) |pdfUrl=https://ceur-ws.org/Vol-2633/paper1.pdf |volume=Vol-2633 |authors=Unai Atutxa }} == Desarrollo de la capacidad de resumen y procesamiento de los resúmenes de textos escolares (Development of the capacity of summarization and scholars’ texts summaries processing) == https://ceur-ws.org/Vol-2633/paper1.pdf
   Desarrollo de la capacidad de resumen y procesamiento de los
                    resúmenes de textos escolares

Development of the capacity of summarization and scholars’ texts summaries
                                 processing
                                            Unai Atutxa
                         Euskal Herriko Unibertsitatea (UPV/EHU) Ixa Taldea
                                       atutxaunai@gmail.com


       Resumen: El resumen tiene como base la comprensión, de ahí la importancia que tiene
       en la educación. El alumno o alumna en la escuela tiene que ser capaz de entender lo que
       lee, oye o ve; para después expresar lo entendido a su modo resumiendo y jerarquizando
       el contenido. Nuestro objetivo en la tesis es la de estudiar la capacidad de resumir de los
       alumnos y alumnas e incidir en ella. Para conseguirlo emplearemos técnicas de
       Procesamiento del Lenguaje Natural desde el punto de vista textual y discursivo. El
       acercamiento teórico es la Rhetorical Structure Theory (RST), válido también para
       generar y evaluar resúmenes automáticamente. Las etapas en las que investigaremos la
       capacidad de resumir de los alumnos y alumnas serán desde la Educación Primaria hasta
       la universidad, de este modo, queremos identificar las necesidades que tienen en etapas
       diferentes cuando tratan de elaborar un resumen; y así poder ofrecer recursos didácticos y
       una metodología o recursos para responder a dichas necesidades.
       Palabras clave: Resumen automático, evaluación, educación, análisis discursivo

       Abstract: Summarization is closely related to comprehension, this makes summarization
       very important in education. Students have to be capable of understanding what they are
       reading, seeing or listening; to understand, link and underline the most important ideas
       into words. Our main aim in this PhD is to analyse the summarizing skills of the student
       and provide them resources to develop these skills. To do so, we are going to use Natural
       Language Processing Techniques and Rhetorical Structure Theory (RST), which is useful
       to create and evaluate summaries automatically. The target of this study goes from
       Primary Education to university, in this way, we want to identify the needs that they have
       on these stages when they summarize a text; and in this way, we will have the opportunity
       to offer educational resources and a sound methodology to answer those needs we detect.
       Keywords: automatic summarization, evaluation, education, discourse analysis


                                                               mediante sus palabras (o imágenes) deberá dar
1 Justificacion de la investigación                            a conocer lo más importante de todo lo que ha
propuesta                                                      entendido. Resumir un texto es un proceso en el
                                                               que se han de extraer las ideas más relevantes,
En el entorno educativo, la tarea de resumir                   mantener la coherencia entre dichas ideas en un
textos es de gran importancia ya que refleja la                espacio más reducido al del texto original. Sin
capacidad de síntesis y de comprensión de la                   embargo, la información que los alumnos
información de quien realiza el resumen. Hoy                   toman por relevante no siempre concuerda con
en día, el alumno o la alumna puede tener entre                la información más importante del texto.
manos una gran cantidad de información, sin                        Nuestra intención en la tesis es estudiar la
embargo, eso no garantiza que entienda y que                   competencia de resumir y proponer métodos
interiorice toda esa información. Antes de nada,               para su evaluación. Para ello, tiene especial
el alumno o la alumna tiene que ser capaz de                   importancia trabajar a nivel textual y del
entender lo que lee, oye o lo que ve; y después,               discurso; ya que interviniendo a nivel
Lloret, E.; Saquete, E.; Martı́nez-Barco, P.; Sepúlveda-Torres, R. (eds.) Proceedings of the Doctoral Symposium of the
XXXV International Conference of the Spanish Society for Natural Language Processing (SEPLN 2019), p. 1–6 Bilbao,
Spain, September 25th 2019. Copyright c 2019 his paper by its authors. Use permitted under Creative Commons
License Attribution 4.0 International (CC BY 4.0).
discursivo seremos capaces de entender cómo              2    Origen y trabajo relacionado
entienden y jerarquizan la información los
alumnos y alumnas.                                       Algunos investigadores han analizado la
    Suele ser habitual no trabajar el resumen en         aportación que le supone la estructura
la escuela por falta de tiempo para su corrección        discursiva al resumen automático, por ejemplo,
o por falta de herramientas que ayuden en tareas         Wang et al. (2015) y Cohan y Goharian (2017)
de evaluación. Si nos detenemos a observar el            utilizaron la estructura discursiva para resumir
material escolar, por ejemplo, en nuestro                textos. Por otra parte, Bosma (2008),
entorno, en el País Vasco, nos damos cuenta              Chencheng (2010), y Cardoso et al. (2015,
que en euskera, el resumen de abstracción se             2011) trabajaron el resumen basándose en RST.
trabaja poco en general. En consecuencia,                Además, es reseñable que también se hayan
competencias tan fundamentales como los                  empleado para el resumen de textos técnicas de
relacionados con la gramática, la progresión             las redes neuronales (Sarda y Kulkarni 2015).
temática, la conexión, la cohesión y la                      En palabras de Molina (2013), la generación
coherencia no se adquieren adecuadamente.                automática de resúmenes es una tarea
    En el Decreto educativo 236/2015 de la               desafiante. Al clasificar tipos de resúmenes,
Comunidad Autónoma del País Vasco, al                    diferencia dos tipos de resúmenes según la
desglosar las competencias transversales y               metodología empleada: la extracción y la
disciplinares, podemos darnos cuenta que el              abstracción. El resumen por extracción ha sido
resumen debe tener un papel fundamental a la             el más desarrollado dada la dificultad de
hora de desarrollar tanto las competencias               resumir por abstracción, ya que a la tarea de
transversales como las disciplinares.                    tener que identificar las ideas principales se le
    Para poder avanzar en el desarrollo de la            suma la de hacerlo mediante frases escritas de
competencia del resumen en la escuela,                   diferente manera. Según Molina, la compresión
consideramos que es necesario desarrollar                de frases establece un puente entre ambas
herramientas que usen tecnologías del                    familias. Presenta una investigación sobre la
procesamiento del lenguaje natural (PLN).                compresión de frases y propone un modelo
Pensamos que si se desarrolla un resumidor               lineal que es aplicable al resumen.
automático para el euskera (usando técnicas                  Además, apreciamos que hay diversos
superficiales) y la evaluación automática de los         trabajos en el ámbito del resumen automático.
resúmenes, nos brindará un contexto adecuado             Vivaldi et al. (2010) presentan un un nuevo
para poder estudiar las necesidades que tienen           algoritmo para el resumen automático de textos
profesorado como alumnado (de primaria,                  especializados     que      combinan    recursos
secundaria y universidad). Para ello, en esta            terminológicos y semánticos: un extractor de
tesis utilizaremos técnicas del Procesamiento            términos y una ontología. El extractor de
del Lenguaje y partiremos desde la Teoría de la          términos proporciona la lista de los términos
Estructura Retórica o Rhetorical Structure               que están presentes en el texto junto con su
Theory (RST) (Mann y Thompson, 1987). La                 término correspondiente. La ontología se utiliza
RST es una teoría que nos permite describir la           para calcular la similitud semántica entre los
coherencia       entre    fragmentos     textuales       términos encontrados en el cuerpo del texto y
combinando la idea de nuclearidad, o                     los que se encuentran en el título del
importancia de un fragmento del discurso, con            documento. Las frases con la puntuación más
la identificación de las relaciones retóricas que        alta se eligen para formar parte del resumen
unen los fragmentos del texto.                           final.
    Con esta teoría se han descrito las relaciones           A su vez, Barberi et al. (2015) describen la
retóricas de diversas lenguas, entre ellas el            demostración de una serie de aplicaciones de
euskera (Iruskieta et al,. 2013). Además, se ha          resumen automático y extracción de
empleado en diferentes tareas en el                      informaciones integradas en una tableta. En este
Procesamiento del Lenguaje (Taboada y Mann,              trabajo presentan funcionalidades para resumir
2006) y también en la generación de                      las noticias publicadas en la Web, extraer
analizadores que describen automáticamente la            información sobre eventos y resumir textos que
estructura discursiva; el analizador CODRA               desee el usuario tanto en español como en
(Joty et al., 2015) es ejemplo de ello.                  inglés.
                                                             Pero, no solo se trata de la generación de
                                                         resúmenes automáticos, también es importante

                                                     2
su evaluación. Zipitria (2008) analiza la toma           alumna textos o actividades que estén un poco
de decisiones en la evaluación de resúmenes en           más allá de su nivel actual de competencia
un marco computacional. Llevó a cabo un                  lingüística, tal y como propone Krashen (1985)
estudio empírico para analizar las decisiones            en su teoría de la adquisición del segundo
que subyacen en el comportamiento humano a               idioma.
la hora de clasificar resúmenes.
    En cuanto a la evaluación de los resúmenes,          3.2   Construir un corpus adecuado
otro trabajo de Zipitria et al. (2013), aborda el
                                                         La metodología que vamos a proponer estará
tema de la obtención automática de
                                                         basada en datos, y se utilizarán técnicas de
puntuaciones de discurso general a partir de
                                                         PLN; por lo tanto, tendremos que elaborar un
medidas de discurso de superficie para el
                                                         corpus adecuado para ello. Utilizaremos textos
euskera.
                                                         que usan los alumnos y las alumnas en la
    Por otro lado, Saggion eta al (2010) estudian
                                                         escuela. A partir de esos textos, reuniremos
la correlación de las clasificaciones de los
                                                         modelos elaborados por personas expertas y
sistemas de resumen de texto utilizando
                                                         resúmenes generados por los alumnos. Es de
métodos de evaluación con y sin modelos
humanos.                                                 mencionar que a día de hoy tenemos un acuerdo
                                                         con la Confederación de escuelas Euskal
    Como hemos dicho previamente, nos
                                                         Herriko        Ikastolen        Elkartea      (
basaremos en la estructura discursiva para
                                                         https://www.ikastola.eus/) . Gracias a ello
poder llevar a cabo esta tesis. Para ello, nuestra
                                                         podemos trabajar con textos que se emplean en
base será RST. Además de utilizarlo para
segmentar los textos y determinar la estructura          las escuelas y obtener resúmenes reales en
                                                         contexto escolar elaborados a partir de esos
jerárquica, será uno de los ejes que
                                                         textos.
emplearemos para evaluar los resúmenes.
                                                             I) Textos que se deberán resumir: como
                                                         nuestro objetivo es recolectar resúmenes
3    Descripción de la investigación
                                                         elaborados por los alumnos y las alumnas,
Nuestro objetivo es desarrollar la competencia           utilizaremos textos que se empleen en el
de resumir de los alumnos, para poder incidir en         proceso de aprendizaje. Utilizaremos textos de
ella, y a la vez, proponer recursos didácticos y         Educación Primaria, Secundaria y de la
metodología basados en el Procesamiento del              universidad. Trabajaremos con distintos
Lenguaje; y cuya finalidad sea posibilitar el            géneros de textos, ya que cualquier texto
desarrollo de dicha competencia en las                   producido de un estudiante y su evaluación
diferentes etapas del proceso de aprendizaje. Es         están condicionados por el género textual. II)
por ello que en esta tesis intentaremos                  Gold Standard: una vez tomada la decisión de
responder a las necesidades teóricas y                   cuáles serán los textos a resumir, crearemos su
metodológicas que pueda haber en las                     Gold Standard. Serán resúmenes realizados por
diferentes etapas. Para ello, hemos establecido          expertos: de extracción y abstracción. Los Gold
unos objetivos más concretos, debemos tener en           Standard tendrán dos funciones principales. Por
cuenta que dichos objetivos no son secuenciales          una parte los utilizaremos para compararlos con
y se alimentarán unos a otros:                           los resúmenes de los alumnos; por otra parte,
                                                         los emplearemos para que la herramienta tenga
3.1 Proponer una metodología y                           con que comparar los resúmenes realizados por
recursos didacticos para el resumen                      los alumnos y así poder ofrecer una generación
                                                         y evaluación automática.
La metodología deberá de tener como eje una                  II) Gold Standard: una vez tomada la
perspectiva transdisciplinar o global y, a la vez,       decisión de cuáles serán los textos a resumir,
deberá permitir un aprendizaje cooperativo.              crearemos su Gold Standard. Serán resúmenes
   Trabajaremos sobre todo con textos en                 realizados por expertos: de extracción y
euskera, y una vez hayamos desarrollado la               abstracción. Los Gold Standard tendrán dos
metodología, investigaremos la capacidad de              funciones principales. Por una parte los
los alumnos en otras lenguas y si los resultados         utilizaremos para compararlos con los
son comparables.                                         resúmenes de los alumnos; por otra parte, los
   A la hora de proponer recursos didácticos             emplearemos para que la herramienta tenga con
(unidades didácticas o actividades), será de             que comparar los resúmenes realizados por los
suma importancia poder ofrecer al alumno o

                                                     3
alumnos y así poder ofrecer una generación y             3.5 Diseñar el feedback para los
evaluación automática.                                   alumnos, alumnas, profesores y
   III) Resúmenes de los alumnos y alumnas:              profesoras
para finalizar, reuniremos los resúmenes de los
alumnos y alumnas. Hasta la fecha hemos                  Después de haber evaluado los resúmenes con
obtenido 1121 resúmenes (685 de alumnos                  distintas técnicas, nuestro objetivo será
universitarios y 436 de alumnos de primaria) de          proporcionar un feedback automático del
los cuales 1067 se reunieron digitalmente                resumen realizado por el alumnado; y a la vez,
mediante COMPRESS-EUS (Atutxa et al.,                    proporcionarle al profesorado un feedback
2017).                                                   añadido para que tengan la opción de interpretar
                                                         lo mejor posible el resumen realizado por el
3.3 Crear criterios de evaluación para                   alumnado, de forma individual o colectiva.
evaluar los resúmenes
                                                         3.6 Desarrollar una herramienta para
Para evaluar los resúmenes propondremos                  reunir resúmenes
criterios de evaluación. Dichos criterios, por
una parte, serán significativos para la                  Crear una interfaz que nos dé la opción de
evaluación que llevará a cabo el profesor o              reunir resúmenes (extracción y abstracción)
profesora; y por otra parte, serán diseñados para        elaborados por los alumnos y alumnas. Para eso
poder aplicar con ellos técnicas de                      elaboramos y mejoramos la herramienta
Procesamiento del Lenguaje. Utilizaremos                 COMPRESS-EUS. Esta herramienta, nos
técnicas superficiales desde las bolsas de               facilitará evaluar los resúmenes teniendo en
palabras hasta las discursivas.                          cuenta su estructura discursiva, dándonos la
                                                         mayor información posible de manera
3.4 La evaluación de los alumnos y                       automática. Además, nos da la opción de saber
alumnas                                                  la opinión del usuario.

    I) Evaluación automática: A parte de las             3.7   Difusión del trabajo realizado
técnicas estándar ROUGE y BLEU que se
emplean para la evaluación de los resúmenes,             Para finalizar, dejaremos los resultados más
propondremos y utilizaremos otras técnicas               significativos en manos de la comunidad
basadas en el discurso para evaluar el corpus            educativa y documentamos todo el trabajo
recogido. En este momento evaluamos los                  realizado de manera sistemática, para que sea
resúmenes mediante ROUGE y BLEU y                        beneficioso para otros investigadores o usuarios
nuestro siguiente paso será evaluar la fiabilidad        de ámbito internacional.
de dichas evaluaciones y examinar qué
podemos implementar para mejorarlas.                     4 Cuestiones especififas de
    II) Evaluación humana: evaluaremos los               investigación
resúmenes de los alumnos y alumnas con los               Las principales cuestiones de investigación a las
criterios      de     evaluación      establecidos       que pretendemos responder con esta tesis son
previamente.                                             las siguientes:
    III) Comparación entre la evaluación                      ● Nuestra investigación tendrá como base
automática y la humana: evaluaremos la                            el nivel discursivo. ¿Qué otros aspectos
fiabilidad de la evaluación automática y nos                      o niveles del lenguaje se deben
dará pie a saber en qué aspectos debemos
                                                                  armonizar junto al discurso para
alimentarla. La herramienta COMPRESS-EUS
                                                                  conseguir un resumen o una evaluación
estará amoldada a los criterios de evaluación
que      hayamos      establecido    previamente.                 automática que sea lo más completa
COMPRESS-EUS está disponible para quien                           posible? ¿Cómo se puede llevar a cabo
quiera utilizarlo en la siguiente página web:                     esa armonización de niveles diferentes
http://ixa2.si.ehu.es/compress-eus/.                              del lenguaje?
                                                              ● ¿Cómo podemos comparar dos
                                                                  abstracciones descritas mediante RST?
                                                                  ¿Qué técnicas o métodos se pueden
                                                                  emplear para poder equiparar el


                                                     4
    contenido de una posposición, que              Bibliografía
    después nos permita comparar textos
                                                   Atutxa, U; Iruskieta, Mikel; Ansa, O; Molina,
    descritos mediante RST?                           A. 2017. COMPRESS-EUS: I(ra)kasleen
●   La evaluación en el resumen de texto              laburpenak lortzeko tresna. EUDIA:
    puede ser extrínseca o intrínseca. En             Euskararen bariazioa eta bariazioaren
    una evaluación extrínseca, los                    irakaskuntza-III. 87-98.
    resúmenes se evalúan en el contexto de
                                                   Barbieri, F., Ronzano, F., & Saggion, H. (2015).
    una tarea específica que debe realizar
                                                      Summarization and Information Extraction
    un ser humano o una máquina. En una               in your Tablet. Procesamiento del Lenguaje
    evaluación intrínseca, los resúmenes se           Natural, (55)
    evalúan en referencia a algún modelo
    ideal, en nuestro caso el Gold Standard.       Bosma, Wauter E. (2008). Discourse oriented
    ¿Qué información obtendremos de cada             summarization. Enschede: University of
    una de las evaluaciones? ¿Es posible             Twente Thesis Typ
    que cada tipo de evaluación ayude a            Cardoso, P. C., Jorge, M. L. D. R. C., & Pardo,
    obtener cierta información y que eso              T. A. S. (2015). Exploring the Rhetorical
    nos posibilite ofrecer un feedback más            Structure Theory for multi-document
    completo?                                         summarization. In Congreso de la Sociedad
●   El resumen requiere de compresión y               Española para el Procesamiento del
    jerarquización, y factores como la                Lenguaje Natural, XXXI. Sociedad Española
                                                      para el Procesamiento del Lenguaje Natural-
    utilización de imágenes afectan de
                                                      SEPLN.
    manera directa a los dos componentes.
    ¿Qué factores debemos tener en cuenta               Cardoso, P. C., Maziero, E. G., Jorge, M. L.,
    a la hora de potenciar la comprensión y                 Seno, E. M., Di Felippo, A., Rino, L. H.,
    la jerarquización? ¿Cómo debemos                    ... & Pardo, T. A.(2011,October).CSTnews-
    adaptar los factores a cada etapa de                a discourse-annotated corpus for single and
    aprendizaje? ¿Qué efecto causan en                  multi-document summarization of news
                                                        texts    in   Brazilian    Portuguese.     In
    cada una de ellas?
                                                        Proceedings of the 3rd RST Brazilian
●   A la hora de proporcionales el feedback             Meeting (pp. 88-105).
    a los alumnos, debemos ofrecer
    actividades o unidades didácticas que          Chengcheng, Li. (2010). Automatic text
    estén un poco más allá del nivel actual          summarization based on Rhetorical Structure
    de su competencia lingüística. ¿Cómo             Theory. Proceedings of International
                                                     Conference on Computer Application and
    podemos saber el nivel actual de cada
                                                     System Modeling (ICCASM 2010). (pp.
    alumno utilizando técnicas de PLN?
                                                     V13-595-598).
    ¿Cómo podremos ofrecer a cada                       Taiyuan, China
    alumno o alumna automáticamente
    recursos didácticos que estén un poco          Cohan, A., & Goharian, N. (2017). Scientific
    más allá del nivel actual de su                  article summarization using citation-context
    competencia lingüística?                         and article's discourse structure. arXiv
                                                     preprint arXiv:1704.06619.
●   Qué influencia puede llegar a tener un
    generador de resúmenes automáticos en               Iruskieta, M., Aranzabe, M. J., de Ilarraza,
    un aula? ¿Cómo le puede beneficiar al          A.
    alumno o al profesor la obtención                      D., Gonzalez, I., Lersundi, M., & de
    automática de un resumen? ¿Qué                      Lacalle, O. L. (2013). The RST Basque
    características tendrá que tener un                 TreeBank: an online search interface to
                                                        check rhetorical relations. In 4th workshop
    generador de resúmenes automático,
                                                        RST and discourse studies (pp. 40-49).
    para que contribuya lo máximo posible
    al desarrollo de la capacidad de               Mann, W. C. Thompson, S. A. 1987. Rhetorical
    resumir?                                         structure theory: A theory of text



                                               5
   organization (pp. 87-190). University of
   Southern California, Information Sciences
      Institute.
Molina, A. (2013). Compresión automática de
  frases: un estudio hacia la generación de
  resúmenes en español. Inteligencia
      Artificial, 16(51), 41-62.
Saggion, H., Torres-Moreno, J. M., Cunha, I.
   D., & SanJuan, E. (2010, August).
   Multilingual summarization evaluation
   without human models. In Proceedings of
   the 23rd International Conference on
   Computational Linguistics: Posters (pp.
   1059-1067). Association for Computational
   Linguistics.
Sarda, A., & Kulkarni, A. (2015). Text
   summarization using neural network and
   rhetorical structure theory. International
      Journal of Advanced Research in
   Computer and           Communication
        Engineering, 4(6),
      49-52.
Shafiq Joty, Giuseppe Carenini, and Raymond
   Ng. 2015. CODRA: A Novel Discriminative
   Framework for Rhetorical Analysis.
   Computational Linguistics, Volume 41:3,
   MIT Press.
Wang, X., Yoshida, Y., Hirao, T., Sudoh, K., &
  Nagata, M. (2015). Summarization based on
  task oriented discourse parsing. IEEE
      Transactions     on       Audio, Speech,
       and
      Language Processing, 23(8), 1358-1367.
Zipitria, I. Arruarte, A. Elorriaga, J. 2013.
   Discourse measures for Basque summary
   grading. Interactive Learning Environments,
   21(6), 528-547.
Zipitria, I., Larrañaga, P., Armañanzas, R.,
   Arruarte, A., & Elorriaga, J. A. (2008). What
   is behind a summary-evaluation decision?.
   Behavior Research
       Methods, 40(2), 597-612




                                                   6