<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Introduction to the German Text Summarization Challenge </article-title>
      </title-group>
      <contrib-group>
        <aff id="aff0">
          <label>0</label>
          <institution>Dmitrii Aksenov</institution>
          ,
          <addr-line>Georg Rehm, Julian Moreno Schneider</addr-line>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>Valentin Venzin</institution>
          ,
          <addr-line>Jan Deriu, Didier Orel, Mark Cieliebak</addr-line>
        </aff>
      </contrib-group>
      <abstract>
        <p>With  the  rise  of  deep  learning,  automatic  text  summarization  has  made  promising  progress.  However,  it  is  still  an  unsolved  problem  and  an  open  research topic. At SwissText 2019 we  aimed  to  explore  ideas  and  solutions  regarding  summarization  of  German  texts.  For  that we  invited  participants  to  the  1st  German  Text  Summarization  Challenge.  The  results  were  presented at the conference.  With  this  challenge  we  created  a  basis  for  interesting discussions and hope to have taken the  NLP community for German text understanding a step further.  For  the  challenge,  we  provided  the  participants  with  100,000  texts  together  with  reference  summaries  extracted  from  the  German  Wikipedia.  The  aim  was  to  generate  abstractive  summarizations. In order to avoid steering the development towards certain metrics, we did not  release our evaluation metrics until the end of the challenge.  For  our  evaluation  we  adapted  the  English  ROUGE-package  to  the  German  language.  Specifically,  we  use  the  same  processing  with  German  stemming  and  stop  words  and  additionally  split  up  compound words. The resulting scores offer an estimate of the summary  quality.  However,  it  cannot  replace  human  judgment  and  must  not  be  viewed  as  precise  measurement.  ROUGE  does not adequately capture frequent abstractive summarization errors  such as word repetitions or false facts. For this reason, we did not rank the submissions. In the  following table are the scores of all participants.  Nikola Nikolov  Pascal Fecht  Shantipriya Parida, and Petr Motlicek (s2)      The following sections contain the descriptions submitted by the participants. They aim not to  represent scientific papers but are systems descriptions of the developed methods. </p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>Team 
ROUGE-1 
ROUGE-2 
40.16 
40.35 
34.66 
39.78 
40.89 
22.17 
21.86 
19.33 
23.41 
23.46 </p>
    </sec>
  </body>
  <back>
    <ref-list />
  </back>
</article>