<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta>
      <journal-title-group>
        <journal-title>Marta Recasens and Marta Vila. On Paraphrase and Coreference. Computational Linguistics</journal-title>
      </journal-title-group>
      <issn pub-type="ppub">1570-8268</issn>
    </journal-meta>
    <article-meta>
      <title-group>
        <article-title>Correferencias: resolución, discursos fragmentados y captura de eventos</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Lucía Cantamutto</string-name>
          <email>luciacantamutto@gmail.com</email>
          <xref ref-type="aff" rid="aff0">0</xref>
          <xref ref-type="aff" rid="aff1">1</xref>
          <xref ref-type="aff" rid="aff2">2</xref>
          <xref ref-type="aff" rid="aff3">3</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Copyright © by the paper's authors. Copying permitted only for private and academic purposes. In: L. Alfonso Ureña López, Jose Antonio Troyano Jiménez, Francisco Javier Ortega Rodríguez, Eugenio Martínez Cámara (eds.): Actas de las V Jornadas TIMM</institution>
          ,
          <addr-line>Cazalla de la Sierra, España, 12-JUN-2014, publicadas en</addr-line>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>Joseba Abaitua DELi - LinguaMedia Universidad de Deusto</institution>
        </aff>
        <aff id="aff2">
          <label>2</label>
          <institution>Josu Bermúdez DeustoTech-INTERNET Deusto Institute of Technology Universidad de Deusto David Buján JosuKa Díaz-Labrador DeustoTech-INTERNET DELi - LinguaMedia Deusto Institute of Technology Universidad de Deusto Universidad de Deusto</institution>
        </aff>
        <aff id="aff3">
          <label>3</label>
          <institution>Universidad Nacional del Sur Bahía Blanca</institution>
          ,
          <country country="AR">Argentina</country>
        </aff>
      </contrib-group>
      <pub-date>
        <year>2010</year>
      </pub-date>
      <volume>36</volume>
      <issue>4</issue>
      <fpage>11</fpage>
      <lpage>14</lpage>
      <abstract>
        <p>http://www.deli.deusto.es/ http://linguamedia.deusto.es/ http://www.morelab.deusto.es/labman/ Este resumen gira alrededor de la correferencia, concepto que motiva los proyectos doctorales de los dos primeros autores. Los objetivos son variados: Profundizar en el conocimiento de la correferencia en español, analizando además de corpus conocidos, un corpus experimental de textos breves (de mensajería y tuits) anotado manualmente; es el proyecto doctoral de Cantamutto [Cantamutto et al., 2014].</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>Resumen</title>
      <p>Se presenta el doble trabajo doctoral en marcha relacionado con la
resolución de correferencias: uno es la adaptación de los algoritmos
conocidos al español, y otro la aplicación a un corpus experimental
de textos breves (mensajería y tuits). Además de ello, se presenta una
hipotética alimentación de la resolución de correferencias a recursos
semánticos conocidos como la DBpedia, Linked Open Data, o Simple
Event Model. El objetivo sería capturar “eventos” a partir de textos:
estos eventos podrían convertirse en noticias en proyectos turísticos, o
en recursos específicos de índole cultural, histórico, antropológico…</p>
    </sec>
    <sec id="sec-2">
      <title>Introducción</title>
      <p>Adaptar y mejorar algoritmos como la multi-pass sieve [Raghunathan et al., 2010] y otras herramientas de
análisis al español, para obtener herramientas de recuperación de información o minería de datos como el
proyecto OpeNER de Agerri et al. [2013]; se trata del proyecto doctoral de Bermúdez [2013].
Aplicar y evaluar herramientas que incluyen la resolución de correferencias como OpeNER a la captura de
“eventos”, tal como son definidos en el Simple Event Model de van Hage et al. [2011]. Procesos similares ya
se han abordado de manera experimental en proyectos como tourExp [Buján et al., 2013], sobre aplicaciones
turísticas.</p>
      <p>La información resultante sería relevante para organizaciones de índole cultural, histórico, como EuskoMedia,
Wikipedia, topHistoria, etc.</p>
      <p>Finalmente, pero no menos importante, contribuimos a proyectos como DBpedia y Linked Open Data.</p>
    </sec>
    <sec id="sec-3">
      <title>Resolución de correferencias</title>
      <p>En el reconocimiento de entidades con nombre (antropónimos, organizaciones, topónimos políticos o físicos,
títulos, expresiones numéricas fecha-tiempo, y otras como medidas, direcciones de correo, direcciones web, etc.)
la correferencia y la anáfora son problemas conocidos [Hirst, 1981]. Sin embargo, hay ciertas diferencias.</p>
      <p>En la anáfora, los elementos anafóricos siempre dependen de un antecedente en el texto: su significado no
es pleno, requiere necesariamente de una mención anterior. La correferencia ocurre en el plano pragmático:
la relación depende del contexto comunicativo y situacional, ocurre entre dos unidades lingüísticas (plenas o
anafóricas) que se relacionan porque tienen una “identidad en la referencia” [Recasens and Vila, 2010], es decir,
el mismo referente en el discurso.</p>
      <p>Por tanto, la correferencia, a diferencia de la anáfora, no es una relación unidireccional y asimétrica, sino
simétrica y transitiva [Recasens, 2008]. La resolución de la anáfora es nombre-pronombre, mientras que la resolución
de la correferencia ha de obtener cadenas de elementos que tienen idéntico referente.
3.</p>
    </sec>
    <sec id="sec-4">
      <title>Captura de eventos</title>
      <p>La aplicación propuesta de la resolución de correferencias a la captura de eventos puede mostrarse con el
siguiente ejemplo desarrollado de forma manual a partir del pasaje de Besga Marroquín [2007] recogido en la
fig. 1.</p>
      <p>“Cuando el Imperio Romano de Occidente desapareció en el 476, el reino visigodo, que se extendía a los dos lados de los Pirineos, era el
reino germánico más grande. Pese a la fama que se ha dado a los visigodos como aliados de Roma, con ningún otro pueblo luchó tanto
tiempo el imperio en su último siglo de existencia en Occidente, ni ningún otro le arrebató tanto territorio. Así, en el 476 el reino visigodo,
con capital en Tolosa, se extendía desde el Loira hasta una zona indeterminada de la mitad meridional de la península ibérica (no se puede
precisar más porque se desconoce la cronología de la ocupación visigoda de gran parte de la Península). Nadie tenía entonces más territorios
en Francia y en la península ibérica. Además, uno de los grandes reyes visigodos, Eurico (466-484) aprovechó la desaparición del Imperio
Romano de Occidente para extender aún más sus dominios. Efectivamente el reino visigodo completó entonces la ocupación de toda la costa
mediterránea francesa, una vieja aspiración que había sido combatida por los romanos.”</p>
      <sec id="sec-4-1">
        <title>Figura 1: Texto original de Besga Marroquín [2007]</title>
        <p>El objetivo intermedio sería la identificación de entidades de la DBpedia, por ejemplo http://es.dbpedia.
org/page/Imperio_Romano_de_Occidente en el caso de la primera de las entidades de la fig. 4, y lo mismo con
todas las demás.</p>
        <p>1. Cuando el Imperio Romano de Occidente desapareció en el 476, el reino visigodo era el reino germánico más grande.
2. En el 476 el reino visigodo se extendía por Galia e Hispania a ambos lados de los Pirineos.
3. Pese a la fama de los visigodos como aliados de Roma, contra ningún otro pueblo luchó PRO tanto en su último siglo de dominio
en Occidente.
4. Nadie había arrebatado al Imperio tanto territorio como el pueblo visigodo.
5. El reino con capital en Tolosa se extendía desde el Loira hasta una zona indeterminada de la mitad meridional de la península ibérica.
6. El rey visigodo Eurico (466-484) aprovechó la desaparición del Imperio de Occidente para extender sus dominios.
7. Eurico completó la ocupación de toda la costa mediterránea francesa, una vieja aspiración que había sido combatida por Roma.</p>
      </sec>
      <sec id="sec-4-2">
        <title>Figura 2: Identificación de entidades y correferencias Con ello, podría enriquecerse el texto de la fig. 2 en la forma que se ve en la fig. 5, de manera que pudiera integrarse en proyectos como Linked Open Data o Simple Event Model, entre otros, y pudiera aprovecharse la información semántica en aplicaciones como las mencionadas.</title>
        <p>Correferencias: resolución, discursos fragmentados y captura de eventos</p>
      </sec>
      <sec id="sec-4-3">
        <title>Figura 3: Listado de entidades y correferencias</title>
        <p>M1 wiki-es:Imperio_Romano_de_Occidente
M2 wiki-es:476
M3 wiki-es:Reino_visigodo
M4 wiki-es:Reinos_germánicos
M5 wiki-es:Galia
M6 wiki-es:Hispania
M7 wiki-es:Pirineos
M8 wiki-es:Loira
M9 wiki-es:Península_Ibérica
M10 wiki-es:Eurico
M11 wiki-es:Costa_Azul_(Francia)</p>
        <p>Figura 4: Identificación de entidades de DBpedia
1. Cuando el M1 desapareció en el M2, el M3 era el M4 más grande.
2. En el M2 el M3 se extendía por M5 e M6 a ambos lados de los M7.
3. Pese a la fama de los M3 como aliados de M1, contra ningún otro pueblo luchó M1 tanto en su último siglo de dominio en M1.
4. Nadie había arrebatado al M1 tanto territorio como el M3.
5. El M3 se extendía desde el M8 hasta una zona indeterminada de la mitad meridional de la M9.
6. El rey visigodo M10 (466-484) aprovechó la desaparición del M1 para extender sus dominios.
7. M10 completó la ocupación de toda la M11, una vieja aspiración que había sido combatida por M1.</p>
      </sec>
      <sec id="sec-4-4">
        <title>Figura 5: Texto enriquecido con entidades</title>
        <p>Grahame Hirst. Anaphora in Natural Language Understanding. Springer Verlag, 1981.</p>
      </sec>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          <string-name>
            <given-names>Rodrigo</given-names>
            <surname>Agerri</surname>
          </string-name>
          , Montse Cuadros, Sean Gaines, and German Rigau.
          <source>OpeNER: Open Polarity Enhanced Named Entity Recognition. Procesamiento del Lenguaje Natural</source>
          ,
          <volume>51</volume>
          :
          <fpage>215</fpage>
          -
          <lpage>218</lpage>
          ,
          <year>2013</year>
          . ISSN 1135-
          <fpage>5948</fpage>
          . URL http://journal.sepln. org/sepln/ojs/ojs/index.php/pln/article/view/4891.
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          <string-name>
            <given-names>Josu</given-names>
            <surname>Bermúdez</surname>
          </string-name>
          .
          <article-title>Reconocimiento conjunto de entidades nombradas y de correferencia para mejorar el acceso a la información multilingüe</article-title>
          . Informe de seguimiento de tesis doctoral,
          <year>2013</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          <string-name>
            <given-names>Armando</given-names>
            <surname>Besga Marroquín</surname>
          </string-name>
          . La batalla de Vouillé.
          <source>Historia</source>
          <volume>16</volume>
          , (
          <volume>380</volume>
          ):
          <fpage>10</fpage>
          -
          <lpage>31</lpage>
          ,
          <year>2007</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          <string-name>
            <given-names>David</given-names>
            <surname>Buján</surname>
          </string-name>
          , David Martín,
          <string-name>
            <given-names>Ortzi</given-names>
            <surname>Torices</surname>
          </string-name>
          , Diego López-de Ipiña, Carlos Lamsfus, Joseba Abaitua, and
          <article-title>Aurkene AlzuaSorzabal. Context Management Platform for Tourism Applications</article-title>
          . Sensors,
          <volume>13</volume>
          (
          <issue>7</issue>
          ):
          <fpage>8060</fpage>
          -
          <lpage>8078</lpage>
          ,
          <year>June 2013</year>
          . ISSN 1424-
          <fpage>8220</fpage>
          . doi:
          <volume>10</volume>
          .3390/s130708060. URL http://www.mdpi.com/1424-8220/13/7/8060.
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          <string-name>
            <given-names>Lucía</given-names>
            <surname>Cantamutto</surname>
          </string-name>
          , Josu Bermúdez, Joseba Abaitua, Rodrigo Agerri, David Buján, and
          <string-name>
            <surname>Josuka</surname>
          </string-name>
          Díaz-Labrador.
          <article-title>Resolución de correferencias en discursos fragmentados para la captura de eventos</article-title>
          . In XLIII Simposio Internacional de la Sociedad Española de Lingüística. Resúmenes de las comunicaciones, pages
          <fpage>154</fpage>
          -
          <lpage>155</lpage>
          . Sociedad Española de Lingüística,
          <year>2014</year>
          . URL http://www.sel.edu.es/sites/default/files/Libro%20de%20res%C3%BAmenes%20definitvo%
          <fpage>20</fpage>
          %
          <fpage>2810</fpage>
          % 20enero%
          <fpage>29</fpage>
          .pdf.
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>