La Dificultad de la Etiquetación de Desinformación: Un Caso de
                         Estudio para Búsquedas Relacionadas con el Gas Radón

                         The Difficulty of Misinformation Labelling: A Case Study for
                         Radon Gas-Related Searches
                         Noel Pascual-Presa1, Marcos Fernández-Pichel2, David Enrique Losada2, Berta García-Orosa1,
                         Paula Martínez-Graña1, Lucía Ortigueira-Piñeiro1
                         1
                           Departamento de Ciencias da Comunicación, Universidad de Santiago de Compostela, 15782, Santiago de
                         Compostela, España
                         2
                           Centro Singular de Investigación en Tecnoloxías Intelixentes (CiTIUS), Universidade de Santiago de Compostela,
                         15782, Santiago de Compostela, España

                         Resumen
                         La creación de colecciones etiquetadas relacionadas con la desinformación es un aspecto crucial para
                         impulsar el desarrollo de tecnologías automáticas que filtren contenidos nocivos. Esto es particularmente
                         importante en riesgos relacionados con la salud. Sin embargo, la asignación de etiquetas de calidad (por
                         ejemplo, correctitud o credibilidad) a los textos es algo que debe realizarse de manera rigurosa. En este
                         artículo describimos nuestros esfuerzos para crear una colección de pasajes etiquetados en referencia a su
                         relevancia y calidad para búsquedas relacionadas con los riegos para la salud del gas radón. Además de
                         ilustrar las dificultades encontradas en un proyecto de etiquetación de esta índole, con este trabajo
                         contribuimos mediante la puesta a disposición de la comunidad científica de un nuevo recurso anotado, que
                         puede ser explotado en el futuro para impulsar aprendizaje supervisado en este ámbito.

                         Palabras clave
                         Búsqueda Web, Desinformación, Gas Radón, Etiquetación

                         Abstract
                         The creation of labelled collections related to misinformation is a crucial aspect in the development of
                         automatic technologies that filter harmful content. This is particularly important for health-related risks.
                         However, assigning quality labels (e.g., correctness or credibility) to texts needs to be done rigorously. In
                         this article, we describe our endeavours to build a collection of labelled passages, with relevance and quality
                         annotations, for search tasks related to the risks of radon gas. In addition to illustrating the difficulties
                         encountered in a labelling project of this kind, our contribution with this work is to provide the scientific
                         community with a new annotated resource that can be used in the future to support supervised learning in
                         this area.

                         Keywords 1

                         11
                           SEPLN-2024: 40th Conference of the Spanish Society for Natural
                           Language Processing. Valladolid, Spain. 24-27 September
                           2024.
                         EMAIL:        noel.pascual.presa@usc.es        (N.Pascual-Presa);
                         marcosfernandez.pichel@usc.es              (M.Fernández-Pichel);
                         david.losada@usc.es      (D.E.Losada);        berta.garcia@usc.es
                         (B.García-Orosa); paula.martinez.grana@gmail.com (P.Martínez-
                         Graña) lucia.ortigueira@rai.usc.es (L.Ortigueira-Piñeiro)

                         ORCID: 0009-0002-9091-7631 (N.Pascual-Presa); 0000-0002-
                         6560-9832 (M. Fernández-Pichel); 0000-0001-8823-7501 (D.E.
                         Losada) 0000-0001-6126-7401 (B.García-Orosa); 0000-0003-
                         0769-4159        (P.Martínez-Graña);   0009-0007-6415-6337
                         (L.Ortigueira-Piñeiro)
                                    ©️ 2020 Copyright for this paper by its authors. Use permitted under
                                    Creative Commons License Attribution 4.0 International (CC BY 4.0).
                                    CEUR Workshop Proceedings (CEUR-WS.org)

CEUR
                  ceur-ws.org
Workshop      ISSN 1613-0073
Proceedings
Web Search, Misinformation, Radon Gas, Labelling.
                                                    criterios de clasificación minuciosos y detallados.
1. Introducción                                     Esta investigación nace con el objetivo de generar
                                                    un recurso sólido, transparente y robusto con miles
                                                    de páginas webs que pueda ser utilizado para otros
Internet se ha convertido en un valioso recurso     estudios en diferentes ámbitos como las Ciencias de
que ha reconfigurado la manera en la que las        la Computación o la Comunicación. Además, se
personas accedemos y comprendemos la                busca ofrecer nuevas pautas y criterios que permitan
información [1]. Hoy en día los recursos en         establecer un juicio sólido para el análisis de la
línea son la fuente principal para la consulta de   calidad de la información relacionada con la salud.
información relacionada con la salud [2]. Esto          Para ello, este estudio ha sido llevado a cabo por
otorga a los buscadores web una gran                un equipo interdisciplinar, compuesto por
responsabilidad y peso en el acceso a               investigadores del campo de la ingeniería
información sobre este tema [3]. Por ejemplo,       informática, comunicación y periodismo, partiendo
los resultados de una búsqueda relacionada con      de la necesidad de incorporar distintas técnicas de
la salud pueden motivar cambios en los              investigación y así poder desarrollar un método que
comportamientos de las personas frente a una        permita analizar grandes volúmenes de información
determinada amenaza sanitaria [4]. A su vez,        relacionada con la salud en Internet. En esta
este acceso a grandes volúmenes de datos que        ocasión, se ha optado por basar la investigación en
está al alcance de una gran parte de la población   un estudio de caso sobre la información relacionada
mundial trae consigo una serie de riesgos [5].      con los riesgos para la salud del gas radón que, por
La cantidad de información falsa y                  las características de este riesgo, lo hace idóneo para
desinformación aumenta constantemente [6] y         esta ocasión.
esto supone una grave amenaza y peligro para la         La contribución de este estudio es, por tanto,
población, especialmente, cuando se trata de
                                                    dual:
información relacionada con la salud. La
                                                        •    Por una parte, se definen y evalúan una serie
información falsa en línea no solo afecta a la
                                                        de criterios para el etiquetado de desinformación
confianza que deposita el usuario en las
                                                        web relacionada con la salud, en concreto, sobre
evidencias científicas, sino que también puede
                                                        el gas radón.
motivar decisiones de salud perjudiciales o
                                                        •    Por otra parte, se crea un recurso etiquetado
contraproducentes para los ciudadanos [7]. Es
                                                        que puede ser utilizado por otros grupos de
por ello por lo que es necesario realizar nuevos
                                                        investigación. Se trata de un corpus de páginas
esfuerzos de investigación que busquen
                                                        web anotadas en términos de su relevancia y
construir entornos en línea de confianza y
                                                        calidad que figuran como resultados de
seguros, disminuyendo la cantidad de
                                                        búsqueda para consultas relacionadas con los
información falsa o desinformación [8].
                                                        riesgos del gas radón. Por tanto, este valioso
    Uno de los principales problemas a los que
                                                        recurso de etiquetado lo ponemos a disposición
nos enfrentamos en este campo es la gran
                                                        de la comunidad científica previa solicitud a los
cantidad de datos disponibles y la dificultad de
                                                        autores en caso de que el artículo sea aceptado.
distinguir la información veraz de la
desinformación [9]. En este aspecto, los
algoritmos de recuperación y clasificación de       2. Trabajo relacionado
información son una herramienta muy útil para
tratar de contrarrestar este problema. Estos        La creación de recursos etiquetados es la base para
algoritmos son capaces de recuperar y detectar      el desarrollo de algoritmos supervisados en el
desinformación, pero, por lo general, ven           ámbito del Procesamiento del Lenguaje Natural
afectado su rendimiento y precisión por calidad     (PLN). Normalmente, la creación de estos recursos
de los datos de entrenamiento y prueba              implica la intervención de asesores humanos, lo que
proporcionados [10]. Generar conjuntos de           añade un componente de subjetividad que puede
datos valiosos y de calidad para entrenar estos     llevar a desacuerdos y a una etiquetación
modelos, suele ser un proceso costoso y             inadecuada [11]. Para paliar este efecto, la creación
complejo, que habitualmente requiere la             de recursos etiquetados suele basarse en la
participación de asesores humanos y unos            definición de una serie de guías o criterios que los
etiquetadores deben seguir. Esta es la principal             uranio presente en suelo y rocas. La exposición a
técnica de creación de conjuntos "golden truth"              este gas está considerada como la primera causa de
utilizada en campos como el PLN o la                         cáncer de pulmón en no fumadores y la segunda
Recuperación de la Información (RI) e                        causa en fumadores [15]. La relevancia de este
implementada regularmente en prestigiosas                    riesgo no solo radica en los graves efectos
conferencias que liberan recursos textuales                  demostrados en la salud de las personas, sino
como la Text Retrieval Conference (TREC) o la                también en su persistencia a lo largo del tiempo, que
propia conferencia de la Sociedad Española para              lo convierte en un riesgo atemporal. Esto nos
el Procesamiento del Lenguaje Natural                        permite un análisis ajeno a posibles crisis puntuales,
(SEPLN).                                                     como puede pasar con otros riesgos para la salud.
    Sin embargo, estudios previos han                            Una de las principales características de este gas
demostrado que algunos procesos de anotación                 radica en que está presente por todo el planeta. A
carecen de la rigurosidad necesaria para realizar            pesar de ello, no todos los países se ven afectados
una asignación objetiva de las etiquetas. Por                de la misma forma por el radón, ya que sus niveles
ejemplo, algunas investigaciones previas                     de presencia dependen mayoritariamente de la
centraron sus esfuerzos en definir una serie de              composición geológica del suelo. Otro factor que
guías capaces de generar un etiquetado robusto               incrementa los riesgos del radón es su naturaleza
y objetivo [12]. En Fernández-Pichel et al [10],             insípida, incolora, e inodora, lo que lo convierte en
los autores demostraron la inconsistencia de los             indetectable para las personas a no ser que se
juicios de credibilidad generados siguiendo las              realicen pruebas específicas [16]. Tanto la
recomendaciones oficiales de la tarea "Health                Organización Mundial de la Salud (OMS) como la
Misinformation Track" dentro de TREC. Como                   Unión Europea han enfatizado en numerosas
alternativa, propusieron una serie de guías que              ocasiones la importancia de la verificación de la
mejoraban el acuerdo entre asesores y producían              información sobre el radón y sus riesgos para la
un etiquetado robusto de la dimensión de la                  salud pública.
credibilidad de la información. Otros autores                    En esta ocasión, para la creación de una
[13] también propusieron una serie de guías para             colección de pasajes web sobre el radón, en primer
la generación de recursos etiquetados destinados             lugar, se han seleccionado 51 consultas relacionadas
al entrenamiento de algoritmos para la detección             con los riesgos para la salud del radón. Estas
de desinformación médica. Por otra parte, en                 consultas textuales han de ser representativas del
otras investigaciones [14] se definieron una                 tipo de consulta que un usuario convencional
serie de indicadores de la credibilidad de                   realizaría a un motor de búsqueda web. Para otorgar
artículos, que incluían indicadores complejos                este realismo al recurso generado, se ha optado por
como falacias lógicas o el tono del discurso.                utilizar búsquedas de información reales sobre los
    En este estudio, la contribución es dual: por            riesgos del radón. Para ello, todas las consultas
una parte, se continúa con la línea abierta por              seleccionadas se han obtenido de dos fuentes: i) los
investigaciones previas y se definen una serie de            "query logs" de la TREC Million Query Track
guías para el etiquetado de relevancia y de                  (2007, 2008 y 2009) y ii) diferentes cuestionarios
calidad de la información de un caso altamente               realizados a la ciudadanía enmarcados en un
especializado como el gas radón; por otra parte,             proyecto financiado por el Consejo de Seguridad
se genera un recurso, a disposición de la                    Nuclear de España sobre la percepción de la opinión
comunidad, que puede servir a grupos                         pública del radón en España2. Además, la selección
investigadores de diferentes disciplinas.                    definitiva de las consultas a realizar fue llevada a
                                                             cabo por un equipo de especialistas del área de la
3. Creación de una colección de                              comunicación con experiencia previa en proyectos
                                                             vinculados al gas radón, con el propósito de elaborar
   pasajes web relacionados con                              una muestra lo más representativa posible y que se
   riesgos sobre el gas radón                                ajustara a necesidades reales de búsqueda. Dada la
                                                             limitada disponibilidad de consultas escritas en
El radón es un gas noble radioactivo                         español, se ha optado por trabajar con necesidades
subproducto de la descomposición natural del                 de información escritas en inglés y todas aquellas

2
 Radón en España: percepción de la opinión pública, agenda
mediática y comunicación del riesgo (RAPAC) del Consejo de
Seguridad Nuclear (SUBV-13/2021)».
consultas fruto de los diferentes cuestionarios                       4. Criterios  de                       evaluación                de
realizados a la ciudadanía se han traducido a ese
idioma3. Algunos ejemplos de consultas son:                              relevancia
Radon causes cancer; How Radon Affects
Children; How to reduce radon levels.                                 Una vez generado el corpus a analizar, se procedió
    Para simular los resultados de búsqueda                           a la creación de unas guías de etiquetación que
obtenidos a partir de cada consulta seleccionada,                     verifiquen la relevancia de cada uno de los pasajes
se ha indexado un corpus masivo de páginas                            recuperados. Esto se debe a que la búsqueda web en
web, el denominado C4 [17] que está compuesto                         Internet es imperfecta, y podría darse el caso de que,
por millones de webs (1.590.000) indexadas en                         por ejemplo, cierta información recuperada
inglés y obtenidas de la web en abril de 20194.                       mediante estos procedimientos estándar de
Disponer de este corpus offline estático permite                      búsqueda y recuperación de la información no fuese
la replicación de este estudio y posibilita la                        relevante para la consulta. Por ello, una parte
comparación de algoritmos y variantes de                              importante de esta investigación se centró en
búsqueda contra un repositorio centralizado [18,                      generar un recurso consistente en pasajes webs
19]. Para ejecutar estas búsquedas, se indexó el                      etiquetados en cuanto a su relevancia para cada
corpus en una estructura de índice invertido,                         una de las consultas seleccionadas previamente.
análoga a la que utilizan los motores de                                  Para ello, se crearon previamente unos criterios
búsqueda. Acto seguido, se buscaron páginas                           para poder concretar si un pasaje debía ser
relevantes para las consultas previamente                             considerado muy relevante, parcialmente relevante
seleccionadas. Para ello, se emplearon técnicas                       o no relevante para una determinada consulta
de      búsqueda      estándar    basadas      en                     relacionada con los riesgos del gas radón para la
emparejamiento de palabras entre la consulta y                        salud. Esta definición de unos criterios sólidos y
los documentos. Concretamente, se utilizó el                          robustos para la realización de juicios de relevancia
conocido algoritmo de búsqueda BM25 con su                            consulta-documento es un método estándar en
configuración por defecto en Pyserini [20]. Este                      procesos de etiquetado de grandes volúmenes de
modelo léxico ("sparse") puede no ser suficiente                      datos en el campo de Recuperación de Información
para encontrar los documentos más relevantes                          [10].
para una determinada búsqueda (debido a que,                              Para asegurar la calidad de los juicios de
por ejemplo, no contempla sinonimia o similitud                       relevancia, se realizó un proceso de refinamiento en
semántica o contextual). Por ello, se optó por                        múltiples etapas para definir y mejorar las pautas de
reordenar el top 100 de documentos recuperados                        anotación.      Inicialmente,    se     seleccionaron
para cada consulta utilizando técnicas basadas                        aleatoriamente 3 consultas (dentro del conjunto de
en redes de neuronas profundas que estiman la                         51 necesidades de información) y se analizaron los
similitud semántica entre la consulta y el                            100 pasajes recuperados para cada una de las
documento [21]. Asimismo, para las 100                                consultas. Estos pasajes fueron procesados con una
páginas más relevantes de cada consulta,                              versión inicial de los criterios de relevancia por
realizamos extracción de pasajes relevantes                           parte de tres evaluadores5, que categorizaron cada
dentro de esas páginas. Esto fue implementado                         pasaje en uno de los tres niveles de relevancia. Tras
con un algoritmo de IA de búsqueda de pasajes,                        esta primera ronda, se calcularon métricas estándar
que estima qué parte de la página es más central                      para evaluar la concordancia entre los evaluadores.
para responder a la consulta. Para esta parte, se                     En concreto, se utilizó el Kappa de Cohen
utilizó el modelo MonoT5 entrenado para la                            ponderado para evaluar la concordancia entre
detección de pasajes relevantes con la colección                      evaluadores individuales y el alpha de Krippendorff
de MS MARCO (Microsoft Machine Reading                                para evaluar la concordancia entre todos ellos. Los
Comprehension), una colección ampliamente                             valores de Kappa oscilaron entre 0,46 y 0,62 con
utilizada a nivel mundial con pasajes                                 una mediana de 0,53. El alpha de Krippendorff
etiquetados por relevancia [21].                                      arrojó un valor de 0,63. Tras examinar los
    El resultado de este proceso fue un conjunto                      comentarios de los evaluadores, identificamos
de 5.100 pasajes relacionados con las consultas                       discrepancias en la interpretación de las directrices
realizadas.                                                           entre los evaluadores. En concreto, los porcentajes

3                                                                     5
  Estas traducciones del español al inglés han sido llevadas a cabo    Los tres evaluadores, son investigadores del campo de la comunicación
por los autores de la investigación y revisadas por nativos.          y la información vinculados a proyectos de I+D+I sobre el radón y la
4
  Para la indexación se utilizó la tecnología estándar de Pyserini:   comunicación digital.
https://github.com/castorini/pyserini
iniciales de acuerdo eran notablemente bajos          resultado normal, teniendo en cuenta que se
debido a que no existía un criterio uniforme          analizaron las 100 primeras páginas webs
entre los etiquetadores para distinguir un pasaje     recuperadas y la presencia de información "off-
como parcialmente relevante o como muy                topic" es habitual en este tipo de búsquedas. Por otro
relevante. Por ello, se tuvo que llevar a cabo una    lado, el 30,89 % de los pasajes fueron percibidos
reunión de grupo entre los asesores para unificar     como parcialmente relevantes, sin satisfacer de
criterios en torno a juzgar un pasaje en función      manera completa la necesidad de información, y el
de su relevancia. Después de identificar estos        14,33 % de los pasajes presentaron información
motivos, se actualizaron las pautas y se repitió      muy completa, es decir, se consideraron pasajes
el proceso.                                           muy relevantes.       Este recurso etiquetado de
    En una segunda iteración de etiquetación se       relevancia representa un hito significativo, con
logró un acuerdo más alto, siendo los valores de      potencial para ser utilizado en diversas áreas. En
Kappa entre 0,71 y 0,73, y el alpha de                concreto, esta colección resulta útil para una amplia
Krippendorff de 0,83. Por tanto, se dio luz verde     gama de proyectos, como aquellos relacionados con
a estos criterios finales para llevar el etiquetado   el aprendizaje automático supervisado, y similar,
global de todos los pasajes de cada una de las        por ejemplo, a MS MARCO.
consultas. El resultado es una “Guía de
etiquetación de relevancia de información para        5. Criterios de evaluación de calidad
consultas relacionadas con riesgos del radón
para la salud”.
                                                      En una segunda etapa de etiquetado, nos enfocamos
    •    Irrelevante (0): el pasaje no responde a
                                                      a evaluar la calidad de los pasajes relevantes
    la consulta o necesidad de información. Por
                                                      recuperados (limitándonos a aquellos considerados
    ejemplo, el pasaje habla de radón y/o de
                                                      parcialmente relevantes o muy relevantes en la fase
    cáncer, pero no de una relación causal entre
                                                      anterior). Para necesidades de información críticas
    ambas.
                                                      como los riesgos del gas radón, es esencial
    •    Parcialmente Relevante (1): el pasaje        considerar variables que ayuden a estimar la calidad
    responde de manera parcial a la consulta o
                                                      de los pasajes extraídos. Por ejemplo, teniendo en
    necesidad de información. Por ejemplo, el         consideración aspectos como la referencia a fuentes
    pasaje habla de la relación entre el radón y el   reputadas, la exactitud de la información
    cáncer y de la posibilidad de que el primero      proporcionada o la ausencia de contenido
    produzca al segundo, pero no da una
                                                      comercial. Tomando como referencia estudios
    información completa sobre el tema por el
                                                      pasados [10], se establecieron unos criterios
    que pregunta el usuario.                          iniciales basados en ciertos indicadores y, tras
    •    Muy relevante (2): el asesor encontrará      etiquetar los pasajes parcialmente relevantes o muy
    la información del pasaje muy relevante si        relevantes de tres consultas aleatorias, se calculó el
    responde de manera muy clara a la necesidad       acuerdo entre los evaluadores humanos. Como
    de información. Por ejemplo, el pasaje            sucedió en la fase anterior de etiquetado, los valores
    contendrá una respuesta directa (incorrecta o     de acuerdo iniciales eran demasiado bajos como
    no) de si el radón causa cáncer.                  para proceder con un etiquetado global. Tras una
                                                      reunión de grupo para abordar discrepancias y
    Es necesario tener en cuenta que en esta fase     reforzar las pautas, se repitió el proceso, logrando
de la etiquetación no se evaluó ningún tipo de        un mayor acuerdo y aumentando los valores de
correctitud o calidad de la información, solo         Kappa hasta 0,88-0,92 con una mediana de 0,9 y el
única y exclusivamente la relevancia de los           alpha de Krippendorff hasta 0,90. Los criterios
pasajes para cada consulta.                           resultantes fueron consolidados para un etiquetado
    El resultado final fue un recurso de 5.100        global de calidad de los pasajes. A partir de las
pasajes extraídos de la búsqueda web en Internet      anotaciones de los expertos, se definió un nivel de
etiquetados en base a su relevancia para              preferencia considerando el riesgo potencial para las
consultas relacionados con los riesgos del radón.     personas. Por ejemplo, los contenidos más
Los datos obtenidos de este proceso de                perjudiciales citan fuentes confiables, pero
etiquetado muestran que el 56,68 % de los             contienen información incorrecta y tienen
pasajes anotados fueron considerados como             propósitos comerciales. Estos pueden confundir a
irrelevantes para las necesidades de                  los usuarios y llevar a decisiones peligrosas. Por
información de los usuarios. Este es un               otro lado, los mejores contenidos son precisos, citan
fuentes confiables y carecen de intenciones         contiene información que contradice el
comerciales. La siguiente tabla recoge los          conocimiento médico establecido. Ejemplo: "La
criterios de la “Guía de etiquetación de la         OMS advierte que el radón es la segunda causa
calidad de información para consultas               principal de cáncer de pulmón, por tanto, si
relacionadas con riesgos del radón para la          quiere instalar un mecanismo de filtrado del aire,
salud”. Esta guía ha sido desarrollada ad hoc por   contacte la empresa ...".
los autores de esta investigación, inspirándose     •    Criterio 3. El pasaje no cita fuentes
en otras guías de preferencia documental            expertas, pero no contiene desinformación ni
presentes en la literatura [22].                    anuncios o información de marketing. Es decir,
                                                    la información que proporciona es correcta.
Tabla 1                                             Ejemplo: “El radón produce cáncer de pulmón”.
Niveles de calidad según los criterios “Guía de     •    Criterio 4. El pasaje no cita fuentes expertas
etiquetación de la calidad de información para      y el pasaje contiene anuncios o intenciones de
consultas relacionadas con riesgos del radón        marketing, pero sin contradecir el consenso
para la salud”                                      médico general sobre el radón y sin proporcionar
  Criteri    Cita   Intenci Inform Nivel            información incorrecta. Ejemplo: “El radón es
                                                    una de las principales causas de cáncer de
     o      fuente     ón      ación calida
                                                    pulmón. Por eso es crucial disponer de
            reputa comer correc           d
                                                    medidores como el nuestro”.
              da      cial      ta
                                                    •    Criterio 5. El pasaje no cita fuentes
     1          ✓        ×        ✓       3         expertas, y contiene información incorrecta o
     2          ✓        ✓        ✓       2         que contradice el consejo médico, pero no
     3          ×        ×        ✓       2         contiene ni anuncios ni información de
     4          ×        ✓        ✓       1         marketing. Ejemplo: “El radón no produce
     5          ×        ×         ×     -1         cáncer de pulmón”.
                                                    •    Criterio 6. El pasaje cita información
     6          ×        ✓         ×     -2
                                                    proveniente de alguna de las siguientes
     7          ✓        ×         ×     -2
                                                    procedencias: expertos/as reputados/as, artículos
     8          ✓        ✓         ×     -3         científicos, editoriales médicas, páginas de
                                                    organismos gubernamentales, u otras fuentes
   •    Criterio 1. El pasaje cita información      similares que se estimen como autoritarias en la
   proveniente de alguna de las siguientes          materia. Además, el pasaje contiene información
   procedencias: expertos/as reputados/as,          incorrecta o que contradice el consejo médico,
   artículos científicos, editoriales médicas,      pero no contiene anuncios o intenciones de
   páginas de organismos gubernamentales, u         marketing. Ejemplo: “Según la OMS, el radón
   otras fuentes similares que se estimen como      no es uno de los principales causantes de cáncer
   autoritarias en la materia. Además, el pasaje    de pulmón”, “Según el NHS, una exposición
   no contiene información que contradice el        prolongada al gas radón puede producir diversos
   consejo médico y tampoco contiene                problemas de salud”.
   anuncios o intenciones de marketing.             •    Criterio 7. El pasaje no cita fuentes expertas
   Ejemplo: “Según la OMS, el radón es uno de       y el pasaje contiene anuncios o intenciones de
   los principales causantes de cáncer de           marketing, además contradice el consenso
   pulmón”, “Según el NHS, una exposición           médico general sobre el radón y/o proporciona
   prolongada al gas radón puede producir           información incorrecta. Ejemplo: “El radón no
   diversos problemas de salud”.                    es una de las principales causas de cáncer de
   •    Criterio 2. El pasaje cita información      pulmón. Por eso es crucial disponer de
   proveniente de alguna de las siguientes          medidores como el nuestro”.
   procedencias: expertos/as reputados/as,          •    Criterio 8. El pasaje cita información
   artículos científicos, editoriales médicas,      proveniente de alguna de las siguientes
   páginas de organismos gubernamentales, u         procedencias: expertos/as reputados/as, artículos
   otras fuentes similares que se estimen como      científicos, editoriales médicas, páginas de
   autoritarias en la materia. Sin embargo, el      organismos gubernamentales, u otras fuentes
   pasaje contiene anuncios o intenciones de        similares que se estimen como autoritarias en la
   marketing. En todo caso, el pasaje no            materia. Sin embargo, el pasaje contiene
   anuncios o intenciones de marketing.                “Most people are not aware of the fact that there
   Además, el pasaje contiene información              are actually no conclusive studies that have ever
   incorrecta o que contradice el conocimiento         demonstrated that exposure to indoor radon, as
   médico. Ejemplo: "Recientes estudios de la          commonly seen in the overwhelming vast majority
   EPA aseguran que la exposición a niveles            of houses, increases the risk of cancer by any
   altos de radón produce un impacto positivo          amount, and in fact, in the larger and better studies,
   en la salud de las personas para aliviar dolor      what we see is that the risk of cancer actually goes
   articular entre otros, por tanto, visite nuestras   down with increasing radon concentrations”. En
   instalaciones para llevar a cabo un                 otras páginas webs se incita a los usuarios a llevar a
   tratamiento de radón."                              cabo prácticas perjudiciales para su salud a través de
                                                       un discurso basado en información falsa de forma
    El resultado de este etiquetado es un recurso      intencionada      con      el    fin   de     lucrarse
de 2.056 pasajes extraídos de Internet y su            económicamente. Ejemplo: “The therapies can be
estimación de calidad para consultas                   both inhalation and immersion. The mechanisms for
relacionadas con el radón. Los datos que               the beneficial effect of the radon spas covers a wide
obtuvimos de este etiquetado muestran que la           range of theories: from stimulation of the immune
mayoría de los pasajes, el 58,2 %, pertenecen al       system, influences on homoeostasis, reduction in
nivel 2 de calidad. Por lo tanto, cumplirían el        free radicals, and adaptive effects at the sub-
Criterio 2 o Criterio 3, lo que quiere decir que       cellular level on the genes, and DNA”.
es información correcta que o bien cita fuentes            Por tanto, estos resultados ponen de manifiesto
“autoritarias” y contiene intenciones de               la necesidad de estar alerta para minimizar al
marketing, o bien no cita este tipo de fuentes,        máximo posible la presencia de estos contenidos en
pero tampoco contiene intenciones de                   los rankings de resultados a través de la búsqueda
marketing. Por otra parte, el 33,4 % de los            web.
pasajes se categorizan como de Calidad 3, es
decir, la máxima calidad que cumple con el             6. Discusión
Criterio 1. Esto es, el pasaje cita información
proveniente de alguna de las fuentes
                                                       En cuanto a los criterios de calidad de los pasajes,
“autoritarias”, además, el pasaje no contiene
                                                       algunos anotadores percibieron la dimensión de
información que contraviene el consejo médico
                                                       “intención de marketing” con cierta ambigüedad.
y tampoco contiene anuncios o intenciones de
                                                       Una parte de los pasajes contenía información sobre
marketing. El 8,1 % de los pasajes se
                                                       datos de contacto de empresas o laboratorios que
enmarcarían en el nivel de Calidad 1 y, por
                                                       ofrecen servicios ajenos de medición o de
tanto, a pesar de no proporcionar información
                                                       mitigación del radón, pero que buscaban ofrecer
que contradice el consenso médico/científico,
                                                       medidas de apoyo a los usuarios. Sin embargo, a la
tendrían intenciones de marketing además de no
                                                       vez, también están presentes pasajes en los que se
citar fuentes expertas.
                                                       ofrecen de forma explícita servicios propios de este
    La cantidad de pasajes que proporcionarían
                                                       tipo a través de anuncios comerciales con fines
información incorrecta (valores de calidad
                                                       económicos. Ambos casos, se han considerado en la
negativos), contradiciendo el consenso médico
fue bajo, situándose en un 0,2 %. Estos pasajes        anotación como que contienen “intenciones de
                                                       marketing” a pesar de que son casos distintos. Por
cumplen con alguno de los cuatro últimos
                                                       ende, en pro de mejorar la precisión de estos
criterios. En concreto, el 0,1 % fue asociado a
                                                       criterios de etiquetación, y, por tanto, del recurso
Calidad -1, el 0,04 % a Calidad -2 y el 0,09 %
                                                       generado, sería conveniente en el futuro crear
a Calidad -3. Esto resalta que en el caso que nos
                                                       nuevas categorías dentro de las guías de
atañe, los buscadores llevan a cabo un trabajo
                                                       etiquetación que contemplen este tipo de casos y los
efectivo eliminando este tipo de páginas
                                                       diferencien. Además, esto ha de hacerse de modo
nocivas. Sin embargo, las páginas web
                                                       cuidadoso pues la complicación en exceso de los
detectadas que contenían información de la más
                                                       criterios de calidad puede afectar a la robustez del
baja calidad nos advierten de la amenaza que
                                                       proceso de etiquetado.
podría suponer para la salud pública si una gran
                                                           Uno de los descubrimientos principales de este
cantidad de usuarios se topasen con ellas.
                                                       estudio es que unos criterios bien definidos
    En algunos de estos casos, en el discurso del
                                                       conducen a etiquetas de mayor calidad y a un
contenido de estas páginas se cuestiona y critica
                                                       acuerdo mucho más sólido entre los evaluadores.
el consenso médico y científico. Ejemplo:
Aunque aún hay espacio para mejorar las              comprender en más detalle cómo la información de
directrices propuestas, hemos observado que, en      baja y alta calidad es percibida por usuarios reales
nuestro experimento, incluso un breve proceso        de sistemas de búsqueda. Esperamos que tanto los
de instrucción a los asesores puede resultar en      recursos de etiquetado generados como los criterios
etiquetas más coherentes. Pese al número             y pautas de anotación creadas tengan un impacto
limitado de revisores y documentos anotados          positivo y sean empleados en nuevas
(algo inevitable en nuestro planteamiento al         investigaciones.
depender del factor humano como herramienta
de trabajo), observamos señales prometedoras.        8. Agradecimientos
    Una limitación de este estudio es que aún no
podemos afirmar rotundamente que las
                                                     Esta publicación es parte/cuenta con la financiación
directrices propuestas reflejan la calidad real de
                                                     de los siguientes proyectos de I+D+i: Este artículo
los documentos del corpus analizado. A pesar de
                                                     se elaboró en el marco del proyecto Radón en
que se ha demostrado que los criterios de
                                                     España: percepción de la opinión pública, agenda
relevancia de un pasaje son sólidos y robustos,
                                                     mediática y comunicación del riesgo (RAPAC) del
el recurso final puede no ser tan preciso como
sus criterios al haber quizás posibles sesgos en     Consejo de Seguridad Nuclear (SUBV-13/2021) &
                                                     el proyecto Medios nativos digitales en España:
la anotación por parte de los etiquetadores. El
                                                     estrategias, competencias, implicación social y
acuerdo entre anotadores ha sido alto, pero los
                                                     (re)definición de prácticas de producción y difusión
resultados finales podrían verse alterados si con
                                                     periodísticas           (PID2021-122534OB-C21),
las mismas directrices, usuarios sin experiencia
                                                     financiado                 por               MCIN/
previa o sin conocimientos de los riesgos del
                                                     AEI/10.13039/501100011033/ y “FEDER Una
radón en la salud, la llevasen a cabo. Hay
                                                     manera de hacer Europa”. Este trabajo ha sido
algunos aspectos específicos de la calidad
                                                     financiado por el proyecto PLEC2021-007662
intrínsecos al propio contenido que, al tratarse
                                                     (MCIN/AEI/10.13039/501100011033, Ministerio
de información médica/científica, son difíciles
                                                     de Ciencia e Innovación, Agencia Estatal de
de evaluar por etiquetadores no expertos en el
                                                     Investigación,      Plan       de     Recuperación,
campo. En el futuro, extenderemos esta
                                                     Transformación y Resiliencia, Unión Europea-Next
investigación para abordar anotaciones con
                                                     Generation EU). Los autores agradecen también el
expertos del ámbito médico y compararemos los
                                                     apoyo financiero prestado por la Xunta de Galicia-
resultados y acuerdo con los obtenidos en el
                                                     Consellería de Cultura, Educación, Formación
presente estudio.
                                                     Profesional e Universidade (ED431G 2023/04,
                                                     ED431C 2022/19) y al Fondo Europeo de
7. Conclusiones                                      Desarrollo Regional, que reconoce al CiTIUS-
                                                     Centro de Investigación en Tecnologías Inteligentes
En esta investigación, hemos demostrado la           de la Universidad de Santiago de Compostela como
dificultad de evaluar páginas web en términos        Centro de Investigación del Sistema Universitario
de relevancia y calidad. Nuestra principal           de Galicia. David E. Losada agradece el apoyo
contribución es la creación de dos recursos de       financiero obtenido del proyecto SUBV23/00002
miles de páginas web etiquetadas en base a su        (Ministerio de Consumo, Subdirección General de
relevancia y calidad para consultas relacionadas     Regulación del Juego) y del proyecto PID2022-
con los riesgos del radón para la salud. Estos       137061OB-C22 (Ministerio de Ciencia e
recursos,     como      se    ha     mencionado      Innovación, Agencia Estatal de Investigación,
anteriormente, pueden ser empleados en nuevos        Proyectos de Generación de Conocimiento;
estudios en una gran variedad de campos con          apoyado por el Fondo Europeo de Desarrollo
particular énfasis en el desarrollo de soluciones    Regional).
orientadas a la detección de desinformación.
Además, otro de los resultados a destacar es la      9. Referencias
creación de un conjunto de pautas para crear
anotaciones sólidas que pueden mejorarse aún
                                                     [1] K. Schwab, "La cuarta revolución industrial,"
más mediante una breve capacitación a los
evaluadores. En trabajos futuros, tenemos la             Futuro Hoy, vol. 1, no. 1, pp. 6-10, 2020.
                                                         [Online].                          Available:
intención de seguir puliendo estas pautas y
                                                         https://bit.ly/Schwabrevistafuturo
llevar a cabo un estudio con usuarios para
[2] L. J. F. Rutten, K. D. Blake, A. J.            [10] A M. Fernández-Pichel, S. Meyer, M. Bink, A.
    Greenberg-Worisek, S. V. Allen, R. P.               Frummet, D. E. Losada, and D. Elsweiler,
    Moser, y B. W. Hesse, "Online health                "Improving the reliability of health information
    information seeking among US adults,"               credibility assessments," in Proc. ROMCIR,
    Public Health Reports, vol. 134, no. 6, pp.         2023.
    617-625,              2019,             doi:   [11] D. Zhu, S. L. Nimmagadda, K. W. Wong, y T.
    10.1177/0033354919874074.                           Reiners, "Relevance Judgment Convergence
[3] S. S. Tan y N. Goonawardene, "Internet              Degree—A          Measure       of     Assessors
    health information seeking and the patient-         Inconsistency for Information Retrieval
    physician relationship: A systematic                Datasets," en International Conference on
    review," Journal of Medical Internet                Information Systems Development, pp. 149-
    Research, vol. 19, no. 1, e9, 2017, doi:            168,      Cham,        Switzerland:     Springer
    10.2196/jmir.5729.                                  International Publishing, 2022.
[4] B. Osei Asibey, S. Agyemang, y A. Boakye       [12] F. L. Cruz, J. A. Troyano, F. Enríquez, and F.
    Dankwah, "The internet use for health               J. Ortega, "Detección y clasificación de
    information seeking among Ghanaian                  falacias prototípicas y espontáneas en
    university students: A cross-sectional              español," Procesamiento del Lenguaje
    study,"     International    Journal      of        Natural, vol. 71, pp. 53-62, 2023.
    Telemedicine and Applications, 1756473-        [13] A. Nabożny, B. Balcerzak, A. Wierzbicki, M.
    9, 2017, doi: 10.1155/2017/1756473.                 Morzy, y M. Chlabicz, "Active annotation in
[5] B. Swire-Thompson y D. Lazer, "Public               evaluating the credibility of Web-based
    health and online misinformation:                   medical information: Guidelines for creating
    Challenges and recommendations," Annual             training data sets for machine learning," JMIR
    Review of Public Health, vol. 41, no. 1, pp.        Medical Informatics, vol. 9, no. 11, e26065,
    433-451, 2020, doi: 10.1146/annurev-                2021
    publhealth-040119-094127.                      [14] A. X. Zhang, A. Ranganathan, S. E. Metz, S.
[6] G. Eysenbach, "Infodemiology: The                   Appling, C. M. Sehat, N. Gilmore, y A. X.
    epidemiology of (mis)information," The              Mina,      "A      structured     response    to
    American Journal of Medicine, vol. 113,             misinformation: Defining and annotating
    no. 9, pp. 763-765, 2002, doi:                      credibility indicators in news articles," in
    10.1016/s0002-9343(02)01473-0.                      Companion Proceedings of The Web
[7] F. A. Pogacar, A. Ghenai, M. D. Smucker,            Conference 2018, pp. 603-612, April 2018.
    y C. L. A. Clarke, "The positive and           [15] OMS, "El radón y sus efectos en la salud,"
    negative influence of search results on             [Online].              Disponible            en:
    people's decisions about the efficacy of            https://www.who.int/es/news-room/fact-
    medical treatments," in Proceedings of the          sheets/detail/radon-and-health, 2021.
    ACM SIGIR International Conference on          [16] J. M. Samet, "Radon and lung cancer," JNCI:
    Theory of Information Retrieval, pp. 209-           Journal of the National Cancer Institute, vol.
    216, 2017, doi: 10.1145/3121050.3121074.            81, no. 10, pp. 745-758, 1989, doi:
[8] S. Jiang y P. L. Liu, "Digital divide and           10.1093/jnci/81.10.745.
    internet health information seeking among      [17] C. Raffel, N. Shazeer, A. Roberts, K. Lee, S.
    cancer survivors: A trend analysis from             Narang, M. Matena, P. J. Liu y otros,
    2011 to 2017," Psycho-Oncology, vol. 29,            "Exploring the limits of transfer learning with
    no. 1, pp. 61-67, 2020, doi:                        a unified text-to-text transformer," The Journal
    10.1002/pon.5247.                                   of Machine Learning Research, vol. 21, no. 1,
[9] A. Montoro-Montarroso, J. Cantón-Correa,            pp. 5485-5551, 2020.
    P. Rosso, B. Chulvi, Á. Panizo-Lledot, J.      [18] R. Baeza-Yates and B. Ribeiro-Neto, Modern
    Huertas-Tato, B. Calvo-Figueras, M. J.              information retrieval, vol. 463, New York,
    Rementeria y J. Gómez-Romero, "Fighting             NY, USA: ACM Press, 1999.
    disinformation with artificial intelligence:   [19] W. B. Croft, D. Metzler, and T. Strohman,
    fundamentals, advances and challenges,"             “Search Engines: Information Retrieval in
    Profesional de la Información, vol. 32, no.         Practice”, vol. 520, Reading: Addison-Wesley,
    3,        e320322,        2023,         doi:        2010, pp. 131-141.
    10.3145/epi.2023.may.22.                       [20] S. Robertson y H. Zaragoza, "The probabilistic
                                                        relevance framework: BM25 and beyond,"
     Foundations and Trends® in Information
     Retrieval, vol. 3, no. 4, pp. 333-389, 2009.
[21] R. Nogueira, Z. Jiang, y J. Lin, "Document
     ranking with a pretrained sequence-to-
     sequence     model,"       arXiv    preprint
     arXiv:2003.06713, 2020.
[22] C. L. Clarke, S. Rizvi, M. D. Smucker, M.
     Maistro, and G. Zuccon, "Overview of the
     TREC 2020 Health Misinformation
     Track," in TREC, Nov. 2020.