La Dificultad de la Etiquetación de Desinformación: Un Caso de Estudio para Búsquedas Relacionadas con el Gas Radón The Difficulty of Misinformation Labelling: A Case Study for Radon Gas-Related Searches Noel Pascual-Presa1, Marcos Fernández-Pichel2, David Enrique Losada2, Berta García-Orosa1, Paula Martínez-Graña1, Lucía Ortigueira-Piñeiro1 1 Departamento de Ciencias da Comunicación, Universidad de Santiago de Compostela, 15782, Santiago de Compostela, España 2 Centro Singular de Investigación en Tecnoloxías Intelixentes (CiTIUS), Universidade de Santiago de Compostela, 15782, Santiago de Compostela, España Resumen La creación de colecciones etiquetadas relacionadas con la desinformación es un aspecto crucial para impulsar el desarrollo de tecnologías automáticas que filtren contenidos nocivos. Esto es particularmente importante en riesgos relacionados con la salud. Sin embargo, la asignación de etiquetas de calidad (por ejemplo, correctitud o credibilidad) a los textos es algo que debe realizarse de manera rigurosa. En este artículo describimos nuestros esfuerzos para crear una colección de pasajes etiquetados en referencia a su relevancia y calidad para búsquedas relacionadas con los riegos para la salud del gas radón. Además de ilustrar las dificultades encontradas en un proyecto de etiquetación de esta índole, con este trabajo contribuimos mediante la puesta a disposición de la comunidad científica de un nuevo recurso anotado, que puede ser explotado en el futuro para impulsar aprendizaje supervisado en este ámbito. Palabras clave Búsqueda Web, Desinformación, Gas Radón, Etiquetación Abstract The creation of labelled collections related to misinformation is a crucial aspect in the development of automatic technologies that filter harmful content. This is particularly important for health-related risks. However, assigning quality labels (e.g., correctness or credibility) to texts needs to be done rigorously. In this article, we describe our endeavours to build a collection of labelled passages, with relevance and quality annotations, for search tasks related to the risks of radon gas. In addition to illustrating the difficulties encountered in a labelling project of this kind, our contribution with this work is to provide the scientific community with a new annotated resource that can be used in the future to support supervised learning in this area. Keywords 1 11 SEPLN-2024: 40th Conference of the Spanish Society for Natural Language Processing. Valladolid, Spain. 24-27 September 2024. EMAIL: noel.pascual.presa@usc.es (N.Pascual-Presa); marcosfernandez.pichel@usc.es (M.Fernández-Pichel); david.losada@usc.es (D.E.Losada); berta.garcia@usc.es (B.García-Orosa); paula.martinez.grana@gmail.com (P.Martínez- Graña) lucia.ortigueira@rai.usc.es (L.Ortigueira-Piñeiro) ORCID: 0009-0002-9091-7631 (N.Pascual-Presa); 0000-0002- 6560-9832 (M. Fernández-Pichel); 0000-0001-8823-7501 (D.E. Losada) 0000-0001-6126-7401 (B.García-Orosa); 0000-0003- 0769-4159 (P.Martínez-Graña); 0009-0007-6415-6337 (L.Ortigueira-Piñeiro) ©️ 2020 Copyright for this paper by its authors. Use permitted under Creative Commons License Attribution 4.0 International (CC BY 4.0). CEUR Workshop Proceedings (CEUR-WS.org) CEUR ceur-ws.org Workshop ISSN 1613-0073 Proceedings Web Search, Misinformation, Radon Gas, Labelling. criterios de clasificación minuciosos y detallados. 1. Introducción Esta investigación nace con el objetivo de generar un recurso sólido, transparente y robusto con miles de páginas webs que pueda ser utilizado para otros Internet se ha convertido en un valioso recurso estudios en diferentes ámbitos como las Ciencias de que ha reconfigurado la manera en la que las la Computación o la Comunicación. Además, se personas accedemos y comprendemos la busca ofrecer nuevas pautas y criterios que permitan información [1]. Hoy en día los recursos en establecer un juicio sólido para el análisis de la línea son la fuente principal para la consulta de calidad de la información relacionada con la salud. información relacionada con la salud [2]. Esto Para ello, este estudio ha sido llevado a cabo por otorga a los buscadores web una gran un equipo interdisciplinar, compuesto por responsabilidad y peso en el acceso a investigadores del campo de la ingeniería información sobre este tema [3]. Por ejemplo, informática, comunicación y periodismo, partiendo los resultados de una búsqueda relacionada con de la necesidad de incorporar distintas técnicas de la salud pueden motivar cambios en los investigación y así poder desarrollar un método que comportamientos de las personas frente a una permita analizar grandes volúmenes de información determinada amenaza sanitaria [4]. A su vez, relacionada con la salud en Internet. En esta este acceso a grandes volúmenes de datos que ocasión, se ha optado por basar la investigación en está al alcance de una gran parte de la población un estudio de caso sobre la información relacionada mundial trae consigo una serie de riesgos [5]. con los riesgos para la salud del gas radón que, por La cantidad de información falsa y las características de este riesgo, lo hace idóneo para desinformación aumenta constantemente [6] y esta ocasión. esto supone una grave amenaza y peligro para la La contribución de este estudio es, por tanto, población, especialmente, cuando se trata de dual: información relacionada con la salud. La • Por una parte, se definen y evalúan una serie información falsa en línea no solo afecta a la de criterios para el etiquetado de desinformación confianza que deposita el usuario en las web relacionada con la salud, en concreto, sobre evidencias científicas, sino que también puede el gas radón. motivar decisiones de salud perjudiciales o • Por otra parte, se crea un recurso etiquetado contraproducentes para los ciudadanos [7]. Es que puede ser utilizado por otros grupos de por ello por lo que es necesario realizar nuevos investigación. Se trata de un corpus de páginas esfuerzos de investigación que busquen web anotadas en términos de su relevancia y construir entornos en línea de confianza y calidad que figuran como resultados de seguros, disminuyendo la cantidad de búsqueda para consultas relacionadas con los información falsa o desinformación [8]. riesgos del gas radón. Por tanto, este valioso Uno de los principales problemas a los que recurso de etiquetado lo ponemos a disposición nos enfrentamos en este campo es la gran de la comunidad científica previa solicitud a los cantidad de datos disponibles y la dificultad de autores en caso de que el artículo sea aceptado. distinguir la información veraz de la desinformación [9]. En este aspecto, los algoritmos de recuperación y clasificación de 2. Trabajo relacionado información son una herramienta muy útil para tratar de contrarrestar este problema. Estos La creación de recursos etiquetados es la base para algoritmos son capaces de recuperar y detectar el desarrollo de algoritmos supervisados en el desinformación, pero, por lo general, ven ámbito del Procesamiento del Lenguaje Natural afectado su rendimiento y precisión por calidad (PLN). Normalmente, la creación de estos recursos de los datos de entrenamiento y prueba implica la intervención de asesores humanos, lo que proporcionados [10]. Generar conjuntos de añade un componente de subjetividad que puede datos valiosos y de calidad para entrenar estos llevar a desacuerdos y a una etiquetación modelos, suele ser un proceso costoso y inadecuada [11]. Para paliar este efecto, la creación complejo, que habitualmente requiere la de recursos etiquetados suele basarse en la participación de asesores humanos y unos definición de una serie de guías o criterios que los etiquetadores deben seguir. Esta es la principal uranio presente en suelo y rocas. La exposición a técnica de creación de conjuntos "golden truth" este gas está considerada como la primera causa de utilizada en campos como el PLN o la cáncer de pulmón en no fumadores y la segunda Recuperación de la Información (RI) e causa en fumadores [15]. La relevancia de este implementada regularmente en prestigiosas riesgo no solo radica en los graves efectos conferencias que liberan recursos textuales demostrados en la salud de las personas, sino como la Text Retrieval Conference (TREC) o la también en su persistencia a lo largo del tiempo, que propia conferencia de la Sociedad Española para lo convierte en un riesgo atemporal. Esto nos el Procesamiento del Lenguaje Natural permite un análisis ajeno a posibles crisis puntuales, (SEPLN). como puede pasar con otros riesgos para la salud. Sin embargo, estudios previos han Una de las principales características de este gas demostrado que algunos procesos de anotación radica en que está presente por todo el planeta. A carecen de la rigurosidad necesaria para realizar pesar de ello, no todos los países se ven afectados una asignación objetiva de las etiquetas. Por de la misma forma por el radón, ya que sus niveles ejemplo, algunas investigaciones previas de presencia dependen mayoritariamente de la centraron sus esfuerzos en definir una serie de composición geológica del suelo. Otro factor que guías capaces de generar un etiquetado robusto incrementa los riesgos del radón es su naturaleza y objetivo [12]. En Fernández-Pichel et al [10], insípida, incolora, e inodora, lo que lo convierte en los autores demostraron la inconsistencia de los indetectable para las personas a no ser que se juicios de credibilidad generados siguiendo las realicen pruebas específicas [16]. Tanto la recomendaciones oficiales de la tarea "Health Organización Mundial de la Salud (OMS) como la Misinformation Track" dentro de TREC. Como Unión Europea han enfatizado en numerosas alternativa, propusieron una serie de guías que ocasiones la importancia de la verificación de la mejoraban el acuerdo entre asesores y producían información sobre el radón y sus riesgos para la un etiquetado robusto de la dimensión de la salud pública. credibilidad de la información. Otros autores En esta ocasión, para la creación de una [13] también propusieron una serie de guías para colección de pasajes web sobre el radón, en primer la generación de recursos etiquetados destinados lugar, se han seleccionado 51 consultas relacionadas al entrenamiento de algoritmos para la detección con los riesgos para la salud del radón. Estas de desinformación médica. Por otra parte, en consultas textuales han de ser representativas del otras investigaciones [14] se definieron una tipo de consulta que un usuario convencional serie de indicadores de la credibilidad de realizaría a un motor de búsqueda web. Para otorgar artículos, que incluían indicadores complejos este realismo al recurso generado, se ha optado por como falacias lógicas o el tono del discurso. utilizar búsquedas de información reales sobre los En este estudio, la contribución es dual: por riesgos del radón. Para ello, todas las consultas una parte, se continúa con la línea abierta por seleccionadas se han obtenido de dos fuentes: i) los investigaciones previas y se definen una serie de "query logs" de la TREC Million Query Track guías para el etiquetado de relevancia y de (2007, 2008 y 2009) y ii) diferentes cuestionarios calidad de la información de un caso altamente realizados a la ciudadanía enmarcados en un especializado como el gas radón; por otra parte, proyecto financiado por el Consejo de Seguridad se genera un recurso, a disposición de la Nuclear de España sobre la percepción de la opinión comunidad, que puede servir a grupos pública del radón en España2. Además, la selección investigadores de diferentes disciplinas. definitiva de las consultas a realizar fue llevada a cabo por un equipo de especialistas del área de la 3. Creación de una colección de comunicación con experiencia previa en proyectos vinculados al gas radón, con el propósito de elaborar pasajes web relacionados con una muestra lo más representativa posible y que se riesgos sobre el gas radón ajustara a necesidades reales de búsqueda. Dada la limitada disponibilidad de consultas escritas en El radón es un gas noble radioactivo español, se ha optado por trabajar con necesidades subproducto de la descomposición natural del de información escritas en inglés y todas aquellas 2 Radón en España: percepción de la opinión pública, agenda mediática y comunicación del riesgo (RAPAC) del Consejo de Seguridad Nuclear (SUBV-13/2021)». consultas fruto de los diferentes cuestionarios 4. Criterios de evaluación de realizados a la ciudadanía se han traducido a ese idioma3. Algunos ejemplos de consultas son: relevancia Radon causes cancer; How Radon Affects Children; How to reduce radon levels. Una vez generado el corpus a analizar, se procedió Para simular los resultados de búsqueda a la creación de unas guías de etiquetación que obtenidos a partir de cada consulta seleccionada, verifiquen la relevancia de cada uno de los pasajes se ha indexado un corpus masivo de páginas recuperados. Esto se debe a que la búsqueda web en web, el denominado C4 [17] que está compuesto Internet es imperfecta, y podría darse el caso de que, por millones de webs (1.590.000) indexadas en por ejemplo, cierta información recuperada inglés y obtenidas de la web en abril de 20194. mediante estos procedimientos estándar de Disponer de este corpus offline estático permite búsqueda y recuperación de la información no fuese la replicación de este estudio y posibilita la relevante para la consulta. Por ello, una parte comparación de algoritmos y variantes de importante de esta investigación se centró en búsqueda contra un repositorio centralizado [18, generar un recurso consistente en pasajes webs 19]. Para ejecutar estas búsquedas, se indexó el etiquetados en cuanto a su relevancia para cada corpus en una estructura de índice invertido, una de las consultas seleccionadas previamente. análoga a la que utilizan los motores de Para ello, se crearon previamente unos criterios búsqueda. Acto seguido, se buscaron páginas para poder concretar si un pasaje debía ser relevantes para las consultas previamente considerado muy relevante, parcialmente relevante seleccionadas. Para ello, se emplearon técnicas o no relevante para una determinada consulta de búsqueda estándar basadas en relacionada con los riesgos del gas radón para la emparejamiento de palabras entre la consulta y salud. Esta definición de unos criterios sólidos y los documentos. Concretamente, se utilizó el robustos para la realización de juicios de relevancia conocido algoritmo de búsqueda BM25 con su consulta-documento es un método estándar en configuración por defecto en Pyserini [20]. Este procesos de etiquetado de grandes volúmenes de modelo léxico ("sparse") puede no ser suficiente datos en el campo de Recuperación de Información para encontrar los documentos más relevantes [10]. para una determinada búsqueda (debido a que, Para asegurar la calidad de los juicios de por ejemplo, no contempla sinonimia o similitud relevancia, se realizó un proceso de refinamiento en semántica o contextual). Por ello, se optó por múltiples etapas para definir y mejorar las pautas de reordenar el top 100 de documentos recuperados anotación. Inicialmente, se seleccionaron para cada consulta utilizando técnicas basadas aleatoriamente 3 consultas (dentro del conjunto de en redes de neuronas profundas que estiman la 51 necesidades de información) y se analizaron los similitud semántica entre la consulta y el 100 pasajes recuperados para cada una de las documento [21]. Asimismo, para las 100 consultas. Estos pasajes fueron procesados con una páginas más relevantes de cada consulta, versión inicial de los criterios de relevancia por realizamos extracción de pasajes relevantes parte de tres evaluadores5, que categorizaron cada dentro de esas páginas. Esto fue implementado pasaje en uno de los tres niveles de relevancia. Tras con un algoritmo de IA de búsqueda de pasajes, esta primera ronda, se calcularon métricas estándar que estima qué parte de la página es más central para evaluar la concordancia entre los evaluadores. para responder a la consulta. Para esta parte, se En concreto, se utilizó el Kappa de Cohen utilizó el modelo MonoT5 entrenado para la ponderado para evaluar la concordancia entre detección de pasajes relevantes con la colección evaluadores individuales y el alpha de Krippendorff de MS MARCO (Microsoft Machine Reading para evaluar la concordancia entre todos ellos. Los Comprehension), una colección ampliamente valores de Kappa oscilaron entre 0,46 y 0,62 con utilizada a nivel mundial con pasajes una mediana de 0,53. El alpha de Krippendorff etiquetados por relevancia [21]. arrojó un valor de 0,63. Tras examinar los El resultado de este proceso fue un conjunto comentarios de los evaluadores, identificamos de 5.100 pasajes relacionados con las consultas discrepancias en la interpretación de las directrices realizadas. entre los evaluadores. En concreto, los porcentajes 3 5 Estas traducciones del español al inglés han sido llevadas a cabo Los tres evaluadores, son investigadores del campo de la comunicación por los autores de la investigación y revisadas por nativos. y la información vinculados a proyectos de I+D+I sobre el radón y la 4 Para la indexación se utilizó la tecnología estándar de Pyserini: comunicación digital. https://github.com/castorini/pyserini iniciales de acuerdo eran notablemente bajos resultado normal, teniendo en cuenta que se debido a que no existía un criterio uniforme analizaron las 100 primeras páginas webs entre los etiquetadores para distinguir un pasaje recuperadas y la presencia de información "off- como parcialmente relevante o como muy topic" es habitual en este tipo de búsquedas. Por otro relevante. Por ello, se tuvo que llevar a cabo una lado, el 30,89 % de los pasajes fueron percibidos reunión de grupo entre los asesores para unificar como parcialmente relevantes, sin satisfacer de criterios en torno a juzgar un pasaje en función manera completa la necesidad de información, y el de su relevancia. Después de identificar estos 14,33 % de los pasajes presentaron información motivos, se actualizaron las pautas y se repitió muy completa, es decir, se consideraron pasajes el proceso. muy relevantes. Este recurso etiquetado de En una segunda iteración de etiquetación se relevancia representa un hito significativo, con logró un acuerdo más alto, siendo los valores de potencial para ser utilizado en diversas áreas. En Kappa entre 0,71 y 0,73, y el alpha de concreto, esta colección resulta útil para una amplia Krippendorff de 0,83. Por tanto, se dio luz verde gama de proyectos, como aquellos relacionados con a estos criterios finales para llevar el etiquetado el aprendizaje automático supervisado, y similar, global de todos los pasajes de cada una de las por ejemplo, a MS MARCO. consultas. El resultado es una “Guía de etiquetación de relevancia de información para 5. Criterios de evaluación de calidad consultas relacionadas con riesgos del radón para la salud”. En una segunda etapa de etiquetado, nos enfocamos • Irrelevante (0): el pasaje no responde a a evaluar la calidad de los pasajes relevantes la consulta o necesidad de información. Por recuperados (limitándonos a aquellos considerados ejemplo, el pasaje habla de radón y/o de parcialmente relevantes o muy relevantes en la fase cáncer, pero no de una relación causal entre anterior). Para necesidades de información críticas ambas. como los riesgos del gas radón, es esencial • Parcialmente Relevante (1): el pasaje considerar variables que ayuden a estimar la calidad responde de manera parcial a la consulta o de los pasajes extraídos. Por ejemplo, teniendo en necesidad de información. Por ejemplo, el consideración aspectos como la referencia a fuentes pasaje habla de la relación entre el radón y el reputadas, la exactitud de la información cáncer y de la posibilidad de que el primero proporcionada o la ausencia de contenido produzca al segundo, pero no da una comercial. Tomando como referencia estudios información completa sobre el tema por el pasados [10], se establecieron unos criterios que pregunta el usuario. iniciales basados en ciertos indicadores y, tras • Muy relevante (2): el asesor encontrará etiquetar los pasajes parcialmente relevantes o muy la información del pasaje muy relevante si relevantes de tres consultas aleatorias, se calculó el responde de manera muy clara a la necesidad acuerdo entre los evaluadores humanos. Como de información. Por ejemplo, el pasaje sucedió en la fase anterior de etiquetado, los valores contendrá una respuesta directa (incorrecta o de acuerdo iniciales eran demasiado bajos como no) de si el radón causa cáncer. para proceder con un etiquetado global. Tras una reunión de grupo para abordar discrepancias y Es necesario tener en cuenta que en esta fase reforzar las pautas, se repitió el proceso, logrando de la etiquetación no se evaluó ningún tipo de un mayor acuerdo y aumentando los valores de correctitud o calidad de la información, solo Kappa hasta 0,88-0,92 con una mediana de 0,9 y el única y exclusivamente la relevancia de los alpha de Krippendorff hasta 0,90. Los criterios pasajes para cada consulta. resultantes fueron consolidados para un etiquetado El resultado final fue un recurso de 5.100 global de calidad de los pasajes. A partir de las pasajes extraídos de la búsqueda web en Internet anotaciones de los expertos, se definió un nivel de etiquetados en base a su relevancia para preferencia considerando el riesgo potencial para las consultas relacionados con los riesgos del radón. personas. Por ejemplo, los contenidos más Los datos obtenidos de este proceso de perjudiciales citan fuentes confiables, pero etiquetado muestran que el 56,68 % de los contienen información incorrecta y tienen pasajes anotados fueron considerados como propósitos comerciales. Estos pueden confundir a irrelevantes para las necesidades de los usuarios y llevar a decisiones peligrosas. Por información de los usuarios. Este es un otro lado, los mejores contenidos son precisos, citan fuentes confiables y carecen de intenciones contiene información que contradice el comerciales. La siguiente tabla recoge los conocimiento médico establecido. Ejemplo: "La criterios de la “Guía de etiquetación de la OMS advierte que el radón es la segunda causa calidad de información para consultas principal de cáncer de pulmón, por tanto, si relacionadas con riesgos del radón para la quiere instalar un mecanismo de filtrado del aire, salud”. Esta guía ha sido desarrollada ad hoc por contacte la empresa ...". los autores de esta investigación, inspirándose • Criterio 3. El pasaje no cita fuentes en otras guías de preferencia documental expertas, pero no contiene desinformación ni presentes en la literatura [22]. anuncios o información de marketing. Es decir, la información que proporciona es correcta. Tabla 1 Ejemplo: “El radón produce cáncer de pulmón”. Niveles de calidad según los criterios “Guía de • Criterio 4. El pasaje no cita fuentes expertas etiquetación de la calidad de información para y el pasaje contiene anuncios o intenciones de consultas relacionadas con riesgos del radón marketing, pero sin contradecir el consenso para la salud” médico general sobre el radón y sin proporcionar Criteri Cita Intenci Inform Nivel información incorrecta. Ejemplo: “El radón es una de las principales causas de cáncer de o fuente ón ación calida pulmón. Por eso es crucial disponer de reputa comer correc d medidores como el nuestro”. da cial ta • Criterio 5. El pasaje no cita fuentes 1 ✓ × ✓ 3 expertas, y contiene información incorrecta o 2 ✓ ✓ ✓ 2 que contradice el consejo médico, pero no 3 × × ✓ 2 contiene ni anuncios ni información de 4 × ✓ ✓ 1 marketing. Ejemplo: “El radón no produce 5 × × × -1 cáncer de pulmón”. • Criterio 6. El pasaje cita información 6 × ✓ × -2 proveniente de alguna de las siguientes 7 ✓ × × -2 procedencias: expertos/as reputados/as, artículos 8 ✓ ✓ × -3 científicos, editoriales médicas, páginas de organismos gubernamentales, u otras fuentes • Criterio 1. El pasaje cita información similares que se estimen como autoritarias en la proveniente de alguna de las siguientes materia. Además, el pasaje contiene información procedencias: expertos/as reputados/as, incorrecta o que contradice el consejo médico, artículos científicos, editoriales médicas, pero no contiene anuncios o intenciones de páginas de organismos gubernamentales, u marketing. Ejemplo: “Según la OMS, el radón otras fuentes similares que se estimen como no es uno de los principales causantes de cáncer autoritarias en la materia. Además, el pasaje de pulmón”, “Según el NHS, una exposición no contiene información que contradice el prolongada al gas radón puede producir diversos consejo médico y tampoco contiene problemas de salud”. anuncios o intenciones de marketing. • Criterio 7. El pasaje no cita fuentes expertas Ejemplo: “Según la OMS, el radón es uno de y el pasaje contiene anuncios o intenciones de los principales causantes de cáncer de marketing, además contradice el consenso pulmón”, “Según el NHS, una exposición médico general sobre el radón y/o proporciona prolongada al gas radón puede producir información incorrecta. Ejemplo: “El radón no diversos problemas de salud”. es una de las principales causas de cáncer de • Criterio 2. El pasaje cita información pulmón. Por eso es crucial disponer de proveniente de alguna de las siguientes medidores como el nuestro”. procedencias: expertos/as reputados/as, • Criterio 8. El pasaje cita información artículos científicos, editoriales médicas, proveniente de alguna de las siguientes páginas de organismos gubernamentales, u procedencias: expertos/as reputados/as, artículos otras fuentes similares que se estimen como científicos, editoriales médicas, páginas de autoritarias en la materia. Sin embargo, el organismos gubernamentales, u otras fuentes pasaje contiene anuncios o intenciones de similares que se estimen como autoritarias en la marketing. En todo caso, el pasaje no materia. Sin embargo, el pasaje contiene anuncios o intenciones de marketing. “Most people are not aware of the fact that there Además, el pasaje contiene información are actually no conclusive studies that have ever incorrecta o que contradice el conocimiento demonstrated that exposure to indoor radon, as médico. Ejemplo: "Recientes estudios de la commonly seen in the overwhelming vast majority EPA aseguran que la exposición a niveles of houses, increases the risk of cancer by any altos de radón produce un impacto positivo amount, and in fact, in the larger and better studies, en la salud de las personas para aliviar dolor what we see is that the risk of cancer actually goes articular entre otros, por tanto, visite nuestras down with increasing radon concentrations”. En instalaciones para llevar a cabo un otras páginas webs se incita a los usuarios a llevar a tratamiento de radón." cabo prácticas perjudiciales para su salud a través de un discurso basado en información falsa de forma El resultado de este etiquetado es un recurso intencionada con el fin de lucrarse de 2.056 pasajes extraídos de Internet y su económicamente. Ejemplo: “The therapies can be estimación de calidad para consultas both inhalation and immersion. The mechanisms for relacionadas con el radón. Los datos que the beneficial effect of the radon spas covers a wide obtuvimos de este etiquetado muestran que la range of theories: from stimulation of the immune mayoría de los pasajes, el 58,2 %, pertenecen al system, influences on homoeostasis, reduction in nivel 2 de calidad. Por lo tanto, cumplirían el free radicals, and adaptive effects at the sub- Criterio 2 o Criterio 3, lo que quiere decir que cellular level on the genes, and DNA”. es información correcta que o bien cita fuentes Por tanto, estos resultados ponen de manifiesto “autoritarias” y contiene intenciones de la necesidad de estar alerta para minimizar al marketing, o bien no cita este tipo de fuentes, máximo posible la presencia de estos contenidos en pero tampoco contiene intenciones de los rankings de resultados a través de la búsqueda marketing. Por otra parte, el 33,4 % de los web. pasajes se categorizan como de Calidad 3, es decir, la máxima calidad que cumple con el 6. Discusión Criterio 1. Esto es, el pasaje cita información proveniente de alguna de las fuentes En cuanto a los criterios de calidad de los pasajes, “autoritarias”, además, el pasaje no contiene algunos anotadores percibieron la dimensión de información que contraviene el consejo médico “intención de marketing” con cierta ambigüedad. y tampoco contiene anuncios o intenciones de Una parte de los pasajes contenía información sobre marketing. El 8,1 % de los pasajes se datos de contacto de empresas o laboratorios que enmarcarían en el nivel de Calidad 1 y, por ofrecen servicios ajenos de medición o de tanto, a pesar de no proporcionar información mitigación del radón, pero que buscaban ofrecer que contradice el consenso médico/científico, medidas de apoyo a los usuarios. Sin embargo, a la tendrían intenciones de marketing además de no vez, también están presentes pasajes en los que se citar fuentes expertas. ofrecen de forma explícita servicios propios de este La cantidad de pasajes que proporcionarían tipo a través de anuncios comerciales con fines información incorrecta (valores de calidad económicos. Ambos casos, se han considerado en la negativos), contradiciendo el consenso médico fue bajo, situándose en un 0,2 %. Estos pasajes anotación como que contienen “intenciones de marketing” a pesar de que son casos distintos. Por cumplen con alguno de los cuatro últimos ende, en pro de mejorar la precisión de estos criterios. En concreto, el 0,1 % fue asociado a criterios de etiquetación, y, por tanto, del recurso Calidad -1, el 0,04 % a Calidad -2 y el 0,09 % generado, sería conveniente en el futuro crear a Calidad -3. Esto resalta que en el caso que nos nuevas categorías dentro de las guías de atañe, los buscadores llevan a cabo un trabajo etiquetación que contemplen este tipo de casos y los efectivo eliminando este tipo de páginas diferencien. Además, esto ha de hacerse de modo nocivas. Sin embargo, las páginas web cuidadoso pues la complicación en exceso de los detectadas que contenían información de la más criterios de calidad puede afectar a la robustez del baja calidad nos advierten de la amenaza que proceso de etiquetado. podría suponer para la salud pública si una gran Uno de los descubrimientos principales de este cantidad de usuarios se topasen con ellas. estudio es que unos criterios bien definidos En algunos de estos casos, en el discurso del conducen a etiquetas de mayor calidad y a un contenido de estas páginas se cuestiona y critica acuerdo mucho más sólido entre los evaluadores. el consenso médico y científico. Ejemplo: Aunque aún hay espacio para mejorar las comprender en más detalle cómo la información de directrices propuestas, hemos observado que, en baja y alta calidad es percibida por usuarios reales nuestro experimento, incluso un breve proceso de sistemas de búsqueda. Esperamos que tanto los de instrucción a los asesores puede resultar en recursos de etiquetado generados como los criterios etiquetas más coherentes. Pese al número y pautas de anotación creadas tengan un impacto limitado de revisores y documentos anotados positivo y sean empleados en nuevas (algo inevitable en nuestro planteamiento al investigaciones. depender del factor humano como herramienta de trabajo), observamos señales prometedoras. 8. Agradecimientos Una limitación de este estudio es que aún no podemos afirmar rotundamente que las Esta publicación es parte/cuenta con la financiación directrices propuestas reflejan la calidad real de de los siguientes proyectos de I+D+i: Este artículo los documentos del corpus analizado. A pesar de se elaboró en el marco del proyecto Radón en que se ha demostrado que los criterios de España: percepción de la opinión pública, agenda relevancia de un pasaje son sólidos y robustos, mediática y comunicación del riesgo (RAPAC) del el recurso final puede no ser tan preciso como sus criterios al haber quizás posibles sesgos en Consejo de Seguridad Nuclear (SUBV-13/2021) & el proyecto Medios nativos digitales en España: la anotación por parte de los etiquetadores. El estrategias, competencias, implicación social y acuerdo entre anotadores ha sido alto, pero los (re)definición de prácticas de producción y difusión resultados finales podrían verse alterados si con periodísticas (PID2021-122534OB-C21), las mismas directrices, usuarios sin experiencia financiado por MCIN/ previa o sin conocimientos de los riesgos del AEI/10.13039/501100011033/ y “FEDER Una radón en la salud, la llevasen a cabo. Hay manera de hacer Europa”. Este trabajo ha sido algunos aspectos específicos de la calidad financiado por el proyecto PLEC2021-007662 intrínsecos al propio contenido que, al tratarse (MCIN/AEI/10.13039/501100011033, Ministerio de información médica/científica, son difíciles de Ciencia e Innovación, Agencia Estatal de de evaluar por etiquetadores no expertos en el Investigación, Plan de Recuperación, campo. En el futuro, extenderemos esta Transformación y Resiliencia, Unión Europea-Next investigación para abordar anotaciones con Generation EU). Los autores agradecen también el expertos del ámbito médico y compararemos los apoyo financiero prestado por la Xunta de Galicia- resultados y acuerdo con los obtenidos en el Consellería de Cultura, Educación, Formación presente estudio. Profesional e Universidade (ED431G 2023/04, ED431C 2022/19) y al Fondo Europeo de 7. Conclusiones Desarrollo Regional, que reconoce al CiTIUS- Centro de Investigación en Tecnologías Inteligentes En esta investigación, hemos demostrado la de la Universidad de Santiago de Compostela como dificultad de evaluar páginas web en términos Centro de Investigación del Sistema Universitario de relevancia y calidad. Nuestra principal de Galicia. David E. Losada agradece el apoyo contribución es la creación de dos recursos de financiero obtenido del proyecto SUBV23/00002 miles de páginas web etiquetadas en base a su (Ministerio de Consumo, Subdirección General de relevancia y calidad para consultas relacionadas Regulación del Juego) y del proyecto PID2022- con los riesgos del radón para la salud. Estos 137061OB-C22 (Ministerio de Ciencia e recursos, como se ha mencionado Innovación, Agencia Estatal de Investigación, anteriormente, pueden ser empleados en nuevos Proyectos de Generación de Conocimiento; estudios en una gran variedad de campos con apoyado por el Fondo Europeo de Desarrollo particular énfasis en el desarrollo de soluciones Regional). orientadas a la detección de desinformación. Además, otro de los resultados a destacar es la 9. Referencias creación de un conjunto de pautas para crear anotaciones sólidas que pueden mejorarse aún [1] K. Schwab, "La cuarta revolución industrial," más mediante una breve capacitación a los evaluadores. En trabajos futuros, tenemos la Futuro Hoy, vol. 1, no. 1, pp. 6-10, 2020. [Online]. Available: intención de seguir puliendo estas pautas y https://bit.ly/Schwabrevistafuturo llevar a cabo un estudio con usuarios para [2] L. J. F. Rutten, K. D. Blake, A. J. [10] A M. Fernández-Pichel, S. Meyer, M. Bink, A. Greenberg-Worisek, S. V. Allen, R. P. Frummet, D. E. Losada, and D. Elsweiler, Moser, y B. W. Hesse, "Online health "Improving the reliability of health information information seeking among US adults," credibility assessments," in Proc. ROMCIR, Public Health Reports, vol. 134, no. 6, pp. 2023. 617-625, 2019, doi: [11] D. Zhu, S. L. Nimmagadda, K. W. Wong, y T. 10.1177/0033354919874074. Reiners, "Relevance Judgment Convergence [3] S. S. Tan y N. Goonawardene, "Internet Degree—A Measure of Assessors health information seeking and the patient- Inconsistency for Information Retrieval physician relationship: A systematic Datasets," en International Conference on review," Journal of Medical Internet Information Systems Development, pp. 149- Research, vol. 19, no. 1, e9, 2017, doi: 168, Cham, Switzerland: Springer 10.2196/jmir.5729. International Publishing, 2022. [4] B. Osei Asibey, S. Agyemang, y A. Boakye [12] F. L. Cruz, J. A. Troyano, F. Enríquez, and F. Dankwah, "The internet use for health J. Ortega, "Detección y clasificación de information seeking among Ghanaian falacias prototípicas y espontáneas en university students: A cross-sectional español," Procesamiento del Lenguaje study," International Journal of Natural, vol. 71, pp. 53-62, 2023. Telemedicine and Applications, 1756473- [13] A. Nabożny, B. Balcerzak, A. Wierzbicki, M. 9, 2017, doi: 10.1155/2017/1756473. Morzy, y M. Chlabicz, "Active annotation in [5] B. Swire-Thompson y D. Lazer, "Public evaluating the credibility of Web-based health and online misinformation: medical information: Guidelines for creating Challenges and recommendations," Annual training data sets for machine learning," JMIR Review of Public Health, vol. 41, no. 1, pp. Medical Informatics, vol. 9, no. 11, e26065, 433-451, 2020, doi: 10.1146/annurev- 2021 publhealth-040119-094127. [14] A. X. Zhang, A. Ranganathan, S. E. Metz, S. [6] G. Eysenbach, "Infodemiology: The Appling, C. M. Sehat, N. Gilmore, y A. X. epidemiology of (mis)information," The Mina, "A structured response to American Journal of Medicine, vol. 113, misinformation: Defining and annotating no. 9, pp. 763-765, 2002, doi: credibility indicators in news articles," in 10.1016/s0002-9343(02)01473-0. Companion Proceedings of The Web [7] F. A. Pogacar, A. Ghenai, M. D. Smucker, Conference 2018, pp. 603-612, April 2018. y C. L. A. Clarke, "The positive and [15] OMS, "El radón y sus efectos en la salud," negative influence of search results on [Online]. Disponible en: people's decisions about the efficacy of https://www.who.int/es/news-room/fact- medical treatments," in Proceedings of the sheets/detail/radon-and-health, 2021. ACM SIGIR International Conference on [16] J. M. Samet, "Radon and lung cancer," JNCI: Theory of Information Retrieval, pp. 209- Journal of the National Cancer Institute, vol. 216, 2017, doi: 10.1145/3121050.3121074. 81, no. 10, pp. 745-758, 1989, doi: [8] S. Jiang y P. L. Liu, "Digital divide and 10.1093/jnci/81.10.745. internet health information seeking among [17] C. Raffel, N. Shazeer, A. Roberts, K. Lee, S. cancer survivors: A trend analysis from Narang, M. Matena, P. J. Liu y otros, 2011 to 2017," Psycho-Oncology, vol. 29, "Exploring the limits of transfer learning with no. 1, pp. 61-67, 2020, doi: a unified text-to-text transformer," The Journal 10.1002/pon.5247. of Machine Learning Research, vol. 21, no. 1, [9] A. Montoro-Montarroso, J. Cantón-Correa, pp. 5485-5551, 2020. P. Rosso, B. Chulvi, Á. Panizo-Lledot, J. [18] R. Baeza-Yates and B. Ribeiro-Neto, Modern Huertas-Tato, B. Calvo-Figueras, M. J. information retrieval, vol. 463, New York, Rementeria y J. Gómez-Romero, "Fighting NY, USA: ACM Press, 1999. disinformation with artificial intelligence: [19] W. B. Croft, D. Metzler, and T. Strohman, fundamentals, advances and challenges," “Search Engines: Information Retrieval in Profesional de la Información, vol. 32, no. Practice”, vol. 520, Reading: Addison-Wesley, 3, e320322, 2023, doi: 2010, pp. 131-141. 10.3145/epi.2023.may.22. [20] S. Robertson y H. Zaragoza, "The probabilistic relevance framework: BM25 and beyond," Foundations and Trends® in Information Retrieval, vol. 3, no. 4, pp. 333-389, 2009. [21] R. Nogueira, Z. Jiang, y J. Lin, "Document ranking with a pretrained sequence-to- sequence model," arXiv preprint arXiv:2003.06713, 2020. [22] C. L. Clarke, S. Rizvi, M. D. Smucker, M. Maistro, and G. Zuccon, "Overview of the TREC 2020 Health Misinformation Track," in TREC, Nov. 2020.