Empresa 2.0: Detección de plagio y análisis de opiniones Enterprise 2.0: Plagiarism detection and opinion analysis Enrique Vallés Balaguer Paolo Rosso∗ Corex Building Knowledge Solutions NLE Lab. - ELiRF NLE Lab. - ELiRF Universidad Politécnica de Valencia Universidad Politécnica de Valencia prosso@dsic.upv.es evalles@dsic.upv.es Resumen: En la era de los medios digitales, las empresas deben afrontar nuevos retos. En este artı́culo nos ponemos en la piel de una empresa para estudiar cómo afrontar algunos de estos retos como son la protección contra el plagio y el análisis de las opiniones de los consumidores. Palabras clave: Detección de plagio, análisis de opiniones, fusión de ontologı́as, Web 2.0, Empresa 2.0 Abstract: In the era of digital media, enterprises face new challenges. In this ar- ticle, we put ourselves in an enterprise’s shoes to study how to resolve some of the challenges such as plagiarism protection and consumer’s opinions analysis. Keywords: Plagiarism detection, opinion analysis, ontology matching, Web 2.0, Enterprise 2.0 1. Introducción tancia para el éxito de una empresa. Esto es La llegada de la Web 2.0 ha supuesto un debido a que las empresas se enfrentan con un nuevo reto para las empresas. Actualmente, duro problema para conseguir que los produc- aquellas empresas que han apostado por el tos se ajusten a las necesidades y los gustos marketing en los medios digitales, como blogs de los consumidores. y redes sociales, son las que mayores posibili- 2. Plagio en las empresas dades de éxito tienen en un mercado compe- titivo, y cada vez más exigente. Sin embargo, 2.1. Prevención de pérdida de la Web 2.0 ha propiciado ciertas conductas datos entre algunas empresas muy poco recomend- El resultado de una pérdida de datos ables. equivale a la reducción de la confianza de los Y es que si por una parte, los medios di- clientes y socios, una reducción de valor de la gitales permiten a las empresas tener un ma- empresa, el daño a la reputación, pérdida de yor contacto con el consumidor informándole competitividad y posibles cargos criminales. de sus productos y servicios; por otra parte, Y es que la información que posee una em- dicha información no sólo está al alcance de presa es uno de los principales activos a pro- la mano de los consumidores, sino que tam- teger. Se han propuesto varias técnicas para bién lo está para las empresas competidoras. proteger la información de ataques externos. Por desgracia, existen empresas que copian Una de estas técnicas es utilizar los méto- productos, servicios e incluso ideas de otras dos para detección automática de plagio para empresas. Por este motivo, las empresas están prevenir estos ataques a la red informática y obligadas a protegerse de aquellas empresas ası́ poder evitar la pérdida de datos, como que infringen la propiedad intelectual ajena. (Rieck y Laskov, 2008). Sin embargo, las ventajas que aportan los medios digitales a las empresas son mu- 2.2. Plagio de ideas cho mayores que las desventajas. Una de las Para poder acercarse al consumidor, las ventajas está relacionada con las opiniones empresas crean páginas web donde intro- que comparten los consumidores. Conseguir ducen información propia de la empresa, pu- analizar estas opiniones es de suma impor- blicitan sus productos y sus servicios. Sin em- ∗ bargo, cuando una empresa lanza una herra- El trabajo se engloba dentro del proyecto del MICINN: TEXT-ENTERPRISE 2.0: Técnicas de mienta nueva, introduce una funcionalidad Comprensión de textos aplicadas a las necesidades de original, tanto consumidores como competi- la Empresa 2.0 (TIN2009-13391-C04-03) dores lo descubren en pocas horas o dı́as. Software Precision Recall resultados no son buenos comparados con Grozea et al. 0,7418 0,6585 los del ganador de la competición (Potthast WCopyFind 0,0136 0,4586 et al., 2003). Queremos hacer hincapié en Ferret 0,0290 0,6048 que los resultados de la medida de precisión son muy bajos. Esto es debido principal- mente a que las herramientas disponibles no Tabla 1: Resultados obtenidos en la competi- pueden encontrar plagio cuando, por ejemplo ción PAN’09 hay traducciones a idiomas diferentes al del documento original. Otro factor desfavorable añadido que tiene WCopyFind es que tam- Si una empresa quiere estar en primera poco se tiene en cuenta la modificación de lı́nea de salida, debe de estar atenta a sus palabras, como pueden ser sinónimos, antóni- competidores, para descubrir las novedades mos, hiperónimos o hipónimos. y el efecto que tienen en los consumidores, y de esta forma poder mejorar los productos o 2.4. Plagio de opiniones herramientas que ofrecen. Pero no todas las El plagio no solamente afecta a las em- empresas realizan una competencia leal, sino presas sino también a los consumidores. En que existen empresas que utilizan la informa- ocasiones alguien publica alguna nota en un ción que introducen otras en sus páginas web blog como slashdot.com, posteriormente otro para copiar las ideas de éstas. la copia para publicarla en barrapunto.com. Otro tanto ocurre en las blogs particulares; 2.3. Herramientas para la por ejemplo, alguien publica alguna opinión detección de plagio en su blog particular y posteriormente otro Actualmente, hay disponibles herramien- bloguero la publica en su blog también par- tas de detección automática de plagio que ticular sin introducir ninguna referencia a la una empresa puede utilizar para protegerse. opinión original. Casos como éstos son muy Una de estas herramientas es WCopyFind1 . frecuentes en el mundo de las redes sociales. WCopyFind es un software desarrollado por Una de las principales causas es que las Bloomfield de la Universidad de Virginia redes sociales miden su éxito en función del (2004). WCopyFind detecta plagio realizan- número de páginas visitadas o de la canti- do una búsqueda a través de la comparación dad de amigos que se genere. Además, es- de n-gramas (Dreher, 2007). to puede conllevar un beneficio económico, Para comprobar la eficacia de las puesto que cuanto más visitas se consiguen herramientas para la detección de plagio mayores serán los beneficios por publicidad. disponibles en la Web, como WCopyFind, hemos participado en la competición 1st 3. Análisis de opiniones International Competition on Plagiarism Detection 2 (PAN’09). La tarea consistı́a en En nuestra sociedad interconectada, satu- dado un conjunto de documentos sospechosos rada de mensajes comerciales, conseguir la y un conjunto de documentos originales, atención y la credibilidad del potencial re- encontrar todos los pasajes de texto en los sulta cada vez más costoso y difı́cil. El con- documentos sospechosos que han sido plagia- sumidor recurre a la Web en busca de opinio- dos y los pasajes de texto correspondientes nes sobre productos y marcas, en las que él en los documentos originales. mismo puede participar activamente. El de- La tabla 1 muestra los resultados que seo de compartir experiencias con marcas y hemos obtenido con el corpus de la com- productos es quizá la principal caracterı́stica petición con la herramienta WCopyFind. de estas nuevas redes sociales. También muestra los resultados obtenidos Diversos estudios demuestran la influen- por el equipo que utilizó otra herramienta cia de la Web 2.0 en las prácticas de con- disponible, Ferret3 . sumo: como el estudio realizado por la Aso- Observando los resultados, podemos com- ciación para la Investigación de Medios de probar que para ambas herramientas, los Comunicación (AIMC4 ), en el que se afirma que el 75.5 % de internautas españoles admite 1 http://plagiarism.phys.virginia.edu/ haberse documentado en internet durante el 2 http://pan.webis.de/ 3 4 http://homepages.feis.herts.ac.uk/∼pdgroup/ http://www.aimc.es/aimc.php último año, como paso previo a formalizar los productos y servicios que ofrece. A partir una compra de productos o servicios. de las ontologı́as se facilitarı́a la extracción Es por ello que las empresas tienen la obli- de las opiniones sobre cada concepto. gación de supervisar en los medios sociales Volviendo al ejemplo anterior, si la em- las opiniones relacionadas con sus productos presa de turismo posee una ontologı́a con un y servicios. Sin embargo, en lo últimos años se concepto hotel y otro concepto museo, po- ha producido una explosión en la Web 2.0 sin drı́a extraer los adjetivos de cada concepto y precedentes, ocasionando que la supervisión a partir de éstos calcular la polaridad prome- manual de las opiniones se convierta en un dio de cada uno de los conceptos. trabajo completamente irrealizable. Por este motivo las empresas se ven en la necesidad 3.2. Integración de opiniones vı́a de aunar esfuerzos por encontrar un método fusión de ontologı́as automático que sea capaz de analizar dichas Sin embargo, dado el coste de conseguir la opiniones e identificar su orientación semánti- opinión de los consumidores, varias empre- ca. sas podrı́an decidir compartir e intercambiar la información que poseen sobre las opinio- 3.1. Anáisis de opiniones basado nes de los consumidores. En estos casos, se en ontologı́as debe encontrar algún método que sea capaz En un documento donde un cliente opina de poder analizar automáticamente las opi- sobre un producto o servicio, se escriben tan- niones de los clientes y además que sea com- to aspectos positivos como negativos del ob- patible con las diferentes ontologı́as. jeto, aunque el sentimiento general del objeto Esta posibilidad de intercambio de infor- puede ser positivo o negativo. mación de opiniones no se ha estudiado an- teriormente. Proponemos un algoritmo que Las empresas deben analizar tanto la incluye dentro del análisis de opiniones, una orientación general de la opinión, ası́ como fusión de ontologı́as. La fusión de ontologı́as la orientación de cada concepto del que se nos facilitará poder obtener las polaridades opina en el documento evaluativo. Por ejem- de cada concepto de cada una de las on- plo, una empresa de turismo que ofrece un tologı́as de las empresas participantes. Esto viaje a Parı́s, con el hotel Parisino incluido, y es posible ya que la fusión de ontologı́as nos entradas al museo del Louvre; aparecerán opi- devolverá una alineación entre cada concepto niones como: El hotel “Parisino” era desas- de las dos ontologı́as de las empresas con lo troso; pero el museo de Louvre era precioso. que podremos relacionarlos y ası́ obtener la En esta opinión, que puede calificarse como polaridad de dichos conceptos. una opinión generalmente negativa, aparecen El algoritmo (Mascardi, Locoro, y Rosso, dos polaridades diferentes: el concepto ho- 2009) propone que la empresa e1 obtenga la tel tiene una polaridad negativa; pero por polaridad de los conceptos de su ontologı́a otro lado, el concepto museo tiene una po- O1 del conjunto de opiniones que tenga en laridad positiva. Si la empresa sólo analiza la su base de datos, del mismo modo la empre- orientación semántica general de la opinión, sa e2 obtendrá la polaridad de los conceptos pierde la información de que al opinante le ha de su ontologı́a O2 del conjunto de opinio- gustado el museo. En el caso que la mayorı́a nes que posee en su base de datos. Para la tengan la misma opinión, la empresa podrı́a obtención de la polaridad de los conceptos y dejar de ofrecer el viaje a Parı́s. Sin embar- propiedades de las ontologı́as cada empresa go, analizando las orientaciones semánticas seguirá los siguientes pasos: de los conceptos, podrı́a descubrir que lo que no gusta a los clientes es el hotel y no el via- Se buscan las frases de cada opinión que je. Tal vez, cambiando de hotel ofrecido en contienen algún concepto de la ontologı́a el viaje, mejore las opiniones de los clientes de la empresa; sobre el viaje. Seguidamente, se extraen de las frases Para poder analizar la polaridad de obtenidas en el paso anterior, los adje- los conceptos que se opinan en los do- tivos adyacentes de cada concepto. cumentos evaluativos, las empresas pueden aprovecharse de las ontologı́as que poseen. En el siguiente paso se obtienen la po- Las empresas disponen de ontologı́as en las laridad de los adjetivos utilizando Senti- que están representados todos los aspectos de WordNet. Corpus Dividido Corpus completo En este trabajo hemos tratado de poner- Ontologı́a Num. Res. Num. Res. nos en la piel de una empresa y en su necesi- ETP Tourism 1.500 72,41 % 3.000 72,2 % qallme-tourism 1.500 70,92 % 3.000 71,2 % dad de detectar los casos de plagio de sus Ontology matching 3.000 71,13 % 3.000 71,33 % campañas de marketing y sus ideas publi- cadas en la Web. La idea era investigar hasta Tabla 2: Resultados de los experimentos qué punto se podrı́a hacer utilizando el soft- ware de detección de plagio que se encuentra disponible en la Web. Los pobres resultados Se comprueba que la frase es afirmativa, que obtuvimos con la herramienta WCopy- en caso contrario, se invierte la polaridad Find, ası́ como con Ferret, nos han demostra- que nos devuelve SentiWordNet. do la necesidad de desarrollar métodos de de- tección automática de plagio para empresas. Posteriormente se realizará una fusión de ontologı́as mediante una ontologı́a general O 4.2. Cómo beneficiarse de las (upper ontology) y a través de ésta, se reali- ventajas de la Web 2.0 zará un cálculo de la orientación semántica de La Web 2.0 se ha convertido en una inmen- una opinión t como la suma de las polaridades sa red de información la cual es imposible de de cada concepto de la ontologı́a general O. analizar todos los datos que aparecen en ella. Para poder medir mejor la eficacia del al- Por eso es conveniente que empresas compar- goritmo propuesto, hemos realizado dos dife- tan dicha información para obtener un be- rentes experimentos: en el primer experimen- neficio mutuo. Una de las informaciones más to hemos separado el corpus para cada una importantes que se encuentra hoy en dı́a en la de las dos empresas, con la intención de si- Web 2.0 son las opiniones de los consumidores mular que ocurrirı́a si dos empresas analizan sobre los productos y servicios de las marcas. diferentes textos antes de compartir la infor- Esta información ayuda a las empresas a de- mación sobre el análisis de opiniones; y en el tectar las tendencias del mercado. Por ello, segundo, hemos utilizado el corpus comple- varias empresas pueden decidir compartir los to para las dos ontologı́as, simulando que dos análisis de opiniones. En este trabajo, hemos empresas analizan anteriormente los mismos comprobado como al realizar la integración textos. de las opiniones vı́a fusión de ontologı́as no En la tabla 2 se muestran los resultados se pierden datos de los anteriormente calcu- obtenidos. Un dato destacable es que tras lados por el análisis de opiniones. realizar el proceso de fusión de ontologı́as se obtienen resultados muy cercanos a los re- Bibliografı́a sultados obtenidos por separado en cada on- Dreher, H. 2007. Automatic conceptual tologı́a, es más, aunque los resultados son un analysis for plagiarism detection. Journal poco inferiores comparándolo con los resulta- of Issues in Informing Science and Infor- dos obtenidos con la ontologı́a ETP-Tourism, mation Technology 4, páginas 601–614. son un poco superiores que con la ontologı́a Mascardi, V., A. Locoro, y P. Rosso. qallme-tourism. Los resultados obtenidos nos 2009. Automatic ontology matching via dan a entender que al realizar el proceso de upper ontologies: A systematic evalua- fusión de ontologı́as no se pierden datos refer- tion. IEEE Transactions on Knowl- entes al proceso de análisis de opiniones real- edge and Data Engineering, 99(1). doi: izado con antelación a la fusión de ontologı́as. 10.1109/TKDE.2009.154. 4. Conclusiones Potthast, M., B. Stein, A. Eiselt, A. Barrón- Cedeño, y P. Rosso. 2003. Overview of 4.1. Cómo protegerse de las the 1st International Competition on Pla- desventajas de la Web 2.0 giarism Detection. Proc. of the SEPLN’09 Workshop on Uncovering Plagiarism, Au- Con la llegada de la Web 2.0 se ha pro- thorship and Social Software, páginas 1–9. ducido un aumento en el número de plagios entre empresas. Una empresa debe proteger Rieck, K. y P. Laskov. 2008. Linear-time su material intelectual, pues su mayor éxito computation of similarity measures for se- en el mercado son sus productos o servicios quential data. Journal of Machine Learn- que la diferencian del resto de empresas. ing Research, 9:23–48.