<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta>
      <journal-title-group>
        <journal-title>Linear-time
computation of similarity measures for se-
quential data. Journal of Machine Learn-
ing Research</journal-title>
      </journal-title-group>
    </journal-meta>
    <article-meta>
      <title-group>
        <article-title>Empresa 2.0: Deteccion de plagio y analisis de opiniones</article-title>
      </title-group>
      <contrib-group>
        <aff id="aff0">
          <label>0</label>
          <institution>Paolo Rosso NLE Lab. - ELiRF Universidad Politecnica de Valencia</institution>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>Universidad Politecnica de Valencia</institution>
        </aff>
      </contrib-group>
      <pub-date>
        <year>2008</year>
      </pub-date>
      <volume>9</volume>
      <issue>23</issue>
      <abstract>
        <p>In the era of digital media, enterprises face new challenges. In this article, we put ourselves in an enterprise's shoes to study how to resolve some of the challenges such as plagiarism protection and consumer's opinions analysis.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>La llegada de la Web 2.0 ha supuesto un
nuevo reto para las empresas. Actualmente,
aquellas empresas que han apostado por el
marketing en los medios digitales, como blogs
y redes sociales, son las que mayores
posibilidades de exito tienen en un mercado
competitivo, y cada vez mas exigente. Sin embargo,
la Web 2.0 ha propiciado ciertas conductas
entre algunas empresas muy poco
recomendables.</p>
      <p>Y es que si por una parte, los medios
digitales permiten a las empresas tener un
mayor contacto con el consumidor informandole
de sus productos y servicios; por otra parte,
dicha informacion no solo esta al alcance de
la mano de los consumidores, sino que
tambien lo esta para las empresas competidoras.
Por desgracia, existen empresas que copian
productos, servicios e incluso ideas de otras
empresas. Por este motivo, las empresas estan
obligadas a protegerse de aquellas empresas
que infringen la propiedad intelectual ajena.</p>
      <p>Sin embargo, las ventajas que aportan
los medios digitales a las empresas son
mucho mayores que las desventajas. Una de las
ventajas esta relacionada con las opiniones
que comparten los consumidores. Conseguir
analizar estas opiniones es de suma
impor</p>
      <p>El trabajo se engloba dentro del proyecto del
MICINN: TEXT-ENTERPRISE 2.0: Tecnicas de
Comprension de textos aplicadas a las necesidades de
la Empresa 2.0 (TIN2009-13391-C04-03)
tancia para el exito de una empresa. Esto es
debido a que las empresas se enfrentan con un
duro problema para conseguir que los
productos se ajusten a las necesidades y los gustos
de los consumidores.
2.</p>
    </sec>
    <sec id="sec-2">
      <title>Plagio en las empresas</title>
      <sec id="sec-2-1">
        <title>2.1. Prevencion de perdida de datos</title>
        <p>El resultado de una perdida de datos
equivale a la reduccion de la con anza de los
clientes y socios, una reduccion de valor de la
empresa, el dan~o a la reputacion, perdida de
competitividad y posibles cargos criminales.
Y es que la informacion que posee una
empresa es uno de los principales activos a
proteger. Se han propuesto varias tecnicas para
proteger la informacion de ataques externos.
Una de estas tecnicas es utilizar los
metodos para deteccion automatica de plagio para
prevenir estos ataques a la red informatica y
as poder evitar la perdida de datos, como
(Rieck y Laskov, 2008).</p>
      </sec>
      <sec id="sec-2-2">
        <title>2.2. Plagio de ideas</title>
        <p>Para poder acercarse al consumidor, las
empresas crean paginas web donde
introducen informacion propia de la empresa,
publicitan sus productos y sus servicios. Sin
embargo, cuando una empresa lanza una
herramienta nueva, introduce una funcionalidad
original, tanto consumidores como
competidores lo descubren en pocas horas o d as.</p>
        <p>Software
Grozea et al.</p>
        <p>WCopyFind</p>
        <p>Ferret</p>
        <p>Si una empresa quiere estar en primera
l nea de salida, debe de estar atenta a sus
competidores, para descubrir las novedades
y el efecto que tienen en los consumidores, y
de esta forma poder mejorar los productos o
herramientas que ofrecen. Pero no todas las
empresas realizan una competencia leal, sino
que existen empresas que utilizan la
informacion que introducen otras en sus paginas web
para copiar las ideas de estas.
2.3.</p>
      </sec>
      <sec id="sec-2-3">
        <title>Herramientas para la deteccion de plagio</title>
        <p>Actualmente, hay disponibles
herramientas de deteccion automatica de plagio que
una empresa puede utilizar para protegerse.
Una de estas herramientas es WCopyFind1.
WCopyFind es un software desarrollado por
Bloom eld de la Universidad de Virginia
(2004). WCopyFind detecta plagio
realizando una busqueda a traves de la comparacion
de n-gramas (Dreher, 2007).</p>
        <p>Para comprobar la e cacia de las
herramientas para la deteccion de plagio
disponibles en la Web, como WCopyFind,
hemos participado en la competicion 1st
International Competition on Plagiarism
Detection2 (PAN'09). La tarea consist a en
dado un conjunto de documentos sospechosos
y un conjunto de documentos originales,
encontrar todos los pasajes de texto en los
documentos sospechosos que han sido
plagiados y los pasajes de texto correspondientes
en los documentos originales.</p>
        <p>La tabla 1 muestra los resultados que
hemos obtenido con el corpus de la
competicion con la herramienta WCopyFind.
Tambien muestra los resultados obtenidos
por el equipo que utilizo otra herramienta
disponible, Ferret3.</p>
        <p>Observando los resultados, podemos
comprobar que para ambas herramientas, los
1http://plagiarism.phys.virginia.edu/
2http://pan.webis.de/
3http://homepages.feis.herts.ac.uk/ pdgroup/
resultados no son buenos comparados con
los del ganador de la competicion (Potthast
et al., 2003). Queremos hacer hincapie en
que los resultados de la medida de precision
son muy bajos. Esto es debido
principalmente a que las herramientas disponibles no
pueden encontrar plagio cuando, por ejemplo
hay traducciones a idiomas diferentes al del
documento original. Otro factor desfavorable
an~adido que tiene WCopyFind es que
tampoco se tiene en cuenta la modi cacion de
palabras, como pueden ser sinonimos,
antonimos, hiperonimos o hiponimos.
2.4.</p>
      </sec>
      <sec id="sec-2-4">
        <title>Plagio de opiniones</title>
        <p>El plagio no solamente afecta a las
empresas sino tambien a los consumidores. En
ocasiones alguien publica alguna nota en un
blog como slashdot.com, posteriormente otro
la copia para publicarla en barrapunto.com.
Otro tanto ocurre en las blogs particulares;
por ejemplo, alguien publica alguna opinion
en su blog particular y posteriormente otro
bloguero la publica en su blog tambien
particular sin introducir ninguna referencia a la
opinion original. Casos como estos son muy
frecuentes en el mundo de las redes sociales.</p>
        <p>Una de las principales causas es que las
redes sociales miden su exito en funcion del
numero de paginas visitadas o de la
cantidad de amigos que se genere. Ademas,
esto puede conllevar un bene cio economico,
puesto que cuanto mas visitas se consiguen
mayores seran los bene cios por publicidad.
3.</p>
      </sec>
    </sec>
    <sec id="sec-3">
      <title>Analisis de opiniones</title>
      <p>En nuestra sociedad interconectada,
saturada de mensajes comerciales, conseguir la
atencion y la credibilidad del potencial
resulta cada vez mas costoso y dif cil. El
consumidor recurre a la Web en busca de
opiniones sobre productos y marcas, en las que el
mismo puede participar activamente. El
deseo de compartir experiencias con marcas y
productos es quiza la principal caracter stica
de estas nuevas redes sociales.</p>
      <p>Diversos estudios demuestran la in
uencia de la Web 2.0 en las practicas de
consumo: como el estudio realizado por la
Asociacion para la Investigacion de Medios de
Comunicacion (AIMC4), en el que se a rma
que el 75.5 % de internautas espan~oles admite
haberse documentado en internet durante el
4http://www.aimc.es/aimc.php
ultimo an~o, como paso previo a formalizar
una compra de productos o servicios.</p>
      <p>Es por ello que las empresas tienen la
obligacion de supervisar en los medios sociales
las opiniones relacionadas con sus productos
y servicios. Sin embargo, en lo ultimos an~os se
ha producido una explosion en la Web 2.0 sin
precedentes, ocasionando que la supervision
manual de las opiniones se convierta en un
trabajo completamente irrealizable. Por este
motivo las empresas se ven en la necesidad
de aunar esfuerzos por encontrar un metodo
automatico que sea capaz de analizar dichas
opiniones e identi car su orientacion
semantica.
3.1.</p>
      <sec id="sec-3-1">
        <title>Anaisis de opiniones basado en ontolog as</title>
        <p>En un documento donde un cliente opina
sobre un producto o servicio, se escriben
tanto aspectos positivos como negativos del
objeto, aunque el sentimiento general del objeto
puede ser positivo o negativo.</p>
        <p>Las empresas deben analizar tanto la
orientacion general de la opinion, as como
la orientacion de cada concepto del que se
opina en el documento evaluativo. Por
ejemplo, una empresa de turismo que ofrece un
viaje a Par s, con el hotel Parisino incluido, y
entradas al museo del Louvre; apareceran
opiniones como: El hotel \Parisino" era
desastroso; pero el museo de Louvre era precioso.
En esta opinion, que puede cali carse como
una opinion generalmente negativa, aparecen
dos polaridades diferentes: el concepto
hotel tiene una polaridad negativa; pero por
otro lado, el concepto museo tiene una
polaridad positiva. Si la empresa solo analiza la
orientacion semantica general de la opinion,
pierde la informacion de que al opinante le ha
gustado el museo. En el caso que la mayor a
tengan la misma opinion, la empresa podr a
dejar de ofrecer el viaje a Par s. Sin
embargo, analizando las orientaciones semanticas
de los conceptos, podr a descubrir que lo que
no gusta a los clientes es el hotel y no el
viaje. Tal vez, cambiando de hotel ofrecido en
el viaje, mejore las opiniones de los clientes
sobre el viaje.</p>
        <p>Para poder analizar la polaridad de
los conceptos que se opinan en los
documentos evaluativos, las empresas pueden
aprovecharse de las ontolog as que poseen.
Las empresas disponen de ontolog as en las
que estan representados todos los aspectos de
los productos y servicios que ofrece. A partir
de las ontolog as se facilitar a la extraccion
de las opiniones sobre cada concepto.</p>
        <p>Volviendo al ejemplo anterior, si la
empresa de turismo posee una ontolog a con un
concepto hotel y otro concepto museo,
podr a extraer los adjetivos de cada concepto y
a partir de estos calcular la polaridad
promedio de cada uno de los conceptos.</p>
      </sec>
      <sec id="sec-3-2">
        <title>3.2. Integracion de opiniones v a fusion de ontolog as</title>
        <p>Sin embargo, dado el coste de conseguir la
opinion de los consumidores, varias
empresas podr an decidir compartir e intercambiar
la informacion que poseen sobre las
opiniones de los consumidores. En estos casos, se
debe encontrar algun metodo que sea capaz
de poder analizar automaticamente las
opiniones de los clientes y ademas que sea
compatible con las diferentes ontolog as.</p>
        <p>Esta posibilidad de intercambio de
informacion de opiniones no se ha estudiado
anteriormente. Proponemos un algoritmo que
incluye dentro del analisis de opiniones, una
fusion de ontolog as. La fusion de ontolog as
nos facilitara poder obtener las polaridades
de cada concepto de cada una de las
ontolog as de las empresas participantes. Esto
es posible ya que la fusion de ontolog as nos
devolvera una alineacion entre cada concepto
de las dos ontolog as de las empresas con lo
que podremos relacionarlos y as obtener la
polaridad de dichos conceptos.</p>
        <p>El algoritmo (Mascardi, Locoro, y Rosso,
2009) propone que la empresa e1 obtenga la
polaridad de los conceptos de su ontolog a
O1 del conjunto de opiniones que tenga en
su base de datos, del mismo modo la
empresa e2 obtendra la polaridad de los conceptos
de su ontolog a O2 del conjunto de
opiniones que posee en su base de datos. Para la
obtencion de la polaridad de los conceptos y
propiedades de las ontolog as cada empresa
seguira los siguientes pasos:</p>
        <p>Se buscan las frases de cada opinion que
contienen algun concepto de la ontolog a
de la empresa;
Seguidamente, se extraen de las frases
obtenidas en el paso anterior, los
adjetivos adyacentes de cada concepto.</p>
        <p>En el siguiente paso se obtienen la
polaridad de los adjetivos utilizando
SentiWordNet.</p>
        <p>Ontolog a
ETP Tourism
qallme-tourism
Ontology matching
Se comprueba que la frase es a rmativa,
en caso contrario, se invierte la polaridad
que nos devuelve SentiWordNet.</p>
        <p>Posteriormente se realizara una fusion de
ontolog as mediante una ontolog a general O
(upper ontology ) y a traves de esta, se
realizara un calculo de la orientacion semantica de
una opinion t como la suma de las polaridades
de cada concepto de la ontolog a general O.</p>
        <p>Para poder medir mejor la e cacia del
algoritmo propuesto, hemos realizado dos
diferentes experimentos: en el primer
experimento hemos separado el corpus para cada una
de las dos empresas, con la intencion de
simular que ocurrir a si dos empresas analizan
diferentes textos antes de compartir la
informacion sobre el analisis de opiniones; y en el
segundo, hemos utilizado el corpus
completo para las dos ontolog as, simulando que dos
empresas analizan anteriormente los mismos
textos.</p>
        <p>En la tabla 2 se muestran los resultados
obtenidos. Un dato destacable es que tras
realizar el proceso de fusion de ontolog as se
obtienen resultados muy cercanos a los
resultados obtenidos por separado en cada
ontolog a, es mas, aunque los resultados son un
poco inferiores comparandolo con los
resultados obtenidos con la ontolog a ETP-Tourism,
son un poco superiores que con la ontolog a
qallme-tourism. Los resultados obtenidos nos
dan a entender que al realizar el proceso de
fusion de ontolog as no se pierden datos
referentes al proceso de analisis de opiniones
realizado con antelacion a la fusion de ontolog as.</p>
      </sec>
    </sec>
    <sec id="sec-4">
      <title>Conclusiones 4.</title>
      <p>4.1.</p>
      <sec id="sec-4-1">
        <title>Como protegerse de las desventajas de la Web 2.0</title>
        <p>Con la llegada de la Web 2.0 se ha
producido un aumento en el numero de plagios
entre empresas. Una empresa debe proteger
su material intelectual, pues su mayor exito
en el mercado son sus productos o servicios
que la diferencian del resto de empresas.</p>
        <p>En este trabajo hemos tratado de
ponernos en la piel de una empresa y en su
necesidad de detectar los casos de plagio de sus
campan~as de marketing y sus ideas
publicadas en la Web. La idea era investigar hasta
que punto se podr a hacer utilizando el
software de deteccion de plagio que se encuentra
disponible en la Web. Los pobres resultados
que obtuvimos con la herramienta
WCopyFind, as como con Ferret, nos han
demostrado la necesidad de desarrollar metodos de
deteccion automatica de plagio para empresas.</p>
      </sec>
      <sec id="sec-4-2">
        <title>4.2. Como bene ciarse de las ventajas de la Web 2.0</title>
        <p>La Web 2.0 se ha convertido en una
inmensa red de informacion la cual es imposible de
analizar todos los datos que aparecen en ella.
Por eso es conveniente que empresas
compartan dicha informacion para obtener un
bene cio mutuo. Una de las informaciones mas
importantes que se encuentra hoy en d a en la
Web 2.0 son las opiniones de los consumidores
sobre los productos y servicios de las marcas.
Esta informacion ayuda a las empresas a
detectar las tendencias del mercado. Por ello,
varias empresas pueden decidir compartir los
analisis de opiniones. En este trabajo, hemos
comprobado como al realizar la integracion
de las opiniones v a fusion de ontolog as no
se pierden datos de los anteriormente
calculados por el analisis de opiniones.</p>
      </sec>
    </sec>
    <sec id="sec-5">
      <title>Bibliograf a</title>
      <p>
        Dreher, H. 2007. Automatic conceptual
analysis for plagiarism detection. Journal
of Issues in Informing Science and
Information Technology 4, paginas 601{614.
Mascardi, V., A. Locoro, y P. Rosso.
2009. Automatic ontology matching via
upper ontologies: A systematic
evaluation. IEEE Transactions on
Knowledge and Data Engineering, 99(
        <xref ref-type="bibr" rid="ref1">1</xref>
        ). doi:
10.1109/TKDE.2009.154.
      </p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          <source>1.500 72</source>
          ,
          <issue>41</issue>
          %
          <fpage>1</fpage>
          .500 70,
          <issue>92</issue>
          %
          <fpage>3</fpage>
          .000 71,13 % Corpus completo Num. Res.
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          <source>3.000 72</source>
          ,
          <issue>2</issue>
          %
          <fpage>3</fpage>
          .000 71,
          <issue>2</issue>
          %
          <fpage>3</fpage>
          .000 71,33 % Tabla 2: Resultados de los experimentos 4.
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>