Creado el 26/05/2014

Última versión: 26/05/2014

Paolo Rosso, Universitat Politècnica de Valencia

Comunidad moocTLH 

Esta obra está bajo una licencia de Creative Commons
Reconocimiento-CompartirIgual 3.0 Unported
.

Detección automática del plagio

Detección del plagio

Comparación externa

Análisis intrínseco

Dificultades

Competiciones

Reuso de texto en la investigación

Bibliografía


Detección automática del plagio

Hola. Soy Paolo Rosso de la Universitat Politècnica de Valencia y en estos 10 minutos introduciré el tema de la detección de plagio.

Primero qué entendemos por plagio. No sólo plagio cuando nos referimos a palabras sino también plagio de ideas, procesos, resultados, …  y esto ocurre cuando en la fuente original y el autor no viene citado de la manera correcta.

Entonces hay que hacer una primera distinción entre el  reutilización de texto y plagio. Un texto puede ser reutilizado de manera correcta siempre y cuando se cite la fuente y el autor. Si esto no ocurre es cuando entonces hablamos de plagio.

Plagio no sólo se refiere a plagio en texto y no sólo por parte de estudiantes, desgraciadamente hay casos de plagio por parte de profesores, investigadores, …

Y no sólo en texto sino que también en imágenes, vídeo y música.

A veces se habla de criptomnesia en lugar de plagio cuando uno tiene recuerdos de, por ejemplo, una melodía o una canción y asegura no haber cometido plagio.

Detección del plagio

Con respecto a los métodos de detección de plagio podemos distinguir los métodos externos  y métodos intrínsecos.

Desde un punto de vista de proporcionar evidencia lingüística a un experto como un lingüista forense, lógicamente el lingüista computacional intenta proporcionarle el documento desde el cual ha sido cometido plagio. Es decir, en este caso hablamos de métodos de detección externa.

Hay técnicas que se basan en secuencias de caracteres, de palabras, …, o técnicas de hashing que intentan dado un documento, dado un fragmento de texto, proporcionar un valor de hash.

Cuando esto no es posible -no siempre el documento fuente está disponible y se puede recuperar- entonces se trata de detectar el plagio de manera intrínseca, basándose exclusivamente en el texto del documento que se está analizando.

En este caso hay que buscar irregularidades a nivel de cambio de estilo de escritura. Entonces él se utilizan técnicas como basarse en la riqueza del vocabulario, estadísticas básicas como la longitud de un promedio de frase, de palabras, o perfiles de secuencias de caracteres; o también el índice Gunning-Fog que determina la complejidad de un determinado fragmento de texto.

Comparación externa

En esta transparencia tenéis de manera gráfica la comparación de un documento con documentos sospechosos cuando se ha producido plagio de tipo “copiar pegar”: plagio verbatim.

Una copia verbatim se puede visualizar de esta manera , con la diagonal.

Cuando ha ocurrido un cambio de alguna de las palabra, entonces tenemos por una representación de este estilo.

Análisis intrínseco

Con respecto a la detección intrínseca del plagio, como decía anteriormente, se trata de ver si hay un cambio de estilo. Podéis darle a la pausa y leer tranquilamente éste texto:

En este trabajo, hemos hecho una investigación acerca de la influencia que tiene la cantidad de sales minerales en el humor de las personas. Para la investigación he trabajado con 5 personas que han tomado agua con  distinta cantidad de sales minerales. Nuestra teoría es que entre  más sales minerales haya en el agua, las personas son más volubles. […]

Las sales minerales son moléculas inorgánicas de fácil ionización en presencia de agua y que en los seres vivos aparecen tanto precipitadas como disueltas. Las sales minerales disueltas en agua siempre están ionizadas. Estas sales tienen función estructural y funciones de regulación del pH, de la presión osmótica y de reacciones bioquímicas, en las que intervienen iones específicos. […]

Me parece que los resultados son buenos. […]

Como habréis podido comprobar, en el primer párrafo y en el último hay expresiones más coloquiales: “hemos hecho”,  he trabajado”, “nuestra teoría”, “me parece”,… Mientras que en el segundo párrafo el texto es algo más formal.

Si queremos verlo de una manera de cómo, por ejemplo, una herramienta como Stylsys, que hemos desarrollado aquí en la Universitat Politècnica de Valencia, esto es lo que se podría ver con respecto al texto anterior. La parte roja se refieren a la parte más formal. Como veis hay una complejidad mayor con respecto al primer y tercer párrafo; hay una longitud mayor con respecto a las frases y a las palabras.

Podéis investigar más subiendo algunos textos o utilizando los textos de prueba que encontraréis en esta dirección: http://memex2.dsic.upv.es/StylisticAnalysis/es/index.jsp.

  

Dificultades

El plagio es bastante más difícil de detectar cuando ha ocurrido un proceso de paráfrasis. Si “solo” ha habido un plagio verbatim —"copiar-pegar"—, el estado actual de los sistemas de detección de plagio es que consiguen detectar la mayoría de los casos.

Por ejemplo, aquí veis los sistemas que han participado en una competición que se organizó en el 2010 y, sin entrar en detalle respecto a las medidas que se utilizan de "precision" y "recall" a nivel de carácter, si solo nos centramos en ésta medida que resume las dos anteriores, "plagdet" —de "detección de plagio"—, vemos que los mejores sistemas obtienen resultados muy altos, mientras que en el caso de textos que tienen paráfrasis los valores bajan a un cuarto, es decir, los mejores sistemas no llegan ni al 30 %.

Aquí está disponible, en esta dirección, el corpus P4P de paráfrasis, que ha sido etiquetado con la ayuda de compañeras lingüistas de la Universidad de Barcelona del equipo de Toni Martí, donde cada paráfrasis ha sido etiquetada en función de una tipología desarrollada en la Universidad de Barcelona. Un vistazo nos hará entender cuáles son los tipos de paráfrasis más difíciles de detectar por parte de los sistemas actuales de detección de plagio.

Otra dificultad ocurre en la detención cuando el plagio es translingüe, es decir, se ha cometido plagio desde un texto escrito en otro idioma.

Se podría pensar en traducir luego de analizar el plagio a nivel monolingüe pero esto no siempre es posible. Además, no es muy realista pensar en traducir todos los documentos de Internet a un idioma.

Hay diferentes aproximaciones a este problema concreto, desde la sencilla que se basa en n-gramas de caracteres, el CL-ASA que se basa en técnicas estadísticas sobre corpus paralelos, hasta el CL-ESA que necesita un corpus comparable como, por ejemplo, Wikipedia. O técnicas que se han desarrollado recientemente que se basan de en grafos de conocimiento o tesauros a nivel conceptual.

Aquí vemos una comparación que se hizo entre CL-ASA y CL-ESA, es decir, las dos técnicas que se basan en corpus comparables o paralelos, y con la de trigramas de caracteres.

La comparación se ha hecho utilizando parte de Wikipedia para pares de lenguas como inglés-alemán, inglés-holandés, inglés-polaco, inglés-español e inglés-francés.

Como podéis ver, de manera bastante sorprendente técnicas sencillas como los trigramas suelen tener unas prestaciones hasta mejor que las técnicas que se basan en corpus comparables como Wikipedia.

Pero cuando esta comparación ocurre con corpus paralelos como JRC-Acquis, métodos que han sido entrenados con corpus paralelos como  CL-ASA suelen portarse mejor, por lo menos con los pares de idiomas más similares; un poco menos cuando los lenguajes en cuestión no son tan similares en sintaxis y alfabeto, como el inglés y el polaco.

Competiciones

En estos años se han desarrollado diferentes competiciones sobre detección de plagio, la primera en el 2009 en el marco de la SEPLN, y actualmente se está siguiendo con esta competición en el marco del CLEF.

Otras competiciones más a nivel transligüe donde se han considerado idiomas como el indi o el bujarati han sido organizadas en otro foro, FIRE, donde este año (2014) organizaremos una competición sobre la detección de plagio en código fuente, SOCO.

Reuso de texto en la investigación

Y por último, hablar algo de reuso de texto en la investigación. Esto es un estudio que hicimos en el marco de la ACL para ver cuántos autores han reutilizado texto de sus propios artículos publicados anteriormente, o de artículos publicados por otros autores.

También se ha hecho un estudio con respecto a qué tipo de artículos y como veis y sobre todo esto ocurre entre artículos publicados en workshops de la ACL, o entre artículos "long"[1].

Esto ocurre también en el mismo año porque los artículos se pueden presentar como "long", como "short" o en el workshop[2]. La mayor parte de casos se refiere a plagio entre  artículos que se han enviado a diferentes workshops.

Cuando hablamos de plagio, mejor hablar de reutilización de texto porque en este caso la mayor parte de los casos se refieren a autoplagio y no a "cross-plagio", plagio por parte de autores que reutilizan texto de otros.

Podéis investigar más en estos temas en algunas de las referencias que os propongo. Y también podéis contactarme para saber más sobre la competición de detección de plagio en código fuente; aquí tenéis una "demo" de una herramienta que ha sido desarrollada en la Universidad Politécnica de Valencia. También para hacer ejercicios sobre detección de plagio en castellano.

Por último, quiero agradecer a quien hizo o quien está haciendo un doctorado sobre detección de plagio aquí en la Universidad Politécnica de Valencia, y a los compañeros del PAN, en el marco del cual estamos organizando estas competiciones que he comentado anteriormente.

Muchas gracias por vuestra atención

Bibliografía


[1] En la mayoría de congresos se suelen aceptar varios tipos de artículo: long y short hacen referencia a la longitud en páginas, el comité científico suele proponer que ciertos trabajos que consideren de menor relevancia se publiquen en formato corto y su presentación en el congreso y en las actas del mismo es diferente a la de los artículos largos.

[2] También es habitual que, además de la conferencia principal, se organicen talleres o conferencias satélite que se realizan en paralelo.