Verificación de ironía en textos cortos

Reporte final proyecto

El proyecto de verificación de ironía en textos cortos (tweets) consistió en verificar manualmente que un conjunto de 14,000 textos cortos extraídos de forma automática, efectivamente corresponden a expresiones irónicos. Para lo anterior se necesitó de tres etiquetadores que revisaron la colección durante un periodo de nueve semanas. De esta verificación se determinó que un 55% de los textos corresponden efectivamente a expresiones irónicas. Adicionalmente, se determinó si estas expresiones irónicas dependían de información extra como ligas externas, imágenes o un texto corto adicional. Como producto final se entrega la colección de textos cortos identificados como irónicos y  no irónicos, y una colección de textos extraídos denominados de background que son otra fuente potencial de expresiones no irónicas.

Antecedentes

El Departamento de Ciencias de la Computación (DCC-IIMAS-UNAM) a través del trabajo de tesis “Detección de Ironía de Textos Cortos” de la C. Gabriela Jasso acumuló un corpus de textos cortos (tweets). Este trabajo recolectó de forma automática aproximadamente 14,000 tweets marcados por el usuario de la plataforma Twitter con las etiquetas #ironía y #sarcasmo.

Estos son algunos de los ejemplos de tweets recuperados y un análisis preliminar:

  1. No hay nada más hermoso que terminar de encerar el piso y que venga tu prima mas chiquita y te lo ensucie. #Sarcasmo (irónico, expresa lo contrario)
  2. Estudiar con dolor de pierna da una concentración increíble #Ironia (irónico)
  3. Tener que poner #ironía hace que pierda toda la gracia xD (no irónico, habla sobre ironía no es una expresión irónica)
  4. Ahora viene Faitelson y dice que somos una isla en forma de S durmiendo. #Sarcasmo(no irónico, no expresa lo contrario)
  5. Si te digo que "Mi casa es tu casa", recuerda que siempre será mi casa :) #Sarcasmo #Realidad (se burla, pero no expresa lo contrario; no irónico)
  6. El café del #oxxo sabe mejor si me lo tomo en un termo de #starbucks?! #seanserios #espregunta #sarcasmo (no expresa lo contrario, hace una pregunta; no irónico)

Como se aprecia la tarea no es trivial; aún cuando los usuarios de la plataforma deciden etiquetar algo como ironía o sarcasmo, no siempre corresponde a casos irónicos, ya que los usuarios tienden a hablar del fenómeno (ejemplo 3), referirse a un evento irónico en una expresión no irónica (ejemplo 4), confundirlo con burla (ejemplo 5) o con algo paradójico (ejemplo 6).

Metodología

La metodología elegida fue la siguiente.

  1. Se creó una interfaz web para verificación de tweets.
  2. Se separaron tweets en cuatro grupos de forma aleatoria.
  1. Común: 1,000 tweets
  2. Conjunto a:  5,500 tweets
  3. Conjunto b: 5,500 tweets
  4. Conjunto c: 2,000 tweets
  1. Todos los etiquetadores etiquetan el grupo común
  2. Se midió el acuerdo entre etiquetadores
  3. Dado que la medición fue adecuada, se continuó con grupo b, c y d, uno asignado a cada usuario

Para facilitar la etiquetación se creó una herramienta web para apoyar la tarea. A continuación se muestra una pantalla que muestra lo que el usuario veía durante el proceso de etiquetación.

Figura 1: Interfaz de etiquetación vía webapp

Como se aprecia, en la parte central aparece el tweet a etiquetar, a través de la api de twitter se recupera el formato original y se le da la opción de decidir cómo: irónico (ironic), no irónico (noironic) y duda (doubt). En caso de irónico, el usuario tiene la opción de decidir si la ironía depende de la imagen, de un link externo o de una conversación. En caso de que el etiquetador tenga duda, puede marcarlo como tal, y será resuelto por el supervisor en un tiempo posterior.

Resultados

Como parte del proceso de verificación se creó el recurso Corpus “tuits” irónicos consistente de ejemplos de textos cortos de la plataforma social Twitter. Este recurso consiste de:

Como parte del desarrollo del corpus se midió el acuerdo entre etiquetadores para un conjunto de 1,000 oraciones etiquetadas en común. Los resultados se muestran en la tabla 1. Estos resultados muestran que la etiquetación propuesta muestra evidencia moderada de que los etiquetadores están de acuerdo en el fenómeno (ϰ>0.4), pero dista del estándar actual de (ϰ>0.8) para asegurar una evidencia sin lugar a dudas (ver discusión en Artstein y Poesio, 2008). Esto apunto a la complejidad de de identificar la ironía en textos cortos.

Métrica

Valor

Promedio acuerdo

0.73

0.46

0.46

0.47

 Tabla 1: Métricas de acuerdo entre etiquetadores

Como entregable se ponen a disposición de toda la comunidad las colecciones correspondientes. Además de todo el código generado durante este proyecto. En el caso de la colección de tweets está bajo una licencia de acceso abierto[1] para beneficio de toda la comunidad y su autoría queda bajo Gabriela Jasso, Ivan Meza y la Red Temática en Tecnologías del Lenguaje, CONACYT. Por otro lado la herramienta de etiquetación también está bajo una licencia de acceso abierto para código[2], y la autoría queda bajo Ivan V. Meza. Para facilitar su acceso se creó el siguiente portal donde se puede descargar los recursos.  

http://turing.iimas.unam.mx/ironia

Hay que tener en cuenta que dada las restricciones de uso de la plataforma Twitter el recurso que se hace disponible sólo contiene los índices de los tweets analizados. En este recurso no se incluye el texto del tweet o más información acerca de este.

Participantes

Los participantes del proyecto fueron:

        FI, Universidad Nacional Autónoma de México

Estudiante, recolección, etiquetación, supervisión y PLN

        Universidad Politécnica de Tecámac

Estudiante, etiquetación y PLN

        Universidad Politécnica de Tecámac

Estudiante, etiquetación y PLN

IIMAS, Universidad Nacional Autónoma de México

Supervisión y coordinación

Bibliografía


[1] http://creativecommons.org/licenses/by/4.0/

[2] http://www.gnu.org/licenses/old-licenses/gpl-2.0.en.html