Creado el 21/01/2014

Última versión: 09/01/2016

Laura Plaza, UNED

Comunidad moocTLH 

Esta obra está bajo una licencia de Creative Commons
Reconocimiento-CompartirIgual 3.0 Unported

GENERACIÓN DE RESÚMENES (y 2)

Introducción

Generación de resúmenes por extracción

Generación de resúmenes por abstracción

Evaluación

Bibliografía

Lecturas propuestas

GENERACIÓN DE RESÚMENES (y 2)

Introducción

Hola, soy Laura Plaza, profesora de la Universidad Nacional de Educación a Distancia y miembro del grupo de investigación de Recuperación de Información y Procesamiento de Lenguaje Natural de esta universidad. Os doy la bienvenida a esta segunda lección de generación automática de resúmenes.

¿Qué vamos a ver en esta lección?

  1. En primer lugar,  definiremos y motivaremos el problema de la generación automática de resúmenes.
  2. A continuación, repasaremos brevemente las soluciones y técnicas que tradicionalmente se han adoptado para abordar este problema.  
  3. Y finalmente, veremos qué criterios podemos utilizar para evaluar la calidad de los resúmenes generados de forma automática.

Para estudiar cómo generar resúmenes automáticamente, es imprescindible saber qué se entiende por resumen: un resumen es un texto producido a partir de uno o varios documentos, que conserva la información importante de los originales, eliminando la información irrelevante,  y que presenta una longitud significativamente inferior a la de los documentos originales.

La generación automática de resúmenes surge con la intención de hacer frente a la sobrecarga de información, como una manera de seleccionar automáticamente aquella que realmente interesa al usuario y descartar la que es irrelevante o redundante.

La generación automática de resúmenes es una disciplina que cuenta con más de medio siglo de vida, pero no es hasta finales del siglo XX cuando realmente se populariza, y esto se debe al auge experimentado por Internet y al aumento exponencial de la información disponible, que hace imposible al usuario procesar toda ella en un tiempo razonable.

Un resumen —ya sea generado de forma automática o manual— puede clasificarse de acuerdo a múltiples tipologías. Vamos a ver algunas de ellas:

Generación de resúmenes por extracción

Conviene realizar más hincapié en la primera taxonomía, la que distingue entre resúmenes por extracción y resúmenes por abstracción, ya que esta distinción es especialmente relevante cuando se quieren generar resúmenes de manera automática.

En la siguiente imagen, a la izquierda, se muestra un fragmento de una noticia periodística; y a la derecha, su correspondiente resumen generado por extracción. Vemos cómo el resumen se compone de las oraciones primera y última del texto original, extraídas tal cual y sin ninguna modificación, y concatenadas para formar el resumen.

Por lo tanto, un método automático de generación de resúmenes por extracción actuará de acuerdo al siguiente proceso general:

En cuanto a las técnicas y soluciones empleadas para generar resúmenes por extracción, cabe agruparlas en tres categorías que veremos en detalle:

Los enfoques superficiales puntúan las oraciones utilizando heurísticas sencillas que tratan de estimar la relevancia de las oraciones para la audiencia objetivo del resumen. Entre las heurísticas más utilizadas están la frecuencia de los términos del documento y  la posición de las oraciones en el documento:

La segunda categoría de técnicas son las técnicas discursivas. Algo más complejas que las anteriores, se basan en un análisis de la estructura del discurso y en la detección de distintos tipos de relaciones entre palabras. Dentro de estas técnicas, destaca por su difusión el enfoque de las cadenas léxicas. Este método consiste en recorrer el texto buscando enlaces entre oraciones, de tal modo que las oraciones que se encuentren enlazadas conforman una cadena léxica. Cada cadena se identifica con un tema dentro del documento. Dos oraciones se consideran enlazadas si entre sus palabras se establecen relaciones, pudiendo ser estas relaciones muy diversas (por ejemplo, de sinonimia, homonimia o repetición).

Finalmente, y en lugar de extraer oraciones para el resumen, se extraen cadenas completas. Para ello, se puntúan las cadenas de acuerdo a distintos criterios como su longitud o la frecuencia de sus palabras.

Otra técnica discursiva muy popular es la llamada Teoría de la Estructura Retórica de Mann y Thompson. No se explicará en esta lección, pero se anima al alumno a leer la referencia bibliográfica correspondiente.

Por último, las técnicas basadas en grafos representan el texto como una red compleja en la que los nodos representan cada una de las unidades textuales en las que se divide el texto y las aristas representan algún tipo de relación entre estas unidades, generalmente de naturaleza léxica, sintáctica o incluso semántica.

La idea subyacente en este tipo de enfoques es la emergencia en la red de grupos de unidades que guardan estrecha relación entre sí y que determinan la información relevante del documento.

Para ello, se aplica un algoritmo de clustering encaminado a localizar los nodos centrales del grafo en función del número y peso de las aristas que confluyen en los distintos nodos. Finalmente, se seleccionan para el resumen las oraciones más “centrales” del documento.


Generación de resúmenes por abstracción

En la imagen anterior, a la izquierda, se muestra el mismo fragmento de noticia periodística que veíamos anteriormente; y a la derecha, su correspondiente resumen generado por abstracción. Vemos cómo ahora el resumen se compone de material que no se encuentra explícitamente en el original, sino que ha sido comprimido y reescrito para producir un resumen más compacto y legible.

Indudablemente, los resúmenes generados por abstracción son potencialmente más breves y de mayor calidad gramatical que los generados por extracción. Sin embargo, su generación automática es claramente más compleja y únicamente aplicable a dominios muy concretos y reducidos.

Un método automático de generación de resúmenes por abstracción actuará de acuerdo al siguiente proceso general:

En cuanto a las técnicas y soluciones empleadas para generar resúmenes por abstracción, el enfoque más popular es el que utiliza plantillas y técnicas de extracción de información. Este enfoque se utiliza para generar resúmenes de textos en dominios muy acotados y con una temática muy concreta y conocida de antemano. Para ello, se utilizan unas plantillas predefinidas, que recogen la información que se considera importante, y se usan técnicas de Extracción de Información para localizar y extraer la información necesaria para rellenar los campos de la plantilla. Algunos trabajos, además, combinan la extracción de plantillas con el uso de patrones y técnicas de Generación de Lenguaje Natural para redactar el resumen final.

A modo de ejemplo, podemos ver en la parte derecha de la imagen anterior las plantillas propuestas por Paice y Jones para extraer el contenido relevante en documentos de investigación sobre cultivos agrícolas. Este tipo de documentos se caracterizan por ser muy estructurados, y en ellos se pueden observar una organización, estilismo y semántica relativamente constante. También se muestran los patrones utilizados para generar el resumen final en lenguaje natural.

Evaluación

Ya hemos visto en qué consiste la Generación Automática de Resúmenes y hemos repasado algunas de las técnicas más populares. Veamos ahora cómo podemos evaluar el desempeño de los sistemas automáticos de generación de resúmenes; es decir, la calidad de los resúmenes que producen.

¿Qué criterios se utilizan para medir la calidad de un resumen?

Bibliografía

 Estas son las fuentes en las que me he basado para confeccionar esta lección:

Lecturas propuestas

Si quieres ampliar más los contenidos de la lección te recomiendo que te leas estos artículos

 

Creado el 21/01/2014

Última versión: 09/01/2016

Laura Plaza, UNED

Comunidad moocTLH 

Esta obra está bajo una licencia de Creative Commons
Reconocimiento-CompartirIgual 3.0 Unported