1 of 24

Visualización de Información�Texto

Eduardo Graells-Garrido

egraells@udd.cl / @ZorzalErrante / datagramas.cl

Data Science Institute, Universidad del Desarrollo�Edición 2022

2 of 24

Texto: �Datos No Estructurados

A diferencia de los data sets que hemos visto hasta ahora, el texto no tiene una estructura clara. Sin embargo, posiblemente gran parte de la información disponible es texto.

¿Letras, palabras, frases, párrafos, documentos?

¿Temas?¿Semántica del contenido?

¿Gramática?

¿Analizaremos un documento o varios documentos?

¿Un conjunto de documentos (corpus) o varios? ¿Distintos idiomas?

3 of 24

¿Para qué visualizar texto?

Entender lo que contiene un documento o conjunto de documentos (corpus).

Agrupar documentos distintos dentro de una misma categoría de acuerdo a su similitud.

Comparar y medir qué diferencia un texto o colección de documentos de otro(a).

Medir la evolución en el tiempo de un texto de una colección de documentos.

Correlacionar patrones en el texto con los de otros data sets, por ej., con los de una red social.

4 of 24

¿Qué es lo que se visualiza?

No siempre se visualiza el texto directamente. Usualmente se utiliza un modelo de lenguaje:

  • Frecuencia de términos (tokens), usualmente palabras
  • Secuencias de palabras, bolsas de palabras (bag of words)
  • Componentes latentes (latent semantic analysis), modelamiento de tópicos (topic modeling), etc.

Además de nuestro enfoque basado en tareas, debemos cuestionar lo siguiente en una visualización de texto:

  • Interpretación - ¿Qué tan bien caracteriza la visualización las propiedades del modelo?
  • Confianza - ¿Cuánto podemos entender el texto debido al modelo?¿Es este modelo suficiente, o necesitamos uno más complejo?

5 of 24

Frecuencias, Secuencias, Estructura Gramatical

6 of 24

Word Cloud:�Frecuencias

Cada palabra en el texto o corpus se grafica con un tamaño proporcional a su frecuencia (cantidad de apariciones).

Quizás uno de los tipos de visualización más popular. También uno de los más ineficientes en función de los principios de diseño: el canal de área utilizado para graficar la frecuencia dificulta comparaciones, tanto por percepción como al largo de las palabras.

Problema: palabras más frecuentes no son informativas.

Hagan las suyas en https://www.jasondavies.com/wordcloud/

Documento: Fingías de Paloma Mami

7 of 24

Bubble Clouds

Alternativa a las word clouds. Resuelve algunas de sus limitaciones, y permite visualizar otros atributos del dataset.

Estos gráficos son agradables estéticamente y son fáciles de entender.

Es posible asignarle un significado a la posición de cada burbuja. En el ejemplo, el eje x codifica la asociación de cada palabra con los partidos políticos en los Estados Unidos.

New York Times

8 of 24

Word Tree:

Secuencias

Esta técnica visualiza la estructura secuencial en el texto (misma canción de Paloma Mami), creando árboles de texto, donde los nodos son palabras o secuencias de palabras.

Hagan los suyos en: https://www.jasondavies.com/wordtree

Wattenberg, M., & Viégas, F. B. (2008). The word tree, an interactive visual concordance. IEEE transactions on visualization and computer graphics, 14(6), 1221-1228.

9 of 24

Phrase Nets

Redes derivadas a partir de la estructura del contenido, expresado a través de patrones: X “is” Y (puede ser cualquier expresión regular). El ejemplo muestra relaciones entre conceptos en Orgullo y Prejuicio.

Van Ham, F., Wattenberg, M., & Viégas, F. B. (2009). Mapping text with phrase nets. IEEE transactions on visualization and computer graphics, 15(6), 1169-1176.

10 of 24

DocuBurst

DocuBurst es una técnica de visualización que también se basa en patrones de relación entre elementos del texto. En linguística, esos patrones son llamados hipónimos.

Esta técnica no solamente busca los patrones en el texto, sino que aprovecha los corpus linguísticos para graficarlos en función de la jerarquía de árbol de hipónimos existente. La jerarquía comienza en el centro del gráfico, y se expande hacia afuera como en las visualizaciones de árboles que hemos visto.

Así, en vez de ver como un patrón específico se expresa en el texto (Phrase Nets), vemos como el texto está estructurado en relación a los conceptos que contiene.

Collins, C., Carpendale, S., & Penn, G. (2009, June). Docuburst: Visualizing document content using language structure. In Computer graphics forum (Vol. 28, No. 3, pp. 1039-1046). Oxford, UK: Blackwell Publishing Ltd.

11 of 24

Parallel Tag Clouds

Pueden existir distintas facetas en un corpus, y la distribución del texto puede ser distinta en cada una de ellas. Facetas incluyen temáticas, tiempo de publicación, entre otras.

Esta visualización muestra para cada faceta la distribución de la frecuencia o relevancia de palabras, y al mismo tiempo, cómo esa relevancia varía a lo largo de las facetas.

Collins, C., Viegas, F. B., & Wattenberg, M. (2009, October). Parallel tag clouds to explore and analyze faceted text corpora. In 2009 IEEE Symposium on Visual Analytics Science and Technology (pp. 91-98). IEEE.

12 of 24

Temáticas (topics) y Reducción Dimensional

13 of 24

Estructura de Datos: Document-Term Matrices

¿Cómo representar una colección de documentos? Una manera de hacerlo es a través de un enfoque conocido como bag of words (bolsa de palabras). En este esquema, una colección se puede expresar como una matriz: en la imagen, cada columna es un documento, y cada fila es una palabra. Cada celda contiene la cantidad de veces que aparece una palabra en un documento.

Ventaja: al ser una matriz, podemos utilizar métodos de álgebra lineal y cálculo para trabajar con el texto.

Desventaja: esta representación pierde información, no se sabe el orden en el que aparecieron las palabras en el documento.

14 of 24

ScatterText

ScatterText es una visualización que pone los términos más relevantes de una colección (¡no necesariamente los más frecuentes!). Esa relevancia se puede calcular sobre la matriz DT.

En el ejemplo, el eje Y codifica la asociación en el vocabulario de un corpus de política hacia hombres y mujeres, y el eje x hacia republicanos y demócratas en los EEUU.

Kessler, J. (2017). Scattertext: a Browser-Based Tool for Visualizing how Corpora Differ. Proceedings of ACL 2017, System Demonstrations, 85-90.

Código: https://github.com/JasonKessler/scattertext

15 of 24

Topic Modeling

¿Cuántas palabras puede tener una colección de documentos?¿Basta describir relaciones entre documentos y palabras para entender un corpus? Topic Modeling busca encontrar cuáles son los temas o tópicos o dimensiones latentes en los documentos de un corpus.

Existen técnicas como Latent Semantic Analysis, Latent Dirichlet Allocation, y Non-Negative Matrix Factorization, entre otras. Todas funcionan así: se define (o elige) un número k de dimensiones, y se encuentra una representación matricial de documentos asociados a temas, y palabras asociadas a temas. �(otra interpretación es una reducción dimensional)

Imagen por Catalin Voss, Stanford.

16 of 24

LDA Vis

Ahora bien, los tópicos no siempre son interpretables. En ocasiones tienen coherencia algebraica, pero no tienen significado para nosotros.

El software LDA Vis utiliza una visualización interactiva compuesta para que podamos explorar el espacio de topics de un corpus.

A la derecha muestra cada tópico como una burbuja, con una posición calculada utilizando reducción dimensional.

A la izquierda muestra para un tópico específico su distribución de palabras más relevantes (y la comparación con la asociación global de esas palabras).

Sievert, C., & Shirley, K. (2014). LDAvis: A method for visualizing and interpreting topics. In Proceedings of the workshop on interactive language learning, visualization, and interfaces (pp. 63-70).

17 of 24

Termite

Termite es otra aplicación para explorar y evaluar los resultados de topic modeling.

En Termine, el foco está en la matriz de vocabulario y tópicos. La visualización permite reordenar las filas y columnas de la matriz, ver la distribución de palabras, y también explorar los documentos.

Chuang, J., Manning, C. D., & Heer, J. (2012, May). Termite: Visualization techniques for assessing textual topic models. In Proceedings of the international working conference on advanced visual interfaces (pp. 74-77). ACM.

18 of 24

Topic Competition, Topic Flow

Una colección de documentos no es estática, por tanto, sus tópicos tampoco lo son. Cada tópico puede tener su propio comportamiento temporal.

Para entender como los tópicos se comportan en el tiempo existen visualizaciones que nos recuerdan flujos y áreas (como el StreamGraph). Estas visualizaciones son apoyadas por algoritmos complejos que calculan los flujos de manera que se crucen lo menos posible y que se pueda comprender el contenido de cada uno.

Para dar comprensibilidad al resultado, estas visualizaciones utilizan visualizaciones incrustadas complementarias (como word clouds).

Xu, P., Wu, Y., Wei, E., Peng, T. Q., Liu, S., Zhu, J. J., & Qu, H. (2013). Visual analysis of topic competition on social media. IEEE Transactions on Visualization and Computer Graphics, 19(12), 2012-2021.

Cui, W., Liu, S., Tan, L., Shi, C., Song, Y., Gao, Z., ... & Tong, X. (2011). Textflow: Towards better understanding of evolving topics in text. IEEE transactions on visualization and computer graphics, 17(12), 2412-2421.

19 of 24

Reducción Dimensional con UMAP

La DTM (document-term matrix) puede ser reducida dimensionalmente. Así, sobre la reducción dimensional se pueden ejecutar algoritmos de clustering, que permiten encontrar grupos de documentos similares entre sí.

Esta visualización muestra un corpus de documentos filosóficos, para mostrar “la estructura de la Filosofía reciente”. Para ello, primero aplica UMAP sobre la DTM; luego el clustering HDBSCAN; y finalmente un algoritmo de posicionamiento de etiquetas.

Fuente (incluye código en R): https://homepage.univie.ac.at/noichlm94/posts/structure-of-recent-philosophy-ii/

20 of 24

Evolución y Cambios

21 of 24

History Flow

Además de las facetas del texto (como la fecha de publicación), existen otros atributos relevantes. Por ejemplo, el historial de modificación de un documento - particularmente si es escrito por más de una persona.

History Flow permite ver el proceso de escritura y construcción de los artículos de Wikipedia, tanto a nivel temporal (cuándo se agregó o quitó contenido) como autoral (quién agregó o quitó contenido).

Viégas, F. B., Wattenberg, M., & Dave, K. (2004, April). Studying cooperation and conflict between authors with history flow visualizations. In Proceedings of the SIGCHI conference on Human factors in computing systems (pp. 575-582). ACM.

22 of 24

Notabilia

Notabilia es una visualización orgánica que muestra los procesos de edición en Wikipedia desde el conflicto: se focaliza en los artículos que son marcados para eliminación.

Cada artículo es una línea cuya trayectoria se forma a medida que la discusión decide si el artículo se elimina o se mantiene en la enciclopedia.

Si el artículo recibe votos de mantención, se suma un segmento verde, hacia la izquierda. Si recibe votos de eliminación, se suma un segmento rojo, hacia la derecha. Así, el consenso (o la falta de éste) aparece en la visualización.

23 of 24

Organic Visualization of Document Evolution

La evolución mostrada en las visualizaciones anteriores trabaja con versiones de un texto. Sin embargo, no todo el texto es versionado, y el versionamiento no tiene la capacidad de capturar el proceso mental de escritura.

Esta visualización trabaja a nivel de tecleos en el texto, a través de registros de uso de Google Documents. Así, la visualización permite ver como el texto se va estructurando a media que se escribe, e incluso, como el texto que es eliminado permite dar forma al documento final. ¡Lo que se elimina, a pesar de que no aparece en el resultado, también es parte de él!

Perez-Messina, I., Gutierrez, C., & Graells-Garrido, E. (2018, March). Organic Visualization of Document Evolution. In 23rd International Conference on Intelligent User Interfaces (pp. 497-501). ACM.

24 of 24

¿Preguntas?

Hoy nos enfocamos en la visualización de texto en un sentido tradicional.

Dos recursos relevantes en este aspecto son los siguientes:

  • Text Analysis with Visualization, capítulo del libro Search User Interfaces de Marti Hearst.
  • Text Visualization Browser, una colección de vínculos e imágenes de visualización de texto.

Sin embargo, existen otras áreas en las cuales también se usa texto. Una de ellas es la secuenciación genética.

¿Qué texto (o colección) te gustaría visualizar?¿Para qué?