Descubre la estadística descriptiva

LISTA DE GRÁFICOS PRÁCTICOS


ÍNDICE

1- Introducción        3

2- Gráficos univariados        4

Gráficos univariados de variables cuantitativas        4

Gráficos univariados de variables cualitativas        7

3- Gráficos multivariados        9

Gráficos multivariados de variables cuantitativas        9

Gráficos multivariados de variables cualitativas        11

Gráficos multivariados mezclando tipos de variables        12

4- Enlaces para inspirarte al buscar gráficos        18

Enlaces de Python        18

Enlaces de R        18

5- Take away        19


1- Introducción

¡Bien!

Ahora ya conoces los conceptos esenciales de la descriptiva, así como el tipo de variables que existen. Aquí verás como cruzar las dos cosas.

En esta lección vas a conocer los gráficos más utilizados en los proyectos de ciencia de datos por tipos de variables. Como siempre, hay tantos gráficos como personas, pero al final se trata de conocer el 20% de los gráficos que nos aportan el 80% de los resultados.

En la etapa 2 vas a ver cómo implementar estos gráficos en la práctica y paso a paso. Ahora quédate con esta lista y empieza a crear tu repositorio de enlaces web de consulta que te recomiendo al final de la lección.

Vamos a ordenar los gráficos según:

2- Gráficos univariados  

Gráficos en los que solo usamos una variable.

Gráficos univariados de variables cuantitativas

Gráficos univariados para variables cuantitativas (numéricas).

Tabla de frecuencias

El primero son las tablas de frecuencias. Pueden ser frecuencias absolutas (contar el número de veces que aparece una observación) o frecuencias relativas (número de veces que aparece una observación respecto al total, son porcentajes).

Imagen que contiene Gráfico

Descripción generada automáticamente

Histograma

De la tabla de frecuencias nace el histograma, donde la altura de las barras representa el número de veces (frecuencia) que aparece una observación.

Gráfico, Histograma

Descripción generada automáticamente

Boxplot

La opción del boxplot es muy útil para obtener información de los outliers, de cómo se centra la variable, su dispersión, etc. Aporta información rápida y visual sobre las medidas de posición de la variable (cuartiles, mediana, outliers, rango intercuartílico…).

Gráfico, Gráfico de cajas y bigotes

Descripción generada automáticamente

Densidad

El histograma de densidad es muy importante para saber la forma de la distribución cuantitativa a lo largo del eje.

Gráfico, Gráfico de líneas, Histograma

Descripción generada automáticamente

Violin plot

Es una mezcla del boxplot y el histograma de densidad simétrico, que es lo que le da esta forma de violín (si dividimos el violin plot con una recta horizontal por encima y por debajo obtenemos el mismo histograma de densidad). Se puede ver dentro el boxplot, con la mediana (centro), el final de la caja (cuartil 1 y 3), etc.

Gráfico

Descripción generada automáticamente

Stripchart

A veces es interesante ver como se distribuyen los puntos en el espacio, donde se centran más e incluso saber que punto es cada uno (a que observación corresponde).

Gráfico, Gráfico de dispersión

Descripción generada automáticamente

Qqplot

El qqplot, o “quantile-quantile plot”, sirve para saber de manera rápida y visual si la distribución de una variable es normal o no, o si sigue una distribución determinada.

Gráfico, Gráfico de líneas

Descripción generada automáticamente

Gráficos univariados de variables cualitativas

Hasta aquí hemos visto gráficos univariados de variables cuantitativas, ahora veremos los de las cualitativas.

Tabla de frecuencias

Las tablas de frecuencias en variables cualitativas pueden ser de nuevo absolutas o relativas. Las tablas de frecuencias absolutas muestran el número de veces que se repite una clase en una población. Las de frecuencias relativas o de porcentajes muestran el número de veces que se repite una clase en la población respecto al total de observaciones (porcentaje).

Interfaz de usuario gráfica, Texto

Descripción generada automáticamente

Diagrama de barras

Estas tablas de frecuencias nos llevan a los diagramas de barras, que se forman a partir tanto de frecuencias absolutas como de porcentajes o relativas. Consiste en poner en barras lo que estamos viendo en la tabla de frecuencias.

Gráfico, Gráfico de barras

Descripción generada automáticamente

Diagrama de sectores

El concepto es el mismo, consiste es poner lo que vemos en las tablas en forma de quesitos, dando lugar a un diagrama de sectores.

Gráfico, Gráfico circular

Descripción generada automáticamente

Diagramas de doghnuts

Es lo mismo que el diagrama de sectores, pero con un agujero en el medio, que aveces sirve cuando tienes muchos grupos

Gráfico

Descripción generada automáticamente

3- Gráficos multivariados

Hasta aquí los gráficos que hemos visto son sencillos y aportan bastante información, pero estamos mirando el problema de forma univariada, no estamos mirando más cosas. Lo que queremos aquí es cruzar variables. 

Gráficos multivariados de variables cuantitativas

Empezaremos cruzando variables cuantitativas.

Diagramas de dispersión

También conocidos como scatter plot en inglés, y es una de las maneras mas sencillas es cruzar dos variables cuantitativas. En este caso cruzamos el número de ventas con el precio del producto, donde cada punto representa una de las tiendas. Así podemos ver cómo se relacionan estas dos variables en nuestras tiendas.

Gráfico, Gráfico de dispersión

Descripción generada automáticamente

Matrixplot

Los diagramas de dispersión se pueden llevar a un matrixplot, donde se cruzan numerosas variables cuantitativas (en este caso 8 variables). Aquí se ve rápidamente donde hay más correlación y dónde hay un patrón. Además, en el medio del matrixplot normalmente se representa el histograma de cada una de las variables.

Imagen que contiene Diagrama

Descripción generada automáticamente

Correlograma

A partir de cruzar dos variables cuantitativas, es posible calcular la correlación entre ambas. Un correlograma sigue la misma estructura que un matrixplot, pero en vez de los diagramas de dispersión de las variables, contiene información sobre la correlación entre dichas variables. La correlación más baja sería entre número de ventas y precio del producto. La correlación más alta se daría entre el precio de nuestro producto y el de la competencia. Al igual que el matrixplot, el correlograma es simétrico, con leer una de las dos mitades desde la diagonal es suficiente.  

Interfaz de usuario gráfica

Descripción generada automáticamente

Gráficos multivariados de variables cualitativas

Ya hemos cruzado variables cuantitativas, lo siguiente será cruzar variables cualitaitvas.

Tablas de contingencia con frecuencias absolutas, relativas y condicionadas

Una herramienta muy utilizada son las tablas de contingencia de frecuencias absolutas, relativas y condicionadas.

Tabla

Descripción generada automáticamente

Diagramas de barras de dos factores

Estas frecuencias las podemos llevar a un diagrama de barras. En este caso cruzamos la localización de los estantes con si las ventas son bajas o altas (0 y 1). No hay más opciones en este caso, aunque podemos hacer diagramas de más factores.

Gráfico, Gráfico de barras

Descripción generada automáticamente

Gráficos multivariados mezclando tipos de variables

Histograma de densidad de un factor

Podemos ver los histogramas de densidad de la variable cuantitativa en base al grupo o clase al que pertenece cada observación (variable cualitativa). En este caso vemos el histograma de densidad de la variable ventas en base a la localización de los estantes, especificada como “buena”, “media” y “mala”. Vemos como a mejor localización mayor número de ventas y viceversa.

Gráfico

Descripción generada automáticamente

Boxplot de un factor + Stripchart

El boxplot y el stripchart de un factor es una manera similar de expresar lo mismo que en el caso anterior, cada gráfico tiene unas ventajas diferentes y depende de lo que se quiera enfatizar que se use uno u otro. De nuevo, vemos las ventas en función de la localización del producto.

Gráfico, Gráfico de cajas y bigotes

Descripción generada automáticamente

Diagramas de error o de medidas de un factor

En estos diagramas se ve la media de una variable (ventas) en base a un factor (localización del producto). El puntito es la media o la mediana, y la línea es el intervalo de confianza de la media. De esta manera vemos donde hay diferencias, donde no, etc.

Gráfico, Gráfico de líneas

Descripción generada automáticamente

Violin plot de un factor

Lo mismo se puede plantear con el violin plot de un factor.

Gráfico, Gráfico radial

Descripción generada automáticamente

Boxplot de dos factores + Stripchart

Podemos hacer esto mismo añadiendo un factor más. Pero la dinámica es la misma, la variable cuantitativa se sigue representando en el eje vertical, un factor en la horizontal y el factor añadido con un boxplot extra y un código de colores. En este caso se ha añadido la variable cualitativa que indica si tu tienda está en una zona urbana o no, donde tratamos de ver si este factor afecta al número de ventas.  

Gráfico, Gráfico de cajas y bigotes

Descripción generada automáticamente

Diagramas de error o de medidas de dos factores

Podemos ver lo mismo en un diagrama de erro. Aquí de nuevo parece que no hay diferencias si es una tienda urbana o no, pero si parece haber claras diferencias en cuanto a la localización del producto de cara a que se venda mejor o peor.

Gráfico, Gráfico de líneas

Descripción generada automáticamente

Violin plot de dos factores

Lo mismo podemos hacer con el violin plot.

Gráfico, Gráfico radial

Descripción generada automáticamente

Estadísticos por grupos

Otra opción es generar una tabla con los estadísticos por grupos. En este caos vemos mediante estadísticos (media, mediana, cuartiles, etc.)  de qué manera varían múltiples variables en base a la localización del producto.  

Interfaz de usuario gráfica, Aplicación, Tabla

Descripción generada automáticamente

Matrixplot por grupos

También podemos representar el matrixplot de variables numéricas, pero clasificadas por grupos.

Diagrama

Descripción generada automáticamente

Scatterplot con línea de tendencia por grupos

El scatterplot se puede representar acompañado de una línea de tendencia de todos los puntos, o una línea de tendencia de los puntos clasificados en base al grupo al que pertenecen. En este caso vemos dos variables cuantitativas y una cualitativa (las ventas y los anuncios, junto con la localización del producto en la tienda).

Gráfico, Gráfico de dispersión

Descripción generada automáticamente

Bubble plot

Muy interesante cuando tenemos pocas observaciones. En los ejes de ordenadas encontramos dos variables cuantitativas (ventas y precio), en colores una variable cualitativa (localización del producto en los estantes) y l grandes o pequeñas que son las bolas podría ser otra variable cuantitativa, como por ejemplo la inversión en publicidad del producto.

Gráfico, Gráfico de dispersión

Descripción generada automáticamente

Radar plot

Podemos comparar entre tiendas teniendo en cuenta varias variables. La tienda 5 ¿en qué percentil está respecto a ventas? Vemos que la tienda 20 tiene precios más altos y que las ventas menores, pero invierten mucho menos en publicidad.

Gráfico, Gráfico radial

Descripción generada automáticamente

4- Enlaces para inspirarte al buscar gráficos

Estos enlaces son muy interesantes para conocer más gráficos, más opciones y más ideas para plantear las diferentes descriptivas que puedas querer hacer. Están divididos en Python y R.

En graph gallery encontrarás una amplia clasificación de gráficos (muchos de ellos los hemos visto en esta lección) acompañados de ejemplos con los códigos para que puedas correrlos en tu ordenador y adaptarlo a tus datos, tanto en R como en Python.

Plotly es una herramienta disponible tanto en R como en Python que permite generar gráficos interactivos o incluso animaciones de distinta naturaleza.

Seaborn y matplotlib son librerías de gráficos muy completos para Python, acompañados también de los códigos.

ggplot2 es un paquete de R que ofrece muchísimas opciones de visualización y es muy utilizado sobre todo en estudios científicos.

Enlaces de Python

Enlaces de R

5- Take away

En esta lección hemos visto:

Gráficos univariados

Gráficos multivariados

Enlaces para inspirarte al buscar gráficos

GUÁRDATE LAS WEBS EN FAVORITOS

Empieza a generar un repositorio de enlaces de consulta para ti. Te ayudará a ser eficiente en tus proyectos 😊