Descubre la estadística descriptiva
LISTA DE GRÁFICOS PRÁCTICOS
ÍNDICE
Gráficos univariados de variables cuantitativas 4
Gráficos univariados de variables cualitativas 7
Gráficos multivariados de variables cuantitativas 9
Gráficos multivariados de variables cualitativas 11
Gráficos multivariados mezclando tipos de variables 12
4- Enlaces para inspirarte al buscar gráficos 18
¡Bien!
Ahora ya conoces los conceptos esenciales de la descriptiva, así como el tipo de variables que existen. Aquí verás como cruzar las dos cosas.
En esta lección vas a conocer los gráficos más utilizados en los proyectos de ciencia de datos por tipos de variables. Como siempre, hay tantos gráficos como personas, pero al final se trata de conocer el 20% de los gráficos que nos aportan el 80% de los resultados.
En la etapa 2 vas a ver cómo implementar estos gráficos en la práctica y paso a paso. Ahora quédate con esta lista y empieza a crear tu repositorio de enlaces web de consulta que te recomiendo al final de la lección.
Vamos a ordenar los gráficos según:
Gráficos en los que solo usamos una variable.
Gráficos univariados para variables cuantitativas (numéricas).
Tabla de frecuencias
El primero son las tablas de frecuencias. Pueden ser frecuencias absolutas (contar el número de veces que aparece una observación) o frecuencias relativas (número de veces que aparece una observación respecto al total, son porcentajes).
Histograma
De la tabla de frecuencias nace el histograma, donde la altura de las barras representa el número de veces (frecuencia) que aparece una observación.
Boxplot
La opción del boxplot es muy útil para obtener información de los outliers, de cómo se centra la variable, su dispersión, etc. Aporta información rápida y visual sobre las medidas de posición de la variable (cuartiles, mediana, outliers, rango intercuartílico…).
Densidad
El histograma de densidad es muy importante para saber la forma de la distribución cuantitativa a lo largo del eje.
Violin plot
Es una mezcla del boxplot y el histograma de densidad simétrico, que es lo que le da esta forma de violín (si dividimos el violin plot con una recta horizontal por encima y por debajo obtenemos el mismo histograma de densidad). Se puede ver dentro el boxplot, con la mediana (centro), el final de la caja (cuartil 1 y 3), etc.
Stripchart
A veces es interesante ver como se distribuyen los puntos en el espacio, donde se centran más e incluso saber que punto es cada uno (a que observación corresponde).
Qqplot
El qqplot, o “quantile-quantile plot”, sirve para saber de manera rápida y visual si la distribución de una variable es normal o no, o si sigue una distribución determinada.
Hasta aquí hemos visto gráficos univariados de variables cuantitativas, ahora veremos los de las cualitativas.
Tabla de frecuencias
Las tablas de frecuencias en variables cualitativas pueden ser de nuevo absolutas o relativas. Las tablas de frecuencias absolutas muestran el número de veces que se repite una clase en una población. Las de frecuencias relativas o de porcentajes muestran el número de veces que se repite una clase en la población respecto al total de observaciones (porcentaje).
Diagrama de barras
Estas tablas de frecuencias nos llevan a los diagramas de barras, que se forman a partir tanto de frecuencias absolutas como de porcentajes o relativas. Consiste en poner en barras lo que estamos viendo en la tabla de frecuencias.
Diagrama de sectores
El concepto es el mismo, consiste es poner lo que vemos en las tablas en forma de quesitos, dando lugar a un diagrama de sectores.
Diagramas de doghnuts
Es lo mismo que el diagrama de sectores, pero con un agujero en el medio, que aveces sirve cuando tienes muchos grupos
Hasta aquí los gráficos que hemos visto son sencillos y aportan bastante información, pero estamos mirando el problema de forma univariada, no estamos mirando más cosas. Lo que queremos aquí es cruzar variables.
Empezaremos cruzando variables cuantitativas.
Diagramas de dispersión
También conocidos como scatter plot en inglés, y es una de las maneras mas sencillas es cruzar dos variables cuantitativas. En este caso cruzamos el número de ventas con el precio del producto, donde cada punto representa una de las tiendas. Así podemos ver cómo se relacionan estas dos variables en nuestras tiendas.
Matrixplot
Los diagramas de dispersión se pueden llevar a un matrixplot, donde se cruzan numerosas variables cuantitativas (en este caso 8 variables). Aquí se ve rápidamente donde hay más correlación y dónde hay un patrón. Además, en el medio del matrixplot normalmente se representa el histograma de cada una de las variables.
Correlograma
A partir de cruzar dos variables cuantitativas, es posible calcular la correlación entre ambas. Un correlograma sigue la misma estructura que un matrixplot, pero en vez de los diagramas de dispersión de las variables, contiene información sobre la correlación entre dichas variables. La correlación más baja sería entre número de ventas y precio del producto. La correlación más alta se daría entre el precio de nuestro producto y el de la competencia. Al igual que el matrixplot, el correlograma es simétrico, con leer una de las dos mitades desde la diagonal es suficiente.
Ya hemos cruzado variables cuantitativas, lo siguiente será cruzar variables cualitaitvas.
Tablas de contingencia con frecuencias absolutas, relativas y condicionadas
Una herramienta muy utilizada son las tablas de contingencia de frecuencias absolutas, relativas y condicionadas.
Diagramas de barras de dos factores
Estas frecuencias las podemos llevar a un diagrama de barras. En este caso cruzamos la localización de los estantes con si las ventas son bajas o altas (0 y 1). No hay más opciones en este caso, aunque podemos hacer diagramas de más factores.
Histograma de densidad de un factor
Podemos ver los histogramas de densidad de la variable cuantitativa en base al grupo o clase al que pertenece cada observación (variable cualitativa). En este caso vemos el histograma de densidad de la variable ventas en base a la localización de los estantes, especificada como “buena”, “media” y “mala”. Vemos como a mejor localización mayor número de ventas y viceversa.
Boxplot de un factor + Stripchart
El boxplot y el stripchart de un factor es una manera similar de expresar lo mismo que en el caso anterior, cada gráfico tiene unas ventajas diferentes y depende de lo que se quiera enfatizar que se use uno u otro. De nuevo, vemos las ventas en función de la localización del producto.
Diagramas de error o de medidas de un factor
En estos diagramas se ve la media de una variable (ventas) en base a un factor (localización del producto). El puntito es la media o la mediana, y la línea es el intervalo de confianza de la media. De esta manera vemos donde hay diferencias, donde no, etc.
Violin plot de un factor
Lo mismo se puede plantear con el violin plot de un factor.
Boxplot de dos factores + Stripchart
Podemos hacer esto mismo añadiendo un factor más. Pero la dinámica es la misma, la variable cuantitativa se sigue representando en el eje vertical, un factor en la horizontal y el factor añadido con un boxplot extra y un código de colores. En este caso se ha añadido la variable cualitativa que indica si tu tienda está en una zona urbana o no, donde tratamos de ver si este factor afecta al número de ventas.
Diagramas de error o de medidas de dos factores
Podemos ver lo mismo en un diagrama de erro. Aquí de nuevo parece que no hay diferencias si es una tienda urbana o no, pero si parece haber claras diferencias en cuanto a la localización del producto de cara a que se venda mejor o peor.
Violin plot de dos factores
Lo mismo podemos hacer con el violin plot.
Estadísticos por grupos
Otra opción es generar una tabla con los estadísticos por grupos. En este caos vemos mediante estadísticos (media, mediana, cuartiles, etc.) de qué manera varían múltiples variables en base a la localización del producto.
Matrixplot por grupos
También podemos representar el matrixplot de variables numéricas, pero clasificadas por grupos.
Scatterplot con línea de tendencia por grupos
El scatterplot se puede representar acompañado de una línea de tendencia de todos los puntos, o una línea de tendencia de los puntos clasificados en base al grupo al que pertenecen. En este caso vemos dos variables cuantitativas y una cualitativa (las ventas y los anuncios, junto con la localización del producto en la tienda).
Bubble plot
Muy interesante cuando tenemos pocas observaciones. En los ejes de ordenadas encontramos dos variables cuantitativas (ventas y precio), en colores una variable cualitativa (localización del producto en los estantes) y l grandes o pequeñas que son las bolas podría ser otra variable cuantitativa, como por ejemplo la inversión en publicidad del producto.
Radar plot
Podemos comparar entre tiendas teniendo en cuenta varias variables. La tienda 5 ¿en qué percentil está respecto a ventas? Vemos que la tienda 20 tiene precios más altos y que las ventas menores, pero invierten mucho menos en publicidad.
Estos enlaces son muy interesantes para conocer más gráficos, más opciones y más ideas para plantear las diferentes descriptivas que puedas querer hacer. Están divididos en Python y R.
En graph gallery encontrarás una amplia clasificación de gráficos (muchos de ellos los hemos visto en esta lección) acompañados de ejemplos con los códigos para que puedas correrlos en tu ordenador y adaptarlo a tus datos, tanto en R como en Python.
Plotly es una herramienta disponible tanto en R como en Python que permite generar gráficos interactivos o incluso animaciones de distinta naturaleza.
Seaborn y matplotlib son librerías de gráficos muy completos para Python, acompañados también de los códigos.
ggplot2 es un paquete de R que ofrece muchísimas opciones de visualización y es muy utilizado sobre todo en estudios científicos.
En esta lección hemos visto:
Gráficos univariados
Gráficos multivariados
Enlaces para inspirarte al buscar gráficos
GUÁRDATE LAS WEBS EN FAVORITOS
Empieza a generar un repositorio de enlaces de consulta para ti. Te ayudará a ser eficiente en tus proyectos 😊