Tidyverse
Reorganizando datos con Tidyr
Mónica Alonso
Mayo 2021
Antes de empezar
install.packages(“tidyverse”)
install.packages(“rmarkdown”)
install.packages(“datos”)
Link dentro de materiales:
> Taller Reorganizando Datos con Tidyr.docx
https://rstudio.cloud/project/2516894
Ciencia de Datos
Disciplina (fascinante!) para convertir datos sin procesar en conocimiento, entender comportamiento, y muchas veces para hacer predicción.
Ciencia de Datos
Ciclo
Tidyverse
Tidyverse & Ciencia de Datos
Filosofía Datos en Tidyverse
“Todas las familias felices se parecen unas a otras, pero cada familia infeliz lo es a su manera.” –– León Tolstoi
Parafraseando: “Todos los set de datos ordenados se parecen unos a otros, pero cada set de datos desordenado lo es a su manera” Hadley Wickham
Cada columna es una variable. Cada fila es una observación.
Cada celda tiene el valor de la variable para esa observación.
Tidyr de Tidyverse
¿Para qué sirve?
|
1er Ejercicio Tidyr
Las columnas de esta tabla son:
Pais, anio, tipo y cuenta. Pero…
Cada columna tiene la información
de una única variable?
Discutamos:
Qué variables tiene esta tabla?
1. país, anio, casos, población
2. país, anio, tipo, cuenta
3. Afganistan, Brasil, China
4. país, anio
Fuente: Tabla2 (Paquete Datos)
2do.Ejercicio Tidyr
A |
B |
C |
¿Qué tipo de “desorden” tienen estos datos? Busca ejercicio2 en el Drive.
Ayuda: Compara con la siguiente slide.
Algunos casos de � “Datos desordenados” � según filosofía Tidyverse
1. Nombres de Columnas son valores, no son nombres de variables
2. Una columna contiene múltiples variables
3. Variables que se almacenan tanto en fila como en columna
4. Múltiples unidades de medida almacenados en una columna.
Tidyr
Pivot_longer
Tabla4 %>% Pivot_longer(‘1999’:’2000’, names_to = “anio”, values_to = “casos”) |
Pivot_wider
Pivot_longer vs Pivot_wider
Reorganizando datos con tidyr
GRACIAS!!!
Los datos utilizados en esta presentación corresponden al paquete “datos”
Los dibujos son de “Mafalda” (autor: Quino)
Para realizar este Material se han utilizados las siguientes fuentes:
El libro “R for Data Science” (R4DS_en español) H.Wickham y G.Grolemund
El documento: Tidy messy data - tidyr (en inglés) H.Wickham
Autor de este material: Mónica Alonso
Está permitido reproducir este material citando la fuente.