1 of 16

Tidyverse

Reorganizando datos con Tidyr

Mónica Alonso

Mayo 2021

2 of 16

Antes de empezar

  • Materiales del taller en: http://bit.ly/TIDYR_2021

  • Podés seguir los ejercicios desde tu pc, recordá:

    • Bajarte el proyecto
    • Verificar la instalación en Rstudio de los paquetes:

install.packages(“tidyverse”)

install.packages(“rmarkdown”)

install.packages(“datos”)

  • O podés seguirlo desde Rstudio Cloud.

Link dentro de materiales:

> Taller Reorganizando Datos con Tidyr.docx

https://rstudio.cloud/project/2516894

3 of 16

Ciencia de Datos

Disciplina (fascinante!)  para convertir datos sin procesar en conocimiento, entender comportamiento,  y muchas veces para hacer predicción.

4 of 16

Ciencia de Datos

Ciclo

5 of 16

Tidyverse

6 of 16

Tidyverse & Ciencia de Datos

7 of 16

Filosofía Datos en Tidyverse

Todas las familias felices se parecen unas a otras, pero cada familia infeliz lo es a su manera.” –– León Tolstoi

Parafraseando: “Todos los set de datos ordenados se parecen unos a otros, pero cada set de datos desordenado lo es a su manera” Hadley Wickham

Cada columna es una variable. Cada fila es una observación.

Cada celda tiene el valor de la variable para esa observación.

8 of 16

Tidyr de Tidyverse

¿Para qué sirve?

  • Reorganizar tus datos de una forma “estándar” para poder aprovechas las ventajas de los paquetes de Tidyverse:

    • No hay que “reinventar la rueda” con cada set de datos

    • Se pueden usar funciones vectorizadas que maneja R

    • Facilitar el uso de las herramientas de Tidyverse:

      • Estructura de las funciones “similar”
      • Estructura de datos ordenada

9 of 16

1er Ejercicio Tidyr

  • Ejercicio 1 :

Las columnas de esta tabla son:

Pais, anio, tipo y cuenta. Pero…

Cada columna tiene la información

de una única variable?

Discutamos:

Qué variables tiene esta tabla?

1. país, anio, casos, población

2. país, anio, tipo, cuenta

3. Afganistan, Brasil, China

4. país, anio

Fuente: Tabla2 (Paquete Datos)

10 of 16

2do.Ejercicio Tidyr

A

B

C

¿Qué tipo de “desorden” tienen estos datos? Busca ejercicio2 en el Drive.

Ayuda: Compara con la siguiente slide.

11 of 16

Algunos casos de � “Datos desordenados” � según filosofía Tidyverse

1. Nombres de Columnas son valores, no son nombres de variables

2. Una columna contiene múltiples variables

3. Variables que se almacenan tanto en fila como en columna

4. Múltiples unidades de medida almacenados en una columna.

12 of 16

Tidyr

13 of 16

Pivot_longer

Tabla4 %>%

Pivot_longer(‘1999’:’2000’, names_to = “anio”, values_to = “casos”)

14 of 16

Pivot_wider

15 of 16

Pivot_longer vs Pivot_wider

16 of 16

Reorganizando datos con tidyr

GRACIAS!!!

Los datos utilizados en esta presentación corresponden al paquete “datos

Los dibujos son de “Mafalda” (autor: Quino)

Para realizar este Material se han utilizados las siguientes fuentes:

El libro “R for Data Science” (R4DS_en español) H.Wickham y G.Grolemund

El documento: Tidy messy data - tidyr (en inglés) H.Wickham

Autor de este material: Mónica Alonso

Está permitido reproducir este material citando la fuente.