1 of 15

Proyecto Final – Visual Analytics 2018-2�MOOC – Sexualidad… mucho más que sexo

Vladimir E. Cuevas

Andres Segura Tinoco

Juan Carlos Oyuela M.

2 of 15

Introducción

El departamento de Psicología de La Universidad de los Andes ha creado el MOOC “Sexualidad… mucho más que sexo”, el cual tiene como objetivo mejorar la experiencia de los estudiantes para hablar acerca de sexualidad con niñas, niños, estudiantes, pareja o colegas.

Este curso se encuentra implementado dentro de la plataforma COURSERA, y a partir del entendimiento de sus datos, se pretende realizar un ejercicio de análisis y visualización de información, que apalanque la demostración de la efectividad de sus contenidos que ya cumplen un poco más de 3 años en línea.

3 of 15

Datos del proyecto - WHAT

El dataset principal que se utiliza para la visualización es del tipo temporal y estático, y contiene la información relevante de los estudiantes que se inscriben diariamente en el MOOC. Los atributos del dataset son los siguientes:

  • Student ID: ordinal y secuencial
  • Grade Note: cuantitativo y secuencial (de 0.0 a 1.0)
  • Country Origin: categórico
  • Country Residence: categórico
  • Gender: categórico
  • Education Level: categórico
  • Age Range: categórico
  • Previous Completed Courses: categórico
  • Date Enrollment: ordinal y secuencial (solo fechas mayores a 2010)
  • Start Date: cuantitativa y secuencial (solo fechas mayores a 2010)
  • Last Update: cuantitativa y secuencial (solo fechas mayores a 2010)

4 of 15

Datos del proyecto - WHAT

Para la tarea principal número 3, se utiliza otro dataset de tipo tabla con disponibilidad estática, que contiene las actividades (ítems) que van realizando los estudiantes durante el curso. Se utilizan los siguientes atributos:

  • Student ID: ordinal y secuencial
  • Item Name: categórico
  • Item Sequence: cuantitativo y secuencial
  • State: categórico (Started y Completed)

También se utiliza otro dataset de tipo tabla con disponibilidad estática, que contiene la información de los usuarios del curso que realizan actividades. Se utilizan los siguientes atributos:

  • Uniandes_user_id: ordinal y secuencial
  • Reported_or_inferred_gender: categórico (mujer, hombre y desconocido)

5 of 15

Datos del proyecto - WHAT

De igual manera, se utiliza otro dataset de tipo tabla con disponibilidad estática, que contiene la información de los feedbacks de cada actividad que proporciona el usuario. Se utilizan los siguientes atributos:

  • Course_item_id: ordinal y secuencial
  • Feedback_rating: categórico ("Pulgares hacia arriba" y "Pulgares abajo")

De manera complementaria haremos uso de las encuestas iniciales y finales que toman los estudiantes para agregar información al perfil demográfico o profesional. El dataset de tipo tabla se compone de:

  • Student ID: ordinal y secuencial (Llave con los otros datasets)
  • Fecha Actualización: ordinal y secuencial
  • Pregunta: Categórico
  • Respuesta: Depende de la pregunta, las posibles respuestas pueden ser: Categóricas u Ordinales Secuenciales.

Por último, para cumplir con las tareas principales de la visualización, se derivarán los siguientes atributos:

  • Grade Level: categórico, derivado a partir de Grade Note
  • Activity Level: categórico, derivado a partir la cantidad de Items que vea un estudiante durante el curso
  • Daily Inscriptions: cuantitativa y secuencial

6 of 15

Objetivos del Proyecto - Why (Tareas principales)

  • TP1: Identificar las características que indican que el MOOC es efectivo y que realmente mejora las competencias y capacidades para hablar de “Sexualidad” en los participantes, aunque no cuente con un profesor de forma presencial (Identify – Features).
  • TP2: Descubrir la distribución de las variables demográficas de los estudiantes que completan el curso, para identificar cuáles comunidades demuestran mayor interés en realizar y terminar el curso (Discover - Distributions).
  • TP3: Identificar las actividades más populares y las menos populares de las disponibles en el curso, contrastando la cantidad de veces que una actividad fue completada contra la cantidad de veces que una actividad no fue completada (Find - Trends) y (Lookup - Values).

7 of 15

Objetivos del Proyecto - Why (Tareas secundarias)

  • Determinar si existe alguna actividad o ítem en la cual los estudiantes se retiran del curso de manera frecuente, de tal manera que se logre identificar un momento clave de deserción (Locate - Outliers).
  • Explorar la distribución y el conteo de los estudiantes a nivel global, teniendo en cuenta que el curso se dicta en línea (Explore - Distribution).
  • Perfilar los usuarios del curso, y lograr identificar las poblaciones más activas (Compare-Features).
  • Encontrar las épocas o rangos de fechas de mayor inscripción de estudiantes, con el fin de fortalecer y enfocar hacia determinadas poblaciones las campañas de marketing del curso, de tal manera que se logre aumentar el índice de participación anual (Locate - Outliers).
  • Identificar las actividades (ítems) más populares y las menos populares de las disponibles en el curso, a través de su calificación de tipo Like/Dislike (Identify- Extremes).
  • Identificar las actividades más populares y las menos populares de las disponibles en el curso, a través de la cantidad de interacciones que tiene cada ítem, donde cada actividad que es iniciada tiene un estado de “iniciada” y cada actividad iniciada que es completada por el usuario de cambia de estado a “completada”. La actividad puede ser iniciada y completada muchas veces por un mismo usuario. (Identify- Extremes)

8 of 15

Marcas y Canales – How

Modismo para la TP1, compuesto por 2 gráficos (un bar chart a la izquierda y un multi series line chart) yuxtapuestos:

  • Marcas: para el bar chart, líneas verticales y para el ms line chart, puntos unidos por líneas.
  • Canales: longitud en el eje Y para expresar cantidad (de estudiantes en el bar chart y de expectativa para el ms line chart) y color hue para diferenciar las categorías de las variables (curvas).
  • How-Encode: para el bar chart arrange express en el eje Y, y en el eje X, separate, order y align para las posibles respuestas de las encuestas. Para el ms line chart, arrange express para ambos ejes.

Modismo para la TP2, Stacked Bar Chart Vertical, Horizontal BarChart, Bubble chart y Map view:

  • Marcas: líneas verticales y Áreas (Círculos).
  • Canales: longitud y Área 2D para expresar la cantidad de estudiantes. Color (Hue) para separar las categorías en las variables demográficas Sexo, Área de trabajo, Rango de edad. El eje Y está ordenado de forma express. Área para expresar el volumen de estudiantes por sexo. Área para cantidad de estudiantes y ubicación espacial en el mapa por país de residencia del estudiante
  • How-Encode: agrupación de las poblaciones por cuartiles en rangos de porcentaje para la completitud de actividades. Separate, order & align.

9 of 15

Marcas y Canales – How

Modismo para la TP3, un Stacked bar chart y Normalized stacked bar chart:

  • Marcas: líneas apiladas horizontalmente
    1. Glyph: objeto compuesto de sub-barras de diferentes colores encima de cada una.
  • Canales:
    • Longitud para expresar valores cuantitativos
    • Hue, color: para expresar categorías
    • Región espacial: una por marca
    • Alineada: La categoría o componente más bajo de la barra apilada (para ambos, stacked bar chart y normalized stacked bar chart).
    • No alineada: otros componentes de la barra o sub-barras.
    • Para el normalized stacked bar chart se utiliza la versión normalizada del atributo original
    • Existen dos formas de ordenar, una es por orden en que las actividades son presentadas en Coursera y la segunda es por cantidades del atributo cuantitativo.

10 of 15

Insights TP1

I1: A partir de las encuestas realizadas, se observa la efectividad del MOOC en los estudiantes, ya que antes de cursarlo tienen un conocimiento y expectativas sobre el tema entre regular y bueno (2.5/5.0 en promedio), pero luego de cursarlo, mejora su conocimiento entre muy bueno o excelente (4.5/5.0 en promedio).

I2: Los estudiantes que dedicaron más horas de estudio al MOOC (5 o más) manifestaron que su conocimiento sobre la sexualidad mejoró en mayor porcentaje, que los que dedicaron pocas horas al curso (4 o menos), específicamente, casi un 10% de mayor conocimiento sobre el tema.

I3: La tendencia histórica de las inscripciones es muy positiva, ya que hasta el año 2016, para ningún día se había pasado de 50 inscripciones, sin embargo, a partir del 2016, a mediados de febrero y de julio hay picos con más de 100 inscripciones. Sin embargo, lo único preocupante es que para el 2018 la cantidad de inscripciones diarias ha bajado con respecto al 2016 y el 2017.

11 of 15

Insights TP2

I4: A pesar de que en principio se pensaba que el balance de hombres y mujeres participantes en el curso era similar, e incluso, que la población masculina podría llegar a ser mayor, hemos detectado que son las mujeres quienes más se interesan por los contenidos del MOOC, y no solamente por curiosear, son las más juiciosas para completar las actividades del curso, superando a los hombres 2.5 veces en participación.

I5: La población más interesada en los contenidos del curso, son profesionales de la salud y las ciencias sociales, que se encuentran entre los 18 y 44 años, siendo el área de lenguaje y humanidades protagonista con más del 50% de la población.

I6: Hemos encontrado un comportamiento particular con el volumen de inscripciones durante los 3 años que lleva el curso en línea, en donde principalmente el volumen de inscritos a venido descendiendo, sin embargo, existen unos puntos en el tiempo donde se disparan las inscripciones, como es el caso del 10 de junio de 2017, fecha inmediatamente posterior a una publicación en revista, evidenciando la efectividad de estas campañas publicitarias.

12 of 15

Insights TP3

I7: Existe una tendencia de entre un 41% para la actividad más popular y un 56% para la actividad menos popular de no completar la actividad.

I8: Existe correlación entre la cantidad de usuarios por sexo o género, con respecto al uso de estos por actividad. Las mujeres ocupan el primer lugar con un total de 50.248 usuarios, los que no reportaron sexo ocupan el segundo lugar con 18.388 usuarios, los hombres son los que menos ven el curso con un total de 18.223 usuarios. Anteriormente se creía que la mayoría de los usuarios eran hombres.

I9: 99.1% de los votos del feedback del curso es positivo.

I10: I4: De los 86.859 usuarios que aparecen en la base de datos, la mayoría son mujeres con un 54% de utilización para la actividad menos popular y un 69% para la más popular.

13 of 15

Tecnologías usadas

Para el desarrollo del proyecto se usaron las siguientes tecnologías:

  • Se usó Sublime Text 3 como IDE de desarrollo.
  • HTML y CSS, para maquetar el sitio web.
  • Javascript y el framework d3.js para crear los gráficos (de barras y de líneas) y la respectiva interacción con ellos.
  • Tableau para realizar los gráficos de la tarea principal 2.
  • GitHub para almacenar el código de la Viz y de los datos usados.

14 of 15

Prerrequisitos y uso

Para el desarrollo del proyecto se usaron las siguientes tecnologías:

El proyecto sólo depende del acceso a los datos almacenados en el repositorio y a la disponibilidad del servicio de GitHub Pages, que permite el acceso por medio de un Navegador a la página principal proyecto:

https://vladcuevas.github.io/MOOCSexualidad-ProyectoFinalVA/

15 of 15

Otros links de interés

  • GitHub: https://github.com/vladcuevas/MOOCSexualidad-ProyectoFinalVA

  • Youtube: https://youtu.be/916khzlJZpw

  • Twitter:

- https://twitter.com/SeguraAndres7/status/1069725841125457920

- https://twitter.com/juanchojdoo/status/1069725966434492416