1 of 54

Ciencia de Datos para (no) ingenieros

Lázaro Bustio Martínez (lazaro.bustio@ibero.mx)

Otoño 2023

2 of 54

Agenda

  • Introducción.
  • Metodología Fundamental para la Ciencia de Datos de IBM.
    • Pre-procesamiento de datos y Análisis Exploratorio (limpieza, valores faltantes, reducción de dimensionalidad entre otros).
    • Aprendizaje no supervisado.
  • Análisis de agrupamiento de datos (Kmeans).
  • Aprendizaje supervisado.
    • Clasificación de datos (KNN).
  • Temas avanzados de Ciencia de Datos.

3 of 54

Objetivos del Taller

  • Comprender la Metodología Fundamental para la Ciencia de Datos de IBM.
  • Dominar las principales técnicas y conceptos de Ciencia de Datos.
  • Seleccionar y aplicar las técnicas de Ciencia de Datos adecuadas a problemas específicos.

4 of 54

Bibliografía

  • Tan, P., Steinbach, M., & Kumar, V. (2015). Introduction to data mining. Dorling Kindersley: Pearson.
  • Zaki, M., & Meira, W. (2014). Data mining and analysis. Cambridge: Cambridge Univ. Press.
  • Aggarwal, C. (2015). Data mining: The textbook. Cham: Springer.
  • Jones, H. (2019). Ciencia de los Datos: La guía definitiva sobre análisis de datos, Minería de Datos, almacenamiento de datos, visualización de datos, Big Data Para Empresas Y Apriendizaje Automático Para Principiantes. Independently published.
  • Kelleher, J. & Tierney, B. (2021). Ciencia de Datos. MIT Press.
  • Tursi, V., & Silipo, R. (2018). From Words to Wisdom: An Introduction to Text Mining with KNIME. KNIME Press. Libro electrónico.

5 of 54

Introducción

6 of 54

Introducción

¿Dónde vemos Ciencia de Datos?

7 of 54

Introducción

  • La Ciencia de Datos combina múltiples campos que incluyen estadísticas, métodos científicos y análisis de datos para extraer el valor de los datos. Los practicantes de la ciencia de datos se llaman científicos de datos y combinan una variedad de conocimientos para analizar los datos recopilados de la web, de teléfonos inteligentes, de clientes, sensores y otras fuentes.

8 of 54

Metodología

  • Una metodología es una estrategia general que sirve de guía para los procesos y actividades que�están dentro de un dominio determinado.
    • No depende de tecnologías ni herramientas específicas
    • No es un conjunto de técnicas o recetas.
  • La metodología proporciona al científico de datos un marco sobre cómo proceder con los métodos, procesos y argumentos que se utilizarán para obtener respuestas o resultados. �

9 of 54

Metodología de un proyecto de Ciencia de Datos

https://www.ibm.com/downloads/cas/6RZMKDN8

10 of 54

1. Comprensión del negocio

  • Todos los proyectos comienzan con la comprensión del negocio. Los promotores de negocios que necesitan la solución analítica desempeñan el papel más importante en esta etapa, al definir el problema, los objetivos del proyecto y los requisitos de la solución desde una perspectiva empresarial.
  • Esta primera etapa sienta las bases para que el problema empresarial sea resuelto con éxito.
  • Para ayudar a garantizar el éxito del proyecto, los promotores deben participar mientras dure el proyecto para proporcionar experiencia en el dominio, revisar los hallazgos intermedios y garantizar que el trabajo siga su curso para generar la solución deseada. �

11 of 54

2. Enfoque analítico

  • Cuando el problema empresarial se haya establecido claramente, el científico de datos podrá definir el enfoque analítico para resolver el problema. Esta etapa implica expresar el problema bajo el contexto de las técnicas estadísticas y de aprendizaje automático, para que la�organización pueda identificar las más adecuadas para el resultado deseado.
    • Por ejemplo, si el objetivo es predecir una respuesta como "sí" o "no", el enfoque analítico podría definirse como la construcción, las pruebas y la implementación de un modelo de clasificación.

12 of 54

3. Requisitos de datos

  • El enfoque analítico elegido determina los requisitos de datos. Más concretamente, los métodos analíticos a utilizar requieren de determinados contenidos de datos, formatos y representaciones, orientados por el conocimiento en el dominio. �

13 of 54

4. Recopilación de datos

  • En la etapa inicial de recopilación de datos, los científicos de datos identifican y reúnen los recursos de datos disponibles (estructurados, no estructurados y semiestructurados) y relevantes para el dominio del problema. Por lo general, deben elegir si realizan inversiones adicionales para obtener elementos informativos menos accesibles. Lo mejor puede ser aplazar la decisión de inversión hasta que se sepa más sobre los datos y el modelo. Si hay algunas lagunas en la recopilación de datos, es posible que el científico tenga que revisar los requisitos de datos y recopilar más datos o nuevos datos.
  • Aunque el muestreo y la subdivisión de datos siguen siendo importantes, las plataformas actuales de alto rendimiento y la funcionalidad analítica en la base de datos permiten que los científicos de datos utilicen conjuntos de datos mucho más grandes que contienen gran parte de los datos disponibles, o incluso todos. Al incorporar más datos, los modelos predictivos pueden representar mejor los eventos raros, como la incidencia de una enfermedad o un fallo del sistema. �

14 of 54

5. Comprensión de datos

  • Después de la recopilación de datos inicial, los científicos de datos suelen utilizar estadísticas descriptivas y técnicas de visualización para comprender el contenido de los datos, evaluar su calidad y descubrir “insights” iniciales sobre ellos.
    • Para llenar los huecos es posible que sea necesario volver a recopilar datos. �

15 of 54

6. Preparación de datos

  • Esta etapa abarca todas las actividades para construir el conjunto de datos que se utilizará en la subsiguiente etapa de modelado.
  • Entre las actividades de preparación de datos están:
    • La limpieza de datos (tratar con valores no válidos o que faltan, eliminar duplicados y dar un formato adecuado).
    • Combinar datos de múltiples fuentes (archivos, tablas y plataformas).
    • Transformar los datos en variables útiles.
  • La preparación de datos suele ser el paso más largo de los proyectos de ciencia de datos. En muchos dominios, algunos pasos de la preparación de datos son comunes para problemas diferentes. La automatización anticipada de determinados pasos de la preparación de datos puede acelerar el proceso al minimizar el tiempo de preparación a medida. Gracias al alto rendimiento, los sistemas masivamente paralelos y la funcionalidad analítica que reside donde se almacenan los datos de hoy en día, los científicos de datos pueden preparar los datos de forma más fácil y rápida utilizando conjuntos de datos muy grandes. ��

16 of 54

Preparación de datos

  • Antes de hacer algún proceso, se hace un preprocesamiento o limpiado de los datos, con el objetivo de poder tener solamente los datos requeridos y en el formato deseado.�

17 of 54

Preparación de datos

  • Los datos son elementos cruciales en para los modelos de Ciencia de Datos. Sin buenos datos, no pueden haber buenos modelos.

18 of 54

Preparación de datos

  • Muchos de los algoritmos empleados en la Ciencia de Datos analizan y procesan “características” (features) que son generalmente valores numéricos que representan o miden algún fenómeno. Muchas veces estos valores deben prepararse antes de los análisis porque pueden contener múltiples deficiencias. Algunas técnicas para la preparación de datos son:
    • Filtrado de datos
    • Procesamiento de datos perdidos
    • Procesamiento de excepciones, errores y valores anómalos.
    • Combinación de datos de multiples fuentes.
    • Consolidación de datos.

19 of 54

Trabajo con datos

20 of 54

Preparación de datos

21 of 54

7. Modelado

  • La etapa de modelado utiliza la primera versión del conjunto de datos preparado y se enfoca en desarrollar modelos predictivos o descriptivos según el enfoque analítico previamente definido. En los modelos predictivos, los científicos de datos utilizan un conjunto de capacitación (datos históricos en los que se conoce el resultado de interés) para construir el modelo. El proceso de modelado normalmente es muy iterativo, ya que las organizaciones están adquiriendo “insights” intermedios, lo que deriva en ajustes en la preparación de datos y en la especificación del modelo. Para una técnica determinada, los científicos de datos pueden probar múltiples algoritmos con sus respectivos parámetros para encontrar el mejor modelo para las variables disponibles. ��

22 of 54

Modelado

  • A partir de los datos se crea un modelo para lograr cumplir el objetivo y encontrar resultados.

23 of 54

8. Evaluación

  • Durante el desarrollo del modelo y antes de su implementación, el científico de datos evalúa el modelo para comprender su calidad y garantizar que aborda el problema empresarial de manera adecuada y completa. La evaluación del modelo implica el cálculo de varias medidas de diagnóstico y de otros resultados, como tablas y gráficos, lo que permite al científico de datos interpretar la calidad y la eficacia del modelo en la resolución del problema. Para los modelos predictivos, los científicos de datos usan un conjunto de pruebas, que es independiente del conjunto de capacitación, pero sigue la misma distribución de probabilidad y tiene un resultado conocido. El conjunto de pruebas se utiliza para evaluar el modelo para ajustarlo según las necesidades. A veces, el modelo final también se aplica a un conjunto de validación para realizar una evaluación final.
  • Además, los científicos de datos pueden asignar al modelo pruebas de significancia estadística como prueba adicional de su calidad. Esta prueba adicional puede ser fundamental para justificar la implementación del modelo o para tomar medidas cuando hay mucho en juego, como un costoso protocolo médico suplementario o un sistema crítico para vuelos en avión �

24 of 54

9. Implementación

  • Cuando el modelo satisfactorio ha sido desarrollado y aprobado por los promotores del negocio, se implementa en el entorno de producción o en un entorno de pruebas comparable. Por lo general, se implementa de forma imitada hasta que su rendimiento se haya evaluado completamente. Su implementación puede ser tan fácil como generar un informe con recomendaciones, o tan enrevesado como incrustar el modelo en un complejo proceso de puntuación y de flujo de trabajo administrado por una aplicación personalizada. La implementación de un modelo en un proceso operativo empresarial generalmente involucra a grupos, habilidades y tecnologías adicionales dentro de la empresa. Por ejemplo, un grupo de ventas puede implementar un modelo de propensión a la respuesta a través de un proceso de administración de campañas creado por un equipo de desarrollo y administrado por un grupo de marketing. ��

25 of 54

10. Retroalimentación

  • Al recopilar los resultados del modelo implementado, la organización obtiene retroalimentación sobre el rendimiento del modelo y su impacto en el entorno en el que se implementó. Por ejemplo, la retroalimentación puede ser en forma de porcentajes de respuesta a una campaña promocional dirigida a un grupo de clientes que ha sido identificado por el modelo como respondedores de alto potencial. Los científicos de datos pueden analizar esta retroalimentación para ajustar el modelo para mejorar su precisión y utilidad. Pueden automatizar algunos o todos los pasos de la evaluación del modelo y de la recopilación de retroalimentación, el ajuste y la reimplementación del modelo para acelerar el proceso de actualización del modelo para obtener mejores resultados. �

26 of 54

Conceptos básicos

  • Dataset: colección de datos utilizados en tareas de aprendizaje automático. Cada registro de datos se denomina muestra. Los eventos o atributos que reflejan el rendimiento o la naturaleza de una muestra en un aspecto concreto se denominan características.
  • Conjunto de entrenamiento: conjunto de datos utilizado en el proceso de entrenamiento, en el que cada muestra se denomina muestra de entrenamiento. El proceso de creación de un modelo a partir de los datos se denomina aprendizaje (formación).
  • Conjunto de pruebas: La prueba se refiere al proceso de utilizar el modelo obtenido tras el aprendizaje para la predicción. El conjunto de datos utilizado se denomina conjunto de prueba, y cada muestra se denomina muestra de prueba.

27 of 54

Más conceptos básicos

28 of 54

El trabajo mas “sexy” del siglo XXI

  • Según Thomas J. Davenport:
  • "Data Scientist: The Sexiest Job of the 21st Century", https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century, octubre 2012

29 of 54

Aprendizaje Automatizado

  • Aprendizaje Automático, Aprendizaje Máquina o Machine Learning (ML)
    • Rama de la IA que desarrolla algoritmos de análisis de datos que permitan al sistema aprender (generalizar comportamientos mediante detección de patrones en la información suministrada en forma de ejemplos y experiencia) y tomar decisiones autónomas en base a la predicción de las situaciones que se puedan producir

  • La Inteligencia Artificial simbólica “razona” sobre declaraciones usando lenguajes formales y símbolos para representar el conocimiento
    • Ningún proyecto ha alcanzado demasiado éxito
    • Eso sugiere que los sistemas de Inteligencia Artificial necesitan la capacidad de adquirir su propio conocimiento extrayendo patrones a partir de los datos crudos

30 of 54

Aprendizaje automatizado

Aprendizaje automatizado

Aprendizaje no supervisado

Aprendizaje supervisado

Aprendizaje por refuerzo

Aprendizaje semi supervisado

31 of 54

Aprendizaje Automatizado

  • Ejemplo del taxista
    • No supervisado: un taxista puede aprender lo que es tener un “buen” o “mal” día sin que se le den ejemplos etiquetados.
    • Supervisado: el taxi puede medir directamente el resultado de la acción (pisar el freno reduce la velocidad)
    • Por refuerzo: si no hay propina al final del viaje le da al taxista una idea de que algo no ha ido bien (o de que el pasajero es un tacaño).

32 of 54

Algoritmos de Aprendizaje Automatizado

33 of 54

Agrupamiento

  • Objetivo:
    • Agrupar objetos similares entre sí que sean distintos a los objetos de otros agrupamientos [clusters].
  • Aprendizaje no supervisado
    • No existen clases predefinidas
  • Los resultados obtenidos dependerán de:
    • El algoritmo de agrupamiento seleccionado.
    • El conjunto de datos disponible
    • La medida de similitud utilizada para comparar objetos.

34 of 54

Agrupamiento

  • Encontrar agrupamientos de tal forma que los objetos de un grupo sean similares entre sí y diferentes de los objetos de otros grupos:

Maximizar distancia�inter-cluster

Minimizar distancia�intra-cluster

35 of 54

Pasos para el desarrollo de un análisis de agrupamiento

Seleccionar la medida de similitud

Seleccionar el algoritmo de agrupamiento

Definir la distancia entre dos grupos

Determinar el número de grupos

Validar los grupos obtenidos

36 of 54

Medidas de similitud

¿Cuántos agrupamientos?

¿Cuatro?

¿Dos?

¿Seis?

37 of 54

Medidas de distancia

38 of 54

KMeans

  • Funcionamiento
    • Cada grupo tiene asociado un centroide (centro geométrico del grupo).
    • Los puntos se asignan al grupo cuyo centroide esté más cerca (utilizando cualquier métrica de distancia).
    • Iterativamente, se van actualizando los centroides en función de las asignaciones de puntos a grupos, hasta que los centroides dejen de cambiar.
  • Base teórica
    • Algoritmo basado en la minimización de la distancia interna (suma de las distancias de los patrones asignados a un agrupamiento y su centroide). En realidad, se minimiza la suma de las distancias al cuadrado de cada patrón al centroide de su grupo.

39 of 54

Clasificación de datos

40 of 54

Motivación

Clasificación: a partir de datos históricos, aprender las características de cada clase para predecir la pertenencia a dichas clases de elementos desconocidos.

41 of 54

Motivación

¿Sobrevivirías a la catástrofe del hundimiento del Titanic?

42 of 54

Clasificación

Clasificación

Binaria

Multiclase

Clasificadores

Clasificadores “perezosos”

K Vecinos Más Cercanos (KNN)

Aprendizaje basado en casos

Clasificadores “voraces”

Árboles de decisión

Naive Bayes

Redes Neuronales Artificiales

Máquinas de Vectores de Soporte

43 of 54

k-Vecinos Más Cercanos

k-Nearest Neighbors

44 of 54

k-Vecinos Más Cercanos (kNN)

  • Es uno de los algoritmos de clasificación más simples.
  • No hace ninguna suposición sobre la distribución de datos subyacente, por lo que no hay una fase de aprendizaje (entrenamiento).
  • kNN emplea todas las instancias conocidas para la clasificación.
  • Todas las instancias se pueden representar como puntos en un espacio n-dimensional.
  • La clasificación se realiza cuando llega una nueva instancia desconocida. Se realiza comparando los vectores de características de los diferentes puntos y la instancia de interés.

45 of 54

k-Vecinos Más Cercanos (kNN)

  • kNN se basa en la semejanza de las características de las instancias.
    • La semejanza de las características de la instancia desconocida con el conjunto de entrenamiento determina cómo se clasificará la muestra desconocida.
  • Regla de los vecinos más cercanos:
    • Encontrar el punto y en X que sea el más cercano a x.
    • Asignar la clase de x a y.

46 of 54

k-Vecinos Más Cercanos (kNN)

47 of 54

1-Vecino Más Cercano (1-NN)

?

48 of 54

1-Vecino Más Cercano (1-NN)

?

k=1

49 of 54

1-Vecino Más Cercano (1-NN)

k=1

50 of 54

3-Vecino Más Cercano (1-NN)

?

k=3

51 of 54

3-Vecino Más Cercano (1-NN)

k=3

52 of 54

Práctica

Ciencia de Datos con KNime

53 of 54

Conclusiones

  • En este taller introductorio de Ciencia de Datos, se aprendió sobre cómo abordar proyectos desde una perspectiva práctica, destacando la importancia de entender las necesidades empresariales para lograr soluciones efectivas.
  • A lo largo del taller, se exploró el Aprendizaje no Supervisado, descubriendo cómo el algoritmo K-means puede agrupar datos de manera automática para revelar patrones ocultos en grandes conjuntos de datos.
  • Se empleó una herramienta no-code, KNIME, permitiendo a personas sin experiencia técnica participar activamente en el análisis de datos y la toma de decisiones informadas.
  • Además, se dieron los primeros pasos en la clasificación de datos utilizando el sencillo pero poderoso algoritmo K-Nearest Neighbors (KNN), lo que brinda la capacidad de tomar decisiones basadas en la similitud de datos, una habilidad valiosa en diversas áreas empresariales.
  • En resumen, este taller introductorio ha mostrado que la Ciencia de Datos es accesible y relevante para todos, independientemente de su formación en ingeniería, y que las herramientas no-code están allanando el camino para que más personas puedan aprovechar estas capacidades en sus roles empresariales.

54 of 54

¡Muchas gracias!