Ciencia de Datos para (no) ingenieros
Lázaro Bustio Martínez (lazaro.bustio@ibero.mx)
Otoño 2023
Agenda
Objetivos del Taller
Bibliografía
Introducción
Introducción
¿Dónde vemos Ciencia de Datos?
Introducción
Metodología
Metodología de un proyecto de Ciencia de Datos
https://www.ibm.com/downloads/cas/6RZMKDN8
1. Comprensión del negocio
2. Enfoque analítico
3. Requisitos de datos
4. Recopilación de datos
5. Comprensión de datos
6. Preparación de datos
Preparación de datos
Preparación de datos
Preparación de datos
Trabajo con datos
Preparación de datos
7. Modelado
Modelado
8. Evaluación
9. Implementación
10. Retroalimentación
Conceptos básicos
Más conceptos básicos
El trabajo mas “sexy” del siglo XXI
Aprendizaje Automatizado
Aprendizaje automatizado
Aprendizaje automatizado
Aprendizaje no supervisado
Aprendizaje supervisado
Aprendizaje por refuerzo
Aprendizaje semi supervisado
Aprendizaje Automatizado
Algoritmos de Aprendizaje Automatizado
Agrupamiento
Agrupamiento
Maximizar distancia�inter-cluster
Minimizar distancia�intra-cluster
Pasos para el desarrollo de un análisis de agrupamiento
Seleccionar la medida de similitud
Seleccionar el algoritmo de agrupamiento
Definir la distancia entre dos grupos
Determinar el número de grupos
Validar los grupos obtenidos
Medidas de similitud
¿Cuántos agrupamientos?
¿Cuatro?
¿Dos?
¿Seis?
Medidas de distancia
KMeans
Clasificación de datos
Motivación
Clasificación: a partir de datos históricos, aprender las características de cada clase para predecir la pertenencia a dichas clases de elementos desconocidos.
Motivación
¿Sobrevivirías a la catástrofe del hundimiento del Titanic?
Clasificación
Clasificación
Binaria
Multiclase
Clasificadores
Clasificadores “perezosos”
K Vecinos Más Cercanos (KNN)
Aprendizaje basado en casos
Clasificadores “voraces”
Árboles de decisión
Naive Bayes
Redes Neuronales Artificiales
Máquinas de Vectores de Soporte
k-Vecinos Más Cercanos
k-Nearest Neighbors
k-Vecinos Más Cercanos (kNN)
k-Vecinos Más Cercanos (kNN)
k-Vecinos Más Cercanos (kNN)
1-Vecino Más Cercano (1-NN)
?
1-Vecino Más Cercano (1-NN)
?
k=1
1-Vecino Más Cercano (1-NN)
k=1
3-Vecino Más Cercano (1-NN)
?
k=3
3-Vecino Más Cercano (1-NN)
k=3
Práctica
Ciencia de Datos con KNime
Conclusiones
¡Muchas gracias!