CLUSTERING
Bases de Datos Masivas
2020
1
Temas
2
¿QUÉ ES CLUSTERING?
3
Aprendizaje Supervisado vs. No Supervisado
4
Supervised Learning
Unsupervised Learning
Problema del agrupamiento
Dada una nube de puntos en un espacio, queremos entender cuál es la estructura de esa nube.
Problema del agrupamiento
Dado un conjunto de puntos, con una noción de distancia entre ellos, se realiza un agrupamiento de los puntos en una N cantidad de subconjuntos, de modo que:
Generalmente:
Euclidiana, coseno, Jaccard, distancia de edición, ...
J. Leskovec, A. Rajaraman, J. Ullman: Mining of Massive Datasets, http://www.mmds.org
Clustering: Problema Hard ¿Por qué?
J. Leskovec, A. Rajaraman, J. Ullman: Mining of Massive Datasets, http://www.mmds.org
Pero la mayoría de los problemas no tienen 2 dimensiones, sino que pueden tener 10, 100 o miles de dimensiones
En espacios de alta dimensionalidad todo se ve diferente:
Problemas de Clustering: Galaxias
8
J. Leskovec, A. Rajaraman, J. Ullman: Mining of Massive Datasets, http://www.mmds.org
Proyecto:
Sloan Digital Sky Survey
Problemas de Clustering: CDs de música
9
J. Leskovec, A. Rajaraman, J. Ullman: Mining of Massive Datasets, http://www.mmds.org
Problemas de Clustering: CDs de música
10
J. Leskovec, A. Rajaraman, J. Ullman: Mining of Massive Datasets, http://www.mmds.org
Espacio de todos los CDs:
Para Amazon, la dimensión es de decenas de millones
Tarea: Buscar clusters de CDs similares
Clustering
11
Clustering
(Larose, 2014)
Métodos de Clustering
13
Métodos de Clustering
Jerárquico:
Asignación de puntos (k-means):
14
J. Leskovec, A. Rajaraman, J. Ullman: Mining of Massive Datasets, http://www.mmds.org
K-MEANS CLUSTERING
15
K-Means Clustering
16
¿Cómo funciona K-medias?
C1...Ck
17
Algoritmo K-Means
18
Ejemplo del algoritmo K-means
19
Asigna los puntos al azar
Calcula los centroides para los clusters actuales
Asigna los puntos al cluster más cercano
Calcula los nuevos centroides para cada cluster
No hay más cambios entonces frena
Óptimos locales
20
Solución Mala
Solución Buena
Ejemplo: K-mean
Imagen con 10 canales
1000 puntos al azar
B1,B2,...,B10
p1 5,8,....,21
p2 15,3,....,3
p3 53,7,....,12
p4 4,2,....,21
.
.
p1000 31,34,....,2
k = 3
k = 4
k = 10
HIERARCHICAL CLUSTERING
22
Clustering Jerárquico
23
Clustering Jerárquico
24
Dendrograma
25
Métrica
Similitud/Disimilitud
Interpretación
26
Tenemos 45
observaciones
Elegir los Clusters
27
1 Cluster
2 Clusters
3 Clusters
Enfoque aglomerativo
28
Casos
Clusters
Un ejemplo
29
¿Cómo definimos disimilitud?
30
Métodos de Linkage: Distancia entre Clusters
31
Importancia del Linkage
32
Criterio de Distancia y Similitud
33
Distancia
Similitud
Ejemplo: Single Linkage
34
Matriz Inicial de distancias
Nivel K=1
Nivel K=2
Nivel K=3
Nivel K=4
Nivel K=5
Nivel K=6
Ejemplo: Single Linkage
35
Dendrograma Resultante en K=6
En la etapa K-ésima quedan formados n – K clusters
Variables Numéricas
Distancia Euclídea
Distancia de Manhattan
Distancia Minkowski
Variables Binarias:
Coeficiente de Jaccard
Variables Categóricas
36
Medidas de distancia/similitud
Es necesario Normalizar/Estandarizar los datos:
37
Variables Numéricas
Distancia Euclídea
Distancia de Manhattan
Distancia Minkowski
Los requisitos para una función de distancia son:
38
Coeficiente de Jaccard
Distancia de dos variables binarias
Similitud
sim(i, j) es conocido como coeficiente de Jaccard
39
Variables Categóricas
Distancia de dos variables categóricas
donde:
p: es el total de variables
m: es el total de coincidencias
Ejemplo para test-I
MÉTRICAS DE EVALUACIÓN
40
Suma de Cuadrados
Con k-means son las distancias a los centroides.
En jerárquicos… usamos la matriz de distancias
Método Elbow
Método Elbow
Método Elbow
Método Elbow
46
Coeficiente de Silueta
Donde:
Ese cluster es la segunda mejor opción para i y se lo denomina vecindad de i.
47
Evaluación: Coeficiente de Silueta
Resumiendo:
• s(i) ≈ 1, la observación i está bien asignada a su cluster
• s(i) ≈ 0, la observación i está entre dos cluster
• s(i) ≈ −1, la observación i está mal asignada a su cluster
48
Evaluación: Coeficiente de Silueta
Gráfico de ancho de Silueta
REFERENCIAS
49