Unidad 5: Análisis de Datos
Contenidos: Análisis de Datos
Minería de Datos
Reducción de Dimensionalidad
Análisis de Componentes Principales
Varianza Explicada
Vetores Proprios
El algoritmo de PCA
Algoritmo PCA - Varianza Explicada Acumulada
Ejemplos
Minería de Datos (Data Mining)
Reducción de Dimensionalidad
Reducción de Dimensionalidad
Análisis de Componentes Principales
Sus principales objetivos son:
Estas propiedades hacen que el PCA sea especialmente útil en el preprocesamiento de datos (o feature engineering) antes de la construcción de modelos, ya que al reducir el número de características se puede mejorar la eficiencia y, en muchos casos, el rendimiento del entrenamiento.
El Análisis de Componentes Principales (PCA) es una técnica de reducción de dimensionalidad ampliamente utilizada en estadística y aprendizaje automático para extraer la información más relevante de conjuntos de datos complejos.
Varianza Explicada
La varianza explicada es una medida estadística que indica la proporción de la variabilidad de un conjunto de datos que puede ser representada por un modelo o por una variable.
En el contexto del PCA, se refiere a la cantidad de variabilidad en los datos originales que cada componente principal logra capturar. Cada componente explica una fracción de la varianza total, y la suma de estas fracciones corresponde al total de variabilidad representada por el modelo.
La varianza explicada se calcula como la proporción entre la varianza capturada por un componente principal específico y la varianza total de los datos.
Varianza Explicada - Ejemplo
Supongamos que contamos con un conjunto de datos compuesto por 4 variables y queremos aplicar un Análisis de Componentes Principales (PCA) para reducir su dimensionalidad.
Tras realizar el PCA, obtenemos la siguiente distribución de la varianza explicada por cada componente principal:
En este caso, los dos primeros componentes concentran el 80% de la variabilidad original, lo que sugiere que podrían ser suficientes para representar de manera adecuada la estructura de los datos reduciendo la dimensionalidad de 4 a 2 variables.
Vectores Proprios
Un vector propio (o eigenvector) es un vector no nulo que, al ser transformado por una matriz, mantiene su dirección original, aunque su magnitud pueda cambiar.
De forma matemática, un vector propio v de una matriz A se define mediante la relación:
A ⋅ v = λ ⋅ v
donde λ es un escalar denominado valor propio (o autovalor) de A, asociado al vector propio v.
Los vectores y valores propios tienen un papel fundamental en múltiples áreas de las matemáticas, la ciencia y la ingeniería, ya que suelen representar direcciones principales de variabilidad o transformaciones esenciales en un sistema o conjunto de datos.
En el contexto del PCA, los vectores propios de la matriz de covarianza de los datos indican las direcciones principales de variación. Estas direcciones son precisamente las que se utilizan para construir los componentes principales del modelo.
El algoritmo de PCA
Partimos de conocer un conjunto de n datos, los cuales son descriptos a través de valores en p-dimensiones. La base de ese espacio p-dimensional se denota por:
𝑢𝑗, 𝑐𝑜𝑛 1 ≤ 𝑗 ≤ 𝑝
un dato cualquiera se puede expresar como:
𝑑(𝑖) = 𝑥1(𝑖) 𝑢1 + 𝑥2(𝑖) 𝑢2 + ⋯ + 𝑥𝑝(𝑖) 𝑢𝑝, 𝑐𝑜𝑛 1 ≤ 𝑖 ≤ 𝑛 con 𝑥𝑗(𝑖) las p-dimensiones.
Toda la información de los n datos representados en la base de p dimensiones, se puede almacenar en una matriz de datos observados X, de dimensión [n x p]
Donde para cada columna se puede calcular el valor medio de los datos en esa dimensión.
El algoritmo de PCA
Con la matriz de datos observados y los valores medios de cada dimensión se calcula la matriz de covarianza S, matriz cuadrada de tamaño [p x p], cuyos elementos son:
La varianza siempre es positiva y cuanto mayor, nos indica mayor variabilidad en esa dimensión.
La covarianza entre dos dimensiones puede ser positiva, nula o negativa.
La matriz de covarianza es simétrica y a su vez, se opta por normalizarla, de forma de pasar a ser la matriz de correlación R entre dimensiones
−1 ≤ 𝑅𝑡𝑟 ≤ 1, 𝑝𝑎𝑟𝑎 𝑡 ≠ 𝑟 𝑦 𝑅𝑡𝑡 = 1
De la matriz R se obtienen los p autovalores γ, con sus correspondientes autovectores w (que son ortonormales entre sí, resultan de una combinación lineal de la base v y a su vez forman una base del espacio de p-dimensiones original)
𝛾1 ≥ 𝛾2 ≥ ⋯ ≥ 𝛾𝑝
Con estos valores podemos calcular la varianza explicada acumulada a medida que consideramos más proyecciones
Cuando r = t tenemos la varianza de esa dimensión, mientras que cuando r ≠ t se tiene la covarianza entre esas dos dimensiones.
Algotitmo PCA - Varianza Explicada Acumulada
A partir de la curva de varianza explicada acumulada, podemos decidir cuántos ejes principales considerar en el análisis para generar la matriz de proyección W.
Supongamos que los primeros q autovalores describen el 80% de la varianza de los datos. La matriz de proyección W estará formada por los autovectores correspondientes a los q autovalores más grandes, dispuestos en columnas, dando lugar a una matriz de dimensión [p x q].
Finalmente, los datos proyectados en la base de componentes principales (reducida) resulta de:
𝑌 = 𝑋 𝑊
[𝑛 × 𝑞] = [𝑛 × 𝑝] [𝑝 × 𝑞]
Ejemplos PCA
Añadir algo de ruido aleatorio para crear un conjunto de datos ruidoso y volver a graficarlo
PCA como Filtro de Ruido
Muestras de entrada sin ruído
+ Ruído Aleatório
Proyección que conserva el 50% de la varianza
Ejemplos PCA
PCA como Filtro de Ruido
La fila superior muestra las imágenes de entrada, mientras que la fila inferior
muestra la reconstrucción de las imágenes a partir de solo 150 de las ~3,000 características iniciales.
Ejemplos PCA
En observación terrestre mediante imágenes satelitales, el PCA es ampliamente utilizado por varias razones:
R: PC1
G: PC3
B: PC5
Notebooks