1 of 16

Unidad 5: Análisis de Datos

2 of 16

Contenidos: Análisis de Datos

Minería de Datos

Reducción de Dimensionalidad

Análisis de Componentes Principales

Varianza Explicada

Vetores Proprios

El algoritmo de PCA

Algoritmo PCA - Varianza Explicada Acumulada

Ejemplos

3 of 16

Minería de Datos (Data Mining)

  • La minería de datos es el proceso de descubrir patrones, relaciones y tendencias útiles a partir de grandes conjuntos de datos.

  • Es una disciplina interdisciplinaria que involucra la estadística, el aprendizaje automático, la inteligencia artificial y la informática.

  • El objetivo de la minería de datos es convertir los datos brutos en información útil, a menudo utilizando técnicas de análisis estadístico y aprendizaje automático para identificar patrones o estructuras en los datos.

  • Estos patrones pueden utilizarse para realizar predicciones, tomar decisiones informadas y optimizar procesos empresariales.

4 of 16

Reducción de Dimensionalidad

  • Trabajar con datasets muy anchos (mucha dimensiones) genera una gran cantidad de problemas, más allá del costo computacional.

  • Esto se conoce como la “maldición de la dimensionalidad”.

  • Al aumentar la dimensionalidad del espacio, la densidad de los datos baja exponencialmente, por lo que la estabilidad y robustez de las técnicas de análisis se compromete, y la significatividad estadística de los resultados se debilita.

  • Se requiere recolectar una enorme cantidad de datos de entrenamiento para garantizar un cubrimiento razonable de los posibles casos.

5 of 16

Reducción de Dimensionalidad

  • Cuando la cantidad de dimensiones es muy alta las métricas de distancia pierden las propiedades intuitivas, y los métodos basados en distancias (k-NN por ejemplo) se sesgan muy rápidamente.

  • Además, durante las tareas de “curado” del dataset y análisis exploratorio, muchas veces es necesario visualizar los datos de alguna manera razonablemente “accionable”.

  • Finalmente, datos con muchos atributos tienen mucha probabilidad de tener atributos irrelevantes, valores faltantes o contaminados, etc., por lo que se generan modelos con mucha variancia y el sobreajuste es difícil de controlar.

6 of 16

Análisis de Componentes Principales

Sus principales objetivos son:

  • Reducir el número de variables de un conjunto de datos, manteniendo la mayor cantidad posible de información.
  • Transformar las variables originales en un conjunto más pequeño de variables denominadas componentes principales, que son combinaciones lineales de las variables iniciales.
  • Representar y visualizar los datos en un espacio de menor dimensión, con variables no correlacionadas que maximizan la variabilidad contenida en los datos.

Estas propiedades hacen que el PCA sea especialmente útil en el preprocesamiento de datos (o feature engineering) antes de la construcción de modelos, ya que al reducir el número de características se puede mejorar la eficiencia y, en muchos casos, el rendimiento del entrenamiento.

El Análisis de Componentes Principales (PCA) es una técnica de reducción de dimensionalidad ampliamente utilizada en estadística y aprendizaje automático para extraer la información más relevante de conjuntos de datos complejos.

7 of 16

Varianza Explicada

La varianza explicada es una medida estadística que indica la proporción de la variabilidad de un conjunto de datos que puede ser representada por un modelo o por una variable.

En el contexto del PCA, se refiere a la cantidad de variabilidad en los datos originales que cada componente principal logra capturar. Cada componente explica una fracción de la varianza total, y la suma de estas fracciones corresponde al total de variabilidad representada por el modelo.

La varianza explicada se calcula como la proporción entre la varianza capturada por un componente principal específico y la varianza total de los datos.

  • Es fundamental porque permite evaluar cuánta información de los datos originales se conserva al aplicar PCA.�
  • También resulta útil para decidir el número adecuado de componentes principales a incluir en el modelo, de modo que se represente una cantidad razonable de la variabilidad original sin necesidad de conservar todas las variables.

8 of 16

Varianza Explicada - Ejemplo

Supongamos que contamos con un conjunto de datos compuesto por 4 variables y queremos aplicar un Análisis de Componentes Principales (PCA) para reducir su dimensionalidad.

Tras realizar el PCA, obtenemos la siguiente distribución de la varianza explicada por cada componente principal:

  • 1.er componente principal: explica el 50% de la varianza total.�
  • 2.º componente principal: explica el 30% de la varianza total.�
  • 3.er componente principal: explica el 15% de la varianza total.�
  • 4.º componente principal: explica el 5% de la varianza total.�

En este caso, los dos primeros componentes concentran el 80% de la variabilidad original, lo que sugiere que podrían ser suficientes para representar de manera adecuada la estructura de los datos reduciendo la dimensionalidad de 4 a 2 variables.

9 of 16

Vectores Proprios

Un vector propio (o eigenvector) es un vector no nulo que, al ser transformado por una matriz, mantiene su dirección original, aunque su magnitud pueda cambiar.

De forma matemática, un vector propio v de una matriz A se define mediante la relación:

A ⋅ v = λ ⋅ v

donde λ es un escalar denominado valor propio (o autovalor) de A, asociado al vector propio v.

Los vectores y valores propios tienen un papel fundamental en múltiples áreas de las matemáticas, la ciencia y la ingeniería, ya que suelen representar direcciones principales de variabilidad o transformaciones esenciales en un sistema o conjunto de datos.

En el contexto del PCA, los vectores propios de la matriz de covarianza de los datos indican las direcciones principales de variación. Estas direcciones son precisamente las que se utilizan para construir los componentes principales del modelo.

10 of 16

El algoritmo de PCA

Partimos de conocer un conjunto de n datos, los cuales son descriptos a través de valores en p-dimensiones. La base de ese espacio p-dimensional se denota por:

𝑢𝑗, 𝑐𝑜𝑛 1 ≤ 𝑗 ≤ 𝑝

un dato cualquiera se puede expresar como:

𝑑(𝑖) = 𝑥1(𝑖) 𝑢1 + 𝑥2(𝑖) 𝑢2 + ⋯ + 𝑥𝑝(𝑖) 𝑢𝑝, 𝑐𝑜𝑛 1 ≤ 𝑖 ≤ 𝑛 con 𝑥𝑗(𝑖) las p-dimensiones.

Toda la información de los n datos representados en la base de p dimensiones, se puede almacenar en una matriz de datos observados X, de dimensión [n x p]

Donde para cada columna se puede calcular el valor medio de los datos en esa dimensión.

11 of 16

El algoritmo de PCA

Con la matriz de datos observados y los valores medios de cada dimensión se calcula la matriz de covarianza S, matriz cuadrada de tamaño [p x p], cuyos elementos son:

La varianza siempre es positiva y cuanto mayor, nos indica mayor variabilidad en esa dimensión.

La covarianza entre dos dimensiones puede ser positiva, nula o negativa.

La matriz de covarianza es simétrica y a su vez, se opta por normalizarla, de forma de pasar a ser la matriz de correlación R entre dimensiones

−1 ≤ 𝑅𝑡𝑟 ≤ 1, 𝑝𝑎𝑟𝑎 𝑡 ≠ 𝑟 𝑦 𝑅𝑡𝑡 = 1

De la matriz R se obtienen los p autovalores γ, con sus correspondientes autovectores w (que son ortonormales entre sí, resultan de una combinación lineal de la base v y a su vez forman una base del espacio de p-dimensiones original)

𝛾1 ≥ 𝛾2 ≥ ⋯ ≥ 𝛾𝑝

Con estos valores podemos calcular la varianza explicada acumulada a medida que consideramos más proyecciones

Cuando r = t tenemos la varianza de esa dimensión, mientras que cuando r ≠ t se tiene la covarianza entre esas dos dimensiones.

12 of 16

Algotitmo PCA - Varianza Explicada Acumulada

A partir de la curva de varianza explicada acumulada, podemos decidir cuántos ejes principales considerar en el análisis para generar la matriz de proyección W.

Supongamos que los primeros q autovalores describen el 80% de la varianza de los datos. La matriz de proyección W estará formada por los autovectores correspondientes a los q autovalores más grandes, dispuestos en columnas, dando lugar a una matriz de dimensión [p x q].

Finalmente, los datos proyectados en la base de componentes principales (reducida) resulta de:

𝑌 = 𝑋 𝑊

[𝑛 × 𝑞] = [𝑛 × 𝑝] [𝑝 × 𝑞]

13 of 16

Ejemplos PCA

Añadir algo de ruido aleatorio para crear un conjunto de datos ruidoso y volver a graficarlo

PCA como Filtro de Ruido

Muestras de entrada sin ruído

+ Ruído Aleatório

Proyección que conserva el 50% de la varianza

14 of 16

Ejemplos PCA

PCA como Filtro de Ruido

La fila superior muestra las imágenes de entrada, mientras que la fila inferior

muestra la reconstrucción de las imágenes a partir de solo 150 de las ~3,000 características iniciales.

15 of 16

Ejemplos PCA

  • Simplificación de información: Resalta patrones importantes y reduce la complejidad de los datos.�
  • Reducción de ruido y mejora de la señal: Facilita la interpretación de imágenes de diferentes sensores.�
  • Detección de anomalías y tendencias: Útil para analizar series temporales largas.�
  • Distinción de coberturas del suelo: Ayuda a identificar vegetación, suelo desnudo o cuerpos de agua.�
  • Preparación para modelos de IA: Sirve como etapa previa de selección de atributos, optimizando el rendimiento de modelos de clasificación.�
  • Integración de datos multisensor: Permite combinar información de sensores ópticos, SAR, Lidar y térmicos, facilitando un análisis más completo del territorio.

En observación terrestre mediante imágenes satelitales, el PCA es ampliamente utilizado por varias razones:

R: PC1

G: PC3

B: PC5

16 of 16

Notebooks