1 of 17

Réalisé par :

Eya Ourabi

Hadir Khlifi

Takwa Tlijeni

Analyse en Composantes Principales (PCA)

Année universitaire:

2025 – 2026

Institut supérieur des mathématiques appliquées et d’informatiques de kairouan

2 of 17

Plan

  1. Introduction
  2. Objectifs de PCA
  3. Etapes de PCA
  4. Avantages
  5. Inconvénients
  6. Conclusion

1

3 of 17

Introduction

Le PCA (Analyse en Composantes Principales) est une technique statistique utilisée en machine learning et en analyse de données. Elle a pour objectif de diminuer le nombre de variables tout en conservant le maximum d’informations pertinentes contenues dans les données.

2

4 of 17

Thynk Unlimited

Le PCA sert principalement à :

      • Réduire le nombre de variables
      • Supprimer les redondances (corrélations)
      • Simplifier la visualisation des données
      • Accélérer les algorithmes de machine learning
      • Garder l’information la plus importante

2. Objectif du PCA

3

5 of 17

3. Étapes du PCA:

Étape 1 : Standardiser les données

Étape 2 : Calculer la matrice de covariance

Étape 3 : Calculer les valeurs propres et vecteurs propres

Étape 4 : Choisir les composantes principales

Étape 5 : Projection des données

4

6 of 17

I

X

Y

1

2

4

2

3

5

3

5

7

4

7

8

5

10

11

I

X

Y

1

-1,25

-1,34

2

-0,71

-0,87

3

0,36

0,11

4

1,43

0,61

5

0,17

1,50

Étape 1 : Standardiser les données

L’objectif est de mettre toutes les variables sur la même échelle afin qu’elles aient la même importance.

On transforme chaque valeur avec :

μ : moyenne des variables

σ : écart-type des variables

    • μ(x)= (2+3+5+7+10)/5=5.4
    • σ(X)= 2,40
    • μ(Y)= (4+5+7+8+11)/5=7
    • σ(Y)= 2,38

5

7 of 17

Étape 2 : Calculer la matrice de covariance

La matrice de covariance est utilisée pour mesurer la relation entre les variables (attributs) dans un dataset multidimensionnel.

    • Covariance > 0

→ Les variables évoluent dans le même sens

    • Covariance < 0

→ Les variables évoluent en sens opposé

    • Covariance ≈ 0

→ Pas de relation linéaire significative

la taille de matrice

La matrice de covariance est de taille p × p, où p représente le nombre de variables du dataset.

      • Var(X): Mesurent la dispersion d’une seule variable
      • Cov(X,Y) : Mesure la relation entre X et Y

6

8 of 17

dans notre exemple le matrice est de taille 2*2

Cov(X, X) = Σ(Standardized X * Standardized X) / (n-1)= (1.56 + 0.5 + 0.13 + 2.05 + 0.03) / 4 = 1.305

Cov(X, Y) = Σ(Standardized X * Standardized Y) / (n - 1) = (- 1.67 + 0.62 + 0.04 + 0.88 + 0.26) 4=0.133

Cov(Y, X) = Σ(Standardized Y * Standardized X) / (n - 1) = (- 1.67 + 0.62 + 0.04 + 0.88 + 0.26) 4 = 0.133

Cov(Y, Y) = ∑(Standardized Y * Standardized Y) / (n - 1) = (1.79 + 0.76 + 0.01 + 0.15 + 2.25) / 4 = 1.24

1.305

0.133

0.133

1.24

7

9 of 17

À cette étape, on calcule les valeurs propres et les vecteurs propres de la matrice de covariance. Les valeurs propres indiquent la quantité de variance expliquée par chaque direction, tandis que les vecteurs propres donnent les directions principales des données. Cela permet d’identifier les axes les plus importants pour réduire la dimension du dataset.

    • Déterminer les valeurs propres:

On résout cette équation:

    • Déterminer les vecteurs propres:

Pour chaque valeur propre λ, on résout :

Étape 3 : Calculer les valeurs propres et vecteurs propres

8

10 of 17

      • Calculer les vecteurs propres:

Étape 3 : Calculer les valeurs propres et vecteurs propres

      • Calculer les valeurs propres:

9

11 of 17

Etape 4: Sélection des composantes principales (PCA)

Cette étape permet de choisir les composantes les plus importantes afin de garder le maximum d’information des données et de supprimer les éléments moins utiles pour simplifier l’analyse.

1. Calcul de la variance expliquée

Variance totale =(λ₁+λ₂)

=1.50+1.05=2.55

Pourcentage :

PC1 =(λ₁/variance totale)

= 1.50 / 2.55 ≈ 58.8%

PC2 =(λ₂/variance totale)

= 1.05 / 2.55 ≈ 41.2%

10

12 of 17

Cas

Répartition des valeurs propres

Décision

Cas1

Une valeur très grande (ex: 99% / 1%)

Garder 1 composante

Cas2

Valeurs proches (ex: 55% / 45%)

Garder 2 composantes

Cas3

Plusieurs valeurs importantes (ex: 40% / 35% / 25%)

Garder plusieurs composantes

Cas4

Une valeur dominante mais pas extrême (ex: 70% / 30%)

Réduction partielle

=> Dans notre exemple on garde les deux composants PC1 et PC2

11

13 of 17

Étape 5 : Projection des données

      • PC1 = (0.71, 0.71)
      • PC2 = (-0.71, 0.71)

Projection:

    • Sur PC1 :

Z1=0.71X′+0.71Y′

    • Sur PC2 :

Z2=−0.71X′+0.71Y′

La projection des données consiste à transformer les données originales (X, Y, …) vers un nouveau repère formé par les composantes principales.

I

X

Y

1

-1.562

0.014

2

-1.079

0.043

3

-0.092

0.092

4

0.625

-0.113

5

2.109

-0.035

12

14 of 17

4.Avantages

1. 🔽 Réduction de dimension

Réduit le nombre de variables

3. 🚀 Amélioration des performances ML

Supprime le bruit et les redondances

5. 📉 Visualisation

Permet de projeter les données en 2D ou 3D

2. 📊 Simplification des données

Transforme plusieurs variables en quelques composantes principales

4. 🔗 Élimination de la corrélation

Les nouvelles variables (composantes) sont indépendantes

13

15 of 17

5.Inconvénients

1. ❓ Perte d’information

      • On réduit les dimensions → on perd une partie des données

3. 📏 Sensible à l’échelle

      • Nécessite une standarilisation avant (ex: Z-score)

5. 🔄 Linéaire uniquement

      • PCA ne capture que des relations linéaires

2. 🧠 Difficulté d’interprétation

      • Les composantes sont des combinaisons mathématiques

4. ⚠️ Sensible aux outliers

      • Les valeurs extrêmes peuvent influencer les résultats

14

16 of 17

Conclusion

La PCA est une technique puissante pour réduire la dimension des données tout en conservant l’essentiel de l’information. Elle permet de simplifier l’analyse et améliorer les performances des modèles, mais au prix d’une perte partielle d’information et d’une interprétation moins intuitive.

15

17 of 17

Merci pour votre attention