Réalisé par :
Eya Ourabi
Hadir Khlifi
Takwa Tlijeni
Analyse en Composantes Principales (PCA)
Année universitaire:
2025 – 2026
Institut supérieur des mathématiques appliquées et d’informatiques de kairouan
Plan
1
Introduction
Le PCA (Analyse en Composantes Principales) est une technique statistique utilisée en machine learning et en analyse de données. Elle a pour objectif de diminuer le nombre de variables tout en conservant le maximum d’informations pertinentes contenues dans les données.
2
Thynk Unlimited
Le PCA sert principalement à :
2. Objectif du PCA
3
3. Étapes du PCA:
Étape 1 : Standardiser les données
Étape 2 : Calculer la matrice de covariance
Étape 3 : Calculer les valeurs propres et vecteurs propres
Étape 4 : Choisir les composantes principales
Étape 5 : Projection des données
4
I | X | Y |
1 | 2 | 4 |
2 | 3 | 5 |
3 | 5 | 7 |
4 | 7 | 8 |
5 | 10 | 11 |
I | X | Y |
1 | -1,25 | -1,34 |
2 | -0,71 | -0,87 |
3 | 0,36 | 0,11 |
4 | 1,43 | 0,61 |
5 | 0,17 | 1,50 |
Étape 1 : Standardiser les données
L’objectif est de mettre toutes les variables sur la même échelle afin qu’elles aient la même importance.
On transforme chaque valeur avec :
μ : moyenne des variables
σ : écart-type des variables
5
Étape 2 : Calculer la matrice de covariance
La matrice de covariance est utilisée pour mesurer la relation entre les variables (attributs) dans un dataset multidimensionnel.
→ Les variables évoluent dans le même sens
→ Les variables évoluent en sens opposé
→ Pas de relation linéaire significative
la taille de matrice
La matrice de covariance est de taille p × p, où p représente le nombre de variables du dataset.
6
dans notre exemple le matrice est de taille 2*2
Cov(X, X) = Σ(Standardized X * Standardized X) / (n-1)= (1.56 + 0.5 + 0.13 + 2.05 + 0.03) / 4 = 1.305
Cov(X, Y) = Σ(Standardized X * Standardized Y) / (n - 1) = (- 1.67 + 0.62 + 0.04 + 0.88 + 0.26) 4=0.133
Cov(Y, X) = Σ(Standardized Y * Standardized X) / (n - 1) = (- 1.67 + 0.62 + 0.04 + 0.88 + 0.26) 4 = 0.133
Cov(Y, Y) = ∑(Standardized Y * Standardized Y) / (n - 1) = (1.79 + 0.76 + 0.01 + 0.15 + 2.25) / 4 = 1.24
1.305 | 0.133 |
0.133 | 1.24 |
7
À cette étape, on calcule les valeurs propres et les vecteurs propres de la matrice de covariance. Les valeurs propres indiquent la quantité de variance expliquée par chaque direction, tandis que les vecteurs propres donnent les directions principales des données. Cela permet d’identifier les axes les plus importants pour réduire la dimension du dataset.
On résout cette équation:
Pour chaque valeur propre λ, on résout :
Étape 3 : Calculer les valeurs propres et vecteurs propres
8
Étape 3 : Calculer les valeurs propres et vecteurs propres
9
Etape 4: Sélection des composantes principales (PCA)
Cette étape permet de choisir les composantes les plus importantes afin de garder le maximum d’information des données et de supprimer les éléments moins utiles pour simplifier l’analyse.
1. Calcul de la variance expliquée
Variance totale =(λ₁+λ₂)
=1.50+1.05=2.55
Pourcentage :
PC1 =(λ₁/variance totale)
= 1.50 / 2.55 ≈ 58.8%
PC2 =(λ₂/variance totale)
= 1.05 / 2.55 ≈ 41.2%
10
Cas | Répartition des valeurs propres | Décision |
Cas1 | Une valeur très grande (ex: 99% / 1%) | Garder 1 composante |
Cas2 | Valeurs proches (ex: 55% / 45%) | Garder 2 composantes |
Cas3 | Plusieurs valeurs importantes (ex: 40% / 35% / 25%) | Garder plusieurs composantes |
Cas4 | Une valeur dominante mais pas extrême (ex: 70% / 30%) | Réduction partielle |
=> Dans notre exemple on garde les deux composants PC1 et PC2
11
Étape 5 : Projection des données
Projection:
Z1=0.71X′+0.71Y′
Z2=−0.71X′+0.71Y′
La projection des données consiste à transformer les données originales (X, Y, …) vers un nouveau repère formé par les composantes principales.
I | X | Y |
1 | -1.562 | 0.014 |
2 | -1.079 | 0.043 |
3 | -0.092 | 0.092 |
4 | 0.625 | -0.113 |
5 | 2.109 | -0.035 |
12
4.Avantages
1. 🔽 Réduction de dimension
Réduit le nombre de variables
3. 🚀 Amélioration des performances ML
Supprime le bruit et les redondances
5. 📉 Visualisation
Permet de projeter les données en 2D ou 3D
2. 📊 Simplification des données
Transforme plusieurs variables en quelques composantes principales
4. 🔗 Élimination de la corrélation
Les nouvelles variables (composantes) sont indépendantes
13
5.Inconvénients
1. ❓ Perte d’information
3. 📏 Sensible à l’échelle
5. 🔄 Linéaire uniquement
2. 🧠 Difficulté d’interprétation
4. ⚠️ Sensible aux outliers
14
Conclusion
La PCA est une technique puissante pour réduire la dimension des données tout en conservant l’essentiel de l’information. Elle permet de simplifier l’analyse et améliorer les performances des modèles, mais au prix d’une perte partielle d’information et d’une interprétation moins intuitive.
15
Merci pour votre attention