ML basics : Apprentissage non supervisée �Cours d’Analyse de données�
Constanza Corentin
Polytech Lyon, Département MAM
07/05/2025
Machine learning
2
Machine Learning
Apprentissage Supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Ex : jouer aux échecs
04 - Analyse de données - MAM 3A - Constanza Corentin
Apprentissage non supervisé
3
04 - Analyse de données - MAM 3A - Constanza Corentin
Réduction de dimension
Input : ℝn, pas besoin de labels
Output : ℝk avec k généralement entre 2 et 5
Utilité:
4
04 - Analyse de données - MAM 3A - Constanza Corentin
Principal Component Analysis - PCA
Aide Visuel: Principal Component Analysis explained visually
5
By Nicoguaro - Own work, CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=46871195
04 - Analyse de données - MAM 3A - Constanza Corentin
PCA - step-by-step
X - matrix containing data points
6
By Nicoguaro - Own work, CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=46871195
04 - Analyse de données - MAM 3A - Constanza Corentin
PCA - Variance Expliquée
Variance expliquée :
Nouvelles representation → 2-3 D
Utile pour:
7
By Nicoguaro - Own work, CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=46871195
04 - Analyse de données - MAM 3A - Constanza Corentin
PCA real world example
Novembre et al, Genes mirror geography within Europe, Nature, 2008
Chromosomes → ADN → difference entre 2 personne : profil de mutations
~3000 european person
→ PCA on the mutation profile
8
04 - Analyse de données - MAM 3A - Constanza Corentin
t-SNE example on MNIST dataset
9
L. Maaten, G. Hinton, 2008: Visualizing Data using t-SNE
04 - Analyse de données - MAM 3A - Constanza Corentin
t-SNE: t-distributed Stochastic Neighbor Embedding
L. Maaten, G. Hinton, 2008: Visualizing Data using t-SNE, 12k+ citations
Proba de similarité dans l’espace de départ : P
Proba de similarité dans l’espace d’arrivé : Q
10
04 - Analyse de données - MAM 3A - Constanza Corentin
Snake-like embedding results
11
Linderman et al, 2017: Clustering with t-SNE, provably
04 - Analyse de données - MAM 3A - Constanza Corentin
Uniform Manifold Approximation and Projection: UMAP
McInnes et al, 2018: UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction
12
04 - Analyse de données - MAM 3A - Constanza Corentin
Autres méthodes de Réduction de dimension
13
Many embedding methods exist�
Most popular nowadays:
04 - Analyse de données - MAM 3A - Constanza Corentin
Clustering : K-Means
Algorithme:�Algorithme non supervisé : aucun labels n’est nécessaire.
Chaque centre devient la moyenne des points qui lui sont assignés
Limites:
14
04 - Analyse de données - MAM 3A - Constanza Corentin
Clustering : mesure de la performance
Non supervisée:
Objectif :
Supervisée :
Objectif:
15
04 - Analyse de données - MAM 3A - Constanza Corentin
Autres méthodes de clustering
16
04 - Analyse de données - MAM 3A - Constanza Corentin
Outlier detection
Identification d’échantillons “différents”
Souvent basé sur le Z-score :
�
17
04 - Analyse de données - MAM 3A - Constanza Corentin
Apprentissage auto-supervisé
18
Misra et al, 2016: Shuffle and Learn: Unsupervised Learning using Temporal Order Verification
Pas d’annotation → on crée un problème artificiel à partir de nos données
→ En résolvant ce problème, le modèle apprend une bonne représentation des données
→ On entraîne le modèle sur un petit dataset labellisé (transfer learning).
Ex : NLP → prédire le mot suivant → le modèle apprends la grammaire & la langue
→ Parfait pour n’importe quelle tâche supervisé traitant le langage (Fondation models)
04 - Analyse de données - MAM 3A - Constanza Corentin
Apprentissage auto-supervisé
19
Pathak et al, 2016: Context Encoders: Feature Learning by Inpainting
04 - Analyse de données - MAM 3A - Constanza Corentin
Apprentissage auto-supervisé
20
Noroozi et al, 2017: Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles
04 - Analyse de données - MAM 3A - Constanza Corentin