1 of 20

ML basics : Apprentissage non supervisée �Cours d’Analyse de données�

Constanza Corentin

Polytech Lyon, Département MAM

07/05/2025

2 of 20

Machine learning

Machine Learning

Apprentissage Supervisé

Apprentissage non supervisé

Apprentissage par renforcement

Regression
Classification

Clustering
Outlier detection
Réduction de dimension

Interaction avec un environnement

Ex : jouer aux échecs

04 - Analyse de données - MAM 3A - Constanza Corentin

3 of 20

Apprentissage non supervisé

Only the data points (X), no labels (y)!

When we have X - y pairs → supervised learning

Goals

Say something when there are no labels
Explore the dataset, gain insights, often part of the exploratory data analysis (EDA)�Excellent EDAs: https://www.kaggle.com/headsortails/kernels
Find structures, possible flawed data points, outliers in the data

Clustering
Outlier detection

Dimension reduction (embedding to a 2-3D space) is often needed

Hard to visualize 4+ dimensional data
Nearly impossible to make visual conclusions (outlier, cluster, batch effect)

Open ended task

The more you understand the data the less ‘surprise’ you will experience later�

04 - Analyse de données - MAM 3A - Constanza Corentin

4 of 20

Réduction de dimension

Input : ℝⁿ, pas besoin de labels

Output : ℝ^kavec k généralement entre 2 et 5

Utilité:

Visualisation → révéler les structures, anomalies dans les données

Variables les plus importantes

Réduction de l’empreinte mémoire

Nouvelle représentation des données nécessitant peu de mémoire

Filtrage du bruit

04 - Analyse de données - MAM 3A - Constanza Corentin

5 of 20

Principal Component Analysis - PCA

Changement de base
Généralement 5 dimension contient l’ensemble de l’information
1ère composante:

Direction de la plus grande variance

2ème composante:

Orthogonale à la 1er composante principale ET
Direction de la plus grande variance

3ème composante:

Orthogonale à la 1er et 2ème composantes principale ET
Direction de la plus grande variance

Aide Visuel: Principal Component Analysis explained visually

By Nicoguaro - Own work, CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=46871195

04 - Analyse de données - MAM 3A - Constanza Corentin

6 of 20

PCA - step-by-step

X - matrix containing data points

Rows: different samples/people
Columns: different features/descriptors�

Standardize data��
Compute covariance matrix��
Solve eigenvalue problem

Select top 3-5 largest eigenvalues & eigenvectors

By Nicoguaro - Own work, CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=46871195

04 - Analyse de données - MAM 3A - Constanza Corentin

7 of 20

PCA - Variance Expliquée

Variance expliquée :

La valeur propre est proportionnelle à la variance dans la direction de son vecteur propre
Conserver les 3 plus grandes valeurs propres → ratio de variance expliquée

Nouvelles representation → 2-3 D

Utile pour:

Visualisation
Input pour d’autre models ML
débruitage

By Nicoguaro - Own work, CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=46871195

04 - Analyse de données - MAM 3A - Constanza Corentin

8 of 20

PCA real world example

Novembre et al, Genes mirror geography within Europe, Nature, 2008

Chromosomes → ADN → difference entre 2 personne : profil de mutations

~3000 european person

→ PCA on the mutation profile

04 - Analyse de données - MAM 3A - Constanza Corentin

9 of 20

t-SNE example on MNIST dataset

L. Maaten, G. Hinton, 2008: Visualizing Data using t-SNE

04 - Analyse de données - MAM 3A - Constanza Corentin

10 of 20

t-SNE: t-distributed Stochastic Neighbor Embedding

L. Maaten, G. Hinton, 2008: Visualizing Data using t-SNE, 12k+ citations

Proba de similarité dans l’espace de départ : P

Distribution Gaussien

Proba de similarité dans l’espace d’arrivé : Q

Distribution de Student

Minimisation de la distance/divergence de Kullback-Leibler avec une décentes de gradients

04 - Analyse de données - MAM 3A - Constanza Corentin

11 of 20

Snake-like embedding results

Linderman et al, 2017: Clustering with t-SNE, provably

04 - Analyse de données - MAM 3A - Constanza Corentin

12 of 20

Uniform Manifold Approximation and Projection: UMAP

McInnes et al, 2018: UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction

04 - Analyse de données - MAM 3A - Constanza Corentin

13 of 20

Autres méthodes de Réduction de dimension

https://scikit-learn.org/stable/modules/manifold.html

Many embedding methods exist�

14 of 20

Clustering : K-Means

Algorithme:�Algorithme non supervisé : aucun labels n’est nécessaire.

Initialiser aléatoirement K centres
Jusqu’a convergence:� Associer chaque point au centre le plus proche

Chaque centre devient la moyenne des points qui lui sont assignés

Limites:

Minimum local → random restarts
Sensibilité à l’échelle (scaling)
Séparation linéaire (Voronoi cell)
On obtient toujours K clusters

04 - Analyse de données - MAM 3A - Constanza Corentin

15 of 20

Clustering : mesure de la performance

Non supervisée:

Elbow
Silhouette�

Objectif :

S’assurer d’avoir ∼ le bon nombre de cluster

Supervisée :

Score d’homogénéité
Score d’information mutuel

Objectif:

Avoir la même classe dans le même cluster
Trouver des anomalies dans nos données

04 - Analyse de données - MAM 3A - Constanza Corentin

16 of 20

Autres méthodes de clustering

https://scikit-learn.org/stable/modules/clustering.html

04 - Analyse de données - MAM 3A - Constanza Corentin

17 of 20

Outlier detection

Identification d’échantillons “différents”

Fraude Fiscale
Panne de machine
Screening antibiotique

Souvent basé sur le Z-score :

�

https://scikit-learn.org/stable/auto_examples/miscellaneous/plot_anomaly_comparison.html#sphx-glr-auto-examples-miscellaneous-plot-anomaly-comparison-py

04 - Analyse de données - MAM 3A - Constanza Corentin

18 of 20

Apprentissage auto-supervisé

Misra et al, 2016: Shuffle and Learn: Unsupervised Learning using Temporal Order Verification

Pas d’annotation → on crée un problème artificiel à partir de nos données

→ En résolvant ce problème, le modèle apprend une bonne représentation des données

→ On entraîne le modèle sur un petit dataset labellisé (transfer learning).

Ex : NLP → prédire le mot suivant → le modèle apprends la grammaire & la langue

→ Parfait pour n’importe quelle tâche supervisé traitant le langage (Fondation models)

04 - Analyse de données - MAM 3A - Constanza Corentin

19 of 20

Apprentissage auto-supervisé

Pathak et al, 2016: Context Encoders: Feature Learning by Inpainting

04 - Analyse de données - MAM 3A - Constanza Corentin

20 of 20

Apprentissage auto-supervisé

Noroozi et al, 2017: Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles

04 - Analyse de données - MAM 3A - Constanza Corentin