1 of 20

ML basics : Apprentissage non supervisée �Cours d’Analyse de données

Constanza Corentin

Polytech Lyon, Département MAM

07/05/2025

2 of 20

Machine learning

2

Machine Learning

Apprentissage Supervisé

Apprentissage non supervisé

Apprentissage par renforcement

  • Regression
  • Classification

  • Clustering
  • Outlier detection
  • Réduction de dimension

  • Interaction avec un environnement

Ex : jouer aux échecs

04 - Analyse de données - MAM 3A - Constanza Corentin

3 of 20

Apprentissage non supervisé

  • Only the data points (X), no labels (y)!
    • When we have X - y pairs → supervised learning
  • Goals
    • Say something when there are no labels
    • Explore the dataset, gain insights, often part of the exploratory data analysis (EDA)�Excellent EDAs: https://www.kaggle.com/headsortails/kernels
    • Find structures, possible flawed data points, outliers in the data
      • Clustering
      • Outlier detection
    • Dimension reduction (embedding to a 2-3D space) is often needed
      • Hard to visualize 4+ dimensional data
      • Nearly impossible to make visual conclusions (outlier, cluster, batch effect)
    • Open ended task
      • The more you understand the data the less ‘surprise’ you will experience later�

3

04 - Analyse de données - MAM 3A - Constanza Corentin

4 of 20

Réduction de dimension

Input : n, pas besoin de labels

Output : ℝk avec k généralement entre 2 et 5

Utilité:

  • Visualisation → révéler les structures, anomalies dans les données
    • Variables les plus importantes
  • Réduction de l’empreinte mémoire
    • Nouvelle représentation des données nécessitant peu de mémoire
  • Filtrage du bruit

4

04 - Analyse de données - MAM 3A - Constanza Corentin

5 of 20

Principal Component Analysis - PCA

  • Changement de base
  • Généralement 5 dimension contient l’ensemble de l’information
  • 1ère composante:
    • Direction de la plus grande variance
  • 2ème composante:
    • Orthogonale à la 1er composante principale ET
    • Direction de la plus grande variance
  • 3ème composante:
    • Orthogonale à la 1er et 2ème composantes principale ET
    • Direction de la plus grande variance

Aide Visuel: Principal Component Analysis explained visually

5

By Nicoguaro - Own work, CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=46871195

04 - Analyse de données - MAM 3A - Constanza Corentin

6 of 20

PCA - step-by-step

X - matrix containing data points

    • Rows: different samples/people
    • Columns: different features/descriptors�
  • Standardize data��
  • Compute covariance matrix��
  • Solve eigenvalue problem

  1. Select top 3-5 largest eigenvalues & eigenvectors

6

By Nicoguaro - Own work, CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=46871195

04 - Analyse de données - MAM 3A - Constanza Corentin

7 of 20

PCA - Variance Expliquée

Variance expliquée :

  • La valeur propre est proportionnelle à la variance dans la direction de son vecteur propre
  • Conserver les 3 plus grandes valeurs propres → ratio de variance expliquée

Nouvelles representation → 2-3 D

Utile pour:

  • Visualisation
  • Input pour d’autre models ML
  • débruitage

7

By Nicoguaro - Own work, CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=46871195

04 - Analyse de données - MAM 3A - Constanza Corentin

8 of 20

PCA real world example

Novembre et al, Genes mirror geography within Europe, Nature, 2008

Chromosomes → ADN → difference entre 2 personne : profil de mutations

~3000 european person

→ PCA on the mutation profile

8

04 - Analyse de données - MAM 3A - Constanza Corentin

9 of 20

t-SNE example on MNIST dataset

9

L. Maaten, G. Hinton, 2008: Visualizing Data using t-SNE

04 - Analyse de données - MAM 3A - Constanza Corentin

10 of 20

t-SNE: t-distributed Stochastic Neighbor Embedding

L. Maaten, G. Hinton, 2008: Visualizing Data using t-SNE, 12k+ citations

Proba de similarité dans l’espace de départ : P

    • Distribution Gaussien

Proba de similarité dans l’espace d’arrivé : Q

    • Distribution de Student

  • Minimisation de la distance/divergence de Kullback-Leibler avec une décentes de gradients

10

04 - Analyse de données - MAM 3A - Constanza Corentin

11 of 20

Snake-like embedding results

11

Linderman et al, 2017: Clustering with t-SNE, provably

04 - Analyse de données - MAM 3A - Constanza Corentin

12 of 20

Uniform Manifold Approximation and Projection: UMAP

McInnes et al, 2018: UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction

12

04 - Analyse de données - MAM 3A - Constanza Corentin

13 of 20

Autres méthodes de Réduction de dimension

13

Many embedding methods exist�

Most popular nowadays:

  • PCA
  • t-SNE
  • UMAP

04 - Analyse de données - MAM 3A - Constanza Corentin

14 of 20

Clustering : K-Means

Algorithme:�Algorithme non supervisé : aucun labels n’est nécessaire.

  1. Initialiser aléatoirement K centres
  2. Jusqu’a convergence:� Associer chaque point au centre le plus proche

Chaque centre devient la moyenne des points qui lui sont assignés

Limites:

  • Minimum local → random restarts
  • Sensibilité à l’échelle (scaling)
  • Séparation linéaire (Voronoi cell)
  • On obtient toujours K clusters

14

04 - Analyse de données - MAM 3A - Constanza Corentin

15 of 20

Clustering : mesure de la performance

Non supervisée:

  • Elbow
  • Silhouette�

Objectif :

  • S’assurer d’avoir ∼ le bon nombre de cluster

Supervisée :

  • Score d’homogénéité
  • Score d’information mutuel

Objectif:

  • Avoir la même classe dans le même cluster
  • Trouver des anomalies dans nos données

15

04 - Analyse de données - MAM 3A - Constanza Corentin

16 of 20

Autres méthodes de clustering

16

04 - Analyse de données - MAM 3A - Constanza Corentin

17 of 20

Outlier detection

Identification d’échantillons “différents”

  • Fraude Fiscale
  • Panne de machine
  • Screening antibiotique

Souvent basé sur le Z-score :

17

04 - Analyse de données - MAM 3A - Constanza Corentin

18 of 20

Apprentissage auto-supervisé

18

Misra et al, 2016: Shuffle and Learn: Unsupervised Learning using Temporal Order Verification

Pas d’annotation → on crée un problème artificiel à partir de nos données

→ En résolvant ce problème, le modèle apprend une bonne représentation des données

→ On entraîne le modèle sur un petit dataset labellisé (transfer learning).

Ex : NLP → prédire le mot suivant → le modèle apprends la grammaire & la langue

→ Parfait pour n’importe quelle tâche supervisé traitant le langage (Fondation models)

04 - Analyse de données - MAM 3A - Constanza Corentin

19 of 20

Apprentissage auto-supervisé

19

Pathak et al, 2016: Context Encoders: Feature Learning by Inpainting

04 - Analyse de données - MAM 3A - Constanza Corentin

20 of 20

Apprentissage auto-supervisé

20

Noroozi et al, 2017: Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles

04 - Analyse de données - MAM 3A - Constanza Corentin