1 of 61

Logistic Regression

Réalisé par : Mayar khammassi

Molka Touil

Rania Magtouf

Oumayma ben Mbarek

Année Académique 2025-2026

1

2 of 61

Plan

1

2

3

4

Introduction

Fondements mathématiques

Entraînement du modèle

Évaluation du modèle

2

3 of 61

5

6

7

Applications

Avantages et Inconvénients

Conclusion

8

Projet pratique

Plan

3

4 of 61

1

Introduction

5 of 61

Introduction

Le Concept de Classification:

Dans de nombreux problèmes en apprentissage automatique, l’objectif n’est pas de prédire une valeur numérique précise, mais plutôt de déterminer à quelle catégorie appartient une observation. Ce type de problème est appelé classification. Par exemple, on peut vouloir prédire si un étudiant va réussir ou échouer, ou encore si un email est un spam ou non.

5

6 of 61

Différence clé:

La principale différence entre la régression linéaire et la régression logistique réside dans le type de résultat attendu. La régression linéaire est utilisée pour prédire des valeurs continues pouvant aller de −∞ à +∞. En revanche, la régression logistique est conçue pour des problèmes de classification, où la sortie doit être limitée à des catégories spécifiques.

L'objectif :

L’objectif de la régression logistique est donc d’estimer une probabilité de succès, c’est-à-dire une valeur comprise entre 0 et 1. Cette probabilité permet ensuite de prendre une décision en classant l’observation dans une catégorie donnée, en fonction d’un seuil.

Introduction

6

7 of 61

2

Fondements mathématiques

8 of 61

Modèle linéaire de base:

On commence par une combinaison linéaire des variables explicatives :

Fondements mathématiques

8

Composant

Nom

Rôle

z

Variable dépendante (ou Sortie)

Résultat calculé par le modèle avant la décision finale

w₀

Biais (ou Ordonnée à l'origine)

Valeur de base lorsque toutes les variables sont nulles

x₁, x₂, …

Caractéristiques (features)

Données d’entrée (ex : âge, prix, température)

w₁, w₂, …

Poids (ou Coefficients)

Importance de chaque caractéristique dans le modèle

9 of 61

Pour transformer cette valeur en probabilité entre 0 et 1, on utilise la fonction sigmoïde :

Fondements mathématiques

9

10 of 61

La Fonction Sigmoïde :

La fonction sigmoïde est au cœur de la régression logistique.

Elle permet de transformer une valeur linéaire (qui peut être n’importe quel nombre) en une probabilité comprise entre 0 et 1.

Fondements mathématiques

10

11 of 61

Fondements mathématiques

11

Interprétation de σ(z) selon la valeur de z

12 of 61

Cette fonction permet de modéliser une probabilité

P(Y=1∣X)=σ(z)

On utilise un seuil (threshold)généralement 0.5 :

Si σ(z)≥0.5 → Classe 1

Si σ(z)<0.5 → Classe 0

    • Classe 1 : présence de la condition (cas positif)
    • Classe 0 : absence de la condition (cas négatif)

Fondements mathématiques

12

13 of 61

Question 1 :

On donne un modèle logistique avec une seule variable x,Calculer la probabilité et donner la classe prédite.

Données :

Étapes de calcul :

Excercice

Résultat (probabilité) : 0.73

Prédiction (classe) : 1 (car 0,73 ≥ 0,5)

13

14 of 61

Question 2 :

On donne un modèle logistique avec deux variables x1​ et x2​. Calculer la probabilité et donner la classe prédite.

Données :

Étapes de calcul :

Résultat (probabilité) : 0.97

Prédiction (classe) : 1 (car 0,97 ≥ 0,5)

Excercice

14

15 of 61

3

Entraînement du modèle

16 of 61

Pourquoi entraîner un modèle ?

Un modèle de Machine Learning doit apprendre à partir des données. Sans apprentissage, il produit des prédictions aléatoires d’où L’entraînement consiste à trouver les meilleurs paramètres (poids) afin de faire des prédictions précises.

Processus global:

    • Trouver les meilleurs paramètres (poids): Définir une fonction de vraisemblance.
    • Rendre les prédictions proches de la réalité: Transformer en fonction de perte (Log Loss).
    • Minimiser l’erreur entre prédiction et vérité: Utiliser la descente de gradient.

16

17 of 61

Estimateur vraisemblance

Définition:

Le Maximum Likelihood Estimation (MLE) est une méthode utilisée pour trouver les meilleurs paramètres d’un modèle statistique.Elle

consiste à choisir les paramètres qui rendent les données

observées les plus probables.En pratique, on maximise la log-vraisemblance, ce qui revient à minimiser la Log Loss.

17

18 of 61

Fonction de vraisemblance:

Log-vraisemblance:

Estimateur vraisemblance

18

19 of 61

Estimateur vraisemblance

Objectif du Maximum de Vraisemblance:

    • Trouver les paramètres optimaux du modèle: choisir les coefficients qui rendent le modèle le plus précis possible.
    • Rendre les prédictions proches de la réalité: minimiser l’écart entre les valeurs prédites et les vraies données.

19

20 of 61

Nous avons défini la vraisemblance pour trouver les meilleurs paramètres en maximisant la probabilité des données. Cependant, cette approche présente des limites en pratique :

    • La vraisemblance est un produit de probabilités(valeurs proches de 0, difficiles à manipuler pour un ordinateur).
    • Les algorithmes d’optimisation travaillent plus facilement avec des sommes que des produits.

Pour simplifier : On applique le logarithme :

    • le produit devient une somme (plus simple à manipuler).
    • On change le signe pour transformer la maximisation en minimisation.

Maximiser la vraisemblance ⇔ Minimiser la Log Loss

De la vraisemblance à la Log Loss:

20

21 of 61

Fonction de perte : Log Loss

Définition:

La Log Loss (Binary Cross-Entropy) est une fonction utilisée en régression logistique pour mesurer l’erreur entre les prédictions du modèle et les vraies valeurs. Elle compare la probabilité prédite avec la valeur réelle (0 ou 1).Elle pénalise fortement les erreurs faites avec grande confiance.

d’où:

Si la prédiction est correcte → perte faible

Si la prédiction est incorrecte → perte élevée

21

22 of 61

Fonction de perte : Log Loss

Fonction de perte : Log Loss:

    • N: Nombre total d'exemples dans le jeu de données.
    • yᵢ: L'étiquette réelle (ground truth) pour l'observation Elle vaut 0 ou 1.
    • pᵢ: La probabilité prédite par le modèle que l'observation appartienne à la classe 1 (valeur entre 0 et 1).
    • log: Le logarithme naturel.

22

23 of 61

Fonction de perte : Log Loss

Explication du formule:

    • Si yi(classe positive):Seul le terme compte -log(pᵢ). Si la probabilité pᵢ est proche de 1, la perte est proche de 0. Si pᵢ est proche de 0, la perte tend vers l'infini.
    • Si yi(classe négative): Seul le terme compte -log(1-p). Si la probabilité pᵢ est proche de 0, la perte est faible.

23

24 of 61

Fonction de perte : Log Loss

Rôle de la fonction de perte (Log Loss):

    • Guider le modèle pendant l’entraînement: orienter l’apprentissage pour améliorer les prédictions.
    • Ajuster les paramètres (poids): modifier les poids pour mieux adapter le modèle aux données.
    • Minimiser l’erreur avec Gradient Descent: réduire progressivement l’erreur en optimisant les paramètres.

24

25 of 61

Maintenant, nous savons ce que nous voulons minimiser. Une question se pose alors :

Comment trouver les meilleurs paramètres (poids) qui minimisent cette erreur ?

Pour résoudre ce problème, on utilise un algorithme d’optimisation :la descente de gradient (Gradient Descent).

donc

    • La Log Loss définit l’objectif (l’erreur à minimiser).
    • Le Gradient Descent est la méthode utilisée pour l’optimiser.

25

26 of 61

Optimisation (Descente de Gradient)

définition:

    • Le Gradient Descent est un algorithme d’optimisation itératif utilisé pour trouver les meilleurs paramètres du modèle. Son objectif est de minimiser la fonction de perte (Log Loss).
    • Il fonctionne en ajustant progressivement les paramètres pour réduire l’erreur.

26

27 of 61

Optimisation (Descente de Gradient)

Formule de mise à jour:

27

28 of 61

Optimisation (Descente de Gradient)

Explication du formule:

    • Le paramètre θ: représente les poids du modèle que l'on cherche à ajuster précisément afin de minimiser l'erreur globale.
    • Le "Learning rate" α: est le taux d'apprentissage qui détermine la taille des pas effectués à chaque itération du calcul.
    • Le gradient ∇J(θ): indique mathématiquement la direction de la plus forte montée de la fonction de coût J(θ).
    • La direction de descente -∇J(θ): utilise le signe opposé du gradient pour nous diriger vers le minimum de la fonction.

28

29 of 61

Étape

Action

Pourquoi

1

Initialiser θ aléatoirement

Point de départ

2

Calculer la perte J(θ)

Mesurer l'erreur actuelle

3

Calculer le gradient ∇J(θ)

Trouver la direction de montée

4

Mettre à jour θ := θ − α·∇J

Faire un pas vers le bas

5

Répéter jusqu'à convergence

Atteindre le minimum

Optimisation (Descente de Gradient)

Fonctionnement:

29

30 of 61

30

31 of 61

31

32 of 61

32

33 of 61

33

34 of 61

4

Évaluation du modèle

35 of 61

Évaluation du modèle

35

36 of 61

Évaluation du modèle

36

37 of 61

Évaluation du modèle

37

38 of 61

Évaluation du modèle

38

39 of 61

Évaluation du modèle

39

40 of 61

Évaluation du modèle

40

41 of 61

Évaluation du modèle

41

42 of 61

Évaluation du modèle

42

43 of 61

Évaluation du modèle

43

44 of 61

5

Applications

45 of 61

Applications

La régression logistique est utilisée dans plusieurs domaines.

    • En finance:elle permet de prédire si un client va rembourser un crédit ou non.
    • En santé:elle aide à savoir si une personne est malade à partir de ses données.
    • En marketing: elle sert à prévoir si un client va quitter un service.

45

46 of 61

6

Avantages et Inconvénients

47 of 61

Avantages et Inconvénients

47

48 of 61

7

Conclusion

49 of 61

Conclusion

En conclusion, la régression logistique est un modèle très important en apprentissage supervisé.

Elle est surtout utilisée pour les problèmes de classification binaire.

Mais pour des cas plus complexes, on utilise des modèles plus avancés comme les réseaux de neurones ou les SVM.

49

50 of 61

8

Projet pratique

51 of 61

Projet pratique

Installations et imports

51

52 of 61

Projet pratique

Chargement des données

Charger breast_cancer : data = load_breast_cancer() charge le dataset de classification binaire (bénin ↔ malin)

52

53 of 61

Projet pratique

Division entraînement / test

sépare 80% pour l'entraînement et 20% pour le test

53

54 of 61

Projet pratique

Normalisation (indispensable pour la logistique)

centre et réduit les données

54

55 of 61

Projet pratique

Modèle de régression logistique

apprend la régression logistique sur les données normalisées

55

56 of 61

Projet pratique

Prédictions

56

57 of 61

Projet pratique

Matrice de confusion

affiche les bonnes et mauvaises classifications

57

58 of 61

Projet pratique

Rapport de classification

58

59 of 61

Projet pratique

Courbe ROC et AUC

évalue la performance du modèle

59

60 of 61

Projet pratique

Exemple de prédiction sur une nouvelle observation

60

61 of 61