1 of 34

La qualité des données : 2h30 pour démarrer

@CharlesNepote, @La_Fing

Licence Creative Commons CC-BY

2 of 34

Programme

  • Échauffement : le jeu des 20 erreurs
  • Rappel des enjeux
  • Les mains dans le cambouis
  • 7 règles d’or, outils et méthodes
  • Validata

3 of 34

Échauffement collectif : le jeu des 20 erreurs

10 minutes pour trouver un maximum d’erreurs sur les 20 présentes.

Qu’en retenez-vous ?

Le jeu et ses solutions :�http://infolabs.io/qdd-jeu-des-20-erreurs

4 of 34

La qualité des données : pourquoi faire ?

5 of 34

Le sujet le plus sexy du domaine de la data !

Non ?

Ok, non…

TEST

Quand vous êtes-vous dit pour la dernière fois : “ooooh mais elle est super propre cette donnée”?

6 of 34

Qualité des données, quel est le problème ?

  1. Personne n’ose dire que c’est un sujet sensible de la data
    1. parce que c’est une fatalité, comme l’acné à 15 ans
    2. parce qu’il ne faut pas que ça se sache que les data scientists sont payés 80% de leur temps à nettoyer des données pourries
    3. parce que chacun a sa part (TEST*)

  • Parce qu’il n’y a pas grand chose sur le sujet

7 of 34

Qualité des données,

l’approche par les usages

  • La qualité ne dépend que de l’usage
    • l’effort de qualité correspond à l’usage premier de la données
    • peut-on reprocher aux producteurs un besoin de qualité qui n’est pas le leur ?
  • Cependant, le potentiel des données augmente fortement avec des efforts raisonnables de qualité
    • notion d’autonomisation de la donnée : de nos jours, une donnée possède souvent plusieurs vies, plusieurs usages

8 of 34

Qualité des données,

l’approche par les coûts

  • La surqualité peut avoir un coût important
  • Outil :

9 of 34

Qualité des données,

les nouvelles opportunités

  • Outre la réduction des coûts, la qualité des données peut contribuer à développer des opportunités ; ex :
    • GTFS : création d’un écosystème planétaire
    • OpenStreetMap : données de référence
  • Produire des données de référence, notamment parce qu’elle est de qualité, confère une position stratégique à l’organisation

10 of 34

Les mains dans le cambouis : le sprint qualité

11 of 34

Le sprint qualité : la méthodo�que le monde nous envie

  • méthodologie sur un temps court, 2h30, qui vise l’amélioration significative de la qualité d’un, et un seul, jeu de données
    • méthodo minutée en mode “stress-test”
    • check-list qualité sur 8 domaines
  • produire un rapport d’analyse qualité qui va servir de point de départ de la correction
  • 120 points de contrôle
  • http://infolabs.io/sprint-qualite

12 of 34

Le sprint qualité :

exemple de point de contrôle

ID32�“Le nom ou titre du jeu de données est vague, ambigu ou trop complexe”

13 of 34

Le sprint qualité :

exemple de point de contrôle

ID32�“Le nom ou titre du jeu de données est vague, ambigu ou trop complexe”

14 of 34

Le sprint qualité :

8 grands domaines

  1. le jeu de données et sa documentation
  2. la syntaxe
  3. les problèmes morpho-syntaxiques
  4. la sémantique
  5. les manques
  6. la surabondance
  7. la pertinence
  8. la réglementation

15 of 34

Le sprint qualité :

le rapport qualité

16 of 34

Le sprint qualité “allégé” : 10 points incontournables

  • le jeu de données est difficilement accessible (format “image”, PDF, HTML...), le fichier est mal formé
  • la licence est absente ou inhabituelle, le jeu de données n’est pas “open data”
  • le fichier fait peu appel aux standards répandu et aux données pivots
  • le fichier est mal documenté
  • il existe des problèmes de syntaxe
  • Valeurs aberrantes, suspectes, inexplicables, pas crédibles

17 of 34

Le sprint qualité “allégé” : 10 points incontournables

  1. Il manque des données et cela n’est pas documenté (trous, données tronquées, valeurs vides, granularité / fréquence / maillage / fraîcheur)
  2. Trop de données : doublons, inutilement vieilles, précision / fréquence / maillage / fraîcheur
  3. Données posant problème avec la réglementation (données perso, relatives à la santé, la religion, la politique..., relevant de la propriété littéraire et artistique, etc.)
  4. Les contenus posent problèmes : synonymies, non traduits (USA), cryptique (DAECPP), utilisation du 0 au lieu du “null”...

18 of 34

Les mains dans le cambouis (30’)

À vous de choisir :

  • Un extrait du sprint qualité

ou

  • Le sprint qualité “allégé”�(support)

19 of 34

La qualité des données : règles d’or, outils et méthodes

20 of 34

Les 7 règles d’or de la qualité des données

  • producteurs et utilisateurs tu associeras
  • le jeu de données tu documenteras : aspect, limites, manques, choix, etc.
  • des données facilement réutilisables, tu produiras
  • les standards tu adopteras :
    1. syntaxe des champs : dates, ...
    2. format de fichier : GTFS, Socle commun des données locales (SCDL)...
    3. des données pivot tu utiliseras (codes INSEE...)
  • la qualité tu contrôleras : la sémantique, les manques, la surabondance, la pertinence, la réglementation
  • la correction, tu organiseras
  • trop de qualité, tu éviteras

21 of 34

Datablitz : collecte collaborative intensive

Data Storytelling

Données “métier”

Tous types de données

Mise en oeuvre plus difficile

Mise en oeuvre simple

Expédition de données

Datacamps, barcamps, camps...

Outils de dataviz

Sprint Qualité

en italique les projets/outils “live” ou prêts à l’emploi

Cartopartie : carto collaborative

Osmose

Le jeu des 20 erreurs

Système d’information géographique (SIG)

Mapillary

Validata

CVDTC (données de transport)

Qualité des données : petit guide collaboratif de survie

Produire un CSV de qualité

Qualité des données : panorama des outils et méthodes

Conformité au Socle commun des données locales (SCDL)

22 of 34

Règle 1 : producteurs et utilisateurs tu associeras

  • Mettre en regard producteurs et utilisateurs augmente fortement la qualité : motivation, partage des problèmes, compréhension, ...
  • Outils et méthodes :

23 of 34

Règle 2 : le jeu de données tu documenteras

  • Les informations de base : titre, desc, …
  • Le contexte de production (usage interne)
  • Les limites, manques, problèmes identifiés, choix, etc.
  • Outils et méthodes :

24 of 34

Règle 3 : des données facilement réutilisables, tu produiras

  • Données ouvrables dans des outils répandus
  • Documentées et prévisualisées
  • Directement accessibles (éviter les .zip)
  • Pas trop volumineuses - découpées si besoin
  • Outils et méthodes :

25 of 34

Règle 4 :�les standards, tu adopteras

  • Syntaxe des champs :
    • dates : ISO-8601 = 2018-06-18
  • Contenus des champs :
    • codes langue : ISO-639 ; codes pays : ISO-3166
    • monnaies : ISO-4217 ; communes : code INSEE
    • établissements : code SIREN ; assos : numéro RNA
  • Formats de fichier :
    • transports : GTFS
    • collectivités : voir le Socle commun des données locales
  • Outils et méthodes :

26 of 34

Règle 5 :�la qualité, tu contrôleras

  • Qualité des métadonnées (doc)
  • Syntaxe (astuce geek : utiliser des regexp)
  • Mais aussi : sémantique, manques, surabondance, pertinence, réglementation...
  • Outils et méthodes :

27 of 34

Règle 6 :�la correction, tu organiseras

  • Rapproche producteurs et utilisateurs et augmente significativement la qualité
  • Process documenté, publié et assumé
  • La correction automatique est délicate voire dangereuse
  • Le “crowdfixing” : la correction par les foules
  • Outils et méthodes :
    • Le sprint qualité (partie “correction”)
    • Outils métiers :
      • OSMOSE pour OpenStreetMap
      • challenges maproulette.org pour OpenStreetMap

28 of 34

Règle 7 :�trop de qualité, tu éviteras

  • La surqualité peut avoir un coût important
  • Outil :

29 of 34

Qualité des données :

petit guide collaboratif de survie

  • Un titre sympathique s’est glissé sur cette page, sauras-tu le reconnaître ?
  • Guide d’amélioration de la qualité
  • Calqué sur l’architecture du sprint : l’un l’autre se répondent et s’enrichissent
  • Approfondissement du sprint mais pas un outil opérationnel
  • Public : ceux qui veulent vraiment avancer sur ce sujet

30 of 34

31 of 34

Validata

32 of 34

Validata ?

  • Une plateforme d’aide à la mise en qualité des données
  • Grand Toulouse, OpenDataFrance, Jailbreak, Datactivi.st, Fing
  • Point à mi-parcours :
    • outil en ligne de validation des données
  • Directions futures :
    • guidées par vos retours
    • intégration de la notion “d’alerte” (problème secondaire)
    • multiplication des formats de jeux de données

33 of 34

Validata�Usage en pratique

Passons à la pratique avec vos données !

34 of 34

Validata�Vos retours

  • ...