Sprint qualité v. 0.3
 Share
The version of the browser you are using is no longer supported. Please upgrade to a supported browser.Dismiss

 
Comment only
 
 
ABCDEFGHIJKLMNOPQRS
1
IDN° d'ordreDomaine du problèmeTypes de données concernéesType de problèmeExempleDétecter le problèmeLigne de commande pour le contrôleRéduit considérablement l'usage des donnéesNiveau d'importance du problèmeTemps d'analyse en minAnalyse semi-automatisableAnalyse auto sans métadonnées ni schémaAnalyse auto à partir des métadonnéesSolutionTemps de traitementRemarques
2
11Jeu de données & métadonnéesToutesLe jeu de données est dans un format "image" ne permettant pas de manipuler les donnéesLe jeu de données est un fichier image au format JPEG ou PDFOuvrir le fichier et tenter de copier/coller les donnéesfile nom.du.fichier
pdf2txt nom.du.fichier.pdf
oui1111* Demander au producteur une version qui permette de manipuler les données (CSV, Excel, etc.)
* Essayer une phase d'OCR du document
3
22Jeu de données & métadonnéesToutesLe jeu de données est dans un format non spécifiquement adapté aux données : PDF, Word, ODF, epub, HTML, SVG, etc.Le jeu de données est un fichier HTMLDéterminer le format du fichierfile nom.du.fichieroui1111Dans certains cas la méthode du scrapping est une solution.Les formats PDF ou de traitement de texte rendent l'exploitation des données difficiles.
4
33Jeu de données & métadonnéesToutesLe format du jeu de données n'est pas précisé (fichier CSV, TSV, etc.)L'extension du jeu de données ne permet pas de savoir quel logiciel permet de l'ouvrir et l'éditeur n'a pas fourni d'indication complémentaireEssayer d'ouvrir le fichier ? 110* Demander au producteur
* Rétro-documenter le format
5
44Jeu de données & métadonnéesToutesLa licence du jeu de données ne nous permet pas de l'utiliserLe jeu de données est un fichier commercial que l'on n'a pas achetéEn cas de doute, demander au producteur d'où viennent les données1150
6
55Jeu de données & métadonnéesToutesLe format du jeu de données n'est pas ouvertLe fichier n'est disponible qu'au format .xls ou .xlsxNe pas seulement se baser sur l'extension mais ouvrir également le fichierfile nom.du.fichier1111* Vérifier que le document existe dans un format ouvert
* Convertir le document dans un format ouvert
7
66Jeu de données & métadonnéesToutesLe format du jeu de données ne permet pas d'ouvrir le fichier dans des outils très répandus (Excel, Notepad...)Le fichier au format .csv s'ouvre mal dans Excel, outil le plus répandu pour ouvrir des tableauxEssayer d'ouvrir le fichier ? 1111
8
77Jeu de données & métadonnéesToutesL'encodage du fichier n'est pas spécifié (ISO-8859-1, UTF8, etc.)Le fichier contient des caractères ésotériques mais on ne sait pas s'il s'agit d'un problème d'encodageLecture des métadonnées10* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
9
88Jeu de données & métadonnéesToutesL'encodage n'est pas en UTF-8 : ce dernier devient la norme de facto et d'autres encodages peuvent engendrer des problèmesL'encodage est en ISO-8859-1Ouvrir le fichier avec un éditeur qui spécifie l'encodagefile file.csv11iconv -f ISO-8859-1 -t UTF-8 ./caracteristiques_2015.csv > caracteristiques_2015_rev1.csv
10
99Jeu de données & métadonnéesToutesL'encodage n'est pas homogèneCertaines données sont correctement encodées et d'autres contiennent des caractères ésotériquesOuvrir le fichier et parcourir visuellement les données ; rechercher quelques chaînes comme "é" ou "?" ou "?t?" ou "g?n?ral" etc.perl -F/,/ -alne 'print if 1..1;print if m/([a-z]\?[a-z]|é)/i;' file.csv | csvsort | csvlook11
11
1010Jeu de données & métadonnéesToutesLe fichier est mal forméPour certaines lignes, parfois une colonne manque, ou, le fichier CSV comporte des "virgules" non formatées et empêche l'ouverture correcte du fichierOuvrir le fichier, trier la dernière colonne du fichier et regarder le résultatcsvclean --dry-run file.csvoui1111
12
12111Jeu de données & métadonnéesToutesLe jeu de données ne contient pas de données pivot (données de référence) facilitant le croisement avec d'autres donnéesCe fichier relatif aux lycées ne contient pas le code UAI or il existe plusieurs lycées Paul Claudel, rendant les croisements difficilesLecture des métadonnées et éventuellement des données25?1?Trouver une donnée pivot adaptée (cf référentiels nationaux ou internationaux). Mise à jour manuelle ou reprise avec d'autres données. Envisager le crowdfixing
13
1112Jeu de données & métadonnéesToutesLe jeu de données concernant des horaires de mode de transport ne possède pas de version au format GTFSLe fichier n'est pas au format GTFS211
14
1213Jeu de données & métadonnéesToutesLe jeu de données concernant des œuvres n’est pas au format Dublin CoreLe fichier n'est pas au format Dublin Core211
15
1314Jeu de données & métadonnéesToutesLe jeu de données utilise une norme peu accessible au plus grand nombre (coût, complexité)Le jeu de données est au format TRIDENT210
16
1415Jeu de données & métadonnéesToutesLe process d'acquisition n'est pas connu (il peut être gênant de n'avoir aucun recul critique sur cet aspect)WikiLeaksLecture des métadonnées210Évaluer le process et vérifier un échantillon de donnéesRedondant avec "Métadonnées imprécises : process et contexte de production non explicités" ?
17
1516Jeu de données & métadonnéesToutesL'échantillon n'est pas documentéL'échantillon semble représentatif mais on ne peut pas vérifier qu'il le soit bien, puisque ce dernier n'est pas documentéLecture des métadonnées210
18
1617Jeu de données & métadonnéesToutesLe format d'un des champs n'est pas documenté, si bien qu'on ne peut comprendre ce qu'il contient ou bien contrôler ses valeurs* La date est parfois exprimée par le nombre de secondes depuis 1970 ; cette donnée est difficile à comprendre.
* Un jeu de données contient un champ "Image" en binaire, dont le format n'est pas spécifié.
Lecture des métadonnées et ouverture du fichier : le format champ binaire est-il documenté ?230* Demander au producteur
* Rétro-documenter le format
19
1718Jeu de données & métadonnéesToutesLa taille maximale d’un champ n’est pas documentéeOn ne sait pas si un code peut dépasser 10 caractères et si certaines valeurs sont donc faussesLecture des métadonnées230* Demander au producteur
* Rétro-documenter le format
20
1819Jeu de données & métadonnéesToutesPour tel champ, l'incertitude de la mesure n'est pas documentée (appelée aussi "précision", exprimée en % ou bien "à plus plus ou moins X unités près")Des coordonnées GPS sont indiquées mais on ne connaît pas leur marge d'erreur (précises à 10 m, à 100 m ?) ; la précision d'une mesure de température n'est pas explicitée (+/- 0,1° ? +/- 1° ?)Lecture des métadonnées310
21
1920Jeu de données & métadonnéesToutesL'origine de certaines données est une entrée manuelle non contrôléeLe risque est d'obtenir 25 orthographes de "Saint-André-des-Arts"Ouvrir le jeu de données et parcourir : des données sont-elles manifestement entrées à la main ?330
22
2021Jeu de données & métadonnéesToutesLes données proviennent d'un processus de reconnaissance automatique dont la marge d'erreur est globalement bonne mais localement problématique (OCR, reconnaissance de forme, géocodage, etc.)OCR ; reconnaissance automatique des visages (va dépendre de la qualité de la lumière de la prise de vue, de la couleur des personnes concernées (c'est encore un problème en 2016)) ; etc.Ouvrir le jeu de données et parcourir : des données sont-elles manifestement issues d'un processus de reconnaissance automatique ?33
23
2122Jeu de données & métadonnéesToutesL'échantillon est biaiséCertaines populations sont absentes, sur-représentées ou sous-représentées ; les données subissent une forte variation saisonnièreWTFcsv30
24
2223Jeu de données & métadonnéesToutesLa précision n'est pas cohérente avec la granularité : l'incertitude de la mesure est 100 fois supérieure à la granularitéDes coordonnées géographiques annoncent une granularité au cm alors que l'incertitude des appareils de mesure est de +/- 5 mètresLecture des métadonnées30
25
2324Jeu de données & métadonnéesToutesLe process de signalement d'erreur et d'échange avec le producteur n'est pas explicitéAucune forme de contact n'est donnéeLecture des métadonnées210* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
26
2425Jeu de données & métadonnéesToutesLe process de signalement d'erreur et d'échange avec le producteur n'existe pas ou bien il est défaillantLe producteur ne répond pas aux questionsDemander au producteur150
27
2526Jeu de données & métadonnéesToutesLa disponibilité de la donnée n'est pas documentée (temps pendant lequel la donnée est accessible par rapport au temps total souhaité, généralement exprimé en pourcentage) L'utilisateur ne sait pas si la qualité de service est de 95% ou 99,99%. Si le système qui héberge la donnée est régulièrement inaccessible (maintenance, etc.), les usagers devraient en être informés pour savoir si leur usage en est impactéLecture des métadonnées10https://fr.wikipedia.org/wiki/Disponibilit%C3%A9

Analyse automatique dans le temps et probablement un peu coûteuse (ping réguliers)
28
2627Jeu de données & métadonnéesToutesLa disponibilité de la donnée n'est pas mesuréeLe producteur ne sait pas si la qualité de service est de 95% ou 99,99 alors que tel futur usage est critiqueDemander au producteur150https://fr.wikipedia.org/wiki/Disponibilit%C3%A9
29
2728Jeu de données & métadonnéesToutesLa mesure de la qualité n'est pas documentéeDes contrôles qualité existent (amont ou aval) mais ils ne sont pas explicités si bien qu'on ne peut savoir si tel champ est fiable ou nonLecture des métadonnées0
30
2829Jeu de données & métadonnéesToutesLa qualité de la donnée n'est pas mesurable à travers des contrôles formelsIl n'existe pas de méthode de contrôle permettant de dire si la syntaxe de ce champ est bonneDemander au producteur0
31
2930Jeu de données & métadonnéesToutesLa qualité de la donnée n'est pas mesuréeAucune méthode de contrôle n'est mise en oeuvre pour mesurer la qualité des donnéesDemander au producteur ou à l'éditeur3150
32
3031Jeu de données & métadonnéesToutesUne entité possède plusieurs identifiantsLes associations peuvent avoir un numéro d'association ET un code SIREN unique (problème de design ?)1Exemple que me prend Simon sur les Asso qui ont à la fois un numéro d'asso et un code SIREN.
33
3132Jeu de données & métadonnéesToutesLa documentation et les métadonnées sont quasi inexistantes voire absentesLa documentation tient sur 5 lignes alors que le fichier est très complexeLecture des métadonnéesoui110* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
C'est important de voir ça très en amont : si l'on veut corriger cela, certains points de contrôle participeront à la documentation
34
3233Jeu de données & métadonnéesToutesLe nom ou titre du jeu de données est vague, ambigu ou trop complexe : titre de la notice éditoriale, nom donné dans les métadonnées ou dans la documentation (pas le nom du fichier)* "Résultat des élections" : lesquelles ? où ? quand ?
* "Résultats des élections à Montréal" : il existe 6 communes appelées Montréal dans le monde...
Lecture des métadonnées, de la documentation et/ou de la fiche de présentationoui1111
35
3334Jeu de données & métadonnéesDateManque de métadonnées : fourchette temporelle non explicitéeDes dates figurent dans le jeu mais aucune métadonnée ne peut confirmer la fourchette attendue de ces dates. Exemple : Trésorerie du 01/02/2010 au 24/11/2016.Lecture des métadonnées2111* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
36
3435Jeu de données & métadonnéesDateManque de métadonnées : zone spatiale non explicitéeDes coordonnées figurent dans le jeu mais aucune métadonnée ne peut confirmer la zone d’appartenance attendue pour ces points.Lecture des métadonnées2111* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
37
3536Jeu de données & métadonnéesNombreManque de métadonnées : fourchette non spécifiéeOn peut attendre d’un nombre qu’il soit compris entre une valeur minimum et une valeur maximum ; par exemple l'âge d'une personne devrait toujours être entre 0 et 130 voir 18 et 70 selon les cas.Lecture des métadonnées2111* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
38
3637Jeu de données & métadonnéesBooléenManque de métadonnées : le fait que le champ soit un booléen n’est pas spécifiéLecture des métadonnées2111* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
39
3738Jeu de données & métadonnéesBooléenManque de métadonnées : le format du booléen n’est pas spécifiéOn ne sait pas à quelles valeurs s’attendre : “vrai”-”faux” ou “oui”-”non”Lecture des métadonnées2111* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
40
3839Jeu de données & métadonnéesToutesManque de métadonnées : processus et contexte de production non explicitésOn ne sait pas si une mesure vient d'un capteur ou d'une mesure manuelleLecture des métadonnéesoui10* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
41
3940Jeu de données & métadonnéesToutesManque de métadonnées : la fraicheur des données n'est pas explicité :
* le délai entre le réel et la mise en base de la donnée
* le délai entre le réel et la publication de la donnée
Il n'est pas dit si telle information sur une grossesse va mettre plus de neuf mois avant d'arriver au réutilisateurLecture des métadonnées10* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
42
4041Jeu de données & métadonnéesToutesManque de métadonnées : la langue des textes n'est pas spécifiéeLecture des métadonnées10* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
43
4142Jeu de données & métadonnéesDateMétadonnées imprécises : le format de date n'est pas spécifiéFormat américain ? anglais ? européen ? etc.Lecture des métadonnées111* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
44
4243Jeu de données & métadonnéesNombreMétadonnées imprécises : unités non spécifiéesOn ne dit pas si colonne "hauteur" est en cm ou dmLecture des métadonnéesoui110* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
45
4344Jeu de données & métadonnéesCoordonnéesMétadonnées imprécises : système de coordonnées non spécifiéLa documentation n'indique pas si les coordonnées sont en WGS 84, Lambert ou un autre système. Cela peut poser des difficultés d'interprétation des données.Lecture des métadonnées10* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
Redondant avec "Document : Le process d'acquisition n'est pas connu"
46
4445Jeu de données & métadonnéesToutesMétadonnées imprécises : noms de colonnes ambigus"Emplacement" ne dit rien sur la donnée attendue : une adresse ? "en haut" ? "devant" ? etc.Lecture des métadonnéesoui10* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
47
4546Jeu de données & métadonnéesToutesMétadonnées faussesLecture des métadonnées0
48
4647Jeu de données & métadonnéesToutesLa taille maximale d’un champ dépasse celle qui est spécifiée dans la documentationLa colonne "âge" spécifie une longueur de 3 caractères maximum et certaines valeurs sont de 4 caractères ou plusLecture des métadonnées et des donnéescsvgrep -c colonne_x -r ".{25,}" file.csv | csvlook
csvsql --query "SELECT MAX(LENGTH(mois)) FROM file" file.csv
3311
49
4748Jeu de données & métadonnéesToutesL'ordre des colonnes ne correspond pas à l'ordre donné dans la documentationLa documentation donne Prénom;Nom;Âge;Profession alors que le jeu se présente sous la forme Nom;Prénom;Âge;ProfessionLecture des métadonnées et des données3305
50
4849Jeu de données & métadonnéesCoordonnéesLes coordonnées ne sont pas au format WGS 84 Les coordonnées sont au format Lambert II nécessitant une conversion des points pour des usages mobiles liés à des GPS grand publicLecture des métadonnées et des données33
51
4950Jeu de données & métadonnéesChaîne alphaLes codes pays ne sont pas au format ISO 3166L'Allemagne est noté "ALL" alors qu'il existe un code ISO employé internationalementLecture des métadonnées et des données231
52
5051Jeu de données & métadonnéesChaîne alphaLes codes de langues ne sont pas au format ISO 639Le français est noté "F" ou "français" en lieu et place de "fr"Lecture des métadonnées et des données231
53
5152Jeu de données & métadonnéesDateLes dates ne sont pas au format ISO 8601La date est notée "01/01/2016"Lecture des métadonnées et des données231
54
5253Jeu de données & métadonnéesChaîne alphaLes monnaies ne sont pas au format ISO 4217Le franc suisse est noté FSLecture des métadonnées et des données331https://fr.wikipedia.org/wiki/ISO_4217
55
11554Jeu de données & métadonnéesToutesLa documentation et les métadonnées sont d'un usage difficile (doc papier, doc au format PDF image, doc uniquement en anglais, etc.)La documentation est fourni sous forme de PDF image : les usagers ne peuvent pas rechercher des termes pour y naviguer rapidementConsultation de la doc et des métadonnées110* Demander au producteur
56
11655Jeu de données & métadonnéesToutesLe mode d'accès à la donnée est un frein à l'usage (temps d'accès, droit d'accès long et complexe, droit d'accès limité)La requête d'une donnée "temps réel" met plus de 40 secondes ; l'accès à la donnée nécessite un certificat de sécurité long à obtenir ; l'architecture du site ne permet pas à un robot de télécharger les actualisations des données* Tester l'accès aux données
* Tester la récupération des données via un outil automatisable (commande wget par exemple)
251
57
11756Jeu de données & métadonnéesToutesL'incertitude de la mesure n'est pas connue par le producteurLe producteur des données ne connaît pas la précision de ses mesuresSi l'incertitude de la mesure n'est pas documentée (ID18), demander au producteur3150
58
11857Jeu de données & métadonnéesToutesLa documentation ne précise pas la date de péremption ou d’obsolescence des donnéesOn ne sait pas quand des données deviennent inutile et pourraient donc être effacées ou archivéesConsultation de la doc et des métadonnées0
59
12058Jeu de données & métadonnéesToutesLa volumétrie des données n'est pas préciséeLe poids du fichier n'est pas indiqué ; le nombre de lignes du fichier n'est pas préciséConsultation de la doc et des métadonnées230
60
10059ManqueNombreLa donnée est le résultat d’un calcul dont on n’a pas les données de départLe jeu de données contient un pourcentage, un rapport, une densité, etc.Parcourir les métadonnées pour évaluer chaque champ30
61
10160ManqueToutesLes trous : manque des "enregistrements" : des données dont vous connaissez l'existence sont manquantesIl manque 10 communes dans la liste des mairies du département de la SavoieRechercher toutes les valeurs d'une colonne, les dédoublonner, les trier et analyser les résultats30
62
10261ManqueToutesLes trous : manque des "enregistrements" : le tableau possède 65536 lignes-Ouvrir le jeu de données et regarder s'il contient 65536 lignescsvstat --count file.csv

csvstat file.csv

wc -l file.csv # auquel il faut retirer 1
111
63
10362ManqueToutesLes trous : les données d'un champs sont tronquées"10, av. du Général de Gau" est un exemple de champ tronqué à 25 caractères* Pour une longueur de champ donné, quel pourcentage d'enregistrements remplissent ce champ complètement ?csvgrep -c colonne_x -r ".{25}" file.csv | csvlook

csvcut -c colonne_x file.csv | csvgrep -c colonne_x -r ".{24}" | csvsort -c adr | uniq | csvlook | head -20
311
64
10463ManqueToutesValeurs vides dans certains champs-Ouvrir le jeu de données et regarder s'il contient des valeurs videscsvstat --null file.csv

csvstat file.csv
1111
65
10564ManqueToutesLa granularité n'est pas suffisanteOn a des pays, là où il serait intéressant d'avoir des régions ; on a des mètres là où certains usages nécessiteraient des cm50
66
10665ManqueDateLe fuseau horaire n'est pas précisé dans un contexte de données réparties sur des fuseaux horaires différentsPour une heure locale donnée, l'absence du fuseau horaire oblige le développeur a tenter de calculer l'heure GMT pour comparer des durées50
67
10766ManqueToutesL’insuffisance en matière de fréquenceL'état de feux tricolores classiques est donné tous les jours à minuitLire les métadonnées, examiner les données (un tri descendant des colonnes date peut aider) puis comparer avec des usages possibles50
68
10867ManqueToutesL’insuffisance en matière de maillageLa pollution dans Paris est mesurée avec un seul capteur50
69
10968ManqueToutesL’insuffisance en matière de fraîcheurLes chiffres du recensement de cette espèce date de 1976Lire les métadonnées, examiner les données (un tri descendant des colonnes date peut aider) puis comparer avec des usages possibles50
70
7769Morpho-syntaxiqueToutesExprimer une donnée à travers un code difficile à manipulerMise en forme pour exprimer une donnée : couleur, gras, etc.Parcourir visuellement l'ensemble du fichier50
71
7870Morpho-syntaxiqueToutesautres ?Certains fichiers possèdent des cellules fusionnées ; des données sont ajoutées sous forme de commentaires ; etc.Parcourir visuellement l'ensemble du fichier5
72
7971PertinenceChaîne alpha|NombreAberration* 197 ans (pour l'âge d'une personne)
* Général de Gaulle comme personne participant à un sondage
* Un classement des champs par ordre alphabétique permet de localiser des grandeurs aberrantes.
* Tester que les données vérifient la loi de Benford.
* WTFcsv.
3011Créer un nouveau type de problème pour la loi de Benford ?
73
8072PertinenceChaîne alpha|NombreDoute très raisonnable, valeurs inexplicables20 participants de plus de 110 ans* Rechercher les valeurs extrêmes de chaque colonne et s'interroger.
* WTFcsv ?
oui51
74
8173PertinenceChaîne alphaCertaines valeurs sont suspectes : 0000 ou xxxxxxxxxxxxx (à compléter)-perl -F/,/ -alne 'print if 1..1;print if m/(000|xxx)/i;' file.csv | csvsort | csvlook311
75
8274PertinenceNombreCertaines valeurs sont suspectes : suites de chiffres comme 9999 ou 12345Des suites de 9999 ; nombreuses valeurs "12345" (détailler)Recherche des chaînes "99*" et "123*"perl -F/,/ -alne 'print if 1..1;print if m/999|12345|00/i;' file.csv | csvsort | csvlook311
76
8375PertinenceDateCertaines valeurs sont suspectes : il existe des dates en 1900, 1904, 1969, 1970-Recherche des chaînes "1900*", "1904*", "1969*", "1970*"perl -F/,/ -alne 'print if 1..1;print if m/1900|1904|1969|1970/;' file.csv | csvsort | csvlook311
77
8476PertinenceCoordonnéesCertaines valeurs sont suspectes : il existe des coordonnées comme 0°00'00.0"N+0°00'00.0"E0°00'00.0"N+0°00'00.0"E est une valeur suspecte car c’est un point en plein milieu de l’AtlantiquePOI : placer tous les POI sur une carte pour voir si certains sont hors périmètrecsvgrep -c colonne_x -r "(0°00\'00).*" file.csv | csvsort | csvlook311
78
8577PertinenceToutesLa source n'est pas crédible (incompétent, juge et partie, etc.)15000 manifestants selon les organisateursQuestionner la crédibilité de la source : est-elle compétente pour collecter ces données ? A-t-elle un intérêt partisan à faire parler les données dans une certaine direction ?oui30Autres exemples : chiffres du chomage (?), chiffres "sortis du chapeau" par les politiques, résultats d'audiences ou financiers communiqués par l'acteur concerné par ces chiffres, ...
79
8678PertinenceToutesLes données ont été hackées ou détournéesLa source est crédible mais certains producteurs indirects ont pu agir pour que certaines données soient sur-représentées (sondage, etc.)* La sur-représentation d'un profil ou des valeurs suspectes doivent conduire à s'interroger
* Tester que les données vérifient la loi de Benford.
300Exemple de l'affaire Clearstream. Affaire Hashley-Madison (?). Voir le type de problème "Le process d'acquisition n'est pas connu"
80
8779RéglementationToutesIdentification explicite de personnes sans déclaration CNILPrénom Nom ou numéro de tél.Détecter des prénoms sur la base d'un dictionnaire est-il un bon indicateur ?oui0
81
8880RéglementationToutesIdentification possible de personnesDate et lieu de naissanceParcourir le fichier dans son ensemble suffit-il ?oui11
82
8981RéglementationChaînes alphaIl existe des jugements de valeurs à propos d'individus"Client chiant", etc.Rechercher des mots "interdits" comme "chiant", "stupide", "idiot", "connard/connasse", "enculé", etc.511
83
9082RéglementationChaînes alphaIl existe des données de santé non anonymisées alors que les personnels qui les consultent n'y sont pas habilités"Ne peut pas nous recevoir le mercredi matin car elle fait sa dialyse"Rechercher des mots "interdits" comme "dialyse", "cancer", etc.511
84
9183RéglementationToutesDonnées d'origine ethnique ou relative à la religion des personnes"Ne répond pas au téléphone le samedi (shabbat)"Rechercher des mots qui peuvent être des indicateurs comme "caucasien", "chrétien", "juif", "musulman", etc.oui31
85
9284RéglementationToutesDonnées relatives aux opinions politiques, philosophiques ou à l'appartenance syndicale"Lié au parti pirate"Rechercher des mots qui peuvent être des indicateurs comme le nom de partis politiques, de courants de pensée, etc.oui31
86
9385RéglementationToutesDonnées relatives à la vie sexuelle ou au moeurs"Ménage à 3"Rechercher des mots qui peuvent être des indicateurs comme "sex", "homo", etc.oui31
87
9486RéglementationToutesDonnées tierces soumises à licence d'usageLe fichier publié en Open Data utilise le géocodage de l'API de GoogleLire les métadonnées ; en cas de doute, demander explicitement au producteur.oui50
88
9587RéglementationChaîne alphaDonnées relevant de la propriété littéraire et artistique sans autorisation d’usage : description textuellesLa description littéraire d’une chose est soumise à des droitsRechercher les chaînes de plus 200 (?) caractère et évaluer si la rédaction dépasse un simple caractère factuel (?)311
89
9688RéglementationbinaireDonnées relevant de la propriété littéraire et artistique sans autorisation d’usage : images ou fichiers multimédiaLes images d’une base de données sont soumises à des droitsLe jeu de données comprend-il des images ? Le droit d'usage de ces images est-il explicité ? Ce droit pose-t-il problème pour des usages ultérieurs ?31
90
9789RéglementationToutesDonnées sensibles du point de vu de la sécurité des biens et des personnesPlan d'une base militaireParcourir le fichier dans son ensemble suffit-il ?oui30
91
9890RéglementationToutesDonnées sensibles du point de vu de l'éthiqueLocalisation de minéraux rares ou de zones d'habitat d'espèces protégées?oui30
92
9991RéglementationChaîne alpha|Nombredivers : exemple le capital social d'une entreprise s'exprime réglementairement arrondi à la valeur inférieure0Les chiffres communiqués aux impôts comme la TVA sont arrondis ; la raison sociale d'une entreprise ; les prénoms-noms dans un contexte d'identification officielle ; des tarifs (?) ; les cours des monnaies (?) ...
93
6492SémantiqueChaîne alphaPlusieurs termes sont utilisés pour un même sensParfois on lit "Daesh", parfois "Isis" et parfois "EI" ; ou bien "agent" ou "commercial" ; etc.Trier le champ concerné par ordre alphabétique et regarder les valeurs (?)50https://fr.wikipedia.org/wiki/R%C3%A9gionalisation_de_logiciel
94
6593SémantiqueChaîne alphaCertains termes sont mal régionalisés ou traduits dans la langue attendueDans un fichier où tout est en français, si l'on a "Grande-Bretagne" on devrait avoir "États-Unis" et pas "USA" qui est un terme anglaisRepérer les chaînes et lancer le correcteur d'orthographe dans la langue désirée (?)511https://fr.wikipedia.org/wiki/R%C3%A9gionalisation_de_logiciel
95
6694SémantiqueChaîne alphaCertains termes, valeurs utilisées sont vieillis, inusités, cryptiques ou incompréhensiblesTrier le champ concerné par ordre alphabétique et regarder les valeurs (?)30
96
6795SémantiqueChaîne alphaLes abréviations ou sigles ne sont pas explicitésWikipédia fournit des listes de très nombreux sigles : https://fr.wikipedia.org/wiki/SigleTrier le champ concerné par ordre alphabétique et regarder les valeurs (?)30
97
6896SémantiqueChaîne alpha|Nombre|Date|coordonnéesLa valeur nulle est remplacée par une autre chaîne : zéro ou "-" ou "null" ou "1970-00-00" ou 0°00'00.0"N+0°00'00.0"E0°00'00.0"N+0°00'00.0"E est un problème car ce point existe mais il est placé en plein AtlantiqueTrier le champ concerné par ordre alphabétique et regarder les valeurs (?)311
98
6997SémantiqueToutesInversion dans un couple de données"Dupont Jean" au lieu de "Jean Dupont'Repérer les couples de données et classer les colonnes par ordre alphabétique pour repérer une éventuelle inversion (?)TODO : si une chaîne de la colonne_x est présent 3 fois dans la colonne_Y et inversement alors il y a suspicion d'inversion ?30Le producteur peut avoir saisi Prénom Nom en étant persuadé de cet ordre. Ce problème survient également pour des Prénom-Noms d'origine culturelle différente (les chinois utilisent Nom-Prénom)
99
7098SémantiqueChaîne alphaL'absence de lettres accentuées peut poser des problèmes de sens"JUPE TUE LA FRANCE GAGNE"Rechercher des colonnes alpha qui ne possèdent pas d'accentegrep "[àâçéèêëù]" file.csv | wc -l111les accents sont signifiants en Français
100
7199SémantiqueChaîne alpha|NombreErreur sémantique manifesteUtilisation de "M" en lieu et place de "H" pour signifier un homme ; 69 pour le département en lieu et place du nom "Rhône"Rechercher toutes les valeurs d'une colonne, les dédoublonner et analyser les résultatscsvcut -c colonne1 file.csv | sort | uniq50
Loading...
Main menu