La taverne du testeur

La gestion des jeux de données – Antoine Brebant

La gestion des jeux de données est au centre de nos stratégies de tests et représente souvent un budget conséquent.

Ces jeux de données se doivent d’être pertinents, c’est-à-dire représentatifs de la réalité pour une application donnée.

Dans tout système, les données sont stockées dans différents formats, types, emplacements et différentes règles sont appliquées à ces données.

Par conséquent, il est important d’identifier les données qui seront nécessaires pour le processus de test puis de définir comment obtenir ces données ou de s’outiller afin de pouvoir générer automatiquement des données exploitables et pertinentes.

Sur certains projets, il est possible d’avoir accès à des données de production mais la nouvelle législation internationale pose des exigences plus strictes que jamais en matière de confidentialité des données et un certain nombre de problématiques ressortent pour la collecte des jeux de données. Les données doivent être anonymisés tout en restant pertinentes.

Dans ce contexte, peu d’organisations disposent déjà d’une cellule spécialisée dans la gestion des jeux de données permettant d’alimenter en données anonymisés les projets lors de leurs recettes. Pourtant la constitution des jeux de données est une étape cruciale avec un coût associé qu’il ne faut pas négliger.

Aujourd’hui, la mise en œuvre d’une approche de gestion des données de test dans la stratégie de test améliore considérablement la performance des tests.Cela garantit également la création efficace et rapide d’un grand volume de données pour le processus de test, qu’il s’agisse de tests fonctionnels ou de tests de performance.

Voici une petite check-list pour vous aider dans la gestion de vos données de test :

  • Données que vous espérez acquérir ou générer au cours du projet :
    • Identifier les données de test basiques et les données sensibles/personnelles.
    • Identifier la source de vos données
      • En production : attention à l’anonymisation et à la réglementation RGPD
      • Généré par vos soins : veuillez à prévoir les outils adéquats et à utiliser des données fictives.
    • Identifier le volume et la typologie de données nécessaires
      • Couvrir tous vos cas de test et se réservant un marge raisonnable
      • Alimenter des référentiels ou des listes avec une volumétrie représentative
      • Prévoir vos cas d’échantillonnages, cas aux limites, …
  • Gestion et Stockage de ces données :
    • Identifier les mécanismes de vieillissement, masquage et archivage des données de test puis prévoir un versionning de ces données
    • Prioriser et attribuer vos données à vos tests
    • Créer et implémenter des règles de gestion et éventuellement construire un processus automatisé pour la préparation et le rafraichissement des données de test

 En termes « d’outillage », voici de petits outils et quelques référentiels sur lesquels je m’appuie régulièrement en complément des données/plateformes que les projets peuvent me fournir :

Ce référentiel offre différents jeux de données allant de codes INSEE à la cartographie de différents pays, le tout exportable avec différents formats dont JSON et CSV.

Les référentiels fournit par le gouvernement sont une bonne source de jeux de données, ici celui des codes postaux.

Les API fournis par le gouvernement peuvent se révéler très utiles. Celle-ci concerne les données géographiques.

OpenFood Facts est une énorme base de données alimentaire Internationale

  • Ces référentiels listent des données publics, non sensibles et donc utilisables.
  • Outils de générations de données fictives :
    • Plusieurs algorithmes de création sont disponibles sur internet pour vos IBAN, numéro de carte bleue, numéro de sécurité sociale…

Ces algorithmes vous demanderont des données de base également disponibles sur Internet comme un code VISA ou Mastercard pour une CB, un code pays et un code agence pour un IBAN ou encore le numéro de commune dans un département pour le numéro de sécurité sociale. Toutes ces données sont publiques et utilisables.

Et vous, comment gérez-vous vos jeux de données :

  • Sur quelles équipes/outils vous appuyez-vous pour créer les jeux de données?
  • Quels volumes de données manipulez-vous ?
  • Disposez-vous d’environnements de qualifications entièrement anonymisés?
  • Quelles problématiques rencontrez-vous ?

Sources :

https://www.tutorialspoint.com/software_testing_dictionary/test_data_management.htm

https://reqtest.com/testing-blog/test-data-management/

A propos de l’auteur: Antoine Brebant

Je suis certifié ISTQB test manager et passionné par mon métier. J’aime apprendre et décomplexifier les projets à travers de petits outils et en automatisant les tests.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Avenir

Pourquoi être testeur ?

Introduction : Le métier de testeur est devenu très vaste. Tout comme pour les développeurs (avec par exemple les développeurs : Web, php, java…), le métier est maintenant très diversifié et peu difficilement être réduit à un unique métier (testeur « manuel », testeur automaticien, test manager, test de performance…) ou tout du moins

Lire la suite »
ATDD

1- ATDD “manuelle” : Ce qu’il faut comprendre du sujet

Le but de cette nouvelle série d’articles est de vous montrer comment, dans l’hypothèse où vous n’avez pas un outil ATDD de génération automatique de test (ce qui est la situation la plus courante),  spécifier et générer les tests d’un système de manière rigoureuse, rapide et … simple ! Cette méthode

Lire la suite »
sondage

Résultats sondage 2020: Vos débuts dans le test !

Cet article est basé sur les résultats de ce sondage lancé fin mai 2020 qui regroupe des réponses étalées sur une durée d’environ 1 mois et auquel 226 personnes ont répondue. Encore merci à elles! Ce sondage propose les mêmes questions que celui réalisé en 2017 ce qui permet de

Lire la suite »