La gestion des jeux de données est au centre de nos stratégies de tests et représente souvent un budget conséquent.
Ces jeux de données se doivent d’être pertinents, c’est-à-dire représentatifs de la réalité pour une application donnée.
Dans tout système, les données sont stockées dans différents formats, types, emplacements et différentes règles sont appliquées à ces données.
Par conséquent, il est important d’identifier les données qui seront nécessaires pour le processus de test puis de définir comment obtenir ces données ou de s’outiller afin de pouvoir générer automatiquement des données exploitables et pertinentes.
Sur certains projets, il est possible d’avoir accès à des données de production mais la nouvelle législation internationale pose des exigences plus strictes que jamais en matière de confidentialité des données et un certain nombre de problématiques ressortent pour la collecte des jeux de données. Les données doivent être anonymisés tout en restant pertinentes.
Dans ce contexte, peu d’organisations disposent déjà d’une cellule spécialisée dans la gestion des jeux de données permettant d’alimenter en données anonymisés les projets lors de leurs recettes. Pourtant la constitution des jeux de données est une étape cruciale avec un coût associé qu’il ne faut pas négliger.
Aujourd’hui, la mise en œuvre d’une approche de gestion des données de test dans la stratégie de test améliore considérablement la performance des tests.Cela garantit également la création efficace et rapide d’un grand volume de données pour le processus de test, qu’il s’agisse de tests fonctionnels ou de tests de performance.
Voici une petite check-list pour vous aider dans la gestion de vos données de test :
- Données que vous espérez acquérir ou générer au cours du projet :
- Identifier les données de test basiques et les données sensibles/personnelles.
- Identifier la source de vos données
- En production : attention à l’anonymisation et à la réglementation RGPD
- Généré par vos soins : veuillez à prévoir les outils adéquats et à utiliser des données fictives.
- Identifier le volume et la typologie de données nécessaires
- Couvrir tous vos cas de test et se réservant un marge raisonnable
- Alimenter des référentiels ou des listes avec une volumétrie représentative
- Prévoir vos cas d’échantillonnages, cas aux limites, …
- Gestion et Stockage de ces données :
- Identifier les mécanismes de vieillissement, masquage et archivage des données de test puis prévoir un versionning de ces données
- Prioriser et attribuer vos données à vos tests
- Créer et implémenter des règles de gestion et éventuellement construire un processus automatisé pour la préparation et le rafraichissement des données de test
En termes « d’outillage », voici de petits outils et quelques référentiels sur lesquels je m’appuie régulièrement en complément des données/plateformes que les projets peuvent me fournir :
- Référentiels :
Ce référentiel offre différents jeux de données allant de codes INSEE à la cartographie de différents pays, le tout exportable avec différents formats dont JSON et CSV.
Les référentiels fournit par le gouvernement sont une bonne source de jeux de données, ici celui des codes postaux.
Les API fournis par le gouvernement peuvent se révéler très utiles. Celle-ci concerne les données géographiques.
OpenFood Facts est une énorme base de données alimentaire Internationale
- Ces référentiels listent des données publics, non sensibles et donc utilisables.
- Outils de générations de données fictives :
- Plusieurs algorithmes de création sont disponibles sur internet pour vos IBAN, numéro de carte bleue, numéro de sécurité sociale…
Ces algorithmes vous demanderont des données de base également disponibles sur Internet comme un code VISA ou Mastercard pour une CB, un code pays et un code agence pour un IBAN ou encore le numéro de commune dans un département pour le numéro de sécurité sociale. Toutes ces données sont publiques et utilisables.
- LoremIpsum : http://www.lorem-accents.com/
- Ce générateur de texte accentué peut être très utile pour renseigner des zones de texte
- Lorraine Ipsum : http://www.lorraine-ipsum.fr/
- Ce générateur de faux noms permet de changer un peu du « toto » ou « test1 » et en bonus donnera assurément le sourire aux parties prenantes.
- Mockaroo : https://www.mockaroo.com/0f1bb280
- Générateur de données en lignes
- https://fr.fakenamegenerator.com et https://devskiller.com/datafairy
- Générateurs de fausses identités.
Et vous, comment gérez-vous vos jeux de données :
- Sur quelles équipes/outils vous appuyez-vous pour créer les jeux de données?
- Quels volumes de données manipulez-vous ?
- Disposez-vous d’environnements de qualifications entièrement anonymisés?
- Quelles problématiques rencontrez-vous ?
Sources :
https://www.tutorialspoint.com/software_testing_dictionary/test_data_management.htm
https://reqtest.com/testing-blog/test-data-management/
A propos de l’auteur: Antoine Brebant
Je suis certifié ISTQB test manager et passionné par mon métier. J’aime apprendre et décomplexifier les projets à travers de petits outils et en automatisant les tests.