L'agent IA lit les tests manuels puis exécute le test sur l'environnement de test. l'agent peut poser des questions auxquelles le testeur répond pour apporter les précisions nécessaires à l'exécution Un reporting est fait en parallèle, il est analysé par le testeur.

Les agents IA et leur usage pour l’exécution de tests – Partie 1

Depuis 2024, le domaine de l’IA générative, qui avait démarré avec les chatbots conversationnels comme ChatGPT, s’est étendu aux agents IA. Les agents IA sont une architecture de système IA dotée de la capacité d’agir sur leur environnement pour réaliser la tâche demandée par l’utilisateur.

    Comme le montrent les enquêtes récentes, telle que l’enquête IA du CFTL publiée en décembre 2025, l’utilisation de l’IA générative pour aider à la réalisation des activités de test continue de progresser au sein des organisations QA. L’utilisation de l’IA s’effectue à travers différentes modalités accessibles aux équipes, telles que les chatbots IA autorisés en entreprise et les assistants et agents IA intégrés à l’outillage de test.

    Cet article propose un décryptage d’une catégorie particulière d’agents IA : les agents dits « Computer-Use » ou agents GUI. La progression de leurs capacités a été très rapide en 2025, leur permettant de réaliser des tâches complexes dans une grande variété d’environnements informatiques. Ils peuvent ainsi interpréter des consignes de test, agir directement sur l’environnement de test et rendre un verdict ainsi qu’un rapport d’exécution étape par étape, accompagnés de l’ensemble des preuves d’exécution (comme les captures d’écran).

    Dans la suite, nous réalisons un tour d’horizon de ces agents IA sur l’IHM (agents GUI) et de leur utilisation dans les tests.

    Qu’est-ce qu’un agent GUI par rapport aux autres IA ?

    Un agent IA est un système d’IA générative capable de réaliser concrètement une tâche à l’aide des outils dont il dispose. Il utilise les modèles d’IA générative pour interpréter les instructions, planifier les étapes des actions à réaliser, choisir les outils à utiliser à chaque étape, vérifier l’avancement du plan après chaque action et, enfin, produire un rapport d’exécution de la tâche demandée par l’utilisateur à la fin de sa réalisation.

    Un agent GUI a deux spécificités :

    • Les tâches réalisées le sont via des actions sur l’IHM : ouvrir un navigateur, lancer une application, scroller dans un menu, remplir un champ, ouvrir un répertoire, saisir une commande dans une interface, etc.
    • Le suivi de l’avancée du plan de réalisation de la tâche demandée s’appuie sur l’analyse de l’écran pour identifier les zones concernées par une action ou une vérification, ou déterminer l’outil à utiliser pour réaliser l’action.

    Concrètement, cela veut dire qu’un agent GUI prend le contrôle de l’équipement (PC, tablette, mobile) dans le périmètre des droits accordés pour effectuer des actions telles qu’ouvrir un navigateur, ouvrir un fichier dans un dossier, envoyer un mail ou réaliser un paiement, ou encore un parcours applicatif complet sur un client lourd de type ERP.

    Le schéma suivant illustre l’architecture type d’un agent GUI qui agit sur l’IHM d’un PC ou d’un mobile.

    Figure 1 : schéma de principe d’un agent IA de type GUI.

    Dans un agent GUI, l’IA est utilisée pour plusieurs activités : 

    • interpréter la tâche demandée, construire un plan d’actions et suivre l’avancement de la tâche
    • analyser à chaque étape l’image écran pour identifier comment réaliser l’action en cours (quel outil utilisé) et vérifier la progression de la tâches
    • dialoguer avec l’utilisateur pour lui demander une précision sur la tâche à réaliser ou son consentement pour une action particulière
    • restituer les rapports d’exécution de la tâche

    Les modèles d’IA utilisés pour construire un agent GUI doivent nécessairement posséder l’analyse d’images (et non la génération d’images), le raisonnement (pour planifier) et l’accès aux outils nécessaires à la réalisation de la tâche. Un agent IA peut ainsi utiliser un modèle généraliste avancé, tel que Gemini 3, GPT-5 ou Claude 4.5 ou plusieurs “petits” modèles spécialisés chacun dans une activité particulière (planifier les actions, interpréter une capture d’écran).

    Agents GUI généralistes

    Depuis 2025, ces agents GUI généralistes sont accessibles dans les principaux chatbots IA (le plus souvent avec un abonnement payant).

    Le mode agent des chatbots IA

    La capture d’écran ci-dessous montre le lancement de la tâche d’inscription à la newsletter de La Taverne du Testeur avec le mode “Agent” de ChatGPT. Au lancement de la tâche, un premier dialogue s’affiche : merci de fournir l’adresse e-mail pour l’inscription, puis, lors de la validation, le consentement de l’utilisateur est demandé. Durant la tâche, un navigateur est ouvert par ChatGPT et affiché pour permettre à l’utilisateur de suivre le déroulement de la tâche ainsi que le dialogue interne au modèle qui s’établit. Pour des actions sensibles, par exemple finaliser l’inscription, l’agent demande explicitement le consentement de l’utilisateur.

    Figure 2 – Capture d’écran de ChatGPT en mode « Agent »

    Avec Claude d’Anthropic, le mode agent utilise la sélection des outils autorisés pour effectuer les tâches demandées. Ces outils peuvent être ceux du PC de l’utilisateur ou des applications web pour lesquelles l’IA sait utiliser des connecteurs. 

    En synthèse, le mode “agent” devient standard dans les principaux chatbots IA du marché, afin de permettre à l’utilisateur de faire réaliser des tâches dans un espace “contrôlé” par des modèles IA spécialisés chacun dans une activité particulière (planifier les actions, interpréter une capture d’écran).

    Les agents GUI spécialisés

    À côté des agents GUI intégrés aux IA conversationnelles, on trouve aussi des agents spécialisés, tels que Manus, un acteur d’origine chinoise racheté récemment par Meta, Browser Use et Skyvern avec une version open source. 

    Ces agents présentent une API et une interface conversationnelle semblables à celles des chatbots IA généralistes. Mais ils sont spécialisés dans le traitement de tâches sur IHM et, dans le cas de BrowserUse et Skyvern, sur le navigateur web.

    La capture suivante montre le lancement d’une tâche dans Browser Use avec l’option permettant d’activer la gestion des données confidentielles de manière sécurisée, comme des identifiants pour un site. Cette fonction permet à l’agent de se connecter à notre gestionnaire de mots de passe afin que vos identifiants ne soient jamais exposés.

    Figure 3 – Interface Browser Use Cloud : lancement d’une tâche avec la fonction d’activation des secrets.

    Est-ce que les agents GUI sont de bons testeurs ?

    La réponse est “oui, mais” : oui, car ils savent exécuter un scénario de test en langage naturel, que ce soit un test manuel ou en Gherkin, mais ces agents IA généralistes ne sont pas conçus spécifiquement pour les tests. Parfois, ils cherchent à résoudre une étape de test en contournant l’instruction. De plus, un agent GUI généraliste n’est pas intégré à l’environnement de travail du testeur (référentiel de test), ce qui est pénalisant pour l’usage.

    Un agent GUI testeur se distingue d’un agent GUI généraliste par sa spécialisation : il est conçu pour exécuter des tests formulés en langage naturel (comme les tests manuels ou en Gherkin) et fournir un verdict de test, étape par étape, en vérifiant les résultats attendus.

    Agents GUI testeurs

    Trois aspects spécifiques caractérisent les agents GUI testeurs : 

    • Ces agents sont développés spécifiquement pour exécuter les scénarios de test formulés en langage naturel en assurant :
      • Le respect rigoureux des consignes de test.
      • La vérification précise du résultat attendu à chaque étape.
      • La fourniture systématique des preuves de test.
    • Ils s’adaptent à des styles variés d’écriture des scénarios tests :
      • Formulation d’assez haut niveau des tests manuels – par exemple, pour le test d’un simulateur de prix d’assurance véhicule “remplir la page modèle en choisissant un modèle électrique”, mais sans plus de précision. L’agent testeur sait parfaitement gérer cela.
      • Formulation plus détaillée des tests manuels – par exemple, “remplir la page modèle en choisissant Renault 5 électrique en version 150 ch autonomie confort”. Ce choix sera respecté par l’agent testeur.
      • Formulation en Gherkin – Given, When, Then – si c’est le style préféré de l’équipe.
    • Ils sont intégrés à l’outillage de test des testeurs QA de telle sorte que le lancement de l’exécution par agent, l’établissement des preuves de test, et la visualisation du verdict de test soient dans l’outil de Test Management et le tableau de bord de l’équipe.

    La figure suivante illustre la coopération entre le Testeur QA et l’Agent Testeur. La responsabilité du “quoi tester” est humaine, via l’écriture de cas de test manuels ou de scénarios en Gherkin (selon le format préféré). L’agent exécute directement. En cas de doute, par exemple si une action de test,t ambiguë, l’agent peut demander au Testeur QA de lever ce doute et enregistrer ainsi une connaissance pour les autres exécutions.

    Figure 4 – Schéma de principe d’un agent testeur

    En comparaison du déroulé d’un script de test automatisé (en Playwright, Selenium ou Cypress), un agent GUI de test se comporte de façon visuelle “à la manière” d’un Testeur QA : 

    • L’agent “voit” l’écran : contrairement aux scripts d’automatisation classiques qui interagissent avec le code sous-jacent de la page (le DOM HTML, les ID, les XPaths), l’agent testeur s’appuie sur des modèles de langage visuels. Il « voit » l’écran en prenant des captures d’écran en temps réel et analyse ensuite l’interface grâce à des briques de vision, ce qui lui permet d’identifier qu’un ensemble de pixels correspond, par exemple, à un bouton « Ajouter au panier », indépendamment de son ID ou de sa structure HTML dans le code.
    • L’agent planifie les actions de test : alors qu’un script exécute séquentiellement une ligne de code, l’agent planifie son action dans un contexte. Pour exécuter une instruction de test comme « Se connecter à l’application », il décompose la tâche de manière autonome : localiser le champ identifiant, cliquer, taper le login, trouver le champ mot de passe, taper, puis identifier et cliquer sur le bouton de validation.
    • L’agent effectue une vérification visuelle du résultat attendu. Si le test demande de « Vérifier que le message de succès apparaît », l’agent scanne visuellement l’écran à la recherche de ce texte ou de cet indicateur visuel (icône, couleur verte), exactement comme le ferait un humain. L’agent est capable d’évaluer si un résultat est correct avec le contexte du test, contrairement à un framework d’automatisation classique qui se limite à la comparaison stricte de chaînes de caractères ou à la vérification de propriétés précises sur l’IHM.
    • L’agent apporte de la finesse de jugement dans l’établissement du verdict : à partir de l’analyse de la capture d’écran, comparée au résultat attendu, l’agent décrit les écarts éventuels. Ces écarts peuvent être interprétés par l’agent pour produire un statut “FAIL” si l’écart n’est pas acceptable, ou seulement une remarque accompagnant le statut “PASS”. Par exemple, si le problème vient d’une faute d’orthographe dans le cas de test d’un message attendu, cela sera indiqué, sans créer un statut “FAIL”.

    Comme l’illustre la figure ci-dessous, les agents testeurs sont ainsi plus proches, dans leur comportement, des testeurs manuels que de l’exécution d’un script de test automatiser.

    Figure 5 – Exécuter les tests : manuellement, avec un agent GUI ou par automatisation scriptée

    Cette figure montre aussi que l’exécution par agent IA testeur et l’automatisation sont complémentaires :

    • Un agent testeur apporte des services d’exécution directe par IA des tests manuels et des scénarios Gherkin. Cela permet, par exemple, de gommer des pics de charge liés aux tests manuels lors des cycles de test d’une release.
    • L’automatisation, aujourd’hui assistée par des assistants IA de codage, produit des scripts automatisés à exécuter dans le cadre de la CI/CD.

    Vous devriez essayer !

    Pour se faire une idée des capacités offertes par les agents GUI pour exécuter des scénarios de test, le mieux est de faire un essai :

    • Essayer un agent GUI généraliste : Brower Use Cloud propose une interface pour exécuter, sur l’IHM web, des tâches fournies par l’utilisateur. Vous pouvez l’essayer ici.
    • Essayer un agent GUI testeur : Lynqa est un agent spécialisé pour exécuter des scénarios de tests manuels intégrés à Jira. Il est développé par Smartesting, un éditeur français d’outils de test, où travaille l’auteur de ces lignes. Lynqa est disponible sur la marketplace Atlassian. Vous pouvez aussi essayer le démonstrateur, qui permet des essais à partir d’une interface web.

    Note de fin : partagez vos questions

    Dans cet article, j’ai présenté les agents IA pour exécuter les scénarios de test en langage naturel (tests manuels ou en Gherkin) sur l’IHM du produit à tester.

    Il s’agit d’un nouveau moyen à notre disposition pour exécuter les tests, en complément de l’exécution manuelle (humaine) et de l’automatisation scriptée ou no-code. Ce nouveau moyen soulève des questions quant à son usage, par exemple en matière d’intégration dans le processus de test ou de choix entre l’automatisation classique et ce nouveau moyen.

    Je prévois une deuxième partie pour répondre à ces questions d’usage, ainsi qu’aux questions relatives aux risques (d’erreur, de cybersécurité et liés à l’utilisation responsable de l’IA).

    N’hésitez pas à partager vos points de vue et à poser vos questions dans les commentaires de l’article ; je m’en saisirai pour cette 2ᵉ partie.

    2 réponses

    1. Bonjour,

      Je cherche une formation qui permet d’acquérir des compétences dans ce domaine. Utiliser l’IA generative dans le processus de test. Mais je ne trouve pas beaucoup de retour à ce sujet. La certification Gen-IA est-elle une vraie formation ou alors « principalement » une certification ?

      1. Bonjour Alex, merci pour la question.
        La formation ISTQB CT-GenAI – « Tester avec l’IA générative » est une formation en deux jours avec une forte partie de mise en pratique, et l’examen de certification à la fin. Cette formation est orientée sur l’usage de l’IA générative dans le processus de test. Je vous encourage à regarder le syllabus disponible en anglais sur le site de l’ISTQB et en français sur le site du CFTL. C’est un très bon point d’entrée sur le sujet IA pour les tests.
        Ensuite, si vous voulez aller plus loin, par exemple dans le développement des systèmes d’IA pour les tests, il faudra regarder vers les formations IA pure.

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

    Les petits trucs de testeur
    culture générale

    Les petits trucs de testeur: La revue des cas de test

    Introduction Depuis le début de ma carrière il m’est trop souvent arriver de tomber sur des cas de test que je comprenais de travers ou une campagne qui passait à côté d’un test très important. Je ne vais pas le cacher, le problème venait souvent des anciens tests ou de

    Lire la suite »
    Outils de test
    Automatisation

    Outil de test : automatiser ses tests de navigateur avec Kasaya

    Kasaya En bref : Un nouvel arrivant dans les outils de tests : Kasaya L’avantage de cet outil est que ce que vous voyez c’est ce que vous obtenez. Autrement dit, les actions qui seront décrites (un peu comme du Keyword Driven Testing) dans votre script seront compréhensibles par le navigateur (Chrome

    Lire la suite »