Chez Emelia, nous développons un SaaS de prospection B2B qui intègre l'intelligence artificielle au quotidien. Bridgers, notre agence digitale et IA, accompagne des entreprises dans la conception de solutions intelligentes. Et avec Maylee, notre client email IA-natif, nous explorons constamment les nouvelles manières dont l'IA peut simplifier les interactions avec les interfaces web. Quand Alibaba publie en open source un agent capable de piloter n'importe quelle page web en langage naturel, avec une seule ligne de code, c'est le genre d'outil qui nous interpelle directement. Voici tout ce que vous devez savoir sur page-agent.
Page-agent est une bibliothèque JavaScript open source développée par Alibaba. Son principe est simple : vous intégrez un script dans votre page web, et un agent IA prend le contrôle de l'interface via des commandes en langage naturel. Pas besoin de serveur, pas de Python, pas de navigateur headless. Tout fonctionne côté client, directement dans le navigateur de l'utilisateur.
Concrètement, page-agent transforme n'importe quel site web en application pilotable par l'IA. Vous tapez "Remplis le formulaire de contact avec les informations de l'entreprise Acme", et l'agent s'exécute. Vous dites "Clique sur le bouton de connexion", et il le fait. L'agent analyse le DOM de la page (la structure HTML), identifie les éléments interactifs et exécute les actions demandées.
Le projet a été publié sur GitHub sous licence MIT et accumule déjà plus de 2 900 étoiles. La version actuelle (v1.5.4, sortie le 9 mars 2026) est le fruit de 683 commits et 18 releases. Le projet a fait sensation sur Hacker News (77 points, 37 commentaires) et a été repris sur daily.dev et dans la communauté tech japonaise.
Ce qui distingue page-agent de la plupart des outils d'automatisation web, c'est son approche fondamentalement différente. Là où des solutions comme browser-use, Playwright ou Selenium contrôlent le navigateur depuis l'extérieur (via un serveur, un script Python ou un processus séparé), page-agent vit à l'intérieur de la page web elle-même.
Page-agent fonctionne exclusivement par manipulation textuelle du DOM. Pas de captures d'écran, pas d'OCR, pas de modèle de langage multimodal nécessaire. L'agent parse la structure HTML de la page, identifie les boutons, champs de formulaire, liens et autres éléments interactifs, puis génère les actions appropriées.
Cette approche présente plusieurs avantages majeurs. Premièrement, elle est considérablement moins coûteuse en tokens LLM qu'une approche basée sur la vision (envoyer des captures d'écran à un modèle multimodal coûte cher). Deuxièmement, elle est plus rapide, car le traitement de texte est instantané comparé à l'analyse d'images. Troisièmement, elle ne nécessite aucune permission spéciale du navigateur.
Page-agent adopte une philosophie "Bring Your Own LLM". Vous connectez le modèle de votre choix : GPT-4, Claude, Qwen, Mistral, ou tout autre modèle compatible avec l'API OpenAI. Le traitement DOM dérive de browser-use (sous licence MIT), mais l'intelligence de décision repose sur le LLM que vous fournissez.
Cela signifie que vous gardez le contrôle total sur les coûts, la confidentialité des données et la qualité des réponses. Vous pouvez même utiliser un modèle local si vous le souhaitez.
L'intégration de page-agent est d'une simplicité remarquable. Deux méthodes sont disponibles.
La méthode la plus simple consiste à ajouter une seule balise script dans votre HTML :
``html <script src="https://cdn.jsdelivr.net/npm/page-agent@1.5.4/dist/iife/page-agent.demo.js" crossorigin="true"></script> ``
C'est tout. Une ligne de code et votre page dispose d'un agent IA fonctionnel avec une interface utilisateur intégrée. Cette version de démonstration utilise un LLM de test fourni par Alibaba, idéale pour évaluer l'outil avant de le déployer en production.
Pour un usage en production, vous installez le package via npm :
``bash npm install page-agent ``
Puis vous initialisez l'agent avec votre propre configuration LLM :
```javascript import { PageAgent } from 'page-agent'
const agent = new PageAgent({ model: 'qwen3.5-plus', baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1', apiKey: 'YOUR_API_KEY', language: 'fr-FR', })
await agent.execute('Clique sur le bouton de connexion') ```
Vous remarquerez la simplicité de l'API : un objet de configuration, un appel à execute(), et c'est parti. Le paramètre language permet de localiser l'interface utilisateur de l'agent.
Page-agent ne fonctionne pas en aveugle. Il intègre une interface utilisateur élégante qui apparaît directement dans la page web. Avant chaque action critique, l'utilisateur peut voir ce que l'agent s'apprête à faire et valider ou refuser l'opération. C'est un choix de design fondamental : l'IA assiste, mais l'humain garde le contrôle.
Ce mécanisme de validation humaine est essentiel pour les environnements de production. Imaginez un agent qui remplirait automatiquement un formulaire de commande sans validation. Le human-in-the-loop élimine ce risque.
Par défaut, page-agent opère dans le cadre d'une seule page web. Mais Alibaba propose une extension Chrome optionnelle qui étend les capacités de l'agent à travers plusieurs onglets du navigateur. Cela permet des workflows complexes : ouvrir une page, y extraire des informations, naviguer vers une autre page, et y insérer ces données.
Page-agent supporte plusieurs langues pour son interface utilisateur, ce qui facilite son déploiement dans des contextes internationaux. Le paramètre language dans la configuration permet de basculer entre les langues disponibles.
Pour comprendre ce que page-agent apporte de nouveau, il est indispensable de le comparer aux alternatives existantes. Voici un tableau récapitulatif :
Critère | page-agent | browser-use | Playwright | Selenium |
|---|---|---|---|---|
Exécution dans le navigateur | Oui | Non | Non | Non |
Backend requis | Non | Oui (Python) | Oui | Oui |
Modèles de vision nécessaires | Non | Optionnel | N/A | N/A |
Effort d'intégration | 1 ligne de code | Important | Important | Important |
Human-in-the-loop | Intégré | Non | Non | Non |
Support multi-pages | Extension Chrome | Natif | Natif | Natif |
Langage | JavaScript/TypeScript | Python | Multi-langage | Multi-langage |
Licence | MIT | MIT | Apache 2.0 | Apache 2.0 |
Cas d'usage principal | Copilote in-page | Automatisation serveur | Tests E2E | Tests E2E |
La différence fondamentale est positionnelle. Playwright et Selenium sont des outils de test et d'automatisation qui contrôlent le navigateur depuis l'extérieur. Browser-use ajoute une couche d'IA par-dessus ce paradigme serveur. Page-agent, lui, renverse la logique : l'agent vit dans la page, aux côtés de l'utilisateur.
Ce positionnement crée un cas d'usage entièrement nouveau. Il ne s'agit plus d'automatiser des tâches en arrière-plan, mais de proposer un copilote IA à l'utilisateur final, directement dans son interface de travail.
C'est probablement l'application la plus impactante de page-agent. Aujourd'hui, des entreprises comme Notion, Salesforce ou HubSpot facturent entre 20 et 30 dollars par mois pour leurs fonctionnalités de copilote IA. Ces copilotes font essentiellement la même chose : ils comprennent l'interface, exécutent des actions à la demande de l'utilisateur et proposent de l'assistance contextuelle.
Avec page-agent, n'importe quel éditeur SaaS peut intégrer un copilote IA similaire avec quelques lignes de JavaScript. Pas de refonte backend, pas de nouvelle infrastructure. Vous ajoutez le script, vous connectez un LLM, et vos utilisateurs peuvent piloter votre application en langage naturel.
Pour une startup avec un budget limité, cela signifie pouvoir proposer une fonctionnalité premium d'IA sans les mois de développement que cela impliquerait normalement.
Si vous avez déjà travaillé avec un ERP comme SAP ou un CRM comme Salesforce, vous connaissez la douleur des formulaires à 30 champs. Page-agent peut transformer ces workflows de 20 clics en une seule phrase : "Crée un nouveau contact pour Jean Dupont, directeur commercial chez Acme SAS, email jean@acme.fr, téléphone 01 23 45 67 89".
Pour les équipes commerciales, administratives ou comptables qui passent des heures à saisir des données, le gain de productivité est immédiat.
L'accessibilité web reste un défi majeur. Page-agent ouvre une voie intéressante : permettre à des utilisateurs de piloter des interfaces complexes par commandes vocales ou via un lecteur d'écran, en langage naturel. Au lieu de naviguer avec le clavier à travers des dizaines de menus, un utilisateur malvoyant pourrait simplement dire "Ouvre mes notifications" ou "Envoie un message à l'équipe marketing".
Ce n'est pas une solution d'accessibilité complète, mais c'est une couche d'assistance qui peut considérablement améliorer l'expérience utilisateur pour les personnes en situation de handicap.
Les équipes QA passent un temps considérable à écrire et maintenir des scripts de tests. Avec page-agent, il devient possible de rédiger des tests en langage naturel : "Va sur la page d'inscription, remplis le formulaire avec des données de test, clique sur Valider, et vérifie que le message de confirmation s'affiche."
Cette approche réduit la barrière d'entrée pour les tests automatisés et rend les scénarios de test compréhensibles par des non-développeurs, ce qui facilite la collaboration entre les équipes produit et les équipes techniques.
L'onboarding utilisateur est un enjeu critique pour tout produit SaaS. Au lieu de créer des tutoriels vidéo ou des guides PDF que personne ne lit, vous pourriez intégrer page-agent comme assistant d'onboarding interactif. L'utilisateur dit "Montre-moi comment créer ma première campagne", et l'agent le guide pas à pas dans l'interface, en exécutant les actions ou en les montrant.
Pour les équipes de customer success, cela pourrait réduire considérablement le nombre de tickets de support et accélérer le time-to-value des nouveaux utilisateurs.
Pour rendre les choses encore plus tangibles, voici quelques scénarios concrets.
Votre CRM piloté à la voix. Vous êtes en réunion téléphonique avec un prospect. Au lieu de naviguer frénétiquement dans votre CRM pour retrouver ses informations, vous tapez (ou dites, via un module de reconnaissance vocale) : "Affiche la fiche contact de Martin Lefèvre chez TechCorp." L'agent identifie le champ de recherche, entre le nom, clique sur le bon résultat et affiche la fiche. Vous n'avez pas quitté votre conversation des yeux.
Le remplissage de formulaires ERP. Vous recevez un bon de commande par email. Au lieu de recopier manuellement les 15 champs du formulaire de saisie dans votre ERP, vous copiez les informations et demandez à l'agent : "Crée une nouvelle commande fournisseur avec ces informations : Fournisseur ABC Industries, référence PO-2026-0342, 500 unités du produit X à 12,50 euros l'unité, livraison prévue le 15 avril." L'agent remplit le formulaire et attend votre validation avant de soumettre.
L'onboarding client interactif. Un nouveau client vient de souscrire à votre plateforme. Au lieu d'un email de bienvenue avec un PDF de 20 pages, il trouve un assistant IA directement dans l'interface qui lui dit : "Bienvenue ! Voulez-vous que je vous montre comment configurer votre premier projet ?" Le client répond oui, et l'agent le guide action par action.
Comme tout outil, page-agent n'est pas parfait. Il est important de comprendre ses limites avant de l'adopter.
Page-agent fonctionne exclusivement dans le navigateur de l'utilisateur. Cela signifie qu'il ne peut pas effectuer de tâches en arrière-plan, programmer des exécutions planifiées ou fonctionner sans qu'un utilisateur soit présent. Pour de l'automatisation serveur classique (scraping de données, workflows nocturnes, intégrations API), vous aurez toujours besoin d'outils comme Playwright ou browser-use.
Chaque action de l'agent nécessite un appel au modèle de langage. Pour des workflows simples (un clic, un champ à remplir), le coût est négligeable. Mais pour des scénarios complexes impliquant de nombreuses étapes, les tokens LLM s'accumulent. Il est important de choisir un modèle offrant un bon rapport qualité-prix et de surveiller la consommation.
Les pages web modernes utilisent des frameworks JavaScript sophistiqués (React, Vue, Angular) qui génèrent des structures DOM complexes, avec des composants imbriqués, des éléments virtuels et du rendu dynamique. Page-agent peut avoir des difficultés avec certaines interfaces très complexes ou des éléments qui ne sont pas représentés de manière standard dans le DOM.
Sans l'extension Chrome, page-agent est limité à la page courante. Les workflows nécessitant de naviguer entre plusieurs sites ou onglets requièrent l'installation de l'extension, ce qui ajoute une étape de déploiement.
Avec 2 900 étoiles et une communauté encore jeune (9 contributeurs), page-agent reste un projet relativement récent. La documentation, bien que fonctionnelle, n'est pas aussi exhaustive que celle de Playwright ou Selenium. Pour un déploiement en production critique, il faut prendre en compte ce facteur de maturité.
1. Testez la démo en une ligne. Ajoutez la balise script CDN dans n'importe quelle page HTML pour voir l'agent en action avec le LLM de démonstration.
2. Installez via NPM. Lancez npm install page-agent dans votre projet.
3. Configurez votre LLM. Choisissez votre modèle (GPT-4, Claude, Qwen) et configurez l'objet PageAgent avec vos clés API.
4. Testez des commandes simples. Commencez par des actions basiques : "Clique sur ce bouton", "Remplis ce champ avec telle valeur".
5. Explorez les workflows complexes. Enchaînez plusieurs actions, testez la navigation dans les formulaires, essayez des commandes en langage naturel plus élaborées.
6. Installez l'extension Chrome (optionnel). Si vous avez besoin de workflows multi-pages, installez l'extension pour étendre les capacités de l'agent.
7. Déployez en production. Passez du LLM de démo à votre propre modèle, ajustez les paramètres de langue et intégrez l'agent dans votre application.
Page-agent est fait pour vous si :
Vous êtes un éditeur SaaS et vous souhaitez ajouter un copilote IA à votre produit sans refondre votre backend.
Vous gérez des outils internes complexes (ERP, CRM, back-office) et vous voulez simplifier l'expérience utilisateur.
Vous travaillez sur l'accessibilité de vos applications web.
Vous cherchez une alternative aux scripts de test traditionnels pour votre équipe QA.
Vous êtes une agence et vous souhaitez prototyper rapidement des expériences IA pour vos clients.
Page-agent n'est probablement pas pour vous si :
Vous avez besoin d'automatisation serveur en arrière-plan (workflows planifiés, crawling de données).
Vous recherchez une solution mature avec un écosystème étendu et une communauté large.
Vous travaillez sur des applications natives mobiles ou desktop (page-agent est exclusivement web).
Vous avez besoin de contrôler des navigateurs à distance dans le cloud (pour cela, regardez du côté de browser-use ou Playwright).
Au-delà de l'outil lui-même, page-agent illustre une tendance de fond : la démocratisation de la couche copilote IA. Les entreprises qui facturent aujourd'hui des abonnements premium pour des assistants IA intégrés à leurs logiciels voient arriver un outil open source capable de reproduire cette fonctionnalité avec trois lignes de code.
Cela ne signifie pas que les copilotes propriétaires vont disparaître. Ils offrent souvent une intégration plus profonde, des fonctionnalités spécifiques au produit et un support dédié. Mais page-agent abaisse drastiquement la barrière d'entrée. Pour les milliers de SaaS, d'outils internes et d'applications web qui n'auraient jamais eu les ressources pour développer un copilote IA, c'est une porte qui s'ouvre.
Le fait qu'Alibaba publie cet outil en open source, sous licence MIT, sans restriction d'usage, est un signal fort. Après la course aux modèles de langage (Qwen, LLaMA, Mistral), c'est la couche d'application IA qui s'ouvre au plus grand nombre. Page-agent est un des premiers outils à concrétiser cette vision : l'IA comme couche universelle d'interaction avec le web, accessible à tout développeur disposant d'un éditeur de code et d'une clé API.

Aucun engagement, des prix pour vous aider à augmenter votre prospection.
Vous n'avez pas besoin de crédits si vous voulez simplement envoyer des emails ou faire des actions sur LinkedIn
Peuvent être utilisés pour :
Trouver Emails
Action IA
Trouver des Numéros
Vérifier des Emails