Page-Agent : Le Copilote IA d'Alibaba Open Source

Niels
Niels Co-founder
Publié le 10 mars 2026

Chez Emelia, nous développons un SaaS de prospection B2B qui intègre l'intelligence artificielle au quotidien. Bridgers, notre agence digitale et IA, accompagne des entreprises dans la conception de solutions intelligentes. Et avec Maylee, notre client email IA-natif, nous explorons constamment les nouvelles manières dont l'IA peut simplifier les interactions avec les interfaces web. Quand Alibaba publie en open source un agent capable de piloter n'importe quelle page web en langage naturel, avec une seule ligne de code, c'est le genre d'outil qui nous interpelle directement. Voici tout ce que vous devez savoir sur page-agent.

Qu'est-ce que page-agent d'Alibaba ?

Alibaba Cloud Logo

Page-agent est une bibliothèque JavaScript open source développée par Alibaba. Son principe est simple : vous intégrez un script dans votre page web, et un agent IA prend le contrôle de l'interface via des commandes en langage naturel. Pas besoin de serveur, pas de Python, pas de navigateur headless. Tout fonctionne côté client, directement dans le navigateur de l'utilisateur.

Concrètement, page-agent transforme n'importe quel site web en application pilotable par l'IA. Vous tapez "Remplis le formulaire de contact avec les informations de l'entreprise Acme", et l'agent s'exécute. Vous dites "Clique sur le bouton de connexion", et il le fait. L'agent analyse le DOM de la page (la structure HTML), identifie les éléments interactifs et exécute les actions demandées.

Le projet a été publié sur GitHub sous licence MIT et accumule déjà plus de 2 900 étoiles. La version actuelle (v1.5.4, sortie le 9 mars 2026) est le fruit de 683 commits et 18 releases. Le projet a fait sensation sur Hacker News (77 points, 37 commentaires) et a été repris sur daily.dev et dans la communauté tech japonaise.

Comment fonctionne page-agent ? L'architecture technique

Ce qui distingue page-agent de la plupart des outils d'automatisation web, c'est son approche fondamentalement différente. Là où des solutions comme browser-use, Playwright ou Selenium contrôlent le navigateur depuis l'extérieur (via un serveur, un script Python ou un processus séparé), page-agent vit à l'intérieur de la page web elle-même.

Page-Agent AI Copilot Concept

Manipulation du DOM sans vision

Page-agent fonctionne exclusivement par manipulation textuelle du DOM. Pas de captures d'écran, pas d'OCR, pas de modèle de langage multimodal nécessaire. L'agent parse la structure HTML de la page, identifie les boutons, champs de formulaire, liens et autres éléments interactifs, puis génère les actions appropriées.

Cette approche présente plusieurs avantages majeurs. Premièrement, elle est considérablement moins coûteuse en tokens LLM qu'une approche basée sur la vision (envoyer des captures d'écran à un modèle multimodal coûte cher). Deuxièmement, elle est plus rapide, car le traitement de texte est instantané comparé à l'analyse d'images. Troisièmement, elle ne nécessite aucune permission spéciale du navigateur.

BYOLLM : Apportez votre propre modèle de langage

Page-agent adopte une philosophie "Bring Your Own LLM". Vous connectez le modèle de votre choix : GPT-4, Claude, Qwen, Mistral, ou tout autre modèle compatible avec l'API OpenAI. Le traitement DOM dérive de browser-use (sous licence MIT), mais l'intelligence de décision repose sur le LLM que vous fournissez.

Cela signifie que vous gardez le contrôle total sur les coûts, la confidentialité des données et la qualité des réponses. Vous pouvez même utiliser un modèle local si vous le souhaitez.

Comment installer et intégrer page-agent ?

L'intégration de page-agent est d'une simplicité remarquable. Deux méthodes sont disponibles.

Méthode 1 : La balise script (une seule ligne de code)

La méthode la plus simple consiste à ajouter une seule balise script dans votre HTML :

``html <script src="https://cdn.jsdelivr.net/npm/page-agent@1.5.4/dist/iife/page-agent.demo.js" crossorigin="true"></script> ``

C'est tout. Une ligne de code et votre page dispose d'un agent IA fonctionnel avec une interface utilisateur intégrée. Cette version de démonstration utilise un LLM de test fourni par Alibaba, idéale pour évaluer l'outil avant de le déployer en production.

Méthode 2 : Installation via NPM (pour la production)

Pour un usage en production, vous installez le package via npm :

``bash npm install page-agent ``

Puis vous initialisez l'agent avec votre propre configuration LLM :

```javascript import { PageAgent } from 'page-agent'

const agent = new PageAgent({ model: 'qwen3.5-plus', baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1', apiKey: 'YOUR_API_KEY', language: 'fr-FR', })

await agent.execute('Clique sur le bouton de connexion') ```

Vous remarquerez la simplicité de l'API : un objet de configuration, un appel à execute(), et c'est parti. Le paramètre language permet de localiser l'interface utilisateur de l'agent.

Les fonctionnalités clés de page-agent

Interface utilisateur avec validation humaine (human-in-the-loop)

Page-agent ne fonctionne pas en aveugle. Il intègre une interface utilisateur élégante qui apparaît directement dans la page web. Avant chaque action critique, l'utilisateur peut voir ce que l'agent s'apprête à faire et valider ou refuser l'opération. C'est un choix de design fondamental : l'IA assiste, mais l'humain garde le contrôle.

Ce mécanisme de validation humaine est essentiel pour les environnements de production. Imaginez un agent qui remplirait automatiquement un formulaire de commande sans validation. Le human-in-the-loop élimine ce risque.

Extension Chrome pour les tâches multi-pages

Par défaut, page-agent opère dans le cadre d'une seule page web. Mais Alibaba propose une extension Chrome optionnelle qui étend les capacités de l'agent à travers plusieurs onglets du navigateur. Cela permet des workflows complexes : ouvrir une page, y extraire des informations, naviguer vers une autre page, et y insérer ces données.

Compatibilité multilingue

Page-agent supporte plusieurs langues pour son interface utilisateur, ce qui facilite son déploiement dans des contextes internationaux. Le paramètre language dans la configuration permet de basculer entre les langues disponibles.

Page-agent vs browser-use vs Playwright vs Selenium : le comparatif

Pour comprendre ce que page-agent apporte de nouveau, il est indispensable de le comparer aux alternatives existantes. Voici un tableau récapitulatif :

Critère

page-agent

browser-use

Playwright

Selenium

Exécution dans le navigateur

Oui

Non

Non

Non

Backend requis

Non

Oui (Python)

Oui

Oui

Modèles de vision nécessaires

Non

Optionnel

N/A

N/A

Effort d'intégration

1 ligne de code

Important

Important

Important

Human-in-the-loop

Intégré

Non

Non

Non

Support multi-pages

Extension Chrome

Natif

Natif

Natif

Langage

JavaScript/TypeScript

Python

Multi-langage

Multi-langage

Licence

MIT

MIT

Apache 2.0

Apache 2.0

Cas d'usage principal

Copilote in-page

Automatisation serveur

Tests E2E

Tests E2E

La différence fondamentale est positionnelle. Playwright et Selenium sont des outils de test et d'automatisation qui contrôlent le navigateur depuis l'extérieur. Browser-use ajoute une couche d'IA par-dessus ce paradigme serveur. Page-agent, lui, renverse la logique : l'agent vit dans la page, aux côtés de l'utilisateur.

Ce positionnement crée un cas d'usage entièrement nouveau. Il ne s'agit plus d'automatiser des tâches en arrière-plan, mais de proposer un copilote IA à l'utilisateur final, directement dans son interface de travail.

Les cas d'usage concrets de page-agent

Transformer votre SaaS en produit IA en quelques lignes de code

C'est probablement l'application la plus impactante de page-agent. Aujourd'hui, des entreprises comme Notion, Salesforce ou HubSpot facturent entre 20 et 30 dollars par mois pour leurs fonctionnalités de copilote IA. Ces copilotes font essentiellement la même chose : ils comprennent l'interface, exécutent des actions à la demande de l'utilisateur et proposent de l'assistance contextuelle.

Avec page-agent, n'importe quel éditeur SaaS peut intégrer un copilote IA similaire avec quelques lignes de JavaScript. Pas de refonte backend, pas de nouvelle infrastructure. Vous ajoutez le script, vous connectez un LLM, et vos utilisateurs peuvent piloter votre application en langage naturel.

Pour une startup avec un budget limité, cela signifie pouvoir proposer une fonctionnalité premium d'IA sans les mois de développement que cela impliquerait normalement.

Automatiser le remplissage de formulaires complexes (ERP, CRM, back-office)

Si vous avez déjà travaillé avec un ERP comme SAP ou un CRM comme Salesforce, vous connaissez la douleur des formulaires à 30 champs. Page-agent peut transformer ces workflows de 20 clics en une seule phrase : "Crée un nouveau contact pour Jean Dupont, directeur commercial chez Acme SAS, email jean@acme.fr, téléphone 01 23 45 67 89".

Pour les équipes commerciales, administratives ou comptables qui passent des heures à saisir des données, le gain de productivité est immédiat.

Améliorer l'accessibilité des applications web

L'accessibilité web reste un défi majeur. Page-agent ouvre une voie intéressante : permettre à des utilisateurs de piloter des interfaces complexes par commandes vocales ou via un lecteur d'écran, en langage naturel. Au lieu de naviguer avec le clavier à travers des dizaines de menus, un utilisateur malvoyant pourrait simplement dire "Ouvre mes notifications" ou "Envoie un message à l'équipe marketing".

Ce n'est pas une solution d'accessibilité complète, mais c'est une couche d'assistance qui peut considérablement améliorer l'expérience utilisateur pour les personnes en situation de handicap.

Créer des tests automatisés en langage naturel

Les équipes QA passent un temps considérable à écrire et maintenir des scripts de tests. Avec page-agent, il devient possible de rédiger des tests en langage naturel : "Va sur la page d'inscription, remplis le formulaire avec des données de test, clique sur Valider, et vérifie que le message de confirmation s'affiche."

Cette approche réduit la barrière d'entrée pour les tests automatisés et rend les scénarios de test compréhensibles par des non-développeurs, ce qui facilite la collaboration entre les équipes produit et les équipes techniques.

Guider les utilisateurs pour le customer success

L'onboarding utilisateur est un enjeu critique pour tout produit SaaS. Au lieu de créer des tutoriels vidéo ou des guides PDF que personne ne lit, vous pourriez intégrer page-agent comme assistant d'onboarding interactif. L'utilisateur dit "Montre-moi comment créer ma première campagne", et l'agent le guide pas à pas dans l'interface, en exécutant les actions ou en les montrant.

Pour les équipes de customer success, cela pourrait réduire considérablement le nombre de tickets de support et accélérer le time-to-value des nouveaux utilisateurs.

Scénarios concrets : imaginez page-agent dans votre quotidien

Pour rendre les choses encore plus tangibles, voici quelques scénarios concrets.

Votre CRM piloté à la voix. Vous êtes en réunion téléphonique avec un prospect. Au lieu de naviguer frénétiquement dans votre CRM pour retrouver ses informations, vous tapez (ou dites, via un module de reconnaissance vocale) : "Affiche la fiche contact de Martin Lefèvre chez TechCorp." L'agent identifie le champ de recherche, entre le nom, clique sur le bon résultat et affiche la fiche. Vous n'avez pas quitté votre conversation des yeux.

Le remplissage de formulaires ERP. Vous recevez un bon de commande par email. Au lieu de recopier manuellement les 15 champs du formulaire de saisie dans votre ERP, vous copiez les informations et demandez à l'agent : "Crée une nouvelle commande fournisseur avec ces informations : Fournisseur ABC Industries, référence PO-2026-0342, 500 unités du produit X à 12,50 euros l'unité, livraison prévue le 15 avril." L'agent remplit le formulaire et attend votre validation avant de soumettre.

L'onboarding client interactif. Un nouveau client vient de souscrire à votre plateforme. Au lieu d'un email de bienvenue avec un PDF de 20 pages, il trouve un assistant IA directement dans l'interface qui lui dit : "Bienvenue ! Voulez-vous que je vous montre comment configurer votre premier projet ?" Le client répond oui, et l'agent le guide action par action.

Les limites de page-agent : ce qu'il faut savoir

Comme tout outil, page-agent n'est pas parfait. Il est important de comprendre ses limites avant de l'adopter.

Exécution côté client uniquement

Page-agent fonctionne exclusivement dans le navigateur de l'utilisateur. Cela signifie qu'il ne peut pas effectuer de tâches en arrière-plan, programmer des exécutions planifiées ou fonctionner sans qu'un utilisateur soit présent. Pour de l'automatisation serveur classique (scraping de données, workflows nocturnes, intégrations API), vous aurez toujours besoin d'outils comme Playwright ou browser-use.

Coûts liés aux appels LLM

Chaque action de l'agent nécessite un appel au modèle de langage. Pour des workflows simples (un clic, un champ à remplir), le coût est négligeable. Mais pour des scénarios complexes impliquant de nombreuses étapes, les tokens LLM s'accumulent. Il est important de choisir un modèle offrant un bon rapport qualité-prix et de surveiller la consommation.

Complexité du DOM et pages dynamiques

Les pages web modernes utilisent des frameworks JavaScript sophistiqués (React, Vue, Angular) qui génèrent des structures DOM complexes, avec des composants imbriqués, des éléments virtuels et du rendu dynamique. Page-agent peut avoir des difficultés avec certaines interfaces très complexes ou des éléments qui ne sont pas représentés de manière standard dans le DOM.

Multi-pages limité sans extension

Sans l'extension Chrome, page-agent est limité à la page courante. Les workflows nécessitant de naviguer entre plusieurs sites ou onglets requièrent l'installation de l'extension, ce qui ajoute une étape de déploiement.

Maturité du projet

Avec 2 900 étoiles et une communauté encore jeune (9 contributeurs), page-agent reste un projet relativement récent. La documentation, bien que fonctionnelle, n'est pas aussi exhaustive que celle de Playwright ou Selenium. Pour un déploiement en production critique, il faut prendre en compte ce facteur de maturité.

Comment démarrer avec page-agent : guide étape par étape

1. Testez la démo en une ligne. Ajoutez la balise script CDN dans n'importe quelle page HTML pour voir l'agent en action avec le LLM de démonstration.

2. Installez via NPM. Lancez npm install page-agent dans votre projet.

3. Configurez votre LLM. Choisissez votre modèle (GPT-4, Claude, Qwen) et configurez l'objet PageAgent avec vos clés API.

4. Testez des commandes simples. Commencez par des actions basiques : "Clique sur ce bouton", "Remplis ce champ avec telle valeur".

5. Explorez les workflows complexes. Enchaînez plusieurs actions, testez la navigation dans les formulaires, essayez des commandes en langage naturel plus élaborées.

6. Installez l'extension Chrome (optionnel). Si vous avez besoin de workflows multi-pages, installez l'extension pour étendre les capacités de l'agent.

7. Déployez en production. Passez du LLM de démo à votre propre modèle, ajustez les paramètres de langue et intégrez l'agent dans votre application.

Qui devrait utiliser page-agent ?

Page-agent est fait pour vous si :

  • Vous êtes un éditeur SaaS et vous souhaitez ajouter un copilote IA à votre produit sans refondre votre backend.

  • Vous gérez des outils internes complexes (ERP, CRM, back-office) et vous voulez simplifier l'expérience utilisateur.

  • Vous travaillez sur l'accessibilité de vos applications web.

  • Vous cherchez une alternative aux scripts de test traditionnels pour votre équipe QA.

  • Vous êtes une agence et vous souhaitez prototyper rapidement des expériences IA pour vos clients.

Page-agent n'est probablement pas pour vous si :

  • Vous avez besoin d'automatisation serveur en arrière-plan (workflows planifiés, crawling de données).

  • Vous recherchez une solution mature avec un écosystème étendu et une communauté large.

  • Vous travaillez sur des applications natives mobiles ou desktop (page-agent est exclusivement web).

  • Vous avez besoin de contrôler des navigateurs à distance dans le cloud (pour cela, regardez du côté de browser-use ou Playwright).

Ce que page-agent révèle sur l'avenir des interfaces web

Au-delà de l'outil lui-même, page-agent illustre une tendance de fond : la démocratisation de la couche copilote IA. Les entreprises qui facturent aujourd'hui des abonnements premium pour des assistants IA intégrés à leurs logiciels voient arriver un outil open source capable de reproduire cette fonctionnalité avec trois lignes de code.

Cela ne signifie pas que les copilotes propriétaires vont disparaître. Ils offrent souvent une intégration plus profonde, des fonctionnalités spécifiques au produit et un support dédié. Mais page-agent abaisse drastiquement la barrière d'entrée. Pour les milliers de SaaS, d'outils internes et d'applications web qui n'auraient jamais eu les ressources pour développer un copilote IA, c'est une porte qui s'ouvre.

Le fait qu'Alibaba publie cet outil en open source, sous licence MIT, sans restriction d'usage, est un signal fort. Après la course aux modèles de langage (Qwen, LLaMA, Mistral), c'est la couche d'application IA qui s'ouvre au plus grand nombre. Page-agent est un des premiers outils à concrétiser cette vision : l'IA comme couche universelle d'interaction avec le web, accessible à tout développeur disposant d'un éditeur de code et d'une clé API.

logo emelia

Découvrez Emelia, votre outil de prospection tout en un.

logo emelia

Des prix clairs, transparents et sans frais cachés.

Aucun engagement, des prix pour vous aider à augmenter votre prospection.

Start

37€

/mois

Envoi d'emails illimités

Connecter 1 compte LinkedIn

Actions LinkedIn illimitées

Email Warmup inclus

Scraping illimité

Contacts illimités

Grow

Populaire
arrow-right
97€

/mois

Envoi d'emails illimités

Jusqu'à 5 comptes LinkedIn

Actions LinkedIn illimitées

Warmup illimité

Contacts illimités

1 intégration CRM

Scale

297€

/mois

Envoi d'emails illimités

Jusqu'à 20 comptes LinkedIn

Actions LinkedIn illimitées

Warmup illimité

Contacts illimités

Multi CRM Connexion

Unlimited API Calls

Crédits(optionnel)

Vous n'avez pas besoin de crédits si vous voulez simplement envoyer des emails ou faire des actions sur LinkedIn

Peuvent être utilisés pour :

Trouver Emails

Action IA

Trouver des Numéros

Vérifier des Emails

1 000
5 000
10 000
50 000
100 000
1 000 Emails trouvés
1 000 IA Actions
20 Numéros
4 000 Vérifications
19par mois

Découvrez d'autres articles qui pourraient vous intéresser !

Voir tous les articles
MathieuMathieu Co-founder
Lire la suite
Logiciels
Publié le 30 juin 2024

Waalaxy : Avis, Prix, Alternatives (2026)

MarieMarie Head Of Sales
Lire la suite
MarieMarie Head Of Sales
Lire la suite
MathieuMathieu Co-founder
Lire la suite
Prospection B2B
Publié le 28 mai 2025

Qu'est-ce que le marketing B2B? Et par quoi commencer.

NielsNiels Co-founder
Lire la suite
Made with ❤ for Growth Marketers by Growth Marketers
Copyright © 2026 Emelia All Rights Reserved