Chez Emelia, notre outil de prospection B2B, et chez Bridgers, notre agence digitale specialisee en IA, nous construisons quotidiennement des pipelines de donnees qui alimentent des modeles d'intelligence artificielle. Extraction de contenu web, enrichissement de bases prospects, veille concurrentielle automatisee : le web crawling est au coeur de nos workflows. Quand Cloudflare annonce un nouvel endpoint capable d'aspirer un site entier en un seul appel API, cela merite une analyse approfondie.
Le 10 mars 2026, Cloudflare a lance /crawl, un nouvel endpoint integre a son service Browser Rendering. Le tweet d'annonce de @CloudflareDev a depasse les 2 millions d'impressions, 7 800 likes et 8 600 bookmarks en moins de 24 heures. Le message est clair : "One API call and an entire site crawled." Pas de scripts. Pas de gestion de navigateur. Juste le contenu, en HTML, Markdown ou JSON.
Le fonctionnement repose sur un systeme asynchrone en deux etapes.
Etape 1 : Lancer le crawl. Vous envoyez une requete POST avec l'URL de depart. L'API retourne immediatement un identifiant de job.
Etape 2 : Recuperer les resultats. Vous interrogez l'API avec cet identifiant via une requete GET. Les resultats arrivent au fil du traitement, avec un systeme de curseur pour la pagination.
Le crawler decouvre automatiquement les URLs a partir de trois sources : l'URL de depart, le sitemap du site, et les liens presents sur chaque page. Il respecte le fichier robots.txt et s'identifie comme un bot, ce que Kathy Liao, Product Manager chez Cloudflare, a souligne a plusieurs reprises face aux critiques :
Parametre | Type | Description |
|---|---|---|
url | String | URL de depart (obligatoire) |
limit | Number | Nombre maximum de pages (defaut : 10, max : 100 000) |
depth | Number | Profondeur maximale de crawl (max : 100 000) |
formats | Array | Formats de sortie : html, markdown, json |
render | Boolean | Executer le JavaScript (defaut : true) |
source | String | Decouverte d'URLs : all, sitemaps, links |
maxAge | Number | Duree du cache en secondes (max : 7 jours) |
includePatterns | Array | Patterns wildcard pour filtrer les URLs incluses |
excludePatterns | Array | Patterns wildcard pour exclure des URLs |
L'option render: false est particulierement interessante : elle desactive le navigateur headless et effectue un simple fetch HTTP, ce qui est beaucoup plus rapide et moins couteux. Pendant la beta, ce mode est gratuit.
Voici comment lancer un crawl complet avec curl :
```bash
# Etape 1 : Lancer le crawl curl -X POST \ "https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl" \ -H "Authorization: Bearer {api_token}" \ -H "Content-Type: application/json" \ -d '{ "url": "https://example.com", "limit": 50, "formats": ["markdown", "html"], "render": true }'
# Reponse : { "success": true, "result": "job-id-xxx" }
# Etape 2 : Recuperer les resultats curl "https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl/job-id-xxx" \ -H "Authorization: Bearer {api_token}" ```
Chaque page dans la reponse contient l'URL, le titre, le statut, et le contenu dans les formats demandes. Pour les sites dynamiques (React, Vue, Angular), le mode render: true lance un veritable navigateur Chrome headless qui execute le JavaScript avant d'extraire le contenu.
Pour une extraction structuree en JSON, vous pouvez fournir un prompt ou un schema :
``json { "url": "https://shop.example.com", "formats": ["json"], "jsonOptions": { "prompt": "Extraire le nom du produit, le prix et la description", "response_format": { "type": "json_schema", "json_schema": { "name": "product", "schema": { "type": "object", "properties": { "name": { "type": "string" }, "price": { "type": "number" }, "description": { "type": "string" } } } } } } } ``
Cette extraction utilise Workers AI en arriere-plan, ce qui genere des couts additionnels.
L'un des arguments massue de Cloudflare est le prix. Voici la grille tarifaire :
Fonctionnalite | Limite |
|---|---|
Temps de navigateur | 10 minutes par jour |
Jobs /crawl par jour | 5 |
Pages max par crawl | 100 |
Requetes API (REST) | 6 par minute |
Navigateurs simultanes | 3 |
Fonctionnalite | Limite |
|---|---|
Heures de navigateur incluses | 10 heures/mois |
Heure supplementaire | 0,09 $/heure |
Requetes API (REST) | 600 par minute |
Navigateurs simultanes | 30 |
Pages max par crawl | 100 000 |
Le mode render: false (sans execution JavaScript) est gratuit pendant la beta et sera ensuite facture au tarif Workers standard. Les jobs de crawl ont une duree maximale de 7 jours, et les resultats restent disponibles pendant 14 jours.
Pour vous donner un ordre de grandeur : avec le plan payant a 5 $/mois, vous disposez de 10 heures de rendu navigateur incluses. Si un crawl de 100 pages prend environ 5 minutes de temps navigateur, vous pouvez crawler environ 12 000 pages par mois pour 5 dollars.
Le marche du web crawling pour l'IA est en pleine ebullition. Voici comment Cloudflare se positionne face a ses concurrents directs.
Fonctionnalite | Cloudflare /crawl | Firecrawl | Crawl4AI | Jina Reader |
|---|---|---|---|---|
Prix d'entree | Gratuit (5 $/mois pour le plan payant) | Gratuit (500 pages), puis 19 $/mois | Gratuit (open source) | Gratuit (20 req/min sans cle) |
Prix volume | 0,09 $/heure navigateur | 47 $/mois (100k pages), 599 $/mois (1M pages) | Gratuit (self-hosted) | Token-based (a partir de 0,01 $/1M tokens) |
Crawl multi-pages | Oui (jusqu'a 100 000 pages) | Oui | Oui | Non (page par page) |
Profondeur de crawl | Jusqu'a 100 000 niveaux | Configurable | Configurable | N/A |
Formats de sortie | HTML, Markdown, JSON | HTML, Markdown, JSON, Screenshot | HTML, Markdown, JSON | Markdown, HTML |
Rendu JavaScript | Oui (Chrome headless) | Oui | Oui (Playwright/Chromium) | Oui (Puppeteer) |
Extraction IA structuree | Oui (Workers AI) | Oui (LLM extract) | Oui (LLM strategies) | Non |
Respect robots.txt | Oui (par defaut) | Optionnel | Configurable | Oui |
Requetes simultanees | 30 (plan payant) | 5 a 150 selon le plan | Illimite (self-hosted) | 2 a 500 selon le plan |
Infrastructure | Serverless (Cloudflare edge) | Cloud SaaS | Self-hosted ou Docker | Cloud SaaS |
Open source | Non | Non | Oui (Apache 2.0) | Partiellement |
Si vous utilisez deja l'ecosysteme Cloudflare (Workers, R2, KV), l'integration est naturelle. Le rapport qualite/prix est imbattable pour les crawls de gros volume grace a la facturation au temps plutot qu'a la page. Le mode render: false, gratuit pendant la beta, est ideal pour les sites statiques.
Firecrawl excelle dans la simplicite de son SDK et ses fonctionnalites orientees IA (extraction LLM, screenshots, map). Si vous avez besoin d'un outil plug-and-play avec un excellent DX (Developer Experience) et que vous ne voulez pas gerer d'infrastructure, c'est un choix solide. Le cout par page est cependant plus eleve a grande echelle.
Avec plus de 61 000 etoiles sur GitHub, Crawl4AI est le choix des equipes qui veulent un controle total. Open source, self-hosted, pas de limites de taux imposees. Ideal pour les pipelines de training IA ou les projets de recherche avec des budgets serres.
Jina Reader est parfait pour la conversion page par page en format LLM-friendly. Un simple prepend de https://r.jina.ai/ devant n'importe quelle URL et vous obtenez du Markdown propre. Pas de crawl multi-pages natif, mais une simplicite d'utilisation inegalee pour les cas simples.
L'annonce de Cloudflare n'est pas un hasard. Elle arrive dans un contexte ou la demande de donnees web structurees pour alimenter les modeles d'IA explose.
Le crawl-to-refer ratio (le nombre de fois ou un bot IA visite un site par rapport au nombre de visiteurs qu'il renvoie) atteint des niveaux vertigineux : 1 700:1 pour OpenAI, 73 000:1 pour Anthropic selon les propres donnees de Cloudflare. Les bots IA consomment massivement du contenu web, et les developpeurs ont besoin d'outils fiables pour faire de meme.
Le cas d'usage le plus evident est l'alimentation de bases de connaissances pour des systemes RAG. Avec /crawl, vous pouvez aspirer toute la documentation d'un produit en Markdown, la chunker, la vectoriser, et l'injecter dans un index pour que vos agents IA y repondent avec precision.
Crawlez periodiquement les sites de vos concurrents pour detecter les changements de prix, les nouveaux produits, ou les modifications de positionnement. Le parametre modifiedSince permet de ne recuperer que les pages modifiees depuis le dernier crawl, pour des crawls differentiels efficaces.
Extraire toutes les pages d'un site pour analyser les balises title, les meta descriptions, la structure des headings, les liens internes et les erreurs 404. Le format JSON avec extraction IA structuree permet d'obtenir directement des donnees exploitables.
Au-dela des cas theoriques, voici des scenarios concrets que nous observons deja :
Migration de contenu. Vous changez de CMS ? Crawlez l'ancien site en Markdown, nettoyez le contenu, et importez-le dans le nouveau systeme. Plus besoin d'exports manuels ou de plugins bancals.
Monitoring de conformite. Les equipes juridiques peuvent surveiller automatiquement les mentions legales, conditions d'utilisation et politiques de confidentialite sur un portefeuille de sites.
Construction de datasets d'entrainement. Les equipes de Machine Learning peuvent constituer des corpus de texte a partir de sources publiques, en respectant le robots.txt, pour fine-tuner des modeles specialises.
Analyse de contenu editoriale. Les equipes marketing peuvent analyser la strategie de contenu de leurs concurrents : quels sujets couvrent-ils ? Quelle est leur frequence de publication ? Quels mots-cles ciblent-ils ?
L'annonce n'a pas manque de soulever des reactions passionnees dans la communaute developpeur. L'entreprise qui a bati sa reputation sur la protection anti-bots vend desormais un outil de crawling. Comme l'a resume un ingenieur SRE :
Un tweet viral de @TukiFromKL (496 000 impressions, 3 700 likes) a qualifie l'annonce de "plus grande trahison tech de l'annee". La reponse de Kathy Liao, Product Manager Cloudflare, a ete immediate et sans ambiguite :
La position de Cloudflare est claire : /crawl s'identifie comme un bot, respecte robots.txt, et ne contourne aucune protection anti-bot. Si un proprietaire de site bloque les bots, le crawl echouera. C'est une approche qui donne le controle aux proprietaires de contenu, contrairement a certains crawlers qui tentent de se faire passer pour des navigateurs humains.
Pour les developpeurs qui veulent comprendre comment cela fonctionne en interne, voici les details techniques importants.
Le /crawl endpoint repose sur l'infrastructure Browser Rendering de Cloudflare, qui execute des instances Chrome headless sur le reseau edge mondial de Cloudflare. Quand vous lancez un crawl avec render: true, chaque page est chargee dans une veritable instance de navigateur, le JavaScript est execute, les requetes AJAX sont completees, et le DOM final est capture. C'est ce qui rend l'outil capable de gerer les Single Page Applications (SPA) modernes.
Avec render: false, le processus est radicalement different : Cloudflare effectue un simple fetch HTTP via Workers, sans lancer de navigateur. Le resultat est brut (pas de rendu JavaScript), mais la vitesse et le cout sont incomparables. Ce mode est particulierement adapte pour les sites de documentation, les blogs statiques, ou tout site qui genere son HTML cote serveur.
Le systeme de cache est egalement bien concu. Le parametre maxAge permet de definir combien de temps les resultats sont mis en cache dans R2 (le stockage objet de Cloudflare). Les correspondances sont exactes sur l'URL. Si vous crawlez le meme site deux fois dans la fenetre de cache, la deuxieme requete sera quasi instantanee et ne consommera pas de temps navigateur.
Le parametre modifiedSince merite une attention particuliere. Il accepte un timestamp Unix et ne crawle que les pages modifiees depuis cette date. Combine avec le cache, cela permet de mettre en place des crawls differentiels extremement efficaces : une premiere passe complete, puis des mises a jour incrementales.
Enfin, les patterns de filtrage (includePatterns et excludePatterns) utilisent des wildcards avec * (un segment) et ** (tous les segments). Par exemple, pour ne crawler que la documentation d'un site : includePatterns: ["/docs/**"] et excludePatterns: ["/docs/legacy/**"]. Les regles d'exclusion ont toujours la priorite sur les regles d'inclusion.
Pour etre complet, voici les limitations actuelles :
Pas d'extraction d'images. Le /crawl retourne du contenu textuel uniquement (HTML, Markdown, JSON). Pour les captures d'ecran, il faut utiliser l'endpoint /screenshot separe.
Pas de contournement des protections. Si un site utilise des CAPTCHAs, Bot Fight Mode, ou des challenges Cloudflare, le crawl sera bloque. C'est voulu.
Beta ouverte. L'API est en beta ouverte. Des bugs existent, comme le rapportent certains developpeurs qui obtiennent des erreurs "Crawl job not found" immediatement apres la creation d'un job.
Pas de plan gratuit illimite. La limite de 5 jobs par jour et 100 pages par job sur le plan gratuit est restrictive pour un usage en production. Le plan payant a 5 $/mois est quasi indispensable.
C'est pour vous si vous construisez des pipelines de donnees pour l'IA, si vous avez besoin de crawler des sites entiers de maniere programmatique, si vous etes deja dans l'ecosysteme Cloudflare, ou si vous cherchez une alternative moins couteuse a Firecrawl pour du volume.
Passez votre chemin si vous avez besoin de contourner des protections anti-bot (ce n'est pas l'outil pour cela), si vous ne crawlez que des pages individuelles (Jina Reader sera plus simple), ou si vous avez besoin d'un controle total sur l'infrastructure (Crawl4AI self-hosted sera plus adapte).
Pour commencer a utiliser l'API, voici les etapes :
Creer un compte Cloudflare sur dash.cloudflare.com (gratuit)
Generer un token API avec les permissions Browser Rendering dans les parametres de votre compte
Recuperer votre Account ID visible dans le dashboard Workers
Lancer votre premier crawl avec la requete curl decrite plus haut
Passer au plan Workers Paid (5 $/mois) si vous depassez les limites du plan gratuit
La documentation officielle est disponible sur developers.cloudflare.com/browser-rendering et couvre tous les parametres, formats de sortie, et cas d'usage avances.
Le web est en train de devenir une API pour les modeles de langage. Cloudflare, qui gere plus de 20 % du trafic web mondial, vient de construire l'un des robinets les plus puissants pour y acceder. Et pour 5 dollars par mois, ce robinet est ouvert a tous.

Aucun engagement, des prix pour vous aider à augmenter votre prospection.
Vous n'avez pas besoin de crédits si vous voulez simplement envoyer des emails ou faire des actions sur LinkedIn
Peuvent être utilisés pour :
Trouver Emails
Action IA
Trouver des Numéros
Vérifier des Emails