Cloudflare /crawl : une API pour aspirer un site entier en une requete

Niels
Niels Co-founder
Publié le 11 mars 2026

Chez Emelia, notre outil de prospection B2B, et chez Bridgers, notre agence digitale specialisee en IA, nous construisons quotidiennement des pipelines de donnees qui alimentent des modeles d'intelligence artificielle. Extraction de contenu web, enrichissement de bases prospects, veille concurrentielle automatisee : le web crawling est au coeur de nos workflows. Quand Cloudflare annonce un nouvel endpoint capable d'aspirer un site entier en un seul appel API, cela merite une analyse approfondie.

Le 10 mars 2026, Cloudflare a lance /crawl, un nouvel endpoint integre a son service Browser Rendering. Le tweet d'annonce de @CloudflareDev a depasse les 2 millions d'impressions, 7 800 likes et 8 600 bookmarks en moins de 24 heures. Le message est clair : "One API call and an entire site crawled." Pas de scripts. Pas de gestion de navigateur. Juste le contenu, en HTML, Markdown ou JSON.

Comment fonctionne l'API /crawl de Cloudflare ?

Le fonctionnement repose sur un systeme asynchrone en deux etapes.

Etape 1 : Lancer le crawl. Vous envoyez une requete POST avec l'URL de depart. L'API retourne immediatement un identifiant de job.

Etape 2 : Recuperer les resultats. Vous interrogez l'API avec cet identifiant via une requete GET. Les resultats arrivent au fil du traitement, avec un systeme de curseur pour la pagination.

Le crawler decouvre automatiquement les URLs a partir de trois sources : l'URL de depart, le sitemap du site, et les liens presents sur chaque page. Il respecte le fichier robots.txt et s'identifie comme un bot, ce que Kathy Liao, Product Manager chez Cloudflare, a souligne a plusieurs reprises face aux critiques :

Les parametres cles

Parametre

Type

Description

url

String

URL de depart (obligatoire)

limit

Number

Nombre maximum de pages (defaut : 10, max : 100 000)

depth

Number

Profondeur maximale de crawl (max : 100 000)

formats

Array

Formats de sortie : html, markdown, json

render

Boolean

Executer le JavaScript (defaut : true)

source

String

Decouverte d'URLs : all, sitemaps, links

maxAge

Number

Duree du cache en secondes (max : 7 jours)

includePatterns

Array

Patterns wildcard pour filtrer les URLs incluses

excludePatterns

Array

Patterns wildcard pour exclure des URLs

L'option render: false est particulierement interessante : elle desactive le navigateur headless et effectue un simple fetch HTTP, ce qui est beaucoup plus rapide et moins couteux. Pendant la beta, ce mode est gratuit.

Guide : crawler un site en une ligne de code

Voici comment lancer un crawl complet avec curl :

```bash

# Etape 1 : Lancer le crawl curl -X POST \ "https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl" \ -H "Authorization: Bearer {api_token}" \ -H "Content-Type: application/json" \ -d '{ "url": "https://example.com", "limit": 50, "formats": ["markdown", "html"], "render": true }'

# Reponse : { "success": true, "result": "job-id-xxx" }

# Etape 2 : Recuperer les resultats curl "https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl/job-id-xxx" \ -H "Authorization: Bearer {api_token}" ```

Chaque page dans la reponse contient l'URL, le titre, le statut, et le contenu dans les formats demandes. Pour les sites dynamiques (React, Vue, Angular), le mode render: true lance un veritable navigateur Chrome headless qui execute le JavaScript avant d'extraire le contenu.

Pour une extraction structuree en JSON, vous pouvez fournir un prompt ou un schema :

``json { "url": "https://shop.example.com", "formats": ["json"], "jsonOptions": { "prompt": "Extraire le nom du produit, le prix et la description", "response_format": { "type": "json_schema", "json_schema": { "name": "product", "schema": { "type": "object", "properties": { "name": { "type": "string" }, "price": { "type": "number" }, "description": { "type": "string" } } } } } } } ``

Cette extraction utilise Workers AI en arriere-plan, ce qui genere des couts additionnels.

Cloudflare Browser Rendering : prix et limites

L'un des arguments massue de Cloudflare est le prix. Voici la grille tarifaire :

Plan gratuit (Workers Free)

Fonctionnalite

Limite

Temps de navigateur

10 minutes par jour

Jobs /crawl par jour

5

Pages max par crawl

100

Requetes API (REST)

6 par minute

Navigateurs simultanes

3

Plan payant (Workers Paid, 5 $/mois)

Fonctionnalite

Limite

Heures de navigateur incluses

10 heures/mois

Heure supplementaire

0,09 $/heure

Requetes API (REST)

600 par minute

Navigateurs simultanes

30

Pages max par crawl

100 000

Le mode render: false (sans execution JavaScript) est gratuit pendant la beta et sera ensuite facture au tarif Workers standard. Les jobs de crawl ont une duree maximale de 7 jours, et les resultats restent disponibles pendant 14 jours.

Pour vous donner un ordre de grandeur : avec le plan payant a 5 $/mois, vous disposez de 10 heures de rendu navigateur incluses. Si un crawl de 100 pages prend environ 5 minutes de temps navigateur, vous pouvez crawler environ 12 000 pages par mois pour 5 dollars.

Cloudflare /crawl vs Firecrawl vs Crawl4AI : comparatif complet

Le marche du web crawling pour l'IA est en pleine ebullition. Voici comment Cloudflare se positionne face a ses concurrents directs.

Fonctionnalite

Cloudflare /crawl

Firecrawl

Crawl4AI

Jina Reader

Prix d'entree

Gratuit (5 $/mois pour le plan payant)

Gratuit (500 pages), puis 19 $/mois

Gratuit (open source)

Gratuit (20 req/min sans cle)

Prix volume

0,09 $/heure navigateur

47 $/mois (100k pages), 599 $/mois (1M pages)

Gratuit (self-hosted)

Token-based (a partir de 0,01 $/1M tokens)

Crawl multi-pages

Oui (jusqu'a 100 000 pages)

Oui

Oui

Non (page par page)

Profondeur de crawl

Jusqu'a 100 000 niveaux

Configurable

Configurable

N/A

Formats de sortie

HTML, Markdown, JSON

HTML, Markdown, JSON, Screenshot

HTML, Markdown, JSON

Markdown, HTML

Rendu JavaScript

Oui (Chrome headless)

Oui

Oui (Playwright/Chromium)

Oui (Puppeteer)

Extraction IA structuree

Oui (Workers AI)

Oui (LLM extract)

Oui (LLM strategies)

Non

Respect robots.txt

Oui (par defaut)

Optionnel

Configurable

Oui

Requetes simultanees

30 (plan payant)

5 a 150 selon le plan

Illimite (self-hosted)

2 a 500 selon le plan

Infrastructure

Serverless (Cloudflare edge)

Cloud SaaS

Self-hosted ou Docker

Cloud SaaS

Open source

Non

Non

Oui (Apache 2.0)

Partiellement

Quand choisir Cloudflare /crawl ?

Si vous utilisez deja l'ecosysteme Cloudflare (Workers, R2, KV), l'integration est naturelle. Le rapport qualite/prix est imbattable pour les crawls de gros volume grace a la facturation au temps plutot qu'a la page. Le mode render: false, gratuit pendant la beta, est ideal pour les sites statiques.

Quand choisir Firecrawl ?

Firecrawl excelle dans la simplicite de son SDK et ses fonctionnalites orientees IA (extraction LLM, screenshots, map). Si vous avez besoin d'un outil plug-and-play avec un excellent DX (Developer Experience) et que vous ne voulez pas gerer d'infrastructure, c'est un choix solide. Le cout par page est cependant plus eleve a grande echelle.

Quand choisir Crawl4AI ?

Avec plus de 61 000 etoiles sur GitHub, Crawl4AI est le choix des equipes qui veulent un controle total. Open source, self-hosted, pas de limites de taux imposees. Ideal pour les pipelines de training IA ou les projets de recherche avec des budgets serres.

Quand choisir Jina Reader ?

Jina Reader est parfait pour la conversion page par page en format LLM-friendly. Un simple prepend de https://r.jina.ai/ devant n'importe quelle URL et vous obtenez du Markdown propre. Pas de crawl multi-pages natif, mais une simplicite d'utilisation inegalee pour les cas simples.

Extraire les donnees d'un site web pour l'IA avec Cloudflare

L'annonce de Cloudflare n'est pas un hasard. Elle arrive dans un contexte ou la demande de donnees web structurees pour alimenter les modeles d'IA explose.

Le crawl-to-refer ratio (le nombre de fois ou un bot IA visite un site par rapport au nombre de visiteurs qu'il renvoie) atteint des niveaux vertigineux : 1 700:1 pour OpenAI, 73 000:1 pour Anthropic selon les propres donnees de Cloudflare. Les bots IA consomment massivement du contenu web, et les developpeurs ont besoin d'outils fiables pour faire de meme.

Pipelines RAG (Retrieval-Augmented Generation)

Le cas d'usage le plus evident est l'alimentation de bases de connaissances pour des systemes RAG. Avec /crawl, vous pouvez aspirer toute la documentation d'un produit en Markdown, la chunker, la vectoriser, et l'injecter dans un index pour que vos agents IA y repondent avec precision.

Veille concurrentielle automatisee

Crawlez periodiquement les sites de vos concurrents pour detecter les changements de prix, les nouveaux produits, ou les modifications de positionnement. Le parametre modifiedSince permet de ne recuperer que les pages modifiees depuis le dernier crawl, pour des crawls differentiels efficaces.

Audit SEO a grande echelle

Extraire toutes les pages d'un site pour analyser les balises title, les meta descriptions, la structure des headings, les liens internes et les erreurs 404. Le format JSON avec extraction IA structuree permet d'obtenir directement des donnees exploitables.

Cas d'usage concrets de Cloudflare /crawl

Au-dela des cas theoriques, voici des scenarios concrets que nous observons deja :

Migration de contenu. Vous changez de CMS ? Crawlez l'ancien site en Markdown, nettoyez le contenu, et importez-le dans le nouveau systeme. Plus besoin d'exports manuels ou de plugins bancals.

Monitoring de conformite. Les equipes juridiques peuvent surveiller automatiquement les mentions legales, conditions d'utilisation et politiques de confidentialite sur un portefeuille de sites.

Construction de datasets d'entrainement. Les equipes de Machine Learning peuvent constituer des corpus de texte a partir de sources publiques, en respectant le robots.txt, pour fine-tuner des modeles specialises.

Analyse de contenu editoriale. Les equipes marketing peuvent analyser la strategie de contenu de leurs concurrents : quels sujets couvrent-ils ? Quelle est leur frequence de publication ? Quels mots-cles ciblent-ils ?

L'ironie Cloudflare : la serrure et la cle

L'annonce n'a pas manque de soulever des reactions passionnees dans la communaute developpeur. L'entreprise qui a bati sa reputation sur la protection anti-bots vend desormais un outil de crawling. Comme l'a resume un ingenieur SRE :

Un tweet viral de @TukiFromKL (496 000 impressions, 3 700 likes) a qualifie l'annonce de "plus grande trahison tech de l'annee". La reponse de Kathy Liao, Product Manager Cloudflare, a ete immediate et sans ambiguite :

La position de Cloudflare est claire : /crawl s'identifie comme un bot, respecte robots.txt, et ne contourne aucune protection anti-bot. Si un proprietaire de site bloque les bots, le crawl echouera. C'est une approche qui donne le controle aux proprietaires de contenu, contrairement a certains crawlers qui tentent de se faire passer pour des navigateurs humains.

Architecture technique : ce qui se passe sous le capot

Pour les developpeurs qui veulent comprendre comment cela fonctionne en interne, voici les details techniques importants.

Le /crawl endpoint repose sur l'infrastructure Browser Rendering de Cloudflare, qui execute des instances Chrome headless sur le reseau edge mondial de Cloudflare. Quand vous lancez un crawl avec render: true, chaque page est chargee dans une veritable instance de navigateur, le JavaScript est execute, les requetes AJAX sont completees, et le DOM final est capture. C'est ce qui rend l'outil capable de gerer les Single Page Applications (SPA) modernes.

Avec render: false, le processus est radicalement different : Cloudflare effectue un simple fetch HTTP via Workers, sans lancer de navigateur. Le resultat est brut (pas de rendu JavaScript), mais la vitesse et le cout sont incomparables. Ce mode est particulierement adapte pour les sites de documentation, les blogs statiques, ou tout site qui genere son HTML cote serveur.

Le systeme de cache est egalement bien concu. Le parametre maxAge permet de definir combien de temps les resultats sont mis en cache dans R2 (le stockage objet de Cloudflare). Les correspondances sont exactes sur l'URL. Si vous crawlez le meme site deux fois dans la fenetre de cache, la deuxieme requete sera quasi instantanee et ne consommera pas de temps navigateur.

Le parametre modifiedSince merite une attention particuliere. Il accepte un timestamp Unix et ne crawle que les pages modifiees depuis cette date. Combine avec le cache, cela permet de mettre en place des crawls differentiels extremement efficaces : une premiere passe complete, puis des mises a jour incrementales.

Enfin, les patterns de filtrage (includePatterns et excludePatterns) utilisent des wildcards avec * (un segment) et ** (tous les segments). Par exemple, pour ne crawler que la documentation d'un site : includePatterns: ["/docs/**"] et excludePatterns: ["/docs/legacy/**"]. Les regles d'exclusion ont toujours la priorite sur les regles d'inclusion.

Ce que Cloudflare /crawl ne fait pas

Pour etre complet, voici les limitations actuelles :

Pas d'extraction d'images. Le /crawl retourne du contenu textuel uniquement (HTML, Markdown, JSON). Pour les captures d'ecran, il faut utiliser l'endpoint /screenshot separe.

Pas de contournement des protections. Si un site utilise des CAPTCHAs, Bot Fight Mode, ou des challenges Cloudflare, le crawl sera bloque. C'est voulu.

Beta ouverte. L'API est en beta ouverte. Des bugs existent, comme le rapportent certains developpeurs qui obtiennent des erreurs "Crawl job not found" immediatement apres la creation d'un job.

Pas de plan gratuit illimite. La limite de 5 jobs par jour et 100 pages par job sur le plan gratuit est restrictive pour un usage en production. Le plan payant a 5 $/mois est quasi indispensable.

A qui s'adresse Cloudflare /crawl ?

C'est pour vous si vous construisez des pipelines de donnees pour l'IA, si vous avez besoin de crawler des sites entiers de maniere programmatique, si vous etes deja dans l'ecosysteme Cloudflare, ou si vous cherchez une alternative moins couteuse a Firecrawl pour du volume.

Passez votre chemin si vous avez besoin de contourner des protections anti-bot (ce n'est pas l'outil pour cela), si vous ne crawlez que des pages individuelles (Jina Reader sera plus simple), ou si vous avez besoin d'un controle total sur l'infrastructure (Crawl4AI self-hosted sera plus adapte).

Comment demarrer avec Cloudflare /crawl

Pour commencer a utiliser l'API, voici les etapes :

  1. Creer un compte Cloudflare sur dash.cloudflare.com (gratuit)

  2. Generer un token API avec les permissions Browser Rendering dans les parametres de votre compte

  3. Recuperer votre Account ID visible dans le dashboard Workers

  4. Lancer votre premier crawl avec la requete curl decrite plus haut

  5. Passer au plan Workers Paid (5 $/mois) si vous depassez les limites du plan gratuit

La documentation officielle est disponible sur developers.cloudflare.com/browser-rendering et couvre tous les parametres, formats de sortie, et cas d'usage avances.

Le web est en train de devenir une API pour les modeles de langage. Cloudflare, qui gere plus de 20 % du trafic web mondial, vient de construire l'un des robinets les plus puissants pour y acceder. Et pour 5 dollars par mois, ce robinet est ouvert a tous.

logo emelia

Découvrez Emelia, votre outil de prospection tout en un.

logo emelia

Des prix clairs, transparents et sans frais cachés.

Aucun engagement, des prix pour vous aider à augmenter votre prospection.

Start

37€

/mois

Envoi d'emails illimités

Connecter 1 compte LinkedIn

Actions LinkedIn illimitées

Email Warmup inclus

Scraping illimité

Contacts illimités

Grow

Populaire
arrow-right
97€

/mois

Envoi d'emails illimités

Jusqu'à 5 comptes LinkedIn

Actions LinkedIn illimitées

Warmup illimité

Contacts illimités

1 intégration CRM

Scale

297€

/mois

Envoi d'emails illimités

Jusqu'à 20 comptes LinkedIn

Actions LinkedIn illimitées

Warmup illimité

Contacts illimités

Multi CRM Connexion

Unlimited API Calls

Crédits(optionnel)

Vous n'avez pas besoin de crédits si vous voulez simplement envoyer des emails ou faire des actions sur LinkedIn

Peuvent être utilisés pour :

Trouver Emails

Action IA

Trouver des Numéros

Vérifier des Emails

1 000
5 000
10 000
50 000
100 000
1 000 Emails trouvés
1 000 IA Actions
20 Numéros
4 000 Vérifications
19par mois

Découvrez d'autres articles qui pourraient vous intéresser !

Voir tous les articles
NielsNiels Co-founder
Lire la suite
NielsNiels Co-founder
Lire la suite
MathieuMathieu Co-founder
Lire la suite
NielsNiels Co-founder
Lire la suite
NielsNiels Co-founder
Lire la suite
NielsNiels Co-founder
Lire la suite
Made with ❤ for Growth Marketers by Growth Marketers
Copyright © 2026 Emelia All Rights Reserved