Blog

Niels Co-founder

Publié le 15 mars 2026Mis à jour le 18 mars 2026

Trouvez et contactez vos futurs clients

Plateforme de prospection tout-en-un

Essayer aujourd’hui →

Retour au hub

Blog

Context Gateway : réduire de 76% les coûts de vos agents IA

Niels Co-founder

Publié le 15 mars 2026Mis à jour le 18 mars 2026

Chez Emelia, l'intelligence artificielle n'est pas un argument marketing : c'est le moteur de notre plateforme de prospection B2B. Enrichissement de données, scoring de leads, personnalisation de messages à grande échelle, nos pipelines IA traitent des volumes considérables de tokens chaque jour. Quand un outil promet de diviser par quatre la facture de nos appels LLM sans sacrifier la qualité des résultats, nous le testons immédiatement. Context Gateway, le nouveau proxy open source de Compresr (YC W26), fait exactement cette promesse. Nous avons commencé à l'évaluer dès sa sortie, et voici notre analyse complète.

Pourquoi vos agents IA gaspillent 75% de leurs tokens

Si vous utilisez Claude Code, Cursor, ou tout autre agent IA de développement, vous connaissez le scénario. Vous lancez une tâche de refactoring sur un projet conséquent. L'agent enchaîne les appels : lecture de fichiers, recherches grep, exécutions shell. Chaque appel renvoie des centaines, parfois des milliers de lignes. Le problème ? La majorité de ces tokens est du bruit.

Un simple grep sur un répertoire peut renvoyer 8 000 tokens. L'agent n'en avait besoin que de 200. Multipliez ce ratio par les dizaines d'appels outils d'une session de travail, et vous comprenez pourquoi la fenêtre de contexte sature en quelques minutes.

Les conséquences sont triples :

Le coût explose. Les fournisseurs de LLM facturent au token d'entrée. Envoyer 100 000 tokens quand 25 000 suffiraient, c'est payer quatre fois trop cher. Sur un usage quotidien intensif, la facture mensuelle peut devenir significative.

La latence augmente. Le temps d'inférence est directement corrélé à la taille du contexte. L'attention des Transformers a une complexité quadratique en O(n²) par rapport à la longueur du contexte. Plus le contexte est long, plus la réponse est lente.

La précision chute. C'est le point le plus contre-intuitif. Les fenêtres de contexte de 1 million de tokens existent, mais elles ne garantissent pas la qualité. Les notes de lancement de GPT-5.4 mentionnées par l'équipe Compresr montrent une précision passant de 97,2% à 32 000 tokens à seulement 36,6% à 1 million de tokens. Claude Opus 4.6 affiche un taux de récupération needle-in-a-haystack de 91,9% à 256K tokens, mais tombe à 78,3% à 1M tokens selon les benchmarks compilés par AIMultiple.

Le problème ne vient pas du modèle. Il vient du fait que l'information pertinente est noyée dans le bruit. Plus le contexte est long, plus le modèle peine à trouver l'aiguille dans la botte de foin.

Context Gateway : un proxy transparent entre votre agent et le LLM

Context Gateway est un proxy local open source écrit en Go qui s'interpose entre votre agent IA et l'API du fournisseur de LLM. Son rôle : compresser les sorties d'outils et l'historique de conversation avant que les tokens n'atteignent le modèle.

Le fonctionnement est transparent. Vous configurez votre agent pour pointer vers le proxy local au lieu de l'API Anthropic ou OpenAI. Le proxy intercepte chaque requête, compresse le contenu, puis transmet la version allégée au modèle. L'agent ne sait même pas que la compression a eu lieu.

Comment fonctionne la compression de Context Gateway

C'est ici que Context Gateway se différencie des approches naïves. Il ne s'agit pas d'un résumé. L'équipe de Compresr a entraîné des petits modèles de langage (SLM) qui fonctionnent comme des classificateurs : ils décident token par token ce qui est pertinent et ce qui ne l'est pas, sans générer de nouveau texte.

Cette distinction est fondamentale :

Pas de résumé, pas de perte de structure. La sortie compressée conserve la structure de l'original. Les noms de variables, les messages d'erreur, les chemins de fichiers restent intacts.
Compression conditionnée par l'intention. Le SLM sait pourquoi l'agent a appelé l'outil. Si vous avez lancé un grep pour chercher des patterns de gestion d'erreurs, le classificateur conserve les résultats pertinents et élimine le reste.
Rapide et peu coûteux. Puisque le modèle est un classificateur et non un générateur autoregressif, la compression ajoute un overhead minimal en latence et en coût.

Compresr propose trois modèles de compression via son API :

Modèle	Type	Cas d'usage
`espresso_v1`	Agnostique (token par token)	Prompts systèmes, documentation statique
`latte_v1`	Spécifique à la requête (token par token)	Pipelines RAG, Q&A conditionné
`coldbrew_v1`	Filtrage par blocs	Filtrage grossier, garder/supprimer des chunks entiers

La fonction expand() : le filet de sécurité

La compression est par nature avec perte. Que se passe-t-il si le modèle a besoin plus tard d'un contenu qui a été compressé ? C'est le rôle de la fonction expand(). Le proxy stocke localement toutes les sorties d'outils originales. Si le LLM réalise qu'il manque une information, il appelle expand() pour récupérer la version non compressée à la demande.

C'est un mécanisme élégant, mais avec une limite : il repose sur la capacité du modèle à reconnaître qu'il lui manque quelque chose. Dans des chaînes agentiques complexes, ce n'est pas toujours le cas.

Compaction d'historique en arrière-plan

Au-delà de la compression des sorties d'outils, Context Gateway gère aussi la compaction de l'historique de conversation. Quand la fenêtre de contexte atteint 85% de sa capacité, le proxy lance un résumé en arrière-plan, sans bloquer la session.

C'est un avantage direct sur la commande /compact native de Claude Code, qui bloque la session pendant environ 3 minutes pendant qu'elle résume l'historique. Avec Context Gateway, la compaction est préemptive et transparente.

Les chiffres : 200x de compression, 76% d'économies, 30% de latence en moins

Les performances annoncées par Compresr méritent d'être examinées avec nuance.

Métrique	Valeur annoncée	Contexte
Compression maximale	Jusqu'à 200x	Mode `latte_v1` agressif sur du RAG ciblé
Réduction des coûts	76%+	Profil Pendium.ai
Amélioration de la latence	30%	Mesuré dans la vidéo de démonstration
Ratio par défaut du proxy	0,5 (50% de réduction)	Commentaires Product Hunt
Headline YC	100x compression	Post LinkedIn de Y Combinator

Un point de transparence important. Le chiffre de 200x s'applique au mode de compression le plus agressif sur des workloads RAG très ciblés. Ce n'est pas ce que vous obtiendrez en usage quotidien avec un agent de code. Le ratio par défaut du proxy est fixé à 0,5, soit une réduction de 50% des tokens par appel. C'est déjà significatif, mais c'est loin du 200x affiché en headline.

De plus, le benchmark présenté sur le site de Compresr (FinanceBench, 141 questions sur 79 documents SEC allant jusqu'à 230K tokens) utilise une référence à « GPT-5.2 » qui, comme l'a noté l'analyse du YC Tier List, ne correspond pas à la nomenclature connue des modèles OpenAI en mars 2026, ce qui « mine la crédibilité » du benchmark.

Installation et intégration : Claude Code, Cursor, Codex

L'installation est volontairement simple :

curl -fsSL https://compresr.ai/api/install | sh context-gateway  # lance un wizard interactif TUI

Le wizard vous guide à travers la configuration :

Type d'agent (Claude Code, Cursor, OpenClaw, Codex, custom)
Modèle de résumé et clé API
Seuil de déclenchement de la compression
Webhook Slack (optionnel)

Les intégrations supportées :

Claude Code : l'intégration principale, le cas d'usage phare
Cursor : l'IDE IA
OpenClaw : l'alternative open source à Claude Code
Codex : l'agent de codage d'OpenAI
Custom : apportez votre propre agent via configuration

Le proxy est agnostique au niveau de l'API : il fonctionne avec tout endpoint compatible OpenAI. Compresr publie aussi un SDK Python (pip install compresr) pour intégrer la compression directement dans le code applicatif.

Pour les équipes qui déploient des agents en production, Context Gateway offre aussi un dashboard web pour suivre les sessions en cours et passées, des plafonds de dépenses configurables par session, et des notifications Slack quand l'agent est bloqué en attente d'input utilisateur.

L'équipe Compresr : 4 docteurs EPFL et Y Combinator W26

Compresr est une startup Y Combinator Winter 2026 basée à San Francisco, accompagnée par Jared Friedman. L'équipe de quatre fondateurs vient de l'EPFL (École Polytechnique Fédérale de Lausanne) :

Fondateur	Rôle	Parcours
Ivan Zakazov	CEO	PhD EPFL (compression de contexte LLM), ex-Microsoft Research, publications EMNLP-25 et NeurIPS-24
Oussama Gabouj	CTO	Recherche EPFL dLab, ex-AXA, publication EMNLP 2025 sur la compression de prompts
Berke Argın	CAIO	CS EPFL, ex-UBS
Kamel Charaf	COO	Master Data Science EPFL, ex-Bell Labs

Le fait que le CEO et le CTO aient publié des articles de recherche dans des conférences de premier plan (EMNLP, NeurIPS) sur exactement le sujet de leur startup est un signal fort. Ce n'est pas une équipe qui a découvert la compression de contexte en lisant un thread Twitter. Ils travaillent sur ce problème depuis leurs doctorats.

Le dépôt GitHub affiche 412 étoiles, 34 forks, et a connu 12 releases en 5 semaines depuis sa création le 10 février 2026, ce qui témoigne d'un rythme de développement soutenu.

Réception communautaire : entre enthousiasme et scepticisme

Hacker News : 85 points, un débat technique animé

Le Show HN de Context Gateway a atteint 85 points et 49 commentaires, se classant 20e sur la première page du 13 mars 2026.

Les réactions positives reconnaissent que la saturation de contexte est un vrai problème douloureux et saluent l'approche SLM plutôt que la résumérisation naïve.

Mais le scepticisme est tout aussi présent. Un commentateur, @verdverm, a noté : « Le framework que j'utilise (ADK) gère déjà ça... YC a surindexé sur les startups IA trop tôt, sans réaliser à quel point ces "produits" sont triviaux, davantage une ligne dans la liste de fonctionnalités d'un framework d'agents mature. »

Un autre, @kuboble, a mis en garde : « On dirait un outil qui résout un problème qui ne durera pas plus de quelques mois et que Claude Code peut et va probablement résoudre lui-même bientôt. »

Un point technique critique a aussi été soulevé : le prompt caching de Claude fonctionne sur des correspondances exactes de préfixes. Si la compaction modifie le contexte, le cache est invalidé, et vous payez de nouveau le plein tarif pour tout l'historique. Cela pourrait partiellement ou totalement annuler les économies réalisées sur les workflows qui dépendent fortement du cache.

Product Hunt : 217 upvotes

Sur Product Hunt, Context Gateway a reçu 217 upvotes et 13 commentaires. Les retours mettent en avant les plafonds de dépenses et les notifications Slack comme des fonctionnalités de confort qui manquent cruellement à Claude Code natif.

https://www.linkedin.com/posts/ivan-zakazov_we-realized-that-claude-code-and-openclaw-activity-7435618282168164352-RwSW

Context Gateway face à la concurrence : LLMLingua, Google ADK, Claude natif

Context Gateway n'opère pas dans un vide. Le paysage de la compression de contexte est actif, avec des acteurs académiques, des frameworks, et des fonctionnalités natives.

Solution	Approche	Forces	Limites
Context Gateway	Proxy local, SLM classificateur	Transparent, expand(), dashboard	Jeune, ratio fixe
Microsoft LLMLingua	Élagage basé sur la perplexité (GPT2/LLaMA)	Jusqu'à 20x, bien documenté	Pas un proxy agent, lib de recherche
Google ADK	`compaction_interval` intégré au framework	Natif, une ligne de config	Limité à l'écosystème ADK
Claude Code /compact	Compaction native	Aucune installation	Bloquant (3 min), contrôle grossier
Sentinel (arXiv)	Sondage d'attention, modèle proxy 0,5B	5x compression sur LongBench	Pas de release production
The Token Company (YC W26)	Compression ML des prompts	Aussi YC W26, focus prompts	Pas spécifiquement un proxy

Le risque compétitif principal est bien résumé par l'analyse du YC Tier List : « Microsoft Research livre déjà LLMLingua, et n'importe quel fournisseur de LLM majeur peut internaliser la compression nativement, transformant cela en fonctionnalité plutôt qu'en entreprise. » Si Anthropic améliore la compaction native de Claude Code, ou si OpenAI intègre la compression dans Codex, la proposition de valeur d'un proxy externe diminue considérablement.

Pourquoi la gestion du contexte est devenue une infrastructure critique en 2026

Au-delà de Context Gateway, la gestion du contexte est en train de devenir un enjeu d'infrastructure pour toute équipe qui déploie des agents IA en production.

Les fenêtres de contexte ont grandi, mais le problème n'a pas disparu. Même avec 1 million de tokens, la précision se dégrade de manière non linéaire. Sonnet 4.6 passe de 90,6% de récupération à 256K tokens à 65,1% à 1M tokens. Plus de contexte ne signifie pas de meilleures performances.

Les workflows agentiques polluent le contexte par nature. Chaque appel outil ajoute des tokens. Un agent de code peut émettre des dizaines d'appels par session (grep, read_file, bash...), chacun renvoyant potentiellement des milliers de tokens. Une seule lecture de fichier peut injecter plus de 10 000 tokens dans la fenêtre.

L'écosystème traite maintenant le contexte comme de l'infrastructure. Google ADK a ajouté un flag `compaction_interval` dans sa version 1.16.0. Plusieurs startups YC W26 (Compresr, The Token Company) construisent la compression de contexte comme un produit à part entière. Kubernetes a formé un groupe de travail AI Gateway pour standardiser l'infrastructure de routage context-aware.

Du côté académique, le papier Sentinel propose un sondage d'attention pour la compression de contexte, atteignant 5x de compression sur LongBench avec un modèle proxy de seulement 0,5 milliard de paramètres.

Les limites à connaître avant d'adopter Context Gateway

Nous avons commencé à tester Context Gateway en local sur des projets parallèles, et il est important de poser un regard honnête sur ses limitations actuelles.

La compression est par nature avec perte. Supprimer des tokens signifie perdre de l'information. L'équipe affirme que la qualité s'améliore en pratique parce que le modèle reçoit un contexte plus condensé, mais des cas limites existent où des tokens jugés « non pertinents » s'avèrent importants plus tard dans la chaîne.

L'invalidation du cache de prompts est un vrai risque. Si vous utilisez Claude avec le prompt caching, la compaction modifie le préfixe du contexte, ce qui invalide le cache. Vous pourriez finir par payer plus cher, pas moins, sur des workflows qui dépendent fortement du caching.

Le ratio de compression est fixe. Le ratio par défaut de 0,5 est un outil grossier. Les données structurées (JSON, code) nécessitent un traitement différent des logs verbeux. L'équipe reconnaît cette limitation et travaille sur un traitement différentiel, mais ce n'est pas encore disponible.

Les benchmarks manquent de vérification indépendante. Aucun benchmark tiers n'est disponible. La référence à « GPT-5.2 » dans les benchmarks du site ne correspond pas à la nomenclature OpenAI connue.

C'est un produit early-stage. Quatre fondateurs, 52 commits, version 0.5.2. Le produit fonctionne et s'installe, mais le hardening pour des déploiements enterprise est encore en cours. La version 0.4.4 a introduit le renforcement de la sécurité et le support OAuth, ce qui suggère que les versions antérieures avaient des lacunes en matière de sécurité.

Le risque existentiel est bien réel. Si Anthropic, OpenAI ou Google intègrent nativement une compression de contexte performante dans leurs agents, le cas d'usage d'un proxy externe se réduit drastiquement. Google ADK le fait déjà avec une seule ligne de configuration.

Pour qui Context Gateway est-il pertinent ?

Vous devriez l'évaluer si :

Vous utilisez Claude Code, Cursor ou un agent similaire sur des codebases de taille significative et votre facture tokens devient un poste de coût notable.
Vous déployez des agents IA en production et vous avez besoin de plafonds de dépenses, de monitoring, et de notifications que les outils natifs n'offrent pas.
Vous gérez des pipelines RAG qui ingèrent des documents volumineux (SEC filings, documentation technique, bases de connaissances) et vous voulez réduire le coût par requête.
Vous êtes frustré par la compaction bloquante de Claude Code et vous cherchez une alternative transparente.

Vous pouvez attendre si :

Votre usage agent est léger et votre facture tokens est négligeable.
Vous êtes dans l'écosystème Google ADK, qui offre déjà une compaction native.
Vous ne voulez pas ajouter un intermédiaire local qui gère toutes vos clés API et votre trafic réseau.
Vous préférez attendre que les fournisseurs de LLM intègrent ces fonctionnalités nativement, ce qui arrivera probablement dans les prochains mois.

Notre verdict : un outil prometteur à surveiller de près

Context Gateway résout un vrai problème que tout utilisateur intensif d'agents IA a rencontré. L'approche technique est solide : la compression par classificateur SLM plutôt que par résumé est la bonne idée, et l'équipe a le pedigree académique pour l'exécuter.

Les 76% d'économies de coûts et les 30% de réduction de latence sont crédibles dans les bons scénarios, même si le chiffre de 200x est un cas extrême qu'il ne faut pas prendre comme une référence d'usage quotidien. Les 412 étoiles GitHub et les 12 releases en 5 semaines montrent un projet actif avec une traction initiale réelle.

Chez Emelia, nous avons commencé à l'évaluer sur nos pipelines internes de traitement de données. La promesse de réduire significativement nos coûts de tokens tout en maintenant ou améliorant la qualité des réponses est exactement ce dont nous avons besoin à mesure que nos volumes augmentent. La gestion du contexte n'est plus un nice-to-have : c'est une couche d'infrastructure que toute équipe IA sérieuse doit adresser.

Le vrai test pour Compresr ne sera pas technique. Ce sera de savoir s'ils peuvent établir une position défendable avant que les fournisseurs de LLM n'intègrent cette fonctionnalité dans leurs propres produits. La course est lancée.

Découvrez Emelia, votre outil de prospection tout en un.

Je lance ma campagne

Des prix clairs, transparents et sans frais cachés.

Aucun engagement, des prix pour vous aider à augmenter votre prospection.

Start

37€

/mois

Envoi d'emails illimités

Connecter 1 compte LinkedIn

Actions LinkedIn illimitées

Email Warmup inclus

Scraping illimité

Contacts illimités

Grow

Populaire

97€

/mois

Envoi d'emails illimités

Jusqu'à 5 comptes LinkedIn

Actions LinkedIn illimitées

Warmup illimité

Contacts illimités

1 intégration CRM

Scale

297€

/mois

Envoi d'emails illimités

Jusqu'à 20 comptes LinkedIn

Actions LinkedIn illimitées

Warmup illimité

Contacts illimités

Multi CRM Connexion

Unlimited API Calls

Crédits(optionnel)

Vous n'avez pas besoin de crédits si vous voulez simplement envoyer des emails ou faire des actions sur LinkedIn

Peuvent être utilisés pour :

Trouver Emails

Action IA

Trouver des Numéros

Vérifier des Emails

19€par mois

1 000

1 000 Emails trouvés

1 000 IA Actions

20 Numéros

4 000 Vérifications

5 000

10 000

50 000

100 000

1 000 Emails trouvés

1 000 IA Actions

20 Numéros

4 000 Vérifications

19€par mois

Découvrez d'autres articles qui pourraient vous intéresser !

Voir tous les articles

Blog

Publié le 19 juin 2025

Les 8 meilleures applications d'enquête en 2026

Mathieu Co-founder

Logiciels

Publié le 1 juil. 2025

Lusha vs Waalaxy vs Emelia: qui domine en 2026 ?

Niels Co-founder

Publié le 15 mai 2025

Les 10 meilleurs chatbots IA en 2026 : transformez votre entreprise

Marie Head Of Sales

Conseils et formations

Publié le 8 juin 2025

Top 6 Plugins WordPress SEO 2026 : Boostez Votre Classement

Niels Co-founder

Logiciels

Publié le 15 mai 2025

6 Meilleurs logiciels montage vidéo gratuit : contenus pro gratuits

Mathieu Co-founder

Publié le 8 juil. 2025

Les 5 meilleurs créateurs de CV IA qui vous permettront réellement de trouver un emploi en 2026

Niels Co-founder

Made with ❤ for Growth Marketers by Growth Marketers

Trouvez et contactez vos futurs clients

Context Gateway : réduire de 76% les coûts de vos agents IA

Pourquoi vos agents IA gaspillent 75% de leurs tokens

Context Gateway : un proxy transparent entre votre agent et le LLM

Comment fonctionne la compression de Context Gateway

La fonction expand() : le filet de sécurité

Compaction d'historique en arrière-plan

Les chiffres : 200x de compression, 76% d'économies, 30% de latence en moins

Installation et intégration : Claude Code, Cursor, Codex

L'équipe Compresr : 4 docteurs EPFL et Y Combinator W26

Réception communautaire : entre enthousiasme et scepticisme

Hacker News : 85 points, un débat technique animé

Product Hunt : 217 upvotes

Context Gateway face à la concurrence : LLMLingua, Google ADK, Claude natif

Pourquoi la gestion du contexte est devenue une infrastructure critique en 2026

Les limites à connaître avant d'adopter Context Gateway

Pour qui Context Gateway est-il pertinent ?

Notre verdict : un outil prometteur à surveiller de près

Découvrez Emelia, votre outil de prospection tout en un.

Des prix clairs, transparents et sans frais cachés.

Start

Grow

Scale

Crédits(optionnel)

Découvrez d'autres articles qui pourraient vous intéresser !

Les 8 meilleures applications d'enquête en 2026

Lusha vs Waalaxy vs Emelia: qui domine en 2026 ?

Les 10 meilleurs chatbots IA en 2026 : transformez votre entreprise

Top 6 Plugins WordPress SEO 2026 : Boostez Votre Classement

6 Meilleurs logiciels montage vidéo gratuit : contenus pro gratuits

Les 5 meilleurs créateurs de CV IA qui vous permettront réellement de trouver un emploi en 2026

Liens utiles

A propos

Features

Nous suivre

Partenaires