Context Gateway : réduire de 76% les coûts de vos agents IA

Niels
Niels Co-founder
Publié le 15 mars 2026Mis à jour le 16 mars 2026

Chez Emelia, l'intelligence artificielle n'est pas un argument marketing : c'est le moteur de notre plateforme de prospection B2B. Enrichissement de données, scoring de leads, personnalisation de messages à grande échelle, nos pipelines IA traitent des volumes considérables de tokens chaque jour. Quand un outil promet de diviser par quatre la facture de nos appels LLM sans sacrifier la qualité des résultats, nous le testons immédiatement. Context Gateway, le nouveau proxy open source de Compresr (YC W26), fait exactement cette promesse. Nous avons commencé à l'évaluer dès sa sortie, et voici notre analyse complète.

Pourquoi vos agents IA gaspillent 75% de leurs tokens

Si vous utilisez Claude Code, Cursor, ou tout autre agent IA de développement, vous connaissez le scénario. Vous lancez une tâche de refactoring sur un projet conséquent. L'agent enchaîne les appels : lecture de fichiers, recherches grep, exécutions shell. Chaque appel renvoie des centaines, parfois des milliers de lignes. Le problème ? La majorité de ces tokens est du bruit.

Un simple grep sur un répertoire peut renvoyer 8 000 tokens. L'agent n'en avait besoin que de 200. Multipliez ce ratio par les dizaines d'appels outils d'une session de travail, et vous comprenez pourquoi la fenêtre de contexte sature en quelques minutes.

Les conséquences sont triples :

Le coût explose. Les fournisseurs de LLM facturent au token d'entrée. Envoyer 100 000 tokens quand 25 000 suffiraient, c'est payer quatre fois trop cher. Sur un usage quotidien intensif, la facture mensuelle peut devenir significative.

La latence augmente. Le temps d'inférence est directement corrélé à la taille du contexte. L'attention des Transformers a une complexité quadratique en O(n²) par rapport à la longueur du contexte. Plus le contexte est long, plus la réponse est lente.

La précision chute. C'est le point le plus contre-intuitif. Les fenêtres de contexte de 1 million de tokens existent, mais elles ne garantissent pas la qualité. Les notes de lancement de GPT-5.4 mentionnées par l'équipe Compresr montrent une précision passant de 97,2% à 32 000 tokens à seulement 36,6% à 1 million de tokens. Claude Opus 4.6 affiche un taux de récupération needle-in-a-haystack de 91,9% à 256K tokens, mais tombe à 78,3% à 1M tokens selon les benchmarks compilés par AIMultiple.

Le problème ne vient pas du modèle. Il vient du fait que l'information pertinente est noyée dans le bruit. Plus le contexte est long, plus le modèle peine à trouver l'aiguille dans la botte de foin.

Context Gateway : un proxy transparent entre votre agent et le LLM

Context Gateway est un proxy local open source écrit en Go qui s'interpose entre votre agent IA et l'API du fournisseur de LLM. Son rôle : compresser les sorties d'outils et l'historique de conversation avant que les tokens n'atteignent le modèle.

Le fonctionnement est transparent. Vous configurez votre agent pour pointer vers le proxy local au lieu de l'API Anthropic ou OpenAI. Le proxy intercepte chaque requête, compresse le contenu, puis transmet la version allégée au modèle. L'agent ne sait même pas que la compression a eu lieu.

Comment fonctionne la compression de Context Gateway

C'est ici que Context Gateway se différencie des approches naïves. Il ne s'agit pas d'un résumé. L'équipe de Compresr a entraîné des petits modèles de langage (SLM) qui fonctionnent comme des classificateurs : ils décident token par token ce qui est pertinent et ce qui ne l'est pas, sans générer de nouveau texte.

Cette distinction est fondamentale :

  • Pas de résumé, pas de perte de structure. La sortie compressée conserve la structure de l'original. Les noms de variables, les messages d'erreur, les chemins de fichiers restent intacts.

  • Compression conditionnée par l'intention. Le SLM sait pourquoi l'agent a appelé l'outil. Si vous avez lancé un grep pour chercher des patterns de gestion d'erreurs, le classificateur conserve les résultats pertinents et élimine le reste.

  • Rapide et peu coûteux. Puisque le modèle est un classificateur et non un générateur autoregressif, la compression ajoute un overhead minimal en latence et en coût.

Compresr propose trois modèles de compression via son API :

Modèle

Type

Cas d'usage

espresso_v1

Agnostique (token par token)

Prompts systèmes, documentation statique

latte_v1

Spécifique à la requête (token par token)

Pipelines RAG, Q&A conditionné

coldbrew_v1

Filtrage par blocs

Filtrage grossier, garder/supprimer des chunks entiers

La fonction expand() : le filet de sécurité

La compression est par nature avec perte. Que se passe-t-il si le modèle a besoin plus tard d'un contenu qui a été compressé ? C'est le rôle de la fonction expand(). Le proxy stocke localement toutes les sorties d'outils originales. Si le LLM réalise qu'il manque une information, il appelle expand() pour récupérer la version non compressée à la demande.

C'est un mécanisme élégant, mais avec une limite : il repose sur la capacité du modèle à reconnaître qu'il lui manque quelque chose. Dans des chaînes agentiques complexes, ce n'est pas toujours le cas.

Compaction d'historique en arrière-plan

Au-delà de la compression des sorties d'outils, Context Gateway gère aussi la compaction de l'historique de conversation. Quand la fenêtre de contexte atteint 85% de sa capacité, le proxy lance un résumé en arrière-plan, sans bloquer la session.

C'est un avantage direct sur la commande /compact native de Claude Code, qui bloque la session pendant environ 3 minutes pendant qu'elle résume l'historique. Avec Context Gateway, la compaction est préemptive et transparente.

Les chiffres : 200x de compression, 76% d'économies, 30% de latence en moins

Les performances annoncées par Compresr méritent d'être examinées avec nuance.

Métrique

Valeur annoncée

Contexte

Compression maximale

Jusqu'à 200x

Mode latte_v1 agressif sur du RAG ciblé

Réduction des coûts

76%+

Profil Pendium.ai

Amélioration de la latence

30%

Mesuré dans la vidéo de démonstration

Ratio par défaut du proxy

0,5 (50% de réduction)

Commentaires Product Hunt

Headline YC

100x compression

Post LinkedIn de Y Combinator

Un point de transparence important. Le chiffre de 200x s'applique au mode de compression le plus agressif sur des workloads RAG très ciblés. Ce n'est pas ce que vous obtiendrez en usage quotidien avec un agent de code. Le ratio par défaut du proxy est fixé à 0,5, soit une réduction de 50% des tokens par appel. C'est déjà significatif, mais c'est loin du 200x affiché en headline.

De plus, le benchmark présenté sur le site de Compresr (FinanceBench, 141 questions sur 79 documents SEC allant jusqu'à 230K tokens) utilise une référence à « GPT-5.2 » qui, comme l'a noté l'analyse du YC Tier List, ne correspond pas à la nomenclature connue des modèles OpenAI en mars 2026, ce qui « mine la crédibilité » du benchmark.

Installation et intégration : Claude Code, Cursor, Codex

L'installation est volontairement simple :

curl -fsSL https://compresr.ai/api/install | sh context-gateway  # lance un wizard interactif TUI

Le wizard vous guide à travers la configuration :

  1. Type d'agent (Claude Code, Cursor, OpenClaw, Codex, custom)

  2. Modèle de résumé et clé API

  3. Seuil de déclenchement de la compression

  4. Webhook Slack (optionnel)

Les intégrations supportées :

  • Claude Code : l'intégration principale, le cas d'usage phare

  • Cursor : l'IDE IA

  • OpenClaw : l'alternative open source à Claude Code

  • Codex : l'agent de codage d'OpenAI

  • Custom : apportez votre propre agent via configuration

Le proxy est agnostique au niveau de l'API : il fonctionne avec tout endpoint compatible OpenAI. Compresr publie aussi un SDK Python (pip install compresr) pour intégrer la compression directement dans le code applicatif.

Pour les équipes qui déploient des agents en production, Context Gateway offre aussi un dashboard web pour suivre les sessions en cours et passées, des plafonds de dépenses configurables par session, et des notifications Slack quand l'agent est bloqué en attente d'input utilisateur.

L'équipe Compresr : 4 docteurs EPFL et Y Combinator W26

Compresr est une startup Y Combinator Winter 2026 basée à San Francisco, accompagnée par Jared Friedman. L'équipe de quatre fondateurs vient de l'EPFL (École Polytechnique Fédérale de Lausanne) :

Fondateur

Rôle

Parcours

Ivan Zakazov

CEO

PhD EPFL (compression de contexte LLM), ex-Microsoft Research, publications EMNLP-25 et NeurIPS-24

Oussama Gabouj

CTO

Recherche EPFL dLab, ex-AXA, publication EMNLP 2025 sur la compression de prompts

Berke Argın

CAIO

CS EPFL, ex-UBS

Kamel Charaf

COO

Master Data Science EPFL, ex-Bell Labs

Le fait que le CEO et le CTO aient publié des articles de recherche dans des conférences de premier plan (EMNLP, NeurIPS) sur exactement le sujet de leur startup est un signal fort. Ce n'est pas une équipe qui a découvert la compression de contexte en lisant un thread Twitter. Ils travaillent sur ce problème depuis leurs doctorats.

Le dépôt GitHub affiche 412 étoiles, 34 forks, et a connu 12 releases en 5 semaines depuis sa création le 10 février 2026, ce qui témoigne d'un rythme de développement soutenu.

Réception communautaire : entre enthousiasme et scepticisme

Hacker News : 85 points, un débat technique animé

Le Show HN de Context Gateway a atteint 85 points et 49 commentaires, se classant 20e sur la première page du 13 mars 2026.

Les réactions positives reconnaissent que la saturation de contexte est un vrai problème douloureux et saluent l'approche SLM plutôt que la résumérisation naïve.

Mais le scepticisme est tout aussi présent. Un commentateur, @verdverm, a noté : « Le framework que j'utilise (ADK) gère déjà ça... YC a surindexé sur les startups IA trop tôt, sans réaliser à quel point ces "produits" sont triviaux, davantage une ligne dans la liste de fonctionnalités d'un framework d'agents mature. »

Un autre, @kuboble, a mis en garde : « On dirait un outil qui résout un problème qui ne durera pas plus de quelques mois et que Claude Code peut et va probablement résoudre lui-même bientôt. »

Un point technique critique a aussi été soulevé : le prompt caching de Claude fonctionne sur des correspondances exactes de préfixes. Si la compaction modifie le contexte, le cache est invalidé, et vous payez de nouveau le plein tarif pour tout l'historique. Cela pourrait partiellement ou totalement annuler les économies réalisées sur les workflows qui dépendent fortement du cache.

Product Hunt : 217 upvotes

Sur Product Hunt, Context Gateway a reçu 217 upvotes et 13 commentaires. Les retours mettent en avant les plafonds de dépenses et les notifications Slack comme des fonctionnalités de confort qui manquent cruellement à Claude Code natif.

https://www.linkedin.com/posts/ivan-zakazov_we-realized-that-claude-code-and-openclaw-activity-7435618282168164352-RwSW

Context Gateway face à la concurrence : LLMLingua, Google ADK, Claude natif

Context Gateway n'opère pas dans un vide. Le paysage de la compression de contexte est actif, avec des acteurs académiques, des frameworks, et des fonctionnalités natives.

Solution

Approche

Forces

Limites

Context Gateway

Proxy local, SLM classificateur

Transparent, expand(), dashboard

Jeune, ratio fixe

Microsoft LLMLingua

Élagage basé sur la perplexité (GPT2/LLaMA)

Jusqu'à 20x, bien documenté

Pas un proxy agent, lib de recherche

Google ADK

compaction_interval intégré au framework

Natif, une ligne de config

Limité à l'écosystème ADK

Claude Code /compact

Compaction native

Aucune installation

Bloquant (3 min), contrôle grossier

Sentinel (arXiv)

Sondage d'attention, modèle proxy 0,5B

5x compression sur LongBench

Pas de release production

The Token Company (YC W26)

Compression ML des prompts

Aussi YC W26, focus prompts

Pas spécifiquement un proxy

Le risque compétitif principal est bien résumé par l'analyse du YC Tier List : « Microsoft Research livre déjà LLMLingua, et n'importe quel fournisseur de LLM majeur peut internaliser la compression nativement, transformant cela en fonctionnalité plutôt qu'en entreprise. » Si Anthropic améliore la compaction native de Claude Code, ou si OpenAI intègre la compression dans Codex, la proposition de valeur d'un proxy externe diminue considérablement.

Pourquoi la gestion du contexte est devenue une infrastructure critique en 2026

Au-delà de Context Gateway, la gestion du contexte est en train de devenir un enjeu d'infrastructure pour toute équipe qui déploie des agents IA en production.

Les fenêtres de contexte ont grandi, mais le problème n'a pas disparu. Même avec 1 million de tokens, la précision se dégrade de manière non linéaire. Sonnet 4.6 passe de 90,6% de récupération à 256K tokens à 65,1% à 1M tokens. Plus de contexte ne signifie pas de meilleures performances.

Les workflows agentiques polluent le contexte par nature. Chaque appel outil ajoute des tokens. Un agent de code peut émettre des dizaines d'appels par session (grep, read_file, bash...), chacun renvoyant potentiellement des milliers de tokens. Une seule lecture de fichier peut injecter plus de 10 000 tokens dans la fenêtre.

L'écosystème traite maintenant le contexte comme de l'infrastructure. Google ADK a ajouté un flag `compaction_interval` dans sa version 1.16.0. Plusieurs startups YC W26 (Compresr, The Token Company) construisent la compression de contexte comme un produit à part entière. Kubernetes a formé un groupe de travail AI Gateway pour standardiser l'infrastructure de routage context-aware.

Du côté académique, le papier Sentinel propose un sondage d'attention pour la compression de contexte, atteignant 5x de compression sur LongBench avec un modèle proxy de seulement 0,5 milliard de paramètres.

Les limites à connaître avant d'adopter Context Gateway

Nous avons commencé à tester Context Gateway en local sur des projets parallèles, et il est important de poser un regard honnête sur ses limitations actuelles.

La compression est par nature avec perte. Supprimer des tokens signifie perdre de l'information. L'équipe affirme que la qualité s'améliore en pratique parce que le modèle reçoit un contexte plus condensé, mais des cas limites existent où des tokens jugés « non pertinents » s'avèrent importants plus tard dans la chaîne.

L'invalidation du cache de prompts est un vrai risque. Si vous utilisez Claude avec le prompt caching, la compaction modifie le préfixe du contexte, ce qui invalide le cache. Vous pourriez finir par payer plus cher, pas moins, sur des workflows qui dépendent fortement du caching.

Le ratio de compression est fixe. Le ratio par défaut de 0,5 est un outil grossier. Les données structurées (JSON, code) nécessitent un traitement différent des logs verbeux. L'équipe reconnaît cette limitation et travaille sur un traitement différentiel, mais ce n'est pas encore disponible.

Les benchmarks manquent de vérification indépendante. Aucun benchmark tiers n'est disponible. La référence à « GPT-5.2 » dans les benchmarks du site ne correspond pas à la nomenclature OpenAI connue.

C'est un produit early-stage. Quatre fondateurs, 52 commits, version 0.5.2. Le produit fonctionne et s'installe, mais le hardening pour des déploiements enterprise est encore en cours. La version 0.4.4 a introduit le renforcement de la sécurité et le support OAuth, ce qui suggère que les versions antérieures avaient des lacunes en matière de sécurité.

Le risque existentiel est bien réel. Si Anthropic, OpenAI ou Google intègrent nativement une compression de contexte performante dans leurs agents, le cas d'usage d'un proxy externe se réduit drastiquement. Google ADK le fait déjà avec une seule ligne de configuration.

Pour qui Context Gateway est-il pertinent ?

Vous devriez l'évaluer si :

  • Vous utilisez Claude Code, Cursor ou un agent similaire sur des codebases de taille significative et votre facture tokens devient un poste de coût notable.

  • Vous déployez des agents IA en production et vous avez besoin de plafonds de dépenses, de monitoring, et de notifications que les outils natifs n'offrent pas.

  • Vous gérez des pipelines RAG qui ingèrent des documents volumineux (SEC filings, documentation technique, bases de connaissances) et vous voulez réduire le coût par requête.

  • Vous êtes frustré par la compaction bloquante de Claude Code et vous cherchez une alternative transparente.

Vous pouvez attendre si :

  • Votre usage agent est léger et votre facture tokens est négligeable.

  • Vous êtes dans l'écosystème Google ADK, qui offre déjà une compaction native.

  • Vous ne voulez pas ajouter un intermédiaire local qui gère toutes vos clés API et votre trafic réseau.

  • Vous préférez attendre que les fournisseurs de LLM intègrent ces fonctionnalités nativement, ce qui arrivera probablement dans les prochains mois.

Notre verdict : un outil prometteur à surveiller de près

Context Gateway résout un vrai problème que tout utilisateur intensif d'agents IA a rencontré. L'approche technique est solide : la compression par classificateur SLM plutôt que par résumé est la bonne idée, et l'équipe a le pedigree académique pour l'exécuter.

Les 76% d'économies de coûts et les 30% de réduction de latence sont crédibles dans les bons scénarios, même si le chiffre de 200x est un cas extrême qu'il ne faut pas prendre comme une référence d'usage quotidien. Les 412 étoiles GitHub et les 12 releases en 5 semaines montrent un projet actif avec une traction initiale réelle.

Chez Emelia, nous avons commencé à l'évaluer sur nos pipelines internes de traitement de données. La promesse de réduire significativement nos coûts de tokens tout en maintenant ou améliorant la qualité des réponses est exactement ce dont nous avons besoin à mesure que nos volumes augmentent. La gestion du contexte n'est plus un nice-to-have : c'est une couche d'infrastructure que toute équipe IA sérieuse doit adresser.

Le vrai test pour Compresr ne sera pas technique. Ce sera de savoir s'ils peuvent établir une position défendable avant que les fournisseurs de LLM n'intègrent cette fonctionnalité dans leurs propres produits. La course est lancée.

logo emelia

Découvrez Emelia, votre outil de prospection tout en un.

logo emelia

Des prix clairs, transparents et sans frais cachés.

Aucun engagement, des prix pour vous aider à augmenter votre prospection.

Start

37€

/mois

Envoi d'emails illimités

Connecter 1 compte LinkedIn

Actions LinkedIn illimitées

Email Warmup inclus

Scraping illimité

Contacts illimités

Grow

Populaire
arrow-right
97€

/mois

Envoi d'emails illimités

Jusqu'à 5 comptes LinkedIn

Actions LinkedIn illimitées

Warmup illimité

Contacts illimités

1 intégration CRM

Scale

297€

/mois

Envoi d'emails illimités

Jusqu'à 20 comptes LinkedIn

Actions LinkedIn illimitées

Warmup illimité

Contacts illimités

Multi CRM Connexion

Unlimited API Calls

Crédits(optionnel)

Vous n'avez pas besoin de crédits si vous voulez simplement envoyer des emails ou faire des actions sur LinkedIn

Peuvent être utilisés pour :

Trouver Emails

Action IA

Trouver des Numéros

Vérifier des Emails

1 000
5 000
10 000
50 000
100 000
1 000 Emails trouvés
1 000 IA Actions
20 Numéros
4 000 Vérifications
19par mois

Découvrez d'autres articles qui pourraient vous intéresser !

Voir tous les articles
MathieuMathieu Co-founder
Lire la suite
Logiciels
Publié le 1 juil. 2025

Lusha vs Waalaxy vs Emelia: qui domine en 2026 ?

NielsNiels Co-founder
Lire la suite
MarieMarie Head Of Sales
Lire la suite
Conseils et formations
Publié le 8 juin 2025

Top 6 Plugins WordPress SEO 2026 : Boostez Votre Classement

NielsNiels Co-founder
Lire la suite
MathieuMathieu Co-founder
Lire la suite
Made with ❤ for Growth Marketers by Growth Marketers
Copyright © 2026 Emelia All Rights Reserved