Chez Emelia, nous intégrons l'intelligence artificielle au cœur de notre plateforme de prospection B2B : rédaction assistée de cold emails, enrichissement de données, scoring de leads. Chaque appel à un LLM transite par une infrastructure critique qui doit être rapide, fiable et optimisable. C'est pourquoi nous surveillons de près l'écosystème des outils LLMOps, et TensorZero a immédiatement retenu notre attention. Nous avons commencé à l'évaluer en interne sur des projets parallèles, et voici notre analyse complète.
TensorZero est un stack LLMOps open source construit principalement en Rust qui unifie cinq briques essentielles du cycle de vie d'une application LLM : le gateway (passerelle), l'observabilité, l'optimisation, l'évaluation et l'expérimentation. L'ambition affichée par ses créateurs est claire : transformer les applications LLM basées sur de simples appels API en « produits IA défendables ».
Le projet a été fondé en janvier 2024 par Gabriel Bianconi (CEO, ex-CPO chez Ondo Finance, Stanford BS & MS en informatique) et Viraj Mehta (CTO, PhD en apprentissage par renforcement à CMU, spécialisé dans la fusion nucléaire et les LLMs). L'open source est arrivé en septembre 2024, et le dépôt est immédiatement devenu le repository le plus tendance de la semaine sur GitHub, passant de 3 000 à plus de 9 700 étoiles en quelques mois.
Aujourd'hui, TensorZero cumule 11 100 étoiles sur GitHub, 769 forks, 124 contributeurs, et a levé 7,3 millions de dollars en seed auprès de FirstMark Capital, Bessemer Venture Partners, Bedrock et DRW.
L'origine de TensorZero est atypique. Le CTO Viraj Mehta a passé des années à appliquer l'apprentissage par renforcement (RL) aux réacteurs à fusion nucléaire. Dans ce domaine, chaque point de données coûte environ 30 000 dollars pour 5 secondes de collecte. Cette contrainte extrême a forgé une obsession : extraire la valeur maximale de chaque donnée disponible.
Quand Mehta et Bianconi ont commencé à travailler ensemble, ils ont reconceptualisé les applications LLM comme des problèmes de décision markoviens partiellement observables (POMDPs). Ce cadre théorique, emprunté à la recherche en RL, permet de modéliser une application LLM comme un agent qui prend des décisions dans un environnement incertain, collecte du feedback, et s'améliore de manière continue.
Élément POMDP | Équivalent LLM |
|---|---|
Agent (politique π) | Les fonctions LLM elles-mêmes |
Espace d'états (S) | Facteurs non observés (intention utilisateur, systèmes externes) |
Espace d'actions (A) | Sorties des fonctions LLM (texte, appels d'outils) |
Espace d'observations (O) | Entrées des fonctions LLM (historique, variables) |
Transition (T) | Code applicatif hors LLM + changements réels |
Récompense (R) | KPIs métier (conversion, satisfaction, précision) |
Cette modélisation n'est pas qu'académique. Elle structure toute l'architecture de TensorZero et permet ce que l'équipe appelle le data flywheel : une boucle d'apprentissage auto-renforçante.
Le data flywheel est le concept central qui distingue TensorZero de ses concurrents. Il s'agit d'un cycle continu en quatre étapes :
1. Collecte. Chaque inférence en production est enregistrée de manière structurée dans ClickHouse. TensorZero ne stocke pas les prompts bruts : il enregistre les variables d'entrée, les sorties et le feedback. Cette approche rend les données agnostiques vis-à-vis du fournisseur de modèle, ce qui permet de réutiliser les mêmes données pour fine-tuner un modèle OpenAI, Anthropic ou open source.
2. Optimisation. Les données collectées servent à générer des variantes de politiques : mise à jour des prompts, fine-tuning supervisé (SFT), fine-tuning par préférence (DPO), apprentissage par renforcement (RLHF), ou optimisation en temps d'inférence (Dynamic In-Context Learning, Best-of-N, Mixture-of-N).
3. Évaluation. Des évaluations hors ligne (backtests) sur les données historiques permettent de valider chaque variante avant déploiement. TensorZero propose des évaluations statiques (heuristiques + juges LLM) et dynamiques (workflows end-to-end).
4. Boucle. Le trafic de production génère automatiquement de nouvelles variantes, les évalue par rapport aux KPIs, et referme la boucle. Les ingénieurs se concentrent sur les décisions de haut niveau : quelles données alimenter, quels signaux de feedback utiliser, quels comportements incentiver.
Le gateway est le composant qui fait transiter tous les appels LLM. Construit en Rust, il affiche des performances spectaculaires : moins de 1 ms de latence au P99, même à 10 000 requêtes par seconde. À titre de comparaison, LiteLLM (écrit en Python) échoue complètement à 1 000 QPS et ajoute déjà 25 à 100 fois plus de latence que TensorZero à seulement 100 QPS.
Métrique | LiteLLM (100 QPS) | LiteLLM (500 QPS) | LiteLLM (1 000 QPS) | TensorZero (10 000 QPS) |
|---|---|---|---|---|
Latence moyenne | 4,91 ms | 7,45 ms | Échec | 0,37 ms |
P50 | 4,83 ms | 5,81 ms | Échec | 0,35 ms |
P90 | 5,26 ms | 10,02 ms | Échec | 0,50 ms |
P99 | 5,87 ms | 39,69 ms | Échec | 0,94 ms |
Ces benchmarks ont été réalisés sur la même instance AWS c7i.xlarge (4 vCPUs, 8 Go RAM), selon la documentation officielle de TensorZero.
Le gateway supporte le streaming, l'utilisation d'outils (tool use), la génération structurée (mode JSON), l'inférence par lots (batch), le multimodal, la mise en cache, les retries automatiques, les fallbacks, le load balancing et les timeouts granulaires. Il est compatible avec le SDK OpenAI, le client Python TensorZero, ou une simple API HTTP.
TensorZero prend en charge plus de 19 fournisseurs majeurs : OpenAI, Anthropic, AWS Bedrock, AWS SageMaker, Azure OpenAI, DeepSeek, Fireworks, GCP Vertex AI (Anthropic et Gemini), Google AI Studio, Groq, Hyperbolic, Mistral, OpenRouter, SGLang, TGI, Together AI, vLLM, xAI (Grok), et toute API compatible OpenAI (y compris Ollama pour les modèles locaux).
Toutes les inférences et le feedback sont stockés dans votre propre base de données ClickHouse, une base de données colonnaire optimisée pour l'analytique à grande échelle. TensorZero fournit une UI open source pour le monitoring, avec la possibilité de descendre au niveau de chaque inférence individuelle ou d'observer des patterns agrégés. L'export OpenTelemetry (OTLP) vers des outils tiers est également supporté.
Un point crucial : vous pouvez rejouer des inférences historiques avec de nouveaux prompts ou modèles pour effectuer des analyses contrefactuelles. Cela signifie que vous pouvez tester un nouveau prompt sur six mois de données passées sans envoyer une seule requête à un LLM.
TensorZero se distingue par la profondeur de ses capacités d'optimisation :
Optimisation des modèles : fine-tuning supervisé (SFT), fine-tuning par préférence (DPO), apprentissage par renforcement à partir du feedback humain (RLHF).
Optimisation des prompts : MIPROv2, intégration DSPy, GEPA. Ces méthodes génèrent automatiquement des variantes de prompts optimisées à partir de vos données de production.
Optimisation en temps d'inférence : Dynamic In-Context Learning (DICL), qui sélectionne dynamiquement les meilleurs exemples à injecter dans le contexte ; Best-of-N sampling, qui génère N réponses et sélectionne la meilleure ; Mixture-of-N, qui combine les sorties de plusieurs modèles ; et Chain-of-Thought (CoT).
Toutes ces optimisations reposent sur des données de production structurées, liées à des KPIs réels. Ce n'est pas de l'optimisation en laboratoire : c'est de l'amélioration continue basée sur le terrain.
TensorZero propose deux types d'évaluations :
Évaluations statiques : heuristiques et juges LLM. Ce sont l'équivalent des tests unitaires pour vos fonctions LLM. Les juges LLM sont eux-mêmes des fonctions TensorZero, ce qui signifie qu'ils peuvent être optimisés avec les mêmes mécanismes.
Évaluations dynamiques : workflows end-to-end, l'équivalent des tests d'intégration. Elles vérifient que l'ensemble de la chaîne fonctionne correctement.
L'expérimentation est native dans TensorZero. Vous pouvez lancer des tests A/B rigoureux (essais contrôlés randomisés) sur les modèles, prompts, fournisseurs et hyperparamètres. Le système gère automatiquement la randomisation dans les workflows multi-tours complexes.
Pour aller plus loin, TensorZero supporte l'expérimentation adaptative avec des bandits multi-bras, qui allouent progressivement plus de trafic aux variantes les plus performantes.
Lancé en preview dans la version 2026.1.7 (février 2026), Autopilot est décrit comme « Claude Code pour l'ingénierie LLM ». C'est un ingénieur IA automatisé qui opère au-dessus du stack TensorZero.
Autopilot est capable de :
Analyser des millions d'inférences pour identifier des patterns d'erreur et des opportunités d'optimisation
Recommander des modèles et des stratégies d'inférence pour améliorer la qualité, le coût et la latence
Générer et affiner des prompts à partir du feedback humain, des métriques et des évaluations
Piloter des workflows d'optimisation incluant le fine-tuning, le RL et la distillation de connaissances
Configurer des évaluations, prévenir les régressions et aligner les juges LLM sur des scénarios réels
Exécuter des tests A/B pour valider les changements et identifier les gagnants
L'équipe TensorZero affirme qu'Autopilot a déjà produit des « améliorations substantielles de performance dans des cas d'usage allant de l'extraction de données au support client par agents IA ».
Autopilot est actuellement accessible sur invitation (liste d'attente). Il représente la couche de monétisation future de TensorZero, au-dessus du stack entièrement gratuit.
Le choix de Rust n'est pas anodin. L'équipe inclut Aaron Hill, un mainteneur du compilateur Rust, ce qui témoigne de la profondeur de l'expertise technique.
Voici pourquoi Rust est un avantage décisif pour un gateway LLM :
Le gateway est un chemin critique. Chaque appel LLM transite par cette couche. Même une latence additionnelle minime se multiplie à l'échelle de millions de requêtes quotidiennes. À 10 000 QPS, un gateway Python ajoute 50 à 100 ms de surcharge pure par requête.
Sécurité mémoire sans pauses de garbage collection. Le modèle d'ownership de Rust élimine les pauses GC (qui causent des pics de latence) et les bugs mémoire (qui causent des crashs en production).
Concurrence sans risque. Le système de types de Rust détecte les data races à la compilation, pas en production. Pour un gateway concurrent routant des requêtes vers des dizaines de fournisseurs LLM, cela élimine toute une catégorie de bugs.
Prévisibilité opérationnelle. Les performances de Rust sont déterministes. Le GIL (Global Interpreter Lock) de Python crée des plafonds de débit qui ne se manifestent qu'en production.
Comment TensorZero se positionne-t-il face aux alternatives les plus populaires ?
Fonctionnalité | TensorZero | LangSmith | Langfuse | LiteLLM |
|---|---|---|---|---|
Open source | 100 % (Apache 2.0) | Partiel (LangSmith est commercial) | Partiel (fonctions payantes) | Partiel (tier entreprise) |
Self-hosted | Oui | Partiellement | Oui | Oui |
Gateway LLM | Oui | Via LangChain | Non | Oui |
Observabilité | UI OSS complète | Payant | UI complète (partiel OSS) | Intégrations tierces |
Évaluations | Intégrées | Payant | Intégrées | Non |
A/B Testing | Natif | Non | Non | Non |
Fine-tuning | Intégré (SFT, DPO, RLHF) | Non | Non | Non |
Optimisation inférence | Oui (DICL, BoN, MoN) | Non | Non | Non |
Performance | < 1 ms P99 à 10K QPS | Lent (Python) | N/A | Échec à 1K QPS |
Prix | 100 % gratuit | Payant | Freemium | Freemium |
TensorZero sépare clairement l'ingénierie applicative de l'optimisation LLM, là où LangChain mélange les deux. LangSmith nécessite un abonnement payant séparé ; l'observabilité de TensorZero est entièrement gratuite et open source. TensorZero est conçu pour la production ; LangChain excelle dans le prototypage rapide. Et surtout, TensorZero est agnostique au langage (API HTTP), là où LangChain ne supporte que Python et JavaScript, selon la documentation comparative de TensorZero.
Langfuse ne propose pas de gateway LLM, ce qui signifie que vous devez combiner Langfuse avec un autre outil pour cette fonction. Langfuse a une UI d'observabilité plus mature et un playground plus avancé, mais TensorZero est nettement supérieur sur l'optimisation. Les deux outils peuvent d'ailleurs être combinés, selon la page de comparaison officielle.
La différence de performance est le point le plus frappant. TensorZero gère 10 000 QPS avec moins de 1 ms au P99 ; LiteLLM échoue à 1 000 QPS. Au-delà du gateway, TensorZero ajoute des évaluations, de l'A/B testing et de l'optimisation, qu'aucun de ces outils ne propose, d'après la documentation des benchmarks. LiteLLM supporte en revanche plus de 100 modèles contre une vingtaine pour TensorZero (extensible via toute API compatible OpenAI).
Un cas d'étude publié par TensorZero décrit le déploiement dans une grande banque européenne. Les ingénieurs devaient rédiger des changelogs détaillés pour chaque merge request GitLab, une tâche que la plupart sautaient. TensorZero a été intégré aux pipelines CI/CD GitLab avec le Dynamic In-Context Learning (DICL) : chaque correction humaine d'un changelog généré par l'IA alimentait automatiquement les futures requêtes. Le tout a été déployé entièrement on-premise avec TensorZero + Ollama, sans qu'aucune donnée ne quitte l'infrastructure de la banque.
Sur une tâche de reconnaissance d'entités nommées, un modèle GPT-4o Mini optimisé avec TensorZero a surpassé GPT-4o (non optimisé), à une fraction du coût et de la latence, avec un petit jeu de données d'entraînement. La preuve que l'optimisation systématique peut compenser la taille du modèle.
TensorZero a démontré la capacité de reverse-engineerer le client LLM de Cursor (valorisé à 9,9 milliards de dollars) pour observer les prompts utilisés, tester différents modèles en A/B, et optimiser ses propres prompts et modèles. Cette démonstration est devenue virale avec plus de 11 700 vues.
Pour un outil comme Emelia, les cas d'usage potentiels de TensorZero sont multiples :
Optimisation de la rédaction IA : chaque email généré par l'IA peut être évalué via le feedback utilisateur (taux d'ouverture, taux de réponse), alimentant le data flywheel pour améliorer continuellement la qualité
A/B testing de modèles : tester GPT-4o vs Claude 3.7 vs Mistral sur la même tâche de rédaction, avec des métriques de production réelles
Réduction des coûts : utiliser le fine-tuning pour obtenir des performances de GPT-4o avec un modèle plus léger et moins cher
Latence minimale : le gateway en Rust garantit que l'infrastructure LLM n'est jamais le goulot d'étranglement
TensorZero est distribué sous licence Apache 2.0. Aucune fonctionnalité n'est payante. Le self-hosting est gratuit : vous apportez vos propres clés API LLM, TensorZero n'ajoute aucun coût. Le support entreprise est même gratuit : un email à hello@tensorzero.com suffit pour obtenir un canal Slack ou Teams dédié.
Gabriel Bianconi l'a expliqué à VentureBeat : « Nous avons réalisé très tôt que nous devions rendre cela open source, pour donner aux entreprises la confiance nécessaire. » La stratégie open source répond directement à la peur du vendor lock-in que ressentent les entreprises face à leurs données IA sensibles.
La monétisation future viendra d'un service managé (Autopilot) qui inclura l'infrastructure GPU pour le fine-tuning, la gestion automatisée des expérimentations et des suggestions d'optimisation proactives. Matt Turck de FirstMark a résumé la situation dans un tweet : « Been thinking about feedback loops in AI forever and those guys are the real deal. »
L'équipe basée à Brooklyn, New York, est remarquablement dense en expertise :
Nom | Rôle | Parcours |
|---|---|---|
Gabriel Bianconi | CEO | CPO chez Ondo Finance (DeFi, 1 Md$+ AUM) ; Stanford BS & MS |
Viraj Mehta | CTO | PhD CMU (RL pour fusion nucléaire + LLMs) ; Stanford BS & MS |
Aaron Hill | Ingénieur | Mainteneur du compilateur Rust ; AWS, Svix |
Alan Mishler | Chercheur | VP chez J.P. Morgan AI Research ; PhD CMU ; 1 300+ citations |
Andrew Jesson | Chercheur | Postdoc Columbia, PhD Oxford (LLMs) ; 4 000+ citations |
Antoine Toussaint | Ingénieur | Staff SWE (Shopify, Illumio) ; ex-quant ; PhD Princeton |
Michelle Hui | ML/Produit | Wing/Alphabet, ONU ; Cornell BS & MS |
Shuyang Li | Ingénieur | Staff SWE chez Google (infra LLM, search) ; Palantir |
Simeon Lee | Design | Head of Design chez Merge ; design engineer IA/devtools |
Soyons honnêtes sur les limites :
Courbe d'apprentissage. TensorZero utilise une approche Configuration-as-Code (GitOps) pour la gestion des prompts. Si votre équipe n'est pas à l'aise avec les fichiers de configuration TOML et les workflows Git, la prise en main sera plus lente qu'avec un outil à interface graphique comme Langfuse ou LangSmith.
UI d'observabilité moins mature. L'interface utilisateur de TensorZero est fonctionnelle mais moins polie que celle de Langfuse ou LangSmith. Si votre priorité est un dashboard élégant pour des parties prenantes non techniques, d'autres outils seront plus adaptés.
Pas de routage dynamique par latence ou coût. LiteLLM propose un routage dynamique basé sur la latence ou le coût du fournisseur. TensorZero ne supporte que le routage statique pour le moment.
Nombre limité de fournisseurs natifs. Avec environ 20 fournisseurs natifs contre plus de 100 pour LiteLLM, TensorZero couvre les principaux acteurs mais pas la longue traîne. Toute API compatible OpenAI peut cependant être ajoutée.
Pas de SSO/contrôle d'accès natif. Pour les grandes organisations, le manque de SSO intégré nécessite d'ajouter Nginx ou OAuth2 Proxy, ce qui complexifie le déploiement.
Autopilot encore en preview. La fonctionnalité la plus prometteuse est accessible uniquement sur invitation et n'est pas encore stabilisée.
Les équipes qui débutent avec les LLMs et veulent un prototype rapide (LangChain sera plus adapté)
Les organisations qui ont besoin d'une interface graphique complète pour des utilisateurs non techniques
Les projets à faible volume qui ne justifient pas l'infrastructure ClickHouse
Les équipes sans culture DevOps/GitOps
Les équipes qui opèrent des applications LLM en production à moyenne ou grande échelle
Les organisations qui veulent optimiser continuellement leurs modèles avec des données de production
Les entreprises avec des contraintes de performance strictes (latence, débit)
Les équipes avec des exigences de souveraineté des données (self-hosted, on-premise)
Les startups IA qui veulent construire un avantage compétitif via la boucle d'apprentissage
TensorZero est le projet le plus ambitieux de l'écosystème LLMOps open source. Là où la plupart des outils se concentrent sur un seul aspect (observabilité pour Langfuse, gateway pour LiteLLM, prototypage pour LangChain), TensorZero vise l'intégration complète du cycle de vie LLM dans un seul stack cohérent.
Le pari technique est audacieux : construire en Rust pour des performances imbattables, modéliser les applications LLM comme des POMDPs pour maximiser l'apprentissage, et rendre le tout 100 % gratuit et open source. Avec 11 100 étoiles, 7,3 millions de dollars de financement et une équipe qui inclut un mainteneur du compilateur Rust, un chercheur de J.P. Morgan AI Research et des ingénieurs Staff de Google et Shopify, le projet a les moyens de ses ambitions.
Comme l'a souligné le guide des gateways LLM de getmaxim.ai : « TensorZero cible les équipes avec des cultures DevOps fortes qui traitent leur infrastructure IA avec la même rigueur que leurs systèmes backend traditionnels. »
Pour les équipes qui construisent des applications LLM sérieuses, la question n'est plus de savoir si vous avez besoin d'un stack LLMOps, mais lequel choisir. TensorZero fait un argument convaincant pour être ce choix.

Aucun engagement, des prix pour vous aider à augmenter votre prospection.
Vous n'avez pas besoin de crédits si vous voulez simplement envoyer des emails ou faire des actions sur LinkedIn
Peuvent être utilisés pour :
Trouver Emails
Action IA
Trouver des Numéros
Vérifier des Emails