TensorZero : le stack LLMOps qui rend LangSmith obsolète ?

Niels
Niels Co-founder
Publié le 14 mars 2026Mis à jour le 15 mars 2026

Chez Emelia, nous intégrons l'intelligence artificielle au cœur de notre plateforme de prospection B2B : rédaction assistée de cold emails, enrichissement de données, scoring de leads. Chaque appel à un LLM transite par une infrastructure critique qui doit être rapide, fiable et optimisable. C'est pourquoi nous surveillons de près l'écosystème des outils LLMOps, et TensorZero a immédiatement retenu notre attention. Nous avons commencé à l'évaluer en interne sur des projets parallèles, et voici notre analyse complète.

Qu'est-ce que TensorZero et pourquoi tout le monde en parle ?

TensorZero est un stack LLMOps open source construit principalement en Rust qui unifie cinq briques essentielles du cycle de vie d'une application LLM : le gateway (passerelle), l'observabilité, l'optimisation, l'évaluation et l'expérimentation. L'ambition affichée par ses créateurs est claire : transformer les applications LLM basées sur de simples appels API en « produits IA défendables ».

Le projet a été fondé en janvier 2024 par Gabriel Bianconi (CEO, ex-CPO chez Ondo Finance, Stanford BS & MS en informatique) et Viraj Mehta (CTO, PhD en apprentissage par renforcement à CMU, spécialisé dans la fusion nucléaire et les LLMs). L'open source est arrivé en septembre 2024, et le dépôt est immédiatement devenu le repository le plus tendance de la semaine sur GitHub, passant de 3 000 à plus de 9 700 étoiles en quelques mois.

Aujourd'hui, TensorZero cumule 11 100 étoiles sur GitHub, 769 forks, 124 contributeurs, et a levé 7,3 millions de dollars en seed auprès de FirstMark Capital, Bessemer Venture Partners, Bedrock et DRW.

L'histoire derrière TensorZero : de la fusion nucléaire aux LLMs

L'origine de TensorZero est atypique. Le CTO Viraj Mehta a passé des années à appliquer l'apprentissage par renforcement (RL) aux réacteurs à fusion nucléaire. Dans ce domaine, chaque point de données coûte environ 30 000 dollars pour 5 secondes de collecte. Cette contrainte extrême a forgé une obsession : extraire la valeur maximale de chaque donnée disponible.

Quand Mehta et Bianconi ont commencé à travailler ensemble, ils ont reconceptualisé les applications LLM comme des problèmes de décision markoviens partiellement observables (POMDPs). Ce cadre théorique, emprunté à la recherche en RL, permet de modéliser une application LLM comme un agent qui prend des décisions dans un environnement incertain, collecte du feedback, et s'améliore de manière continue.

Le framework POMDP appliqué aux applications LLM

Élément POMDP

Équivalent LLM

Agent (politique π)

Les fonctions LLM elles-mêmes

Espace d'états (S)

Facteurs non observés (intention utilisateur, systèmes externes)

Espace d'actions (A)

Sorties des fonctions LLM (texte, appels d'outils)

Espace d'observations (O)

Entrées des fonctions LLM (historique, variables)

Transition (T)

Code applicatif hors LLM + changements réels

Récompense (R)

KPIs métier (conversion, satisfaction, précision)

Cette modélisation n'est pas qu'académique. Elle structure toute l'architecture de TensorZero et permet ce que l'équipe appelle le data flywheel : une boucle d'apprentissage auto-renforçante.

Comment fonctionne le data flywheel de TensorZero ?

Le data flywheel est le concept central qui distingue TensorZero de ses concurrents. Il s'agit d'un cycle continu en quatre étapes :

1. Collecte. Chaque inférence en production est enregistrée de manière structurée dans ClickHouse. TensorZero ne stocke pas les prompts bruts : il enregistre les variables d'entrée, les sorties et le feedback. Cette approche rend les données agnostiques vis-à-vis du fournisseur de modèle, ce qui permet de réutiliser les mêmes données pour fine-tuner un modèle OpenAI, Anthropic ou open source.

2. Optimisation. Les données collectées servent à générer des variantes de politiques : mise à jour des prompts, fine-tuning supervisé (SFT), fine-tuning par préférence (DPO), apprentissage par renforcement (RLHF), ou optimisation en temps d'inférence (Dynamic In-Context Learning, Best-of-N, Mixture-of-N).

3. Évaluation. Des évaluations hors ligne (backtests) sur les données historiques permettent de valider chaque variante avant déploiement. TensorZero propose des évaluations statiques (heuristiques + juges LLM) et dynamiques (workflows end-to-end).

4. Boucle. Le trafic de production génère automatiquement de nouvelles variantes, les évalue par rapport aux KPIs, et referme la boucle. Les ingénieurs se concentrent sur les décisions de haut niveau : quelles données alimenter, quels signaux de feedback utiliser, quels comportements incentiver.

Les 5 piliers de TensorZero : gateway, observabilité, optimisation, évaluation, expérimentation

Le gateway LLM le plus rapide du marché

Le gateway est le composant qui fait transiter tous les appels LLM. Construit en Rust, il affiche des performances spectaculaires : moins de 1 ms de latence au P99, même à 10 000 requêtes par seconde. À titre de comparaison, LiteLLM (écrit en Python) échoue complètement à 1 000 QPS et ajoute déjà 25 à 100 fois plus de latence que TensorZero à seulement 100 QPS.

Métrique

LiteLLM (100 QPS)

LiteLLM (500 QPS)

LiteLLM (1 000 QPS)

TensorZero (10 000 QPS)

Latence moyenne

4,91 ms

7,45 ms

Échec

0,37 ms

P50

4,83 ms

5,81 ms

Échec

0,35 ms

P90

5,26 ms

10,02 ms

Échec

0,50 ms

P99

5,87 ms

39,69 ms

Échec

0,94 ms

Ces benchmarks ont été réalisés sur la même instance AWS c7i.xlarge (4 vCPUs, 8 Go RAM), selon la documentation officielle de TensorZero.

Le gateway supporte le streaming, l'utilisation d'outils (tool use), la génération structurée (mode JSON), l'inférence par lots (batch), le multimodal, la mise en cache, les retries automatiques, les fallbacks, le load balancing et les timeouts granulaires. Il est compatible avec le SDK OpenAI, le client Python TensorZero, ou une simple API HTTP.

19+ fournisseurs LLM supportés nativement

TensorZero prend en charge plus de 19 fournisseurs majeurs : OpenAI, Anthropic, AWS Bedrock, AWS SageMaker, Azure OpenAI, DeepSeek, Fireworks, GCP Vertex AI (Anthropic et Gemini), Google AI Studio, Groq, Hyperbolic, Mistral, OpenRouter, SGLang, TGI, Together AI, vLLM, xAI (Grok), et toute API compatible OpenAI (y compris Ollama pour les modèles locaux).

Observabilité complète avec ClickHouse

Toutes les inférences et le feedback sont stockés dans votre propre base de données ClickHouse, une base de données colonnaire optimisée pour l'analytique à grande échelle. TensorZero fournit une UI open source pour le monitoring, avec la possibilité de descendre au niveau de chaque inférence individuelle ou d'observer des patterns agrégés. L'export OpenTelemetry (OTLP) vers des outils tiers est également supporté.

Un point crucial : vous pouvez rejouer des inférences historiques avec de nouveaux prompts ou modèles pour effectuer des analyses contrefactuelles. Cela signifie que vous pouvez tester un nouveau prompt sur six mois de données passées sans envoyer une seule requête à un LLM.

Optimisation : du fine-tuning à l'apprentissage par renforcement

TensorZero se distingue par la profondeur de ses capacités d'optimisation :

Optimisation des modèles : fine-tuning supervisé (SFT), fine-tuning par préférence (DPO), apprentissage par renforcement à partir du feedback humain (RLHF).

Optimisation des prompts : MIPROv2, intégration DSPy, GEPA. Ces méthodes génèrent automatiquement des variantes de prompts optimisées à partir de vos données de production.

Optimisation en temps d'inférence : Dynamic In-Context Learning (DICL), qui sélectionne dynamiquement les meilleurs exemples à injecter dans le contexte ; Best-of-N sampling, qui génère N réponses et sélectionne la meilleure ; Mixture-of-N, qui combine les sorties de plusieurs modèles ; et Chain-of-Thought (CoT).

Toutes ces optimisations reposent sur des données de production structurées, liées à des KPIs réels. Ce n'est pas de l'optimisation en laboratoire : c'est de l'amélioration continue basée sur le terrain.

Évaluations : les tests unitaires pour LLMs

TensorZero propose deux types d'évaluations :

Évaluations statiques : heuristiques et juges LLM. Ce sont l'équivalent des tests unitaires pour vos fonctions LLM. Les juges LLM sont eux-mêmes des fonctions TensorZero, ce qui signifie qu'ils peuvent être optimisés avec les mêmes mécanismes.

Évaluations dynamiques : workflows end-to-end, l'équivalent des tests d'intégration. Elles vérifient que l'ensemble de la chaîne fonctionne correctement.

Expérimentation intégrée : A/B testing et bandits

L'expérimentation est native dans TensorZero. Vous pouvez lancer des tests A/B rigoureux (essais contrôlés randomisés) sur les modèles, prompts, fournisseurs et hyperparamètres. Le système gère automatiquement la randomisation dans les workflows multi-tours complexes.

Pour aller plus loin, TensorZero supporte l'expérimentation adaptative avec des bandits multi-bras, qui allouent progressivement plus de trafic aux variantes les plus performantes.

TensorZero Autopilot : l'ingénieur IA automatisé

Lancé en preview dans la version 2026.1.7 (février 2026), Autopilot est décrit comme « Claude Code pour l'ingénierie LLM ». C'est un ingénieur IA automatisé qui opère au-dessus du stack TensorZero.

Autopilot est capable de :

  • Analyser des millions d'inférences pour identifier des patterns d'erreur et des opportunités d'optimisation

  • Recommander des modèles et des stratégies d'inférence pour améliorer la qualité, le coût et la latence

  • Générer et affiner des prompts à partir du feedback humain, des métriques et des évaluations

  • Piloter des workflows d'optimisation incluant le fine-tuning, le RL et la distillation de connaissances

  • Configurer des évaluations, prévenir les régressions et aligner les juges LLM sur des scénarios réels

  • Exécuter des tests A/B pour valider les changements et identifier les gagnants

L'équipe TensorZero affirme qu'Autopilot a déjà produit des « améliorations substantielles de performance dans des cas d'usage allant de l'extraction de données au support client par agents IA ».

Autopilot est actuellement accessible sur invitation (liste d'attente). Il représente la couche de monétisation future de TensorZero, au-dessus du stack entièrement gratuit.

Pourquoi Rust change tout pour un gateway LLM

Le choix de Rust n'est pas anodin. L'équipe inclut Aaron Hill, un mainteneur du compilateur Rust, ce qui témoigne de la profondeur de l'expertise technique.

Voici pourquoi Rust est un avantage décisif pour un gateway LLM :

Le gateway est un chemin critique. Chaque appel LLM transite par cette couche. Même une latence additionnelle minime se multiplie à l'échelle de millions de requêtes quotidiennes. À 10 000 QPS, un gateway Python ajoute 50 à 100 ms de surcharge pure par requête.

Sécurité mémoire sans pauses de garbage collection. Le modèle d'ownership de Rust élimine les pauses GC (qui causent des pics de latence) et les bugs mémoire (qui causent des crashs en production).

Concurrence sans risque. Le système de types de Rust détecte les data races à la compilation, pas en production. Pour un gateway concurrent routant des requêtes vers des dizaines de fournisseurs LLM, cela élimine toute une catégorie de bugs.

Prévisibilité opérationnelle. Les performances de Rust sont déterministes. Le GIL (Global Interpreter Lock) de Python crée des plafonds de débit qui ne se manifestent qu'en production.

TensorZero face à la concurrence : LangSmith, Langfuse, LiteLLM, Helicone

Comment TensorZero se positionne-t-il face aux alternatives les plus populaires ?

Fonctionnalité

TensorZero

LangSmith

Langfuse

LiteLLM

Open source

100 % (Apache 2.0)

Partiel (LangSmith est commercial)

Partiel (fonctions payantes)

Partiel (tier entreprise)

Self-hosted

Oui

Partiellement

Oui

Oui

Gateway LLM

Oui

Via LangChain

Non

Oui

Observabilité

UI OSS complète

Payant

UI complète (partiel OSS)

Intégrations tierces

Évaluations

Intégrées

Payant

Intégrées

Non

A/B Testing

Natif

Non

Non

Non

Fine-tuning

Intégré (SFT, DPO, RLHF)

Non

Non

Non

Optimisation inférence

Oui (DICL, BoN, MoN)

Non

Non

Non

Performance

< 1 ms P99 à 10K QPS

Lent (Python)

N/A

Échec à 1K QPS

Prix

100 % gratuit

Payant

Freemium

Freemium

TensorZero vs LangSmith et LangChain

TensorZero sépare clairement l'ingénierie applicative de l'optimisation LLM, là où LangChain mélange les deux. LangSmith nécessite un abonnement payant séparé ; l'observabilité de TensorZero est entièrement gratuite et open source. TensorZero est conçu pour la production ; LangChain excelle dans le prototypage rapide. Et surtout, TensorZero est agnostique au langage (API HTTP), là où LangChain ne supporte que Python et JavaScript, selon la documentation comparative de TensorZero.

TensorZero vs Langfuse

Langfuse ne propose pas de gateway LLM, ce qui signifie que vous devez combiner Langfuse avec un autre outil pour cette fonction. Langfuse a une UI d'observabilité plus mature et un playground plus avancé, mais TensorZero est nettement supérieur sur l'optimisation. Les deux outils peuvent d'ailleurs être combinés, selon la page de comparaison officielle.

TensorZero vs LiteLLM

La différence de performance est le point le plus frappant. TensorZero gère 10 000 QPS avec moins de 1 ms au P99 ; LiteLLM échoue à 1 000 QPS. Au-delà du gateway, TensorZero ajoute des évaluations, de l'A/B testing et de l'optimisation, qu'aucun de ces outils ne propose, d'après la documentation des benchmarks. LiteLLM supporte en revanche plus de 100 modèles contre une vingtaine pour TensorZero (extensible via toute API compatible OpenAI).

Cas d'usage concrets pour les entreprises

Automatisation des changelogs dans une grande banque européenne

Un cas d'étude publié par TensorZero décrit le déploiement dans une grande banque européenne. Les ingénieurs devaient rédiger des changelogs détaillés pour chaque merge request GitLab, une tâche que la plupart sautaient. TensorZero a été intégré aux pipelines CI/CD GitLab avec le Dynamic In-Context Learning (DICL) : chaque correction humaine d'un changelog généré par l'IA alimentait automatiquement les futures requêtes. Le tout a été déployé entièrement on-premise avec TensorZero + Ollama, sans qu'aucune donnée ne quitte l'infrastructure de la banque.

Extraction de données (NER)

Sur une tâche de reconnaissance d'entités nommées, un modèle GPT-4o Mini optimisé avec TensorZero a surpassé GPT-4o (non optimisé), à une fraction du coût et de la latence, avec un petit jeu de données d'entraînement. La preuve que l'optimisation systématique peut compenser la taille du modèle.

Reverse-engineering du client LLM de Cursor

TensorZero a démontré la capacité de reverse-engineerer le client LLM de Cursor (valorisé à 9,9 milliards de dollars) pour observer les prompts utilisés, tester différents modèles en A/B, et optimiser ses propres prompts et modèles. Cette démonstration est devenue virale avec plus de 11 700 vues.

Applications pour le B2B SaaS

Pour un outil comme Emelia, les cas d'usage potentiels de TensorZero sont multiples :

  • Optimisation de la rédaction IA : chaque email généré par l'IA peut être évalué via le feedback utilisateur (taux d'ouverture, taux de réponse), alimentant le data flywheel pour améliorer continuellement la qualité

  • A/B testing de modèles : tester GPT-4o vs Claude 3.7 vs Mistral sur la même tâche de rédaction, avec des métriques de production réelles

  • Réduction des coûts : utiliser le fine-tuning pour obtenir des performances de GPT-4o avec un modèle plus léger et moins cher

  • Latence minimale : le gateway en Rust garantit que l'infrastructure LLM n'est jamais le goulot d'étranglement

Le modèle économique : 100 % gratuit, vraiment ?

TensorZero est distribué sous licence Apache 2.0. Aucune fonctionnalité n'est payante. Le self-hosting est gratuit : vous apportez vos propres clés API LLM, TensorZero n'ajoute aucun coût. Le support entreprise est même gratuit : un email à hello@tensorzero.com suffit pour obtenir un canal Slack ou Teams dédié.

Gabriel Bianconi l'a expliqué à VentureBeat : « Nous avons réalisé très tôt que nous devions rendre cela open source, pour donner aux entreprises la confiance nécessaire. » La stratégie open source répond directement à la peur du vendor lock-in que ressentent les entreprises face à leurs données IA sensibles.

La monétisation future viendra d'un service managé (Autopilot) qui inclura l'infrastructure GPU pour le fine-tuning, la gestion automatisée des expérimentations et des suggestions d'optimisation proactives. Matt Turck de FirstMark a résumé la situation dans un tweet : « Been thinking about feedback loops in AI forever and those guys are the real deal. »

L'équipe de 9 personnes derrière TensorZero

L'équipe basée à Brooklyn, New York, est remarquablement dense en expertise :

Nom

Rôle

Parcours

Gabriel Bianconi

CEO

CPO chez Ondo Finance (DeFi, 1 Md$+ AUM) ; Stanford BS & MS

Viraj Mehta

CTO

PhD CMU (RL pour fusion nucléaire + LLMs) ; Stanford BS & MS

Aaron Hill

Ingénieur

Mainteneur du compilateur Rust ; AWS, Svix

Alan Mishler

Chercheur

VP chez J.P. Morgan AI Research ; PhD CMU ; 1 300+ citations

Andrew Jesson

Chercheur

Postdoc Columbia, PhD Oxford (LLMs) ; 4 000+ citations

Antoine Toussaint

Ingénieur

Staff SWE (Shopify, Illumio) ; ex-quant ; PhD Princeton

Michelle Hui

ML/Produit

Wing/Alphabet, ONU ; Cornell BS & MS

Shuyang Li

Ingénieur

Staff SWE chez Google (infra LLM, search) ; Palantir

Simeon Lee

Design

Head of Design chez Merge ; design engineer IA/devtools

Les limites de TensorZero : pour qui ce n'est pas fait

Soyons honnêtes sur les limites :

Courbe d'apprentissage. TensorZero utilise une approche Configuration-as-Code (GitOps) pour la gestion des prompts. Si votre équipe n'est pas à l'aise avec les fichiers de configuration TOML et les workflows Git, la prise en main sera plus lente qu'avec un outil à interface graphique comme Langfuse ou LangSmith.

UI d'observabilité moins mature. L'interface utilisateur de TensorZero est fonctionnelle mais moins polie que celle de Langfuse ou LangSmith. Si votre priorité est un dashboard élégant pour des parties prenantes non techniques, d'autres outils seront plus adaptés.

Pas de routage dynamique par latence ou coût. LiteLLM propose un routage dynamique basé sur la latence ou le coût du fournisseur. TensorZero ne supporte que le routage statique pour le moment.

Nombre limité de fournisseurs natifs. Avec environ 20 fournisseurs natifs contre plus de 100 pour LiteLLM, TensorZero couvre les principaux acteurs mais pas la longue traîne. Toute API compatible OpenAI peut cependant être ajoutée.

Pas de SSO/contrôle d'accès natif. Pour les grandes organisations, le manque de SSO intégré nécessite d'ajouter Nginx ou OAuth2 Proxy, ce qui complexifie le déploiement.

Autopilot encore en preview. La fonctionnalité la plus prometteuse est accessible uniquement sur invitation et n'est pas encore stabilisée.

Qui devrait passer son tour ?

  • Les équipes qui débutent avec les LLMs et veulent un prototype rapide (LangChain sera plus adapté)

  • Les organisations qui ont besoin d'une interface graphique complète pour des utilisateurs non techniques

  • Les projets à faible volume qui ne justifient pas l'infrastructure ClickHouse

  • Les équipes sans culture DevOps/GitOps

Qui devrait foncer ?

  • Les équipes qui opèrent des applications LLM en production à moyenne ou grande échelle

  • Les organisations qui veulent optimiser continuellement leurs modèles avec des données de production

  • Les entreprises avec des contraintes de performance strictes (latence, débit)

  • Les équipes avec des exigences de souveraineté des données (self-hosted, on-premise)

  • Les startups IA qui veulent construire un avantage compétitif via la boucle d'apprentissage

Notre verdict : TensorZero mérite votre attention

TensorZero est le projet le plus ambitieux de l'écosystème LLMOps open source. Là où la plupart des outils se concentrent sur un seul aspect (observabilité pour Langfuse, gateway pour LiteLLM, prototypage pour LangChain), TensorZero vise l'intégration complète du cycle de vie LLM dans un seul stack cohérent.

Le pari technique est audacieux : construire en Rust pour des performances imbattables, modéliser les applications LLM comme des POMDPs pour maximiser l'apprentissage, et rendre le tout 100 % gratuit et open source. Avec 11 100 étoiles, 7,3 millions de dollars de financement et une équipe qui inclut un mainteneur du compilateur Rust, un chercheur de J.P. Morgan AI Research et des ingénieurs Staff de Google et Shopify, le projet a les moyens de ses ambitions.

Comme l'a souligné le guide des gateways LLM de getmaxim.ai : « TensorZero cible les équipes avec des cultures DevOps fortes qui traitent leur infrastructure IA avec la même rigueur que leurs systèmes backend traditionnels. »

Pour les équipes qui construisent des applications LLM sérieuses, la question n'est plus de savoir si vous avez besoin d'un stack LLMOps, mais lequel choisir. TensorZero fait un argument convaincant pour être ce choix.

logo emelia

Découvrez Emelia, votre outil de prospection tout en un.

logo emelia

Des prix clairs, transparents et sans frais cachés.

Aucun engagement, des prix pour vous aider à augmenter votre prospection.

Start

37€

/mois

Envoi d'emails illimités

Connecter 1 compte LinkedIn

Actions LinkedIn illimitées

Email Warmup inclus

Scraping illimité

Contacts illimités

Grow

Populaire
arrow-right
97€

/mois

Envoi d'emails illimités

Jusqu'à 5 comptes LinkedIn

Actions LinkedIn illimitées

Warmup illimité

Contacts illimités

1 intégration CRM

Scale

297€

/mois

Envoi d'emails illimités

Jusqu'à 20 comptes LinkedIn

Actions LinkedIn illimitées

Warmup illimité

Contacts illimités

Multi CRM Connexion

Unlimited API Calls

Crédits(optionnel)

Vous n'avez pas besoin de crédits si vous voulez simplement envoyer des emails ou faire des actions sur LinkedIn

Peuvent être utilisés pour :

Trouver Emails

Action IA

Trouver des Numéros

Vérifier des Emails

1 000
5 000
10 000
50 000
100 000
1 000 Emails trouvés
1 000 IA Actions
20 Numéros
4 000 Vérifications
19par mois

Découvrez d'autres articles qui pourraient vous intéresser !

Voir tous les articles
Logiciels
Publié le 1 juil. 2025

Lusha vs Waalaxy vs Emelia: qui domine en 2026 ?

NielsNiels Co-founder
Lire la suite
MarieMarie Head Of Sales
Lire la suite
Conseils et formations
Publié le 8 juin 2025

Top 6 Plugins WordPress SEO 2026 : Boostez Votre Classement

NielsNiels Co-founder
Lire la suite
NielsNiels Co-founder
Lire la suite
Blog
Publié le 25 févr. 2025

Les 4 meilleurs outils pour la prospection

MarieMarie Head Of Sales
Lire la suite
Made with ❤ for Growth Marketers by Growth Marketers
Copyright © 2026 Emelia All Rights Reserved