Le 16 mars 2026, Mistral AI a lancé Leanstral, le premier agent IA open source conçu spécifiquement pour Lean 4, un assistant de preuve formelle utilisé aussi bien en mathématiques qu'en ingénierie logicielle. Dans un contexte où les outils de génération de code par IA se multiplient, Leanstral se distingue par une promesse radicale : non seulement générer du code, mais prouver mathématiquement qu'il est correct.
Mais pourquoi devriez-vous vous intéresser à la vérification formelle ? Quels sont les benchmarks réels de Leanstral face à Claude et aux modèles open source ? Et surtout, quelles applications concrètes cette technologie ouvre-t-elle pour les entreprises et les équipes techniques ? Ce guide fait le point.
Les agents IA de génération de code (Copilot, Cursor, Claude Code) produisent du code fonctionnel dans la plupart des cas. Mais dans les domaines critiques (aéronautique, finance, smart contracts, recherche mathématique), « ça a l'air de marcher » ne suffit pas. La revue humaine de code généré par IA est coûteuse, lente et requiert une expertise rare.
Leanstral propose une alternative : l'agent écrit le code et produit une preuve formelle de sa correction. Le compilateur Lean 4 agit comme vérificateur binaire. Soit la preuve compile, soit elle ne compile pas. Pas de zone grise.
Lean 4, développé par Leonardo de Moura (ex-Microsoft Research), est à la fois un assistant de preuve et un langage de programmation fonctionnel. Il est utilisé par Google DeepMind (AlphaProof, médaille d'argent aux Olympiades internationales de mathématiques en 2024), Amazon (vérification de Cedar), et une communauté de plus de 10 000 membres sur Zulip.
La bibliothèque Mathlib, qui formalise les mathématiques en Lean, compte plus de 20 000 contributions et a reçu 15 millions de dollars de financements en 2025.
Leanstral repose sur une architecture Sparse Mixture-of-Experts (MoE) avec les caractéristiques suivantes :
Caractéristique | Valeur |
|---|---|
Nom complet | Leanstral-120B-A6B-2603 |
Paramètres totaux | ~119 milliards (128 experts) |
Paramètres actifs par token | ~6,5 milliards (4 experts sur 128) |
Architecture | Sparse Mixture-of-Experts |
Famille de base | Mistral Small 4 |
Fenêtre de contexte | 256K tokens |
Modalités d'entrée | Texte et images |
Licence | Apache 2.0 |
Le principe est simple : chaque token active seulement 4 des 128 modules experts. Leanstral bénéficie ainsi de la capacité de connaissance d'un modèle de 119 milliards de paramètres, mais au coût d'inférence d'un modèle de 6,5 milliards. Ce ratio d'efficacité de 18x est ce qui lui permet de proposer des coûts drastiquement inférieurs à la concurrence.
Contrairement aux modèles généralistes qui produisent du texte ressemblant à du code Lean, Leanstral interagit directement avec le compilateur Lean 4 via le protocole MCP (Model Context Protocol). Concrètement, l'agent peut :
Vérifier les types dans le compilateur Lean
Exécuter des tactiques de preuve et observer les résultats
Analyser les messages d'erreur
Affiner itérativement les preuves dans une boucle interactive
Cette intégration native est un avantage technique décisif. Le modèle ne « devine » pas les preuves : il les construit en dialogue avec le vérificateur.
Mistral AI a introduit FLTEval, un nouveau benchmark conçu pour évaluer la capacité à produire des preuves dans des dépôts de code réels. Il s'appuie sur le projet FLT (Fermat's Last Theorem) d'Imperial College London, dirigé par le professeur Kevin Buzzard, un projet de formalisation avec 55 contributeurs et financé par l'EPSRC jusqu'en 2029.
Contrairement au benchmark MiniF2F (qui cible des problèmes de compétition mathématique isolés), FLTEval mesure la capacité à compléter des preuves formelles dans un environnement réaliste avec imports, dépendances de bibliothèques et structures de preuves multi-fichiers.
Modèle | Coût par run FLTEval ($) | Score FLTEval |
|---|---|---|
Leanstral pass@1 | 18 | 21,9 |
Leanstral pass@2 | 36 | 26,3 |
Leanstral pass@4 | 72 | 29,3 |
Leanstral pass@8 | 145 | 31,0 |
Leanstral pass@16 | 290 | 31,9 |
Claude Haiku 4.5 | 184 | 23,0 |
Claude Sonnet 4.6 | 549 | 23,7 |
Claude Opus 4.6 | 1 650 | 39,6 |
Les chiffres parlent d'eux-mêmes :
Leanstral pass@2 (36 $) dépasse Sonnet 4.6 (549 $) de 2,6 points, pour 15 fois moins cher.
Leanstral pass@2 dépasse Haiku 4.5 (184 $) de 3,3 points, pour 5 fois moins cher.
Leanstral pass@16 (290 $) dépasse Sonnet de 8 points, pour moitié prix.
Claude Opus 4.6 reste le leader en qualité brute (39,6) mais coûte 1 650 $, soit 46 fois plus que Leanstral pass@2.
Modèle | Paramètres actifs | Score FLTEval (meilleur pass) |
|---|---|---|
GLM5-744B-A40B | 40B | ~16,6 (plafonne) |
Kimi-K2.5-1T-A32B | 32B | ~20,1 (plafonne) |
Leanstral pass@1 | 6,5B | 21,9 |
Qwen3.5-397B-A17B | 17B | 25,4 (pass@4) |
Leanstral pass@2 | 6,5B | 26,3 |
Leanstral pass@4 | 6,5B | 29,3 |
Avec seulement 6,5 milliards de paramètres actifs, Leanstral surpasse des modèles qui en mobilisent 5 à 6 fois plus. Qwen3.5 a besoin de 4 tentatives et de 17 milliards de paramètres actifs pour atteindre 25,4. Leanstral dépasse ce score dès sa deuxième tentative.
Solution | Coût estimé | Score FLTEval | Open source |
|---|---|---|---|
Leanstral pass@2 | 36 $ | 26,3 | Oui (Apache 2.0) |
Leanstral pass@16 | 290 $ | 31,9 | Oui (Apache 2.0) |
Claude Haiku 4.5 | 184 $ | 23,0 | Non |
Claude Sonnet 4.6 | 549 $ | 23,7 | Non |
Claude Opus 4.6 | 1 650 $ | 39,6 | Non |
Auto-hébergement Leanstral | Matériel requis : 4x A100/H100 | Identique | Oui |
Les bugs dans le code DeFi ont coûté des milliards de dollars ces dernières années. La vérification formelle est le standard de référence pour garantir qu'un smart contract fait exactement ce qu'il prétend. Avec Leanstral, le coût d'un audit formel diminue drastiquement : une preuve de correction à 36 $ au lieu de centaines de dollars avec les alternatives propriétaires.
Dans les secteurs où une erreur logicielle peut coûter des vies ou des millions, la vérification formelle n'est pas un luxe mais une obligation réglementaire. Leanstral permet aux équipes de développement de spécifier le comportement attendu en Lean 4, puis de générer automatiquement les preuves de conformité. Le compilateur vérifie ensuite que la preuve est valide.
Le projet FLT (formalisation du dernier théorème de Fermat) et Mathlib illustrent le potentiel de Leanstral pour accélérer la recherche formalisée. Les chercheurs peuvent déléguer les preuves routinières à l'agent et se concentrer sur les aspects créatifs de la recherche.
L'un des cas d'usage démontrés par Mistral AI est la traduction de preuves de Rocq (anciennement Coq) vers Lean 4, en préservant la sémantique et les notations. Cela facilite la migration de projets académiques ou industriels d'un écosystème à l'autre.
Le cas d'usage le plus stratégique : vérifier formellement que le code produit par des agents IA (Copilot, Cursor, etc.) est correct. Leanstral incarne la vision du « trustworthy vibe coding » où l'humain spécifie ce qu'il veut et la machine prouve la conformité.
La commande /leanstall dans le CLI Mistral Vibe (version 2.5.0, sortie le 16 mars 2026) configure automatiquement l'agent Leanstral. C'est le moyen le plus rapide de tester.
Le point d'accès labs-leanstral-2603 est disponible gratuitement pour une durée limitée. Mistral AI souhaite collecter des retours d'usage réels pour améliorer les versions futures.
Les poids du modèle sont publiés sous licence Apache 2.0 sur Hugging Face (mistralai/Leanstral-120B-A6B-2603). Configuration recommandée : 4 GPU A100 80 Go ou H100, avec vLLM et Flash Attention. Note : la page Hugging Face présentait une erreur 404 temporaire au moment du lancement.
Leanstral est conçu exclusivement pour Lean 4. Il ne remplace pas vos outils de codage généralistes (Copilot, Claude Code, Cursor). Si vous cherchez un assistant pour écrire du Python, du TypeScript ou du SQL, ce n'est pas le bon outil.
Avec un score FLTEval de 39,6 contre 31,9 pour Leanstral pass@16, Opus conserve une avance significative. Si votre priorité absolue est la précision maximale et que le budget n'est pas une contrainte, Opus reste le meilleur choix. La communauté Hacker News a d'ailleurs souligné ce point : un modèle spécifiquement entraîné pour cette tâche devrait, en théorie, surpasser un modèle généraliste.
Certains observateurs notent que le gain de performance de Leanstral semble se réduire au-delà de pass@8. Le passage de pass@8 (31,0) à pass@16 (31,9) ne représente qu'un gain de 0,9 point pour un doublement du coût.
L'auto-hébergement nécessite 4 GPU haut de gamme (A100 ou H100), ce qui représente un investissement matériel conséquent. Pour les équipes sans cette infrastructure, l'API gratuite ou Mistral Vibe restent les options les plus accessibles.
Leanstral comble un vide réel dans l'écosystème. Avant sa sortie, les options pour la vérification formelle assistée par IA se limitaient à des modèles propriétaires coûteux (Claude Opus) ou à des modèles généralistes non optimisés pour Lean 4.
Leanstral se positionne à l'intersection de trois qualités : open source (Apache 2.0), spécifiquement entraîné pour l'ingénierie de preuves, et économique. Aucun autre modèle n'occupe actuellement cette place.
Pour les CTO et responsables techniques qui évaluent la vérification formelle comme composante de leur stratégie qualité logicielle, Leanstral représente un point d'entrée accessible. Pour les chercheurs en mathématiques formalisées, c'est un accélérateur. Et pour l'écosystème Lean 4 dans son ensemble, c'est un signal fort que l'IA spécialisée dans les preuves formelles est en train de devenir une réalité pratique.
La vraie question n'est plus « est-ce que la vérification formelle assistée par IA est possible ? » mais « à quel point est-elle prête pour la production ? ». Avec Leanstral, Mistral AI propose un premier élément de réponse.

Aucun engagement, des prix pour vous aider à augmenter votre prospection.
Vous n'avez pas besoin de crédits si vous voulez simplement envoyer des emails ou faire des actions sur LinkedIn
Peuvent être utilisés pour :
Trouver Emails
Action IA
Trouver des Numéros
Vérifier des Emails