El 16 de marzo de 2026, Mistral AI lanzó Leanstral, el primer agente de IA open source diseñado específicamente para Lean 4, un asistente de prueba formal utilizado tanto en matemáticas como en ingeniería de software. En un contexto en el que las herramientas de generación de código por IA se multiplican, Leanstral se distingue por una promesa radical: no solo generar código, sino demostrar matemáticamente que es correcto.
Pero, ¿por qué deberías interesarte por la verificación formal? ¿Cuáles son los benchmarks reales de Leanstral frente a Claude y los modelos open source? Y, sobre todo, ¿qué aplicaciones concretas abre esta tecnología para las empresas y los equipos técnicos? Esta guía hace balance.
Los agentes de IA de generación de código (Copilot, Cursor, Claude Code) producen código funcional en la mayoría de los casos. Pero en los ámbitos críticos (aeronáutica, finanzas, smart contracts, investigación matemática), "parece funcionar" no es suficiente. La revisión humana del código generado por IA es costosa, lenta y requiere una experiencia poco común.
Leanstral propone una alternativa: el agente escribe el código y produce una prueba formal de su corrección. El compilador Lean 4 actúa como verificador binario. O la prueba compila, o no compila. Sin zona gris.
Lean 4, desarrollado por Leonardo de Moura (ex-Microsoft Research), es a la vez un asistente de prueba y un lenguaje de programación funcional. Es utilizado por Google DeepMind (AlphaProof, medalla de plata en las Olimpiadas Internacionales de Matemáticas en 2024), Amazon (verificación de Cedar) y una comunidad de más de 10 000 miembros en Zulip.
La biblioteca Mathlib, que formaliza las matemáticas en Lean, cuenta con más de 20 000 contribuciones y ha recibido 15 millones de dólares en financiación en 2025.
Leanstral se apoya en una arquitectura Sparse Mixture-of-Experts (MoE) con las siguientes características:
Caractéristique | Valeur |
|---|---|
Nom complet | Leanstral-120B-A6B-2603 |
Paramètres totaux | ~119 milliards (128 experts) |
Paramètres actifs par token | ~6,5 milliards (4 experts sur 128) |
Architecture | Sparse Mixture-of-Experts |
Famille de base | Mistral Small 4 |
Fenêtre de contexte | 256K tokens |
Modalités d'entrée | Texte et images |
Licence | Apache 2.0 |
El principio es simple: cada token activa solo 4 de los 128 módulos expertos. Leanstral se beneficia así de la capacidad de conocimiento de un modelo de 119 mil millones de parámetros, pero con el coste de inferencia de un modelo de 6,5 mil millones. Esta proporción de eficiencia de 18x es lo que le permite ofrecer costes drásticamente inferiores a los de la competencia.
A diferencia de los modelos generalistas que producen texto parecido a código Lean, Leanstral interactúa directamente con el compilador Lean 4 vía el protocolo MCP (Model Context Protocol). Concretamente, el agente puede:
Verificar los tipos en el compilador Lean
Ejecutar tácticas de prueba y observar los resultados
Analizar los mensajes de error
Refinar iterativamente las pruebas en un bucle interactivo
Esta integración nativa es una ventaja técnica decisiva. El modelo no "adivina" las pruebas, las construye en diálogo con el verificador.
Mistral AI ha introducido FLTEval, un nuevo benchmark concebido para evaluar la capacidad de producir pruebas en repositorios de código reales. Se basa en el proyecto FLT (Fermat's Last Theorem) del Imperial College London, dirigido por el profesor Kevin Buzzard, un proyecto de formalización con 55 contribuidores y financiado por el EPSRC hasta 2029.
A diferencia del benchmark MiniF2F (que apunta a problemas aislados de competición matemática), FLTEval mide la capacidad de completar pruebas formales en un entorno realista con imports, dependencias de bibliotecas y estructuras de pruebas multiarchivo.
Modèle | Coût par run FLTEval ($) | Score FLTEval |
|---|---|---|
Leanstral pass@1 | 18 | 21,9 |
Leanstral pass@2 | 36 | 26,3 |
Leanstral pass@4 | 72 | 29,3 |
Leanstral pass@8 | 145 | 31,0 |
Leanstral pass@16 | 290 | 31,9 |
Claude Haiku 4.5 | 184 | 23,0 |
Claude Sonnet 4.6 | 549 | 23,7 |
Claude Opus 4.6 | 1 650 | 39,6 |
Las cifras hablan por sí solas:
Leanstral pass@2 (36 $) supera a Sonnet 4.6 (549 $) por 2,6 puntos, por 15 veces menos.
Leanstral pass@2 supera a Haiku 4.5 (184 $) por 3,3 puntos, por 5 veces menos.
Leanstral pass@16 (290 $) supera a Sonnet por 8 puntos, a mitad de precio.
Claude Opus 4.6 sigue siendo el líder en calidad bruta (39,6), pero cuesta 1 650 $, es decir, 46 veces más que Leanstral pass@2.
Modèle | Paramètres actifs | Score FLTEval (meilleur pass) |
|---|---|---|
GLM5-744B-A40B | 40B | ~16,6 (plafonne) |
Kimi-K2.5-1T-A32B | 32B | ~20,1 (plafonne) |
Leanstral pass@1 | 6,5B | 21,9 |
Qwen3.5-397B-A17B | 17B | 25,4 (pass@4) |
Leanstral pass@2 | 6,5B | 26,3 |
Leanstral pass@4 | 6,5B | 29,3 |
Con solo 6,5 mil millones de parámetros activos, Leanstral supera a modelos que movilizan de 5 a 6 veces más. Qwen3.5 necesita 4 intentos y 17 mil millones de parámetros activos para alcanzar 25,4. Leanstral supera esta puntuación ya en su segundo intento.
Solution | Coût estimé | Score FLTEval | Open source |
|---|---|---|---|
Leanstral pass@2 | 36 $ | 26,3 | Oui (Apache 2.0) |
Leanstral pass@16 | 290 $ | 31,9 | Oui (Apache 2.0) |
Claude Haiku 4.5 | 184 $ | 23,0 | Non |
Claude Sonnet 4.6 | 549 $ | 23,7 | Non |
Claude Opus 4.6 | 1 650 $ | 39,6 | Non |
Auto-hébergement Leanstral | Matériel requis: 4x A100/H100 | Identique | Oui |
Los bugs en el código DeFi han costado miles de millones de dólares en los últimos años. La verificación formal es el estándar de referencia para garantizar que un smart contract hace exactamente lo que promete. Con Leanstral, el coste de una auditoría formal disminuye drásticamente: una prueba de corrección a 36 $ en lugar de cientos de dólares con las alternativas propietarias.
En los sectores en los que un error de software puede costar vidas o millones, la verificación formal no es un lujo, sino una obligación reglamentaria. Leanstral permite a los equipos de desarrollo especificar el comportamiento esperado en Lean 4 y, a continuación, generar automáticamente las pruebas de conformidad. El compilador comprueba después que la prueba es válida.
El proyecto FLT (formalización del último teorema de Fermat) y Mathlib ilustran el potencial de Leanstral para acelerar la investigación formalizada. Los investigadores pueden delegar las pruebas rutinarias al agente y concentrarse en los aspectos creativos de la investigación.
Uno de los casos de uso demostrados por Mistral AI es la traducción de pruebas de Rocq (antes Coq) a Lean 4, preservando la semántica y las notaciones. Esto facilita la migración de proyectos académicos o industriales de un ecosistema a otro.
El caso de uso más estratégico: verificar formalmente que el código producido por agentes de IA (Copilot, Cursor, etc.) es correcto. Leanstral encarna la visión del "trustworthy vibe coding", en la que el humano especifica lo que quiere y la máquina prueba la conformidad.
El comando /leanstall en el CLI Mistral Vibe (versión 2.5.0, lanzada el 16 de marzo de 2026) configura automáticamente el agente Leanstral. Es la manera más rápida de probarlo.
El endpoint labs-leanstral-2603 está disponible de forma gratuita durante un período limitado. Mistral AI desea recopilar comentarios de uso reales para mejorar las futuras versiones.
Los pesos del modelo se publican bajo licencia Apache 2.0 en Hugging Face (mistralai/Leanstral-120B-A6B-2603). Configuración recomendada: 4 GPU A100 80 GB o H100, con vLLM y Flash Attention. Nota: la página de Hugging Face presentó un error 404 temporal en el momento del lanzamiento.
Leanstral está diseñado exclusivamente para Lean 4. No reemplaza tus herramientas de codificación generalistas (Copilot, Claude Code, Cursor). Si buscas un asistente para escribir Python, TypeScript o SQL, esta no es la herramienta adecuada.
Con una puntuación FLTEval de 39,6 frente a 31,9 para Leanstral pass@16, Opus conserva una ventaja significativa. Si tu prioridad absoluta es la precisión máxima y el presupuesto no es una restricción, Opus sigue siendo la mejor opción. La comunidad Hacker News, por cierto, ha destacado este punto: un modelo entrenado específicamente para esta tarea debería, en teoría, superar a un modelo generalista.
Algunos observadores señalan que la ganancia de rendimiento de Leanstral parece reducirse más allá de pass@8. El paso de pass@8 (31,0) a pass@16 (31,9) representa solo una ganancia de 0,9 puntos para una duplicación del coste.
El autoalojamiento requiere 4 GPU de gama alta (A100 o H100), lo que representa una inversión de hardware considerable. Para los equipos sin esta infraestructura, la API gratuita o Mistral Vibe siguen siendo las opciones más accesibles.
Leanstral llena un vacío real en el ecosistema. Antes de su salida, las opciones para la verificación formal asistida por IA se limitaban a modelos propietarios costosos (Claude Opus) o a modelos generalistas no optimizados para Lean 4.
Leanstral se posiciona en la intersección de tres cualidades: open source (Apache 2.0), entrenado específicamente para la ingeniería de pruebas, y económico. Ningún otro modelo ocupa actualmente este lugar.
Para los CTO y responsables técnicos que evalúan la verificación formal como componente de su estrategia de calidad de software, Leanstral representa un punto de entrada accesible. Para los investigadores en matemáticas formalizadas, es un acelerador. Y para el ecosistema Lean 4 en su conjunto, es una señal fuerte de que la IA especializada en pruebas formales está convirtiéndose en una realidad práctica.
La verdadera pregunta ya no es "¿es posible la verificación formal asistida por IA?", sino "¿qué tan lista está para producción?". Con Leanstral, Mistral AI propone un primer elemento de respuesta.

Sin compromiso, precios para ayudarte a aumentar tu prospección.
No necesitas créditos si solo quieres enviar emails o hacer acciones en LinkedIn
Se pueden utilizar para:
Buscar Emails
Acción IA
Buscar Números
Verificar Emails