Leanstral de Mistral AI: la IA que demuestra que tu código es correcto

Niels
Niels Co-founder
Publicado el 17 mar 2026Actualizado el 9 abr 2026

Leanstral Mistral AI dashboard

El 16 de marzo de 2026, Mistral AI lanzó Leanstral, el primer agente de IA open source diseñado específicamente para Lean 4, un asistente de prueba formal utilizado tanto en matemáticas como en ingeniería de software. En un contexto en el que las herramientas de generación de código por IA se multiplican, Leanstral se distingue por una promesa radical: no solo generar código, sino demostrar matemáticamente que es correcto.

Pero, ¿por qué deberías interesarte por la verificación formal? ¿Cuáles son los benchmarks reales de Leanstral frente a Claude y los modelos open source? Y, sobre todo, ¿qué aplicaciones concretas abre esta tecnología para las empresas y los equipos técnicos? Esta guía hace balance.

Qué es Leanstral y por qué la verificación formal importa

El problema del "vibe coding"

Los agentes de IA de generación de código (Copilot, Cursor, Claude Code) producen código funcional en la mayoría de los casos. Pero en los ámbitos críticos (aeronáutica, finanzas, smart contracts, investigación matemática), "parece funcionar" no es suficiente. La revisión humana del código generado por IA es costosa, lenta y requiere una experiencia poco común.

Leanstral propone una alternativa: el agente escribe el código y produce una prueba formal de su corrección. El compilador Lean 4 actúa como verificador binario. O la prueba compila, o no compila. Sin zona gris.

Lean 4: el lenguaje detrás de Leanstral

Lean 4, desarrollado por Leonardo de Moura (ex-Microsoft Research), es a la vez un asistente de prueba y un lenguaje de programación funcional. Es utilizado por Google DeepMind (AlphaProof, medalla de plata en las Olimpiadas Internacionales de Matemáticas en 2024), Amazon (verificación de Cedar) y una comunidad de más de 10 000 miembros en Zulip.

La biblioteca Mathlib, que formaliza las matemáticas en Lean, cuenta con más de 20 000 contribuciones y ha recibido 15 millones de dólares en financiación en 2025.

Cómo funciona Leanstral: arquitectura y especificaciones técnicas

Un modelo Mixture-of-Experts optimizado para las pruebas

Leanstral se apoya en una arquitectura Sparse Mixture-of-Experts (MoE) con las siguientes características:

Caractéristique

Valeur

Nom complet

Leanstral-120B-A6B-2603

Paramètres totaux

~119 milliards (128 experts)

Paramètres actifs par token

~6,5 milliards (4 experts sur 128)

Architecture

Sparse Mixture-of-Experts

Famille de base

Mistral Small 4

Fenêtre de contexte

256K tokens

Modalités d'entrée

Texte et images

Licence

Apache 2.0

El principio es simple: cada token activa solo 4 de los 128 módulos expertos. Leanstral se beneficia así de la capacidad de conocimiento de un modelo de 119 mil millones de parámetros, pero con el coste de inferencia de un modelo de 6,5 mil millones. Esta proporción de eficiencia de 18x es lo que le permite ofrecer costes drásticamente inferiores a los de la competencia.

Integración con el compilador Lean vía MCP

A diferencia de los modelos generalistas que producen texto parecido a código Lean, Leanstral interactúa directamente con el compilador Lean 4 vía el protocolo MCP (Model Context Protocol). Concretamente, el agente puede:

  • Verificar los tipos en el compilador Lean

  • Ejecutar tácticas de prueba y observar los resultados

  • Analizar los mensajes de error

  • Refinar iterativamente las pruebas en un bucle interactivo

Esta integración nativa es una ventaja técnica decisiva. El modelo no "adivina" las pruebas, las construye en diálogo con el verificador.

Benchmarks de Leanstral: rendimiento frente a Claude y los modelos open source

El benchmark FLTEval: condiciones realistas

Mistral AI ha introducido FLTEval, un nuevo benchmark concebido para evaluar la capacidad de producir pruebas en repositorios de código reales. Se basa en el proyecto FLT (Fermat's Last Theorem) del Imperial College London, dirigido por el profesor Kevin Buzzard, un proyecto de formalización con 55 contribuidores y financiado por el EPSRC hasta 2029.

A diferencia del benchmark MiniF2F (que apunta a problemas aislados de competición matemática), FLTEval mide la capacidad de completar pruebas formales en un entorno realista con imports, dependencias de bibliotecas y estructuras de pruebas multiarchivo.

Leanstral vs Claude: la relación calidad-precio

Modèle

Coût par run FLTEval ($)

Score FLTEval

Leanstral pass@1

18

21,9

Leanstral pass@2

36

26,3

Leanstral pass@4

72

29,3

Leanstral pass@8

145

31,0

Leanstral pass@16

290

31,9

Claude Haiku 4.5

184

23,0

Claude Sonnet 4.6

549

23,7

Claude Opus 4.6

1 650

39,6

Las cifras hablan por sí solas:

  • Leanstral pass@2 (36 $) supera a Sonnet 4.6 (549 $) por 2,6 puntos, por 15 veces menos.

  • Leanstral pass@2 supera a Haiku 4.5 (184 $) por 3,3 puntos, por 5 veces menos.

  • Leanstral pass@16 (290 $) supera a Sonnet por 8 puntos, a mitad de precio.

  • Claude Opus 4.6 sigue siendo el líder en calidad bruta (39,6), pero cuesta 1 650 $, es decir, 46 veces más que Leanstral pass@2.

Leanstral vs modelos open source: eficiencia de los parámetros activos

Modèle

Paramètres actifs

Score FLTEval (meilleur pass)

GLM5-744B-A40B

40B

~16,6 (plafonne)

Kimi-K2.5-1T-A32B

32B

~20,1 (plafonne)

Leanstral pass@1

6,5B

21,9

Qwen3.5-397B-A17B

17B

25,4 (pass@4)

Leanstral pass@2

6,5B

26,3

Leanstral pass@4

6,5B

29,3

Con solo 6,5 mil millones de parámetros activos, Leanstral supera a modelos que movilizan de 5 a 6 veces más. Qwen3.5 necesita 4 intentos y 17 mil millones de parámetros activos para alcanzar 25,4. Leanstral supera esta puntuación ya en su segundo intento.

Comparación de costes: Leanstral frente a las alternativas

Solution

Coût estimé

Score FLTEval

Open source

Leanstral pass@2

36 $

26,3

Oui (Apache 2.0)

Leanstral pass@16

290 $

31,9

Oui (Apache 2.0)

Claude Haiku 4.5

184 $

23,0

Non

Claude Sonnet 4.6

549 $

23,7

Non

Claude Opus 4.6

1 650 $

39,6

Non

Auto-hébergement Leanstral

Matériel requis: 4x A100/H100

Identique

Oui

Casos de uso concretos de Leanstral para las empresas

Verificación de smart contracts y seguridad DeFi

Los bugs en el código DeFi han costado miles de millones de dólares en los últimos años. La verificación formal es el estándar de referencia para garantizar que un smart contract hace exactamente lo que promete. Con Leanstral, el coste de una auditoría formal disminuye drásticamente: una prueba de corrección a 36 $ en lugar de cientos de dólares con las alternativas propietarias.

Software crítico: aeronáutica, finanzas, salud

En los sectores en los que un error de software puede costar vidas o millones, la verificación formal no es un lujo, sino una obligación reglamentaria. Leanstral permite a los equipos de desarrollo especificar el comportamiento esperado en Lean 4 y, a continuación, generar automáticamente las pruebas de conformidad. El compilador comprueba después que la prueba es válida.

Investigación matemática colaborativa

El proyecto FLT (formalización del último teorema de Fermat) y Mathlib ilustran el potencial de Leanstral para acelerar la investigación formalizada. Los investigadores pueden delegar las pruebas rutinarias al agente y concentrarse en los aspectos creativos de la investigación.

Migración de pruebas entre lenguajes

Uno de los casos de uso demostrados por Mistral AI es la traducción de pruebas de Rocq (antes Coq) a Lean 4, preservando la semántica y las notaciones. Esto facilita la migración de proyectos académicos o industriales de un ecosistema a otro.

Verificación del código generado por IA

El caso de uso más estratégico: verificar formalmente que el código producido por agentes de IA (Copilot, Cursor, etc.) es correcto. Leanstral encarna la visión del "trustworthy vibe coding", en la que el humano especifica lo que quiere y la máquina prueba la conformidad.

Tres formas de acceder a Leanstral desde hoy

1. Mistral Vibe (configuración cero)

El comando /leanstall en el CLI Mistral Vibe (versión 2.5.0, lanzada el 16 de marzo de 2026) configura automáticamente el agente Leanstral. Es la manera más rápida de probarlo.

2. API gratuita (período limitado)

El endpoint labs-leanstral-2603 está disponible de forma gratuita durante un período limitado. Mistral AI desea recopilar comentarios de uso reales para mejorar las futuras versiones.

3. Autoalojamiento (pesos open source)

Los pesos del modelo se publican bajo licencia Apache 2.0 en Hugging Face (mistralai/Leanstral-120B-A6B-2603). Configuración recomendada: 4 GPU A100 80 GB o H100, con vLLM y Flash Attention. Nota: la página de Hugging Face presentó un error 404 temporal en el momento del lanzamiento.

Límites de Leanstral: lo que hay que saber antes de adoptarlo

Un modelo especializado, no un asistente de código generalista

Leanstral está diseñado exclusivamente para Lean 4. No reemplaza tus herramientas de codificación generalistas (Copilot, Claude Code, Cursor). Si buscas un asistente para escribir Python, TypeScript o SQL, esta no es la herramienta adecuada.

Claude Opus 4.6 sigue siendo superior en calidad bruta

Con una puntuación FLTEval de 39,6 frente a 31,9 para Leanstral pass@16, Opus conserva una ventaja significativa. Si tu prioridad absoluta es la precisión máxima y el presupuesto no es una restricción, Opus sigue siendo la mejor opción. La comunidad Hacker News, por cierto, ha destacado este punto: un modelo entrenado específicamente para esta tarea debería, en teoría, superar a un modelo generalista.

La curva de progresión podría estancarse

Algunos observadores señalan que la ganancia de rendimiento de Leanstral parece reducirse más allá de pass@8. El paso de pass@8 (31,0) a pass@16 (31,9) representa solo una ganancia de 0,9 puntos para una duplicación del coste.

Infraestructura necesaria para el autoalojamiento

El autoalojamiento requiere 4 GPU de gama alta (A100 o H100), lo que representa una inversión de hardware considerable. Para los equipos sin esta infraestructura, la API gratuita o Mistral Vibe siguen siendo las opciones más accesibles.

¿Debes usar Leanstral para tus proyectos de verificación formal?

Leanstral llena un vacío real en el ecosistema. Antes de su salida, las opciones para la verificación formal asistida por IA se limitaban a modelos propietarios costosos (Claude Opus) o a modelos generalistas no optimizados para Lean 4.

Leanstral se posiciona en la intersección de tres cualidades: open source (Apache 2.0), entrenado específicamente para la ingeniería de pruebas, y económico. Ningún otro modelo ocupa actualmente este lugar.

Para los CTO y responsables técnicos que evalúan la verificación formal como componente de su estrategia de calidad de software, Leanstral representa un punto de entrada accesible. Para los investigadores en matemáticas formalizadas, es un acelerador. Y para el ecosistema Lean 4 en su conjunto, es una señal fuerte de que la IA especializada en pruebas formales está convirtiéndose en una realidad práctica.

La verdadera pregunta ya no es "¿es posible la verificación formal asistida por IA?", sino "¿qué tan lista está para producción?". Con Leanstral, Mistral AI propone un primer elemento de respuesta.

logo emelia

Descubre Emelia, tu herramienta de prospección todo en uno.

logo emelia

Precios claros, transparentes y sin costes ocultos.

Sin compromiso, precios para ayudarte a aumentar tu prospección.

Start

37€

/mes

Envío ilimitado de emails

Conectar 1 cuenta de LinkedIn

Acciones LinkedIn ilimitadas

Email Warmup incluido

Extracción ilimitada

Contactos ilimitados

Grow

Popular
arrow-right
97€

/mes

Envío ilimitado de emails

Hasta 5 cuentas de LinkedIn

Acciones LinkedIn ilimitadas

Email Warmup ilimitado

Contactos ilimitados

1 integración CRM

Scale

297€

/mes

Envío ilimitado de emails

Hasta 20 cuentas de LinkedIn

Acciones LinkedIn ilimitadas

Email Warmup ilimitado

Contactos ilimitados

Conexión Multi CRM

Llamadas API ilimitadas

Créditos(opcional)

No necesitas créditos si solo quieres enviar emails o hacer acciones en LinkedIn

Se pueden utilizar para:

Buscar Emails

Acción IA

Buscar Números

Verificar Emails

1,000
5,000
10,000
50,000
100,000
1,000 Emails encontrados
1,000 Acciones IA
20 Números
4,000 Verificaciones
19por mes

Descubre otros artículos que te pueden interesar!

Ver todos los artículos
Prospección B2B
Publicado el 1 abr 2025

5 grandes proveedores de datos B2B 2026

NielsNiels Co-founder
Leer más
NielsNiels Co-founder
Leer más
MathieuMathieu Co-founder
Leer más
MarieMarie Head Of Sales
Leer más
NielsNiels Co-founder
Leer más
NielsNiels Co-founder
Leer más
Made with ❤ for Growth Marketers by Growth Marketers
Copyright © 2026 Emelia All Rights Reserved