Em 16 de março de 2026, a Mistral AI lançou o Leanstral, o primeiro agente de IA open source projetado especificamente para Lean 4, um assistente de prova formal usado tanto em matemática quanto em engenharia de software. Em um contexto onde as ferramentas de geração de código por IA se multiplicam, o Leanstral se destaca por uma promessa radical: não apenas gerar código, mas provar matematicamente que ele está correto.
Mas por que você deveria se interessar pela verificação formal? Quais são os benchmarks reais do Leanstral em comparação com o Claude e os modelos open source? E, sobretudo, quais aplicações concretas essa tecnologia abre para empresas e equipes técnicas? Este guia faz o balanço.
Os agentes de IA de geração de código (Copilot, Cursor, Claude Code) produzem código funcional na maioria dos casos. Mas em domínios críticos (aeronáutica, finanças, smart contracts, pesquisa matemática), "parece funcionar" não é suficiente. A revisão humana de código gerado por IA é cara, lenta e exige uma expertise rara.
O Leanstral propõe uma alternativa: o agente escreve o código e produz uma prova formal de sua correção. O compilador Lean 4 atua como verificador binário. Ou a prova compila, ou não compila. Sem zona cinzenta.
O Lean 4, desenvolvido por Leonardo de Moura (ex-Microsoft Research), é ao mesmo tempo um assistente de prova e uma linguagem de programação funcional. É utilizado pela Google DeepMind (AlphaProof, medalha de prata nas Olimpíadas Internacionais de Matemática em 2024), pela Amazon (verificação do Cedar) e por uma comunidade de mais de 10 000 membros no Zulip.
A biblioteca Mathlib, que formaliza a matemática em Lean, conta com mais de 20 000 contribuições e recebeu 15 milhões de dólares em financiamentos em 2025.
O Leanstral se baseia em uma arquitetura Sparse Mixture-of-Experts (MoE) com as seguintes características:
Caractéristique | Valeur |
|---|---|
Nom complet | Leanstral-120B-A6B-2603 |
Paramètres totaux | ~119 milliards (128 experts) |
Paramètres actifs par token | ~6,5 milliards (4 experts sur 128) |
Architecture | Sparse Mixture-of-Experts |
Famille de base | Mistral Small 4 |
Fenêtre de contexte | 256K tokens |
Modalités d'entrée | Texte et images |
Licence | Apache 2.0 |
O princípio é simples: cada token ativa apenas 4 dos 128 módulos especialistas. O Leanstral se beneficia, assim, da capacidade de conhecimento de um modelo de 119 bilhões de parâmetros, mas com o custo de inferência de um modelo de 6,5 bilhões. Essa proporção de eficiência de 18x é o que lhe permite oferecer custos drasticamente inferiores aos da concorrência.
Ao contrário dos modelos generalistas que produzem texto parecido com código Lean, o Leanstral interage diretamente com o compilador Lean 4 via protocolo MCP (Model Context Protocol). Concretamente, o agente pode:
Verificar os tipos no compilador Lean
Executar táticas de prova e observar os resultados
Analisar as mensagens de erro
Refinar iterativamente as provas em um loop interativo
Essa integração nativa é uma vantagem técnica decisiva. O modelo não "adivinha" as provas, ele as constrói em diálogo com o verificador.
A Mistral AI introduziu o FLTEval, um novo benchmark projetado para avaliar a capacidade de produzir provas em repositórios de código reais. Ele se baseia no projeto FLT (Fermat's Last Theorem) do Imperial College London, liderado pelo professor Kevin Buzzard, um projeto de formalização com 55 contribuidores e financiado pelo EPSRC até 2029.
Ao contrário do benchmark MiniF2F (que mira problemas isolados de competição matemática), o FLTEval mede a capacidade de completar provas formais em um ambiente realista com imports, dependências de bibliotecas e estruturas de provas multiarquivo.
Modèle | Coût par run FLTEval ($) | Score FLTEval |
|---|---|---|
Leanstral pass@1 | 18 | 21,9 |
Leanstral pass@2 | 36 | 26,3 |
Leanstral pass@4 | 72 | 29,3 |
Leanstral pass@8 | 145 | 31,0 |
Leanstral pass@16 | 290 | 31,9 |
Claude Haiku 4.5 | 184 | 23,0 |
Claude Sonnet 4.6 | 549 | 23,7 |
Claude Opus 4.6 | 1 650 | 39,6 |
Os números falam por si:
Leanstral pass@2 (US$ 36) supera o Sonnet 4.6 (US$ 549) em 2,6 pontos, por 15 vezes menos.
Leanstral pass@2 supera o Haiku 4.5 (US$ 184) em 3,3 pontos, por 5 vezes menos.
Leanstral pass@16 (US$ 290) supera o Sonnet em 8 pontos, pela metade do preço.
O Claude Opus 4.6 continua sendo o líder em qualidade bruta (39,6), mas custa 1 US$ 650, ou seja, 46 vezes mais que o Leanstral pass@2.
Modèle | Paramètres actifs | Score FLTEval (meilleur pass) |
|---|---|---|
GLM5-744B-A40B | 40B | ~16,6 (plafonne) |
Kimi-K2.5-1T-A32B | 32B | ~20,1 (plafonne) |
Leanstral pass@1 | 6,5B | 21,9 |
Qwen3.5-397B-A17B | 17B | 25,4 (pass@4) |
Leanstral pass@2 | 6,5B | 26,3 |
Leanstral pass@4 | 6,5B | 29,3 |
Com apenas 6,5 bilhões de parâmetros ativos, o Leanstral supera modelos que mobilizam de 5 a 6 vezes mais. O Qwen3.5 precisa de 4 tentativas e de 17 bilhões de parâmetros ativos para atingir 25,4. O Leanstral supera essa pontuação já na segunda tentativa.
Solution | Coût estimé | Score FLTEval | Open source |
|---|---|---|---|
Leanstral pass@2 | US$ 36 | 26,3 | Oui (Apache 2.0) |
Leanstral pass@16 | US$ 290 | 31,9 | Oui (Apache 2.0) |
Claude Haiku 4.5 | US$ 184 | 23,0 | Non |
Claude Sonnet 4.6 | US$ 549 | 23,7 | Non |
Claude Opus 4.6 | 1 US$ 650 | 39,6 | Non |
Auto-hébergement Leanstral | Matériel requis: 4x A100/H100 | Identique | Oui |
Os bugs no código DeFi custaram bilhões de dólares nos últimos anos. A verificação formal é o padrão de referência para garantir que um smart contract faz exatamente o que promete. Com o Leanstral, o custo de uma auditoria formal diminui drasticamente: uma prova de correção a US$ 36 em vez de centenas de dólares com as alternativas proprietárias.
Nos setores onde um erro de software pode custar vidas ou milhões, a verificação formal não é um luxo, mas uma obrigação regulatória. O Leanstral permite às equipes de desenvolvimento especificar o comportamento esperado em Lean 4 e, em seguida, gerar automaticamente as provas de conformidade. O compilador então verifica que a prova é válida.
O projeto FLT (formalização do último teorema de Fermat) e o Mathlib ilustram o potencial do Leanstral para acelerar a pesquisa formalizada. Os pesquisadores podem delegar as provas rotineiras ao agente e se concentrar nos aspectos criativos da pesquisa.
Um dos casos de uso demonstrados pela Mistral AI é a tradução de provas de Rocq (anteriormente Coq) para Lean 4, preservando a semântica e as notações. Isso facilita a migração de projetos acadêmicos ou industriais de um ecossistema para outro.
O caso de uso mais estratégico: verificar formalmente que o código produzido por agentes de IA (Copilot, Cursor, etc.) está correto. O Leanstral encarna a visão do "trustworthy vibe coding", em que o humano especifica o que deseja e a máquina prova a conformidade.
O comando /leanstall no CLI Mistral Vibe (versão 2.5.0, lançada em 16 de março de 2026) configura automaticamente o agente Leanstral. É a maneira mais rápida de testar.
O endpoint labs-leanstral-2603 está disponível gratuitamente por tempo limitado. A Mistral AI deseja coletar feedbacks de uso reais para aprimorar as versões futuras.
Os pesos do modelo são publicados sob licença Apache 2.0 no Hugging Face (mistralai/Leanstral-120B-A6B-2603). Configuração recomendada: 4 GPUs A100 80 GB ou H100, com vLLM e Flash Attention. Observação: a página do Hugging Face apresentou um erro 404 temporário no momento do lançamento.
O Leanstral foi projetado exclusivamente para Lean 4. Ele não substitui suas ferramentas de codificação generalistas (Copilot, Claude Code, Cursor). Se você procura um assistente para escrever Python, TypeScript ou SQL, esta não é a ferramenta certa.
Com uma pontuação FLTEval de 39,6 contra 31,9 do Leanstral pass@16, o Opus mantém uma vantagem significativa. Se sua prioridade absoluta é a precisão máxima e o orçamento não é uma restrição, o Opus continua sendo a melhor escolha. A comunidade Hacker News, aliás, destacou esse ponto: um modelo treinado especificamente para essa tarefa deveria, em teoria, superar um modelo generalista.
Alguns observadores notam que o ganho de desempenho do Leanstral parece se reduzir além do pass@8. A passagem de pass@8 (31,0) para pass@16 (31,9) representa apenas um ganho de 0,9 ponto para uma duplicação do custo.
A auto-hospedagem exige 4 GPUs de ponta (A100 ou H100), o que representa um investimento de hardware considerável. Para as equipes sem essa infraestrutura, a API gratuita ou o Mistral Vibe continuam sendo as opções mais acessíveis.
O Leanstral preenche uma lacuna real no ecossistema. Antes de seu lançamento, as opções para a verificação formal assistida por IA se limitavam a modelos proprietários caros (Claude Opus) ou a modelos generalistas não otimizados para Lean 4.
O Leanstral se posiciona na interseção de três qualidades: open source (Apache 2.0), treinado especificamente para a engenharia de provas, e econômico. Nenhum outro modelo ocupa atualmente esse lugar.
Para os CTOs e responsáveis técnicos que avaliam a verificação formal como componente de sua estratégia de qualidade de software, o Leanstral representa um ponto de entrada acessível. Para os pesquisadores em matemática formalizada, é um acelerador. E para o ecossistema Lean 4 como um todo, é um sinal forte de que a IA especializada em provas formais está se tornando uma realidade prática.
A verdadeira pergunta não é mais "a verificação formal assistida por IA é possível?", mas "quão pronta ela está para a produção?". Com o Leanstral, a Mistral AI oferece um primeiro elemento de resposta.

Sem compromisso, preços para ajudá-lo a aumentar sua prospecção.
Você não precisa de créditos se você quiser apenas enviar e-mails ou fazer ações no LinkedIn
Podem ser usados para:
Encontrar E-mails
Ação de IA
Encontrar Números
Verificar E-mails