Depuis le 16 mars 2026, Mistral AI a frappé fort avec Mistral Small 4, un modèle qui change les règles du jeu pour les entreprises utilisant l'IA. Pour la première fois, un seul modèle open source remplace trois produits distincts : Magistral (raisonnement), Pixtral (vision multimodale) et Devstral (code agentique). Résultat : moins d'infrastructure, moins de complexité, et des performances supérieures.
Si vous utilisez déjà des API d'IA dans vos workflows, ou si vous hésitez entre plusieurs modèles spécialisés, ce guide vous explique concrètement ce que Mistral Small 4 apporte, comment il se compare à la concurrence, et dans quels cas il vaut vraiment le coup.
Jusqu'ici, les entreprises qui utilisaient l'écosystème Mistral devaient jongler entre plusieurs modèles :
Mistral Small 3.2 pour les tâches d'instruction classiques (chat, classification, extraction)
Magistral pour le raisonnement approfondi (mathématiques, planification complexe)
Pixtral pour l'analyse d'images et de documents visuels
Devstral pour les agents de code et l'automatisation
Mistral Small 4 fusionne tout cela en un point d'accès unique. Vous n'avez plus besoin de maintenir quatre modèles, quatre pipelines de routage, et quatre ensembles de coûts d'infrastructure. Un seul déploiement, configurable à la volée grâce au paramètre reasoning_effort.
Ce qui distingue Mistral Small 4, c'est sa capacité à adapter son comportement par requête :
`reasoning_effort="none"` : réponses rapides, style Mistral Small 3.2. Idéal pour le chat courant, la classification, l'extraction de données.
`reasoning_effort="high"` : raisonnement étape par étape, niveau Magistral. Parfait pour les problèmes mathématiques, scientifiques ou la planification multi-étapes.
Concrètement, cela signifie qu'un chatbot d'entreprise peut traiter 90 % des questions en mode rapide, et basculer automatiquement en mode raisonnement pour les 10 % de requêtes complexes, le tout sans changer de modèle.
Mistral Small 4 repose sur une architecture Mixture-of-Experts (MoE) avec 128 experts au total. Pour chaque token traité, seuls 4 experts sont activés. Le modèle possède donc 119 milliards de paramètres totaux, mais n'en utilise que 6,5 milliards par inférence.
Pensez-y comme un cabinet de consultants spécialisés : au lieu de faire appel à tous les consultants pour chaque question, le système sélectionne automatiquement les 4 plus pertinents. Vous bénéficiez de la connaissance de 119 milliards de paramètres, mais au coût de calcul d'un modèle de 6 milliards.
Réduction de 95 % du calcul par token par rapport à un modèle dense de 119B
Capacité de connaissance bien supérieure à n'importe quel modèle dense de 6 à 7B
Spécialisation par expert : certains experts s'activent pour le code, d'autres pour le français, d'autres pour l'analyse d'images
Spécification | Valeur |
|---|---|
Nom du modèle | Mistral Small 4 119B A6B |
Architecture | Transformer, Mixture-of-Experts (MoE) |
Paramètres totaux | 119 milliards |
Paramètres actifs par token | ~6,5 milliards |
Nombre d'experts | 128 (4 actifs par token) |
Fenêtre de contexte | 256 000 tokens |
Entrées | Texte + Image (RGB) |
Sorties | Texte |
Mode raisonnement | Configurable par requête ( |
Appel de fonctions | Natif (tool use) |
Sortie JSON | Structurée nativement |
Licence | Apache 2.0 |
Date de sortie | 16 mars 2026 |
Les premiers benchmarks confirment que Mistral Small 4 se positionne au niveau des meilleurs modèles de sa catégorie, tout en générant des réponses nettement plus concises.
Benchmark | Mistral Small 4 | GPT-4o-mini | Phi-4 (14B) |
|---|---|---|---|
GPQA Diamond | 71,2 % | 40,2 % | N/D |
MMLU-Pro | 78,0 % | 64,8 % | N/D |
Sur le benchmark LiveCodeBench, Mistral Small 4 surpasse GPT-OSS 120B tout en produisant des réponses 20 % plus courtes. Sur le test AA LCR, le modèle atteint des scores comparables à Qwen 3.5-122B, mais avec des sorties de 1 600 caractères contre 5 800 à 6 100 pour Qwen, soit 3,5 à 4 fois moins de texte.
Des réponses plus courtes à qualité égale, cela signifie directement moins de tokens facturés et une latence réduite en production.
Caractéristique | Mistral Small 4 | GPT-4o-mini | Phi-4 (14B) | Gemma 3 (27B) | Qwen 3.5-122B |
|---|---|---|---|---|---|
Paramètres totaux | 119B (MoE) | Inconnu | 14B | 27B | 122B (MoE) |
Paramètres actifs | ~6,5B | Inconnu | 14B | 27B | ~22B |
Contexte | 256K | 128K | 16K | 128K | 262K |
Vision | Oui | Oui | Non | Oui | Oui |
Raisonnement configurable | Oui | Non | Non | Non | Oui |
Appel de fonctions | Natif | Natif | Oui | Oui | Oui |
Licence | Apache 2.0 | Propriétaire | MIT | Apache 2.0 | Apache 2.0 |
Déploiement local | Multi-GPU | API uniquement | GPU unique | GPU unique | Multi-GPU |
Le véritable avantage concurrentiel de Mistral Small 4 n'est pas seulement la performance brute. C'est la combinaison unique de :
Performance de niveau 120B avec un coût d'inférence de niveau 6B
Fenêtre de contexte de 256K tokens (le double de GPT-4o-mini), permettant de traiter des contrats entiers, des bases de code complètes ou des rapports longs en une seule requête
Licence Apache 2.0 : aucun verrouillage fournisseur, aucune restriction commerciale
Raisonnement à la demande : pas besoin de payer le coût du raisonnement pour chaque requête
Métrique | Amélioration |
|---|---|
Temps de complétion (bout en bout) | 40 % plus rapide |
Requêtes par seconde | 3x plus de débit |
Ces gains proviennent directement de l'architecture MoE : malgré 5 fois plus de paramètres totaux, seuls 6,5 milliards sont actifs par token (contre 24 milliards pour Small 3). Un workflow traitant 100 requêtes par seconde sur Small 3 pourrait en gérer 300 sur Small 4 avec la même infrastructure.
Mistral fournit également un modèle compagnon pour le décodage spéculatif (Mistral-Small-4-119B-2603-eagle), qui réduit encore la latence en production.
La solution la plus simple. Le modèle est disponible via l'API Mistral sous l'identifiant mistral-small-latest. Les tarifs officiels pour Small 4 ne sont pas encore publiés (au 17 mars 2026), mais devraient se situer entre ceux de Small 3.1 et Medium 3.
Modèle | Input (par 1M tokens) | Output (par 1M tokens) |
|---|---|---|
Mistral Small 3.1 | 0,10 à 0,20 $ | 0,30 à 0,60 $ |
Mistral Small 4 (estimé) | 0,20 à 0,60 $ | 0,60 à 2,00 $ |
Mistral Medium 3.1 | 0,40 $ | 2,00 $ |
Disponible dès le jour du lancement sur NVIDIA NIM, avec un accès gratuit pour le prototypage. Cette option est particulièrement intéressante pour les entreprises disposant déjà d'une infrastructure NVIDIA, grâce au checkpoint NVFP4 optimisé pour les GPU H100, H200 et B200.
Pour les entreprises souhaitant garder leurs données en interne (conformité RGPD, souveraineté des données), le déploiement auto-hébergé via vLLM est l'option recommandée. Mistral fournit une image Docker dédiée :
docker pull mistralllm/vllm-ms4:latestInfrastructure requise :
Minimum : 4x NVIDIA H100 ou 2x H200
Recommandé : 4x H100 ou 4x H200 pour les meilleures performances
La licence Apache 2.0 garantit un coût API nul : seule l'infrastructure est à payer.
Une entreprise utilisant actuellement Mistral Small 3.2 + Magistral + Pixtral peut consolider tout sur un seul déploiement Small 4. Moins de maintenance, moins de coûts d'infrastructure, un seul point de surveillance.
Avec 256 000 tokens de contexte, Mistral Small 4 peut ingérer un contrat complet, un rapport financier de 200 pages, ou une base de code entière en une seule requête. Cela simplifie considérablement les pipelines RAG qui nécessitaient auparavant un découpage complexe des documents.
Un assistant conversationnel qui répond en mode rapide pour 90 % des questions, mais active automatiquement le raisonnement approfondi pour les requêtes complexes. Un seul modèle, un seul endpoint, une seule facture.
Modèle européen (Mistral AI est basé à Paris), licence Apache 2.0, auto-hébergeable : aucune donnée ne quitte votre infrastructure. C'est un argument de poids pour les secteurs réglementés (finance, santé, secteur public).
Malgré ses qualités, Mistral Small 4 présente plusieurs limites à évaluer :
Infrastructure exigeante pour l'auto-hébergement : 119 milliards de paramètres nécessitent au minimum 4 GPU H100. Ce n'est pas un modèle que vous ferez tourner sur un laptop ou un GPU unique.
Support llama.cpp en cours de développement : à la date du lancement, la compatibilité avec llama.cpp (et donc Ollama) n'est pas encore finalisée. Un PR est ouvert sur le dépôt officiel.
Tarification API non encore publiée : les prix officiels via l'API Mistral n'étaient pas disponibles au moment de la sortie. Consultez la page de tarification Mistral pour les mises à jour.
Pas de version légère (Ministral 4) : contrairement à la famille Small 3 qui proposait des variantes 3B, 8B et 14B, il n'existe pas encore de petit modèle compagnon pour les cas d'usage nécessitant un déploiement léger.
Données d'entraînement non divulguées : Mistral n'a pas publié d'informations sur le jeu de données d'entraînement.
Workaround nécessaire pour Transformers : le format FP8 des poids nécessite une conversion manuelle en BF16 pour fonctionner avec HuggingFace Transformers.
Mistral Small 4 représente une avancée significative pour les entreprises qui recherchent un modèle polyvalent, performant et souverain. La promesse d'un modèle unique remplaçant trois déploiements distincts est concrète et vérifiable.
Si vous utilisez déjà l'écosystème Mistral, la migration est évidente. Si vous évaluez des alternatives à GPT-4o-mini pour des raisons de coût, de performance ou de souveraineté des données, Mistral Small 4 mérite d'être testé sérieusement.
Le modèle est disponible dès maintenant sur Hugging Face, via l'API Mistral, et sur NVIDIA NIM.

Aucun engagement, des prix pour vous aider à augmenter votre prospection.
Vous n'avez pas besoin de crédits si vous voulez simplement envoyer des emails ou faire des actions sur LinkedIn
Peuvent être utilisés pour :
Trouver Emails
Action IA
Trouver des Numéros
Vérifier des Emails