Google DeepMind vient de frapper un grand coup avec Gemma 4 : quatre modèles open-weight publiés sous licence Apache 2.0, capables de traiter texte, images, vidéo et audio, et conçus pour tourner aussi bien sur un serveur que sur un téléphone. C'est un virage significatif. La famille Gemma existait déjà, mais avec une licence restrictive qui freinait beaucoup d'entreprises. En passant à Apache 2.0, Google supprime toutes les barrières commerciales et de redistribution. Vous pouvez désormais modifier, redistribuer et commercialiser ces modèles sans restriction.
L'annonce, signée par Clement Farabet (VP of Research chez Google DeepMind) et Olivier Lacombe (Group Product Manager), positionne explicitement Gemma 4 comme une réponse à la demande des développeurs pour plus de "souveraineté numérique" sur leurs données, leur infrastructure et leurs choix de déploiement. Ce n'est pas juste un discours marketing : la licence Apache 2.0 est la même que celle utilisée par des projets comme Kubernetes ou TensorFlow. Elle permet tout, sans conditions cachées.
L'écosystème Gemma a déjà atteint plus de 400 millions de téléchargements depuis ses débuts et compte plus de 100 000 variantes communautaires dans le "Gemmaverse". Gemma 4 s'inscrit dans cette dynamique, mais avec un saut qualitatif massif sur les benchmarks, la multimodalité et l'efficacité en local.
Gemma 4 se décline en quatre tailles, réparties sur deux architectures : dense et Mixture-of-Experts (MoE).
Modèle | Paramètres effectifs | Paramètres totaux | Architecture | Contexte | Usage type |
|---|---|---|---|---|---|
Gemma 4 E2B | 2,3B | 5,1B | Dense | 128K | Mobile, embarqué |
Gemma 4 E4B | 4,5B | 8B | Dense | 128K | Apps légères, edge |
Gemma 4 12B | 12B | 12B | Dense | 256K | Poste de travail, GPU unique |
Gemma 4 27B A4B | 3,8B actifs | 25,2B | MoE | 256K | Serveur, batch, production |
Les modèles denses comprennent le E2B (2,3 milliards de paramètres effectifs, 5,1 milliards avec les embeddings), le E4B (4,5 milliards effectifs, 8 milliards avec embeddings), et le 31B (30,7 milliards de paramètres). Les deux premiers sont pensés pour le déploiement edge et mobile. Ils acceptent du texte, des images, de la vidéo et de l'audio en entrée. Le 31B est le modèle dense le plus puissant, limité au texte et aux images.
Le quatrième modèle est le 26B A4B, un Mixture-of-Experts avec 25,2 milliards de paramètres au total mais seulement 3,8 milliards actifs par token d'inférence. Il utilise une configuration de 128 experts routés dont 8 actifs par token, plus un expert partagé. Cette architecture permet d'obtenir des performances proches du 31B en n'activant qu'une fraction des paramètres.
Pour choisir : si vous construisez une application mobile ou embarquée, le E2B ou E4B sont vos candidats. Si vous avez un poste de travail avec un GPU correct (24 Go de VRAM suffisent en quantifié), le 26B A4B offre le meilleur rapport performance/coût. Si vous cherchez la qualité maximale en local, le 31B est le choix évident, mais il nécessite plus de mémoire.
En termes de contexte, les petits modèles supportent 128K tokens et les grands 256K tokens, ce qui permet de traiter des documents très longs ou des conversations étendues.
L'un des arguments de vente principaux de Gemma 4 est la facilité de déploiement local. Google a travaillé avec les principaux frameworks d'inférence pour garantir un support dès le premier jour.
Les poids sont disponibles sur Hugging Face, Kaggle et Ollama. En termes de frameworks, le support couvre vLLM, llama.cpp, MLX (pour Apple Silicon), Transformers, et même des exports ONNX pour le déploiement navigateur ou edge.
Concrètement, voici les besoins mémoire approximatifs pour les poids seuls :
Le E2B demande 9,6 Go en BF16, 4,6 Go en SFP8, ou 3,2 Go en Q4. Le E4B requiert 15 Go en BF16, 7,5 Go en SFP8, ou 5 Go en Q4. Le 26B A4B nécessite 48 Go en BF16, 25 Go en SFP8, ou 15,6 Go en Q4. Le 31B monte à 58,3 Go en BF16, 30,4 Go en SFP8, ou 17,4 Go en Q4.
Ces chiffres n'incluent pas le cache KV pour le contexte long ni les overheads logiciels. En pratique, avec un GPU RTX 4090 (24 Go), vous pouvez faire tourner le 26B A4B en quantification Q4 confortablement.
Pour les utilisateurs d'Apple Silicon, MLX supporte le TurboQuant, qui promet la même précision que le modèle non compressé avec environ 4 fois moins de mémoire active et des performances nettement plus rapides. Le déploiement via llama.cpp fonctionne aussi directement pour les applications locales comme LM Studio ou Jan.
Google distribue également Gemma 4 via AI Edge Gallery et Android AICore Developer Preview pour les cas d'usage sur appareil mobile. Cela signifie que vous pouvez intégrer un modèle multimodal capable directement dans une application Android.
Oui, et c'est l'une des avancées les plus significatives par rapport aux générations précédentes.
Tous les modèles Gemma 4 acceptent du texte et des images en entrée. Les variantes E2B et E4B ajoutent le support audio natif. Google affirme que tous les modèles peuvent traiter de la vidéo (via extraction de frames), bien que les détails d'implémentation varient selon la taille.
L'encodeur vision utilise des positions 2D apprises et du RoPE multidimensionnel. Il préserve les ratios d'aspect originaux et peut encoder les images avec différents budgets de tokens (70, 140, 280, 560, 1120), ce qui permet de trouver le compromis optimal entre vitesse, mémoire et qualité.
En pratique, les tests montrent que Gemma 4 gère l'OCR, la détection d'objets, le "pointing" (identification d'éléments GUI), la transcription audio, et même la description de scènes vidéo. Le modèle répond nativement en JSON pour les tâches de détection, sans nécessiter d'instructions spécifiques.
Sur les benchmarks vision : le 31B atteint 76,9 % sur MMMU Pro et 85,6 % sur MATH-Vision. Même le petit E4B obtient 52,6 % sur MMMU Pro, ce qui est remarquable pour un modèle de cette taille. Pour le long contexte, le 31B atteint 66,4 % sur MRCR v2 (8 aiguilles, 128K), contre seulement 13,5 % pour Gemma 3 27B.
Les benchmarks officiels de Gemma 4 sont impressionnants et positionnent la famille comme la plus performante parmi les modèles ouverts de taille comparable.
Sur MMLU Pro, le 31B atteint 85,2 % et le 26B A4B 82,6 %. Sur AIME 2026 (raisonnement mathématique sans outils), le 31B monte à 89,2 % et le 26B A4B à 88,3 %, alors que Gemma 3 27B ne dépassait pas 20,8 %. Sur LiveCodeBench v6 (code), le 31B obtient 80 % et atteint un score Codeforces ELO de 2150.
Sur GPQA Diamond (questions de niveau doctorat), le 31B affiche 84,3 %. Sur les benchmarks agentiques (Tau2), le 31B atteint 76,9 % contre seulement 16,2 % pour Gemma 3 27B.
Google revendique les positions 3 et 6 parmi les modèles ouverts sur le leaderboard Arena AI pour les variantes 31B et 26B, avec des scores ELO de 1452 et 1441 respectivement.
Ces chiffres placent Gemma 4 en compétition directe avec les meilleurs modèles ouverts (Qwen, Llama, DeepSeek) et parfois au-delà. Le 26B A4B est particulièrement intéressant car il atteint des performances proches du 31B avec seulement 3,8 milliards de paramètres actifs, ce qui réduit drastiquement les coûts d'inférence.
Sous le capot, Gemma 4 introduit plusieurs innovations architecturales notables.
L'attention hybride alterne des couches d'attention locale (sliding window) et globale (contexte complet). Les petits modèles utilisent des fenêtres de 512 tokens, les grands de 1024. La dernière couche est toujours globale. Cette approche permet de gérer efficacement les contextes longs sans exploser la mémoire.
Le système RoPE dual utilise le RoPE standard pour les couches locales et le proportional RoPE (p-RoPE) pour les couches globales, ce qui améliore la gestion des contextes très longs.
Les Per-Layer Embeddings (PLE) constituent une innovation plus subtile mais significative. Chaque couche du décodeur reçoit un vecteur dédié par token, combinant un composant d'identité et un composant contextuel. Cela donne à chaque couche un canal spécialisé pour recevoir des informations token-spécifiques au moment pertinent, plutôt que de tout compresser dans un seul embedding initial.
Le cache KV partagé permet aux N dernières couches du modèle de réutiliser les états clé-valeur des couches précédentes, éliminant les projections KV redondantes. Cela réduit significativement l'empreinte mémoire, surtout pour les contextes longs.
Gemma 4 introduit aussi le support natif du rôle "system" dans les conversations, l'appel de fonctions natif, et un mode "thinking" configurable via un token spécial.
Le passage à Apache 2.0 n'est pas un détail de licence. C'est un changement fondamental dans ce que vous pouvez faire avec ces modèles.
Avec les licences précédentes de Gemma (et celles de beaucoup de concurrents comme Llama), il existait des restrictions sur l'utilisation commerciale, la redistribution, ou l'obligation de mentionner la licence d'une certaine manière. Apache 2.0 élimine tout cela. Vous pouvez intégrer Gemma 4 dans un produit commercial, le redistribuer modifié, le fine-tuner pour votre usage sans aucune obligation de partage.
Pour les entreprises qui déploient des solutions IA en local (on-premise), dans des environnements réglementés, ou qui ont des contraintes de souveraineté des données, c'est un facteur décisif. Vous gardez le contrôle total sur vos données, votre infrastructure, et votre code. Aucune dépendance à une API cloud, aucune donnée qui sort de vos serveurs.
La combinaison d'un modèle multimodal performant, d'une licence permissive, et d'un déploiement local facile est rare. Elle positionne Gemma 4 comme le choix par défaut pour tout projet IA qui nécessite de la performance sans compromettre la souveraineté. Avec un écosystème de plus de 400 millions de téléchargements et un support outillage massif dès le premier jour, l'adoption devrait être rapide. La question n'est plus de savoir si les modèles ouverts sont compétitifs. C'est de savoir lesquels utiliser, et Gemma 4 vient de sérieusement simplifier la réponse.

Aucun engagement, des prix pour vous aider à augmenter votre prospection.
Vous n'avez pas besoin de crédits si vous voulez simplement envoyer des emails ou faire des actions sur LinkedIn
Peuvent être utilisés pour :
Trouver Emails
Action IA
Trouver des Numéros
Vérifier des Emails