Le 25 mars 2026, Intel a officiellement lancé l'Arc Pro B70, sa première carte graphique professionnelle basée sur le die "Big Battlemage" (BMG-G31). La proposition est simple et percutante : 32 Go de VRAM GDDR6 pour 949 dollars. Dans un marché où la capacité mémoire est le facteur limitant principal pour l'inférence de modèles de langage en local, Intel propose une option qui n'existait pas à ce prix.
L'Arc Pro B70 n'est pas une carte de gaming déguisée. C'est un produit professionnel conçu pour les stations de travail IA, avec des drivers professionnels certifiés ISV, le support multi-GPU sous Linux, et une optimisation pour les frameworks d'inférence via oneAPI et OpenVINO. Intel la positionne explicitement comme une alternative aux cartes NVIDIA et AMD pour les développeurs et entreprises qui veulent faire tourner des LLMs sans dépendre du cloud.
L'Arc Pro B65, une variante avec le même GPU mais réduit à 20 Xe cores, est annoncée pour mi-avril 2026 avec également 32 Go de VRAM.
L'Arc Pro B70 repose sur l'architecture Xe2-HPG (Battlemage) d'Intel, utilisant le die BMG-G31 complet. Voici les spécifications détaillées.
Caractéristique | Arc Pro B70 | Arc Pro B65 |
|---|---|---|
Xe cores | 32 Xe2-HPG | 20 Xe2-HPG |
Moteurs XMX | 256 | Non spécifié |
Unités Ray Tracing | 32 | Non spécifié |
VRAM | 32 Go GDDR6 | 32 Go GDDR6 |
Bus mémoire | 256 bits | 256 bits |
Bande passante | 608 Go/s | 608 Go/s |
Performance IA (INT8) | 367 TOPS | 197 TOPS |
Interface | PCIe Gen5 x16 | PCIe Gen5 x16 |
TDP | 230 W (réf.) / 160-290 W (partenaires) | ~200 W |
Sorties vidéo | Jusqu'à 4x DisplayPort 2.1 | Variable |
Prix | 949 $ | Non annoncé |
Disponibilité | Mars 2026 | Mi-avril 2026 |
La bande passante mémoire de 608 Go/s sur un bus 256 bits avec de la GDDR6 à 19 Gbps est un point central. Pour l'inférence de LLMs, la bande passante mémoire détermine directement la vitesse de génération de tokens, car le modèle est limité par la rapidité avec laquelle les poids peuvent être lus depuis la VRAM. Avec 608 Go/s, l'Arc Pro B70 se situe dans une fourchette compétitive pour sa catégorie de prix.
Le support PCIe Gen5 x16 natif est notable car il permet des transferts plus rapides entre le CPU et le GPU, ce qui compte pour le chargement initial des modèles et pour les configurations multi-GPU où les données transitent via le bus PCIe.
Au moment du lancement, les benchmarks indépendants restent limités, mais les premiers résultats disponibles donnent une idée du terrain de jeu.
Sur le forum Level1Techs, un test avec vLLM sur un modèle Qwen 27B en quantification dynamique FP8 a produit des résultats intéressants. En requête unique, le débit de génération atteint environ 13 tokens par seconde. En charge concurrente avec 50 requêtes simultanées, le débit monte à 369,83 tokens par seconde en sortie, avec des pics à 550 tokens par seconde. L'auteur du test note cependant que les performances avec un seul GPU peuvent être insuffisantes pour certains modèles plus volumineux.
Intel communique également sur des métriques de "tokens par dollar" et de latence face à la NVIDIA RTX Pro 4000 (24 Go), mais ces chiffres proviennent de tests internes et non de benchmarks indépendants. En SPECviewperf 15, Intel revendique un gain moyen de 38 % sur l'Arc Pro B60 (la génération précédente), avec des pics à 69 %.
Il faut souligner un point technique important : les moteurs XMX de l'architecture Battlemage sont principalement optimisés pour les précisions FP16 et INT8. Contrairement aux GPU NVIDIA Blackwell qui supportent le FP4/NVFP4, l'Arc Pro B70 ne bénéficie pas des mêmes gains de débit avec les quantifications les plus agressives. Pour les utilisateurs qui s'appuient sur des modèles quantifiés en 4 bits, cela peut limiter l'avantage pratique de la carte.
La capacité de VRAM est le goulot d'étranglement principal pour l'inférence locale de LLMs. Un modèle doit tenir entièrement en VRAM (poids du modèle plus cache KV) pour fonctionner à pleine vitesse. Dès que le modèle déborde en RAM système, les performances chutent drastiquement.
Avec 32 Go de VRAM, voici ce que vous pouvez faire tourner confortablement.
Les modèles de 7 milliards de paramètres en FP16 (environ 14 Go) passent sans problème, avec de la marge pour un cache KV généreux. Les modèles de 13 milliards de paramètres en FP16 (environ 26 Go) tiennent aussi, avec un cache KV plus contraint. Les modèles de 27 à 34 milliards de paramètres passent en quantification 4 bits (environ 14-17 Go), ce qui inclut des modèles populaires comme Qwen 27B. Les modèles de 70 milliards de paramètres en quantification 4 bits (environ 35-40 Go) sont en limite haute et nécessiteront probablement une configuration multi-GPU.
Par comparaison, la plupart des cartes grand public restent à 16 Go (RTX 4080 Super, RX 7900 XTX) voire 24 Go (RTX 4090, RTX Pro 4000). Les 32 Go de l'Arc Pro B70 ouvrent la porte à une catégorie de modèles qui restait auparavant réservée aux cartes professionnelles beaucoup plus chères ou aux configurations Apple Silicon avec mémoire unifiée.
Le positionnement de l'Arc Pro B70 se comprend mieux en le comparant directement à ses concurrents dans la tranche professionnelle et semi-professionnelle.
Face à la NVIDIA RTX Pro 4000 (Blackwell, 24 Go GDDR7), l'Arc Pro B70 gagne sur la capacité mémoire (32 Go contre 24 Go) et potentiellement sur le prix. NVIDIA l'emporte sur la puissance de calcul brute, l'écosystème logiciel (CUDA reste dominant), et le support des précisions FP4. Pour un utilisateur qui a besoin de faire tourner un modèle de 27B sans quantification agressive, les 32 Go d'Intel peuvent être décisifs. Pour un utilisateur qui veut maximiser les tokens par seconde sur un modèle qui tient en 24 Go, NVIDIA reste probablement le meilleur choix.
Face à l'AMD Radeon AI Pro R9700 (32 Go), la comparaison est plus serrée. Les deux cartes offrent la même capacité mémoire, et AMD dispose de ROCm, un écosystème logiciel IA plus mature que OneAPI d'Intel. Les benchmarks indépendants comparatifs manquent encore, mais la concurrence entre les deux devrait bénéficier aux utilisateurs finaux en termes de prix et de support logiciel.
Carte | VRAM | Bande passante | IA (INT8) | Écosystème | Prix approx. |
|---|---|---|---|---|---|
Intel Arc Pro B70 | 32 Go GDDR6 | 608 Go/s | 367 TOPS | OneAPI/OpenVINO | 949 $ |
NVIDIA RTX Pro 4000 | 24 Go GDDR7 | Variable | Supérieur | CUDA | ~1 200 $+ |
AMD Radeon AI Pro R9700 | 32 Go | Variable | Variable | ROCm | Variable |
Apple M4 Max (128 Go) | Mém. unifiée | 546 Go/s | Variable | CoreML/MLX | 3 500 $+ |
Le véritable concurrent inattendu est Apple Silicon avec sa mémoire unifiée. Un MacBook Pro M4 Max avec 128 Go de mémoire peut charger des modèles bien plus gros que n'importe quel GPU discret, mais à un prix nettement supérieur et avec une bande passante mémoire inférieure (546 Go/s pour le M4 Max). Pour les développeurs qui veulent une solution de bureau dédiée sans l'investissement Apple, l'Arc Pro B70 devient une option pertinente.
Le matériel ne vaut que ce que le logiciel permet d'en tirer, et c'est ici que l'Arc Pro B70 soulève le plus de questions.
Intel propose OneAPI comme couche d'abstraction et OpenVINO comme framework d'inférence optimisé. Pour les charges de travail d'inférence standard, OpenVINO offre des performances compétitives et supporte un nombre croissant de modèles. Le support vLLM sur les GPU Intel progresse, comme en témoignent les benchmarks Level1Techs qui utilisent vLLM avec succès.
Le défi reste la comparaison avec l'écosystème CUDA de NVIDIA. La majorité des frameworks, bibliothèques et tutoriels de l'écosystème IA sont d'abord développés et optimisés pour CUDA. Si vous travaillez avec un framework populaire, il y a de fortes chances que le support CUDA soit plus mature et plus rapide que le support OneAPI. C'est un facteur à considérer sérieusement avant d'investir.
Cependant, Intel mise sur le support multi-GPU Linux comme différenciateur. La possibilité de combiner deux ou quatre Arc Pro B70 dans une station de travail pour obtenir 64 ou 128 Go de VRAM agrégée est attrayante pour les charges de travail qui dépassent la capacité d'un seul GPU. Si le scaling multi-GPU fonctionne correctement, cela ouvre des possibilités intéressantes pour les modèles de 70B+ paramètres sans investir dans du matériel datacenter.
Les cartes sont disponibles directement chez Intel et via des partenaires constructeurs : ARKN, ASRock, Gunnir, Maxsun et Sparkle proposent leurs propres variantes avec des designs thermiques et des enveloppes de puissance allant de 160 W à 290 W.
L'Arc Pro B70 ne sera pas le bon choix pour tout le monde, mais elle comble un vide réel dans le marché.
Si votre priorité est la capacité mémoire pour faire tourner des modèles de 25-35 milliards de paramètres sans quantification extrême, et que votre budget est limité à 1 000 dollars par GPU, l'Arc Pro B70 est actuellement la seule option sur le marché. Aucun autre GPU discret à ce prix ne propose 32 Go de VRAM.
Si votre priorité est le débit maximum de tokens par seconde et que vos modèles tiennent en 24 Go, une carte NVIDIA sera probablement un meilleur investissement grâce à la maturité de CUDA et au support FP4.
Si vous envisagez une configuration multi-GPU pour des modèles de 70B+, attendez les benchmarks indépendants multi-GPU avant d'investir. La promesse est alléchante, mais les performances réelles en scaling multi-GPU dépendront fortement de la qualité des drivers et du support logiciel.
L'arrivée de l'Arc Pro B70 est une bonne nouvelle pour l'écosystème IA local dans son ensemble. Plus de concurrence dans le segment des GPU professionnels avec VRAM élevée signifie des prix en baisse et une innovation accélérée. Que vous choisissiez Intel, NVIDIA ou AMD, le fait que trois fabricants se battent désormais sur ce terrain ne peut que profiter aux développeurs et aux entreprises qui veulent garder leurs modèles en local.

Aucun engagement, des prix pour vous aider à augmenter votre prospection.
Vous n'avez pas besoin de crédits si vous voulez simplement envoyer des emails ou faire des actions sur LinkedIn
Peuvent être utilisés pour :
Trouver Emails
Action IA
Trouver des Numéros
Vérifier des Emails