Chez Emelia.io, nous utilisons l'intelligence artificielle au coeur de notre plateforme de prospection B2B pour automatiser les campagnes d'emails et enrichir les donnees de contacts. Le cout des API d'IA represente une part significative de nos charges. C'est pourquoi la sortie de Qwen 3.5, une famille de modeles capables de tourner en local sur un simple ordinateur portable, retient toute notre attention. Chez Bridgers Agency, notre agence digitale specialisee en solutions IA, nous evaluons en permanence les meilleurs modeles open source pour nos clients. Voici notre analyse complete.
Le 1er mars 2026, Alibaba a lance Qwen 3.5, une nouvelle generation de modeles d'IA open source qui marque un tournant dans l'histoire des LLM compacts. La famille comprend quatre modeles de petite taille : Qwen3.5-0.8B, Qwen3.5-2B, Qwen3.5-4B et Qwen3.5-9B. Ils viennent completer les modeles plus importants deja publies, notamment le Qwen3.5-397B-A17B, modele phare de la serie.
Ce qui distingue Qwen 3.5, c'est son architecture hybride innovante. Elle combine des Gated Delta Networks (attention lineaire) avec un systeme de Mixture-of-Experts (MoE) clairseme. Concretement, le modele n'active que les parties du reseau necessaires pour chaque tache, ce qui reduit la consommation de memoire et accelere l'inference.
Tous les modeles Qwen 3.5 sont nativement multimodaux : ils traitent a la fois le texte, les images et la video grace a une fusion precoce des tokens multimodaux. Ils prennent en charge 201 langues et dialectes, contre 119 pour la generation precedente. Le contexte natif atteint 262 144 tokens, extensible jusqu'a 1 million de tokens.
Le Qwen3.5-9B est le modele phare de la serie compacte, et ses resultats en benchmarks sont tout simplement remarquables pour un modele de cette taille.
Benchmark | Qwen3.5-9B | GPT-OSS-120B | Qwen3-30B-A3B | Qwen3.5-4B |
|---|---|---|---|---|
MMLU-Pro | 82.5 | 80.8 | 80.9 | 79.1 |
GPQA Diamond | 81.7 | 80.1 | 73.4 | 76.2 |
MMLU-Redux | 91.1 | 91.0 | 91.4 | 88.8 |
C-Eval | 88.2 | 76.2 | 87.4 | 85.1 |
IFEval | 91.5 | 88.9 | 88.9 | 89.8 |
MMMLU | 81.2 | 78.2 | - | - |
LongBench v2 | 55.2 | - | - | - |
Le Qwen3.5-9B depasse le GPT-OSS-120B d'OpenAI sur MMLU-Pro (82.5 contre 80.8), sur GPQA Diamond (81.7 contre 80.1), et sur le benchmark multilingue MMMLU (81.2 contre 78.2). C'est d'autant plus impressionnant que le GPT-OSS-120B est 13 fois plus volumineux avec ses 120 milliards de parametres.
La dimension multimodale est l'un des atouts majeurs de Qwen 3.5. Le modele 9B se distingue particulierement en comprehension visuelle :
Benchmark | Qwen3.5-9B | GPT-5-Nano | Gemini 2.5 Flash-Lite | Qwen3-VL-30B-A3B |
|---|---|---|---|---|
MMMU-Pro | 70.1 | 57.2 | 59.7 | 63.0 |
MMMU | 78.4 | 75.8 | 73.4 | 76.0 |
MathVision | 78.9 | 62.2 | 52.1 | 65.7 |
Video-MME (avec sous-titres) | 84.5 | - | 74.6 | - |
OmniDocBench v1.5 | 87.7 | - | - | - |
Sur le benchmark MMMU-Pro de raisonnement visuel, le Qwen3.5-9B obtient 70.1, soit 22.5% de plus que le GPT-5-Nano d'OpenAI (57.2). C'est un ecart considerable qui confirme l'avance d'Alibaba sur les modeles compacts multimodaux.
Paul Couvert, fondateur de Blueshell AI, a resume la situation sur les reseaux sociaux : "Comment est-ce seulement possible ? Qwen a publie 4 nouveaux modeles et la version 4B est presque aussi performante que l'ancien 80B-A3B. Et le 9B est aussi bon que GPT-OSS-120B tout en etant 13 fois plus petit !"
La comparaison entre Qwen 3.5 et les modeles d'OpenAI merite d'etre nuancee. Si le Qwen3.5-9B surpasse le GPT-OSS-120B sur plusieurs benchmarks academiques, le modele d'OpenAI reste plus performant sur certaines taches de raisonnement complexe et de generation de code.
Pour les cas d'usage professionnels, une etude realisee par ChartGen AI sur 20 taches de visualisation de donnees a montre que GPT-5.2 obtient 178/200 contre 163/200 pour Qwen 3.5, mais a un cout 10 fois superieur. Le rapport qualite-prix penche donc nettement en faveur de Qwen 3.5.
En pratique, Qwen 3.5 excelle dans :
Le raisonnement multi-etapes et les taches agentiques
La comprehension multimodale (images, video, documents)
Le traitement multilingue (201 langues)
Les taches de suivi d'instructions (IFEval : 91.5)
GPT-OSS-120B garde l'avantage pour :
La generation de code complexe
L'extraction d'insights actionnables a partir de donnees
Les contextes tres longs avec raisonnement dense
Le veritable avantage de Qwen 3.5 reside dans sa capacite a tourner en local, sans aucun appel API, et donc sans frais recurrents.
Chaque variante de la serie Qwen 3.5 repond a un usage specifique. Voici un guide pour vous aider a choisir :
Modele | Parametres | RAM requise | Cible | Meilleur usage |
|---|---|---|---|---|
Qwen 3.5 0.8B | 800 millions | 2 Go | Smartphones anciens, objets connectes | Classification de texte, taches simples |
Qwen 3.5 2B | 2 milliards | 4 Go | iPhone 15+, Android milieu de gamme | Chatbot, traitement texte et image |
Qwen 3.5 4B | 4 milliards | 6 Go | Ordinateurs portables recents, smartphones haut de gamme | Generation de code, analyse de documents |
Qwen 3.5 9B | 9 milliards | 10-16 Go | Ordinateurs portables avec 16 Go de RAM, GPU dedie | Raisonnement avance, multimodal complet |
Le Qwen3.5-4B merite une mention speciale : il offre des performances proches de l'ancien Qwen3-80B-A3B, un modele 20 fois plus gros. Pour la plupart des taches courantes, c'est un excellent compromis entre performance et consommation de ressources.
Le Qwen3.5-2B est l'option ideale pour le deploiement sur smartphone. Des testeurs ont confirme qu'il tourne sur iPhone 17 via MLX avec des reponses quasi instantanees, y compris pour le traitement d'images.
L'un des atouts majeurs de Qwen 3.5 est sa compatibilite avec du materiel grand public. Voici les prerequis selon le modele :
Pour le Qwen3.5-9B en quantification Q4 (le format le plus courant pour une utilisation locale), vous aurez besoin d'environ 10 a 16 Go de memoire totale (RAM + VRAM). Un ordinateur portable avec 16 Go de RAM suffit, sans carte graphique dediee. Un developpeur a rapporte obtenir environ 30 tokens par seconde sur un processeur AMD Ryzen AI Max+395 avec la quantification Q4_K_XL et le contexte complet de 256k tokens, le tout avec moins de 16 Go de VRAM.
Pour les modeles plus legers :
0.8B : 2-3 Go de memoire, tourne sur pratiquement n'importe quel appareil
2B : 4-5 Go, compatible iPhone 15 Pro et superieur en mode 4-bit
4B : 6-7 Go, ideal pour les ordinateurs portables d'entree de gamme
Le modele fonctionne egalement dans un navigateur web, comme l'a demontre Xenova, developpeur chez Hugging Face, qui a fait tourner le modele directement dans le navigateur pour de l'analyse video.
L'installation de Qwen 3.5 en local est accessible meme aux debutants grace a des outils comme llama.cpp. Voici la marche a suivre :
llama.cpp est actuellement la methode la plus fiable pour faire tourner Qwen 3.5 en local, notamment parce que le support Ollama est encore en cours d'adaptation pour les fichiers de vision multimodale.
Installez llama.cpp depuis GitHub
Telechargez le modele GGUF quantifie depuis Hugging Face :
huggingface-cli download unsloth/Qwen3.5-9B-GGUF --include "*Q4_K_M.gguf"
Lancez le modele :
./llama-cli -m Qwen3.5-9B-UD-Q4_K_XL.gguf -ngl 99 --temp 0.7 --top-p 0.8 --top-k 20 --min-p 0 --presence-penalty 1.5 -c 16384 --chat-template qwen3_5
Si vous n'avez besoin que de la partie texte, Ollama reste l'option la plus simple :
Installez Ollama depuis ollama.com
Lancez la commande :
ollama pull qwen3.5
Le telechargement est d'environ 6.6 Go
Commencez a discuter :
ollama run qwen3.5
LM Studio offre une interface graphique conviviale :
Telechargez LM Studio
Recherchez "unsloth/qwen3.5" dans la bibliotheque de modeles
Selectionnez la quantification souhaitee et telechargez
Activez le mode "Thinking" si necessaire
Pour activer ou desactiver le mode de raisonnement ("thinking"), ajoutez le parametre --chat-template-kwargs '{"enable_thinking":true}' avec llama.cpp. Par defaut, le mode thinking est desactive sur les petits modeles (0.8B a 9B).
Le paysage des modeles open source en 2026 est extremement competitif. Voici comment Qwen 3.5 se positionne face a la concurrence :
Modele | Parametres | Type | Force principale |
|---|---|---|---|
Qwen 3.5 9B | 9B | Dense hybride + MoE | Meilleur rapport performance/taille |
GPT-OSS-120B | 120B | MoE | Modele open source d'OpenAI, tres performant |
DeepSeek-V3.2 | - | Dense | Raisonnement et taches agentiques |
Llama 4 | Divers | Dense | Ecosysteme Meta, large communaute |
Mistral | Divers | MoE | Modeles europeens, bonne performance generale |
Le Qwen3.5-9B se distingue par son rapport taille-performance imbattable. Aucun autre modele de moins de 10 milliards de parametres n'offre des resultats comparables sur les benchmarks academiques, le multimodal et le multilingue.
Pour les entreprises et les developpeurs qui cherchent a deployer de l'IA en local sans investissement materiel lourd, Qwen 3.5 represente probablement le meilleur choix disponible a ce jour. La possibilite de faire tourner un modele rivalisant avec GPT-OSS-120B sur un ordinateur portable a 16 Go de RAM change fondamentalement l'equation economique de l'IA.
La sortie de Qwen 3.5 confirme une tendance de fond : les modeles compacts rattrapent, et parfois depassent, les modeles geants sur des taches ciblees. Avec un modele de 9 milliards de parametres capable de rivaliser avec un modele 13 fois plus grand, Alibaba prouve que la course a la taille n'est plus le seul levier de performance.
Pour les outils B2B comme Emelia.io, cela signifie la possibilite d'integrer des fonctionnalites d'IA avancees sans dependre d'API couteuses. Pour les agences comme Bridgers qui construisent des solutions IA sur mesure, c'est un nouveau terrain de jeu avec des possibilites de deploiement sur site, hors ligne et a moindre cout.
Comme le PDG d'Alibaba l'a confirme recemment, Qwen restera open source. C'est une excellente nouvelle pour l'ecosysteme. Dans un marche ou la course aux modeles proprietaires fait grimper les couts, disposer d'alternatives open source de cette qualite est un facteur d'acceleration pour toute l'industrie.

Aucun engagement, des prix pour vous aider à augmenter votre prospection.
Vous n'avez pas besoin de crédits si vous voulez simplement envoyer des emails ou faire des actions sur LinkedIn
Peuvent être utilisés pour :
Trouver Emails
Action IA
Trouver des Numéros
Vérifier des Emails