Qwen 3.5 9B : Test du Modele Open Source d'Alibaba

Niels
Niels Co-founder
Publié le 9 mars 2026Mis à jour le 13 mars 2026

Chez Emelia.io, nous utilisons l'intelligence artificielle au coeur de notre plateforme de prospection B2B pour automatiser les campagnes d'emails et enrichir les donnees de contacts. Le cout des API d'IA represente une part significative de nos charges. C'est pourquoi la sortie de Qwen 3.5, une famille de modeles capables de tourner en local sur un simple ordinateur portable, retient toute notre attention. Chez Bridgers Agency, notre agence digitale specialisee en solutions IA, nous evaluons en permanence les meilleurs modeles open source pour nos clients. Voici notre analyse complete.

Img Qwen Logo

Qwen 3.5 : qu'est-ce que c'est ?

Le 1er mars 2026, Alibaba a lance Qwen 3.5, une nouvelle generation de modeles d'IA open source qui marque un tournant dans l'histoire des LLM compacts. La famille comprend quatre modeles de petite taille : Qwen3.5-0.8B, Qwen3.5-2B, Qwen3.5-4B et Qwen3.5-9B. Ils viennent completer les modeles plus importants deja publies, notamment le Qwen3.5-397B-A17B, modele phare de la serie.

Ce qui distingue Qwen 3.5, c'est son architecture hybride innovante. Elle combine des Gated Delta Networks (attention lineaire) avec un systeme de Mixture-of-Experts (MoE) clairseme. Concretement, le modele n'active que les parties du reseau necessaires pour chaque tache, ce qui reduit la consommation de memoire et accelere l'inference.

Tous les modeles Qwen 3.5 sont nativement multimodaux : ils traitent a la fois le texte, les images et la video grace a une fusion precoce des tokens multimodaux. Ils prennent en charge 201 langues et dialectes, contre 119 pour la generation precedente. Le contexte natif atteint 262 144 tokens, extensible jusqu'a 1 million de tokens.

Qwen 3.5 9B : benchmarks et performances

Le Qwen3.5-9B est le modele phare de la serie compacte, et ses resultats en benchmarks sont tout simplement remarquables pour un modele de cette taille.

Comparaison avec GPT-OSS-120B et d'autres modeles

Infographic Qwen35 White

Benchmark

Qwen3.5-9B

GPT-OSS-120B

Qwen3-30B-A3B

Qwen3.5-4B

MMLU-Pro

82.5

80.8

80.9

79.1

GPQA Diamond

81.7

80.1

73.4

76.2

MMLU-Redux

91.1

91.0

91.4

88.8

C-Eval

88.2

76.2

87.4

85.1

IFEval

91.5

88.9

88.9

89.8

MMMLU

81.2

78.2

-

-

LongBench v2

55.2

-

-

-

Le Qwen3.5-9B depasse le GPT-OSS-120B d'OpenAI sur MMLU-Pro (82.5 contre 80.8), sur GPQA Diamond (81.7 contre 80.1), et sur le benchmark multilingue MMMLU (81.2 contre 78.2). C'est d'autant plus impressionnant que le GPT-OSS-120B est 13 fois plus volumineux avec ses 120 milliards de parametres.

Benchmarks vision et multimodal

La dimension multimodale est l'un des atouts majeurs de Qwen 3.5. Le modele 9B se distingue particulierement en comprehension visuelle :

Benchmark

Qwen3.5-9B

GPT-5-Nano

Gemini 2.5 Flash-Lite

Qwen3-VL-30B-A3B

MMMU-Pro

70.1

57.2

59.7

63.0

MMMU

78.4

75.8

73.4

76.0

MathVision

78.9

62.2

52.1

65.7

Video-MME (avec sous-titres)

84.5

-

74.6

-

OmniDocBench v1.5

87.7

-

-

-

Sur le benchmark MMMU-Pro de raisonnement visuel, le Qwen3.5-9B obtient 70.1, soit 22.5% de plus que le GPT-5-Nano d'OpenAI (57.2). C'est un ecart considerable qui confirme l'avance d'Alibaba sur les modeles compacts multimodaux.

Paul Couvert, fondateur de Blueshell AI, a resume la situation sur les reseaux sociaux : "Comment est-ce seulement possible ? Qwen a publie 4 nouveaux modeles et la version 4B est presque aussi performante que l'ancien 80B-A3B. Et le 9B est aussi bon que GPT-OSS-120B tout en etant 13 fois plus petit !"

Qwen 3.5 vs GPT : comparaison detaillee

La comparaison entre Qwen 3.5 et les modeles d'OpenAI merite d'etre nuancee. Si le Qwen3.5-9B surpasse le GPT-OSS-120B sur plusieurs benchmarks academiques, le modele d'OpenAI reste plus performant sur certaines taches de raisonnement complexe et de generation de code.

Pour les cas d'usage professionnels, une etude realisee par ChartGen AI sur 20 taches de visualisation de donnees a montre que GPT-5.2 obtient 178/200 contre 163/200 pour Qwen 3.5, mais a un cout 10 fois superieur. Le rapport qualite-prix penche donc nettement en faveur de Qwen 3.5.

En pratique, Qwen 3.5 excelle dans :

  • Le raisonnement multi-etapes et les taches agentiques

  • La comprehension multimodale (images, video, documents)

  • Le traitement multilingue (201 langues)

  • Les taches de suivi d'instructions (IFEval : 91.5)

GPT-OSS-120B garde l'avantage pour :

  • La generation de code complexe

  • L'extraction d'insights actionnables a partir de donnees

  • Les contextes tres longs avec raisonnement dense

Le veritable avantage de Qwen 3.5 reside dans sa capacite a tourner en local, sans aucun appel API, et donc sans frais recurrents.

Quel modele Qwen 3.5 choisir ? (0.8B, 2B, 4B, 9B)

Chaque variante de la serie Qwen 3.5 repond a un usage specifique. Voici un guide pour vous aider a choisir :

Modele

Parametres

RAM requise

Cible

Meilleur usage

Qwen 3.5 0.8B

800 millions

2 Go

Smartphones anciens, objets connectes

Classification de texte, taches simples

Qwen 3.5 2B

2 milliards

4 Go

iPhone 15+, Android milieu de gamme

Chatbot, traitement texte et image

Qwen 3.5 4B

4 milliards

6 Go

Ordinateurs portables recents, smartphones haut de gamme

Generation de code, analyse de documents

Qwen 3.5 9B

9 milliards

10-16 Go

Ordinateurs portables avec 16 Go de RAM, GPU dedie

Raisonnement avance, multimodal complet

Le Qwen3.5-4B merite une mention speciale : il offre des performances proches de l'ancien Qwen3-80B-A3B, un modele 20 fois plus gros. Pour la plupart des taches courantes, c'est un excellent compromis entre performance et consommation de ressources.

Le Qwen3.5-2B est l'option ideale pour le deploiement sur smartphone. Des testeurs ont confirme qu'il tourne sur iPhone 17 via MLX avec des reponses quasi instantanees, y compris pour le traitement d'images.

Configuration requise pour faire tourner Qwen 3.5 en local

L'un des atouts majeurs de Qwen 3.5 est sa compatibilite avec du materiel grand public. Voici les prerequis selon le modele :

Pour le Qwen3.5-9B en quantification Q4 (le format le plus courant pour une utilisation locale), vous aurez besoin d'environ 10 a 16 Go de memoire totale (RAM + VRAM). Un ordinateur portable avec 16 Go de RAM suffit, sans carte graphique dediee. Un developpeur a rapporte obtenir environ 30 tokens par seconde sur un processeur AMD Ryzen AI Max+395 avec la quantification Q4_K_XL et le contexte complet de 256k tokens, le tout avec moins de 16 Go de VRAM.

Pour les modeles plus legers :

  • 0.8B : 2-3 Go de memoire, tourne sur pratiquement n'importe quel appareil

  • 2B : 4-5 Go, compatible iPhone 15 Pro et superieur en mode 4-bit

  • 4B : 6-7 Go, ideal pour les ordinateurs portables d'entree de gamme

Le modele fonctionne egalement dans un navigateur web, comme l'a demontre Xenova, developpeur chez Hugging Face, qui a fait tourner le modele directement dans le navigateur pour de l'analyse video.

Comment installer Qwen 3.5 localement sur votre ordinateur

L'installation de Qwen 3.5 en local est accessible meme aux debutants grace a des outils comme llama.cpp. Voici la marche a suivre :

Img Qwen Local Laptop Mmjb2nh6

Methode 1 : avec llama.cpp (recommandee)

llama.cpp est actuellement la methode la plus fiable pour faire tourner Qwen 3.5 en local, notamment parce que le support Ollama est encore en cours d'adaptation pour les fichiers de vision multimodale.

  • Installez llama.cpp depuis GitHub

  • Telechargez le modele GGUF quantifie depuis Hugging Face :

huggingface-cli download unsloth/Qwen3.5-9B-GGUF --include "*Q4_K_M.gguf"

  • Lancez le modele :

./llama-cli -m Qwen3.5-9B-UD-Q4_K_XL.gguf -ngl 99 --temp 0.7 --top-p 0.8 --top-k 20 --min-p 0 --presence-penalty 1.5 -c 16384 --chat-template qwen3_5

Methode 2 : avec Ollama (pour le texte uniquement)

Si vous n'avez besoin que de la partie texte, Ollama reste l'option la plus simple :

  • Installez Ollama depuis ollama.com

  • Lancez la commande :

ollama pull qwen3.5

  • Le telechargement est d'environ 6.6 Go

  • Commencez a discuter :

ollama run qwen3.5

Methode 3 : avec LM Studio

LM Studio offre une interface graphique conviviale :

  • Telechargez LM Studio

  • Recherchez "unsloth/qwen3.5" dans la bibliotheque de modeles

  • Selectionnez la quantification souhaitee et telechargez

  • Activez le mode "Thinking" si necessaire

Pour activer ou desactiver le mode de raisonnement ("thinking"), ajoutez le parametre --chat-template-kwargs '{"enable_thinking":true}' avec llama.cpp. Par defaut, le mode thinking est desactive sur les petits modeles (0.8B a 9B).

Meilleur LLM open source en 2026 : ou se situe Qwen 3.5 ?

Le paysage des modeles open source en 2026 est extremement competitif. Voici comment Qwen 3.5 se positionne face a la concurrence :

Modele

Parametres

Type

Force principale

Qwen 3.5 9B

9B

Dense hybride + MoE

Meilleur rapport performance/taille

GPT-OSS-120B

120B

MoE

Modele open source d'OpenAI, tres performant

DeepSeek-V3.2

-

Dense

Raisonnement et taches agentiques

Llama 4

Divers

Dense

Ecosysteme Meta, large communaute

Mistral

Divers

MoE

Modeles europeens, bonne performance generale

Le Qwen3.5-9B se distingue par son rapport taille-performance imbattable. Aucun autre modele de moins de 10 milliards de parametres n'offre des resultats comparables sur les benchmarks academiques, le multimodal et le multilingue.

Pour les entreprises et les developpeurs qui cherchent a deployer de l'IA en local sans investissement materiel lourd, Qwen 3.5 represente probablement le meilleur choix disponible a ce jour. La possibilite de faire tourner un modele rivalisant avec GPT-OSS-120B sur un ordinateur portable a 16 Go de RAM change fondamentalement l'equation economique de l'IA.

Ce que Qwen 3.5 change pour l'avenir de l'IA locale

La sortie de Qwen 3.5 confirme une tendance de fond : les modeles compacts rattrapent, et parfois depassent, les modeles geants sur des taches ciblees. Avec un modele de 9 milliards de parametres capable de rivaliser avec un modele 13 fois plus grand, Alibaba prouve que la course a la taille n'est plus le seul levier de performance.

Pour les outils B2B comme Emelia.io, cela signifie la possibilite d'integrer des fonctionnalites d'IA avancees sans dependre d'API couteuses. Pour les agences comme Bridgers qui construisent des solutions IA sur mesure, c'est un nouveau terrain de jeu avec des possibilites de deploiement sur site, hors ligne et a moindre cout.

Comme le PDG d'Alibaba l'a confirme recemment, Qwen restera open source. C'est une excellente nouvelle pour l'ecosysteme. Dans un marche ou la course aux modeles proprietaires fait grimper les couts, disposer d'alternatives open source de cette qualite est un facteur d'acceleration pour toute l'industrie.

logo emelia

Découvrez Emelia, votre outil de prospection tout en un.

logo emelia

Des prix clairs, transparents et sans frais cachés.

Aucun engagement, des prix pour vous aider à augmenter votre prospection.

Start

37€

/mois

Envoi d'emails illimités

Connecter 1 compte LinkedIn

Actions LinkedIn illimitées

Email Warmup inclus

Scraping illimité

Contacts illimités

Grow

Populaire
arrow-right
97€

/mois

Envoi d'emails illimités

Jusqu'à 5 comptes LinkedIn

Actions LinkedIn illimitées

Warmup illimité

Contacts illimités

1 intégration CRM

Scale

297€

/mois

Envoi d'emails illimités

Jusqu'à 20 comptes LinkedIn

Actions LinkedIn illimitées

Warmup illimité

Contacts illimités

Multi CRM Connexion

Unlimited API Calls

Crédits(optionnel)

Vous n'avez pas besoin de crédits si vous voulez simplement envoyer des emails ou faire des actions sur LinkedIn

Peuvent être utilisés pour :

Trouver Emails

Action IA

Trouver des Numéros

Vérifier des Emails

1 000
5 000
10 000
50 000
100 000
1 000 Emails trouvés
1 000 IA Actions
20 Numéros
4 000 Vérifications
19par mois

Découvrez d'autres articles qui pourraient vous intéresser !

Voir tous les articles
MathieuMathieu Co-founder
Lire la suite
NielsNiels Co-founder
Lire la suite
MathieuMathieu Co-founder
Lire la suite
NielsNiels Co-founder
Lire la suite
NielsNiels Co-founder
Lire la suite
MarieMarie Head Of Sales
Lire la suite
Made with ❤ for Growth Marketers by Growth Marketers
Copyright © 2026 Emelia All Rights Reserved