Chez Emelia, nous utilisons l'intelligence artificielle pour automatiser la prospection B2B, du cold email a l'enrichissement de donnees. La voix generee par IA represente la prochaine frontiere pour les agents de prospection automatises, et c'est un sujet que Bridgers integre deja dans les solutions d'IA qu'elle developpe pour ses clients. Maylee, notre client email intelligent, pourrait egalement tirer parti du TTS pour les reponses vocales. Quand Fish Audio annonce un modele open source capable de rivaliser avec ElevenLabs, on regarde de tres pres.
Le 10 mars 2026, Fish Audio a publie Fish Speech S2, une nouvelle generation de synthese vocale open source. Avec plus de 26 000 etoiles sur GitHub, un controle des emotions par tags en langage naturel, la generation multi-locuteurs en un seul passage et une latence inferieure a 150 ms, le modele fait parler de lui. La question qui revient partout sur Reddit et X : est-ce vraiment une alternative gratuite a ElevenLabs ?
Fish Speech S2 est un systeme de synthese vocale (text-to-speech) developpe par Fish Audio, publie en open source le 10 mars 2026. Il succede a Fish Speech S1, qui avait deja obtenu la premiere place sur le benchmark TTS-Arena2.
Ce qui distingue S2 de la generation precedente, c'est avant tout le controle fin de la voix generee. Le modele accepte des instructions en langage naturel directement dans le texte, sous forme de tags entre crochets. Vous pouvez ecrire des indications comme [whisper], [angry], [laughing nervously] ou [professional broadcast tone] a l'endroit precis ou vous souhaitez que le ton change. Plus de 15 000 tags uniques sont supportes, et le systeme comprend des descriptions libres, pas uniquement une liste figee.
L'architecture repose sur un modele Dual-AR (Dual Autoregressive) : un Slow AR de 4 milliards de parametres predit les tokens semantiques, tandis qu'un Fast AR de 400 millions de parametres genere les details acoustiques fins. Le tout est entraine sur plus de 10 millions d'heures de donnees audio couvrant plus de 80 langues, avec un alignement par apprentissage par renforcement (GRPO) pour garantir la coherence entre expressivite et robustesse.
Les resultats sur les benchmarks publics sont remarquables. Sur le Seed-TTS Eval, S2 obtient le meilleur Word Error Rate parmi tous les modeles evalues, y compris les systemes proprietaires : 0,54 % en chinois et 0,99 % en anglais. Sur l'Audio Turing Test, il atteint un score de 0,515, soit 24 % de mieux que Seed-TTS (0,417) et 33 % de mieux que MiniMax-Speech (0,387). Sur l'EmergentTTS-Eval, le taux de victoire global est de 81,88 % face a gpt-4o-mini-tts, le score le plus eleve parmi tous les modeles evalues, modeles fermes inclus.
Le modele supporte nativement la generation multi-locuteurs et multi-tours dans un seul passage, ce qui permet de creer des dialogues complets entre plusieurs personnages sans avoir a generer chaque voix separement.
Voici le comparatif complet des principales solutions TTS du marche en 2026.
Solution TTS | Open Source | Controle emotions | Latence | Multi-locuteurs | Prix | Ideal pour |
|---|---|---|---|---|---|---|
Fish Speech S2 | Oui (poids + code) | Oui, tags en langage naturel (15 000+) | < 150 ms | Oui, natif en un passage | Gratuit (self-host) ou API des 0 $/mois | Developpeurs, startups, agences |
ElevenLabs | Non | Limite (styles predefinis) | ~ 500 ms | Oui (API separee) | 5 $ a 1 320 $/mois | Createurs de contenu, production |
Azure TTS | Non | Styles predefinis (SSML) | ~ 200 ms | Oui (SSML) | ~ 15 $/million car. (neural) | Entreprises, integration Microsoft |
Google Cloud TTS | Non | Non (Chirp 3 limite) | ~ 300 ms | Non | 4 a 30 $/million car. | Applications Google Cloud |
OpenAI TTS | Non | Limite | ~ 500 ms | Non | 15 a 30 $/million car. | Integration GPT |
Amazon Polly | Non | Non | ~ 200 ms | Non | 4 a 30 $/million car. | Ecosysteme AWS |
En termes de prix, la difference est frappante. ElevenLabs facture 99 $/mois pour son plan Pro (500 000 credits) et monte a 1 320 $/mois pour le plan Business. Fish Audio propose un plan gratuit avec 7 minutes de generation S2, un plan Plus a 11 $/mois avec 200 minutes, et un plan Pro a 75 $/mois avec 27 heures de generation. L'option self-hosting est entierement gratuite si vous disposez du GPU necessaire.
Selon la page de comparaison officielle de Fish Audio, le cout par minute estime est de 0,05 $ pour Fish Audio contre 0,18 $ pour ElevenLabs, soit environ 70 % moins cher.
Sur la qualite, Fish Speech S2 surpasse les modeles fermes sur les benchmarks standardises. En pratique, ElevenLabs conserve un avantage sur certaines voix tres naturelles en anglais, mais S2 excelle dans le controle expressif et la couverture multilingue, avec des resultats particulierement impressionnants pour les langues non anglaises.
Utilisation | GPU recommande | VRAM | Vitesse attendue |
|---|---|---|---|
Developpement | RTX 3060 | 12 Go | ~ 1:15 (temps reel) |
Production | RTX 4090 | 24 Go | ~ 1:7 (temps reel) |
Entreprise | A100 / H200 | 40 Go+ | ~ 1:5 (temps reel) |
Le minimum absolu est de 12 Go de VRAM. Pour de la production, 24 Go sont recommandes. Le modele pese environ 9 Go sur disque et consomme environ 17 Go de VRAM en inference selon les tests de la communaute.
1. Prerequis systeme (Linux ou WSL)
``bash apt install portaudio19-dev libsox-dev ffmpeg ``
2. Creer un environnement Python
``bash conda create -n fish-speech python=3.12 conda activate fish-speech ``
3. Cloner le depot et installer
``bash git clone https://github.com/fishaudio/fish-speech.git cd fish-speech pip install -e .[cu129] # Adapter selon votre version CUDA ``
4. Telecharger le modele S2 Pro
``bash huggingface-cli login huggingface-cli download fishaudio/s2-pro --local-dir checkpoints/s2-pro ``
5. Lancer l'interface web
``bash python tools/run_webui.py ``
L'interface Gradio est ensuite accessible a l'adresse http://localhost:7860.
Pour les utilisateurs Docker, une image pre-construite est disponible :
``bash git clone https://github.com/fishaudio/fish-speech.git cd fish-speech docker compose --profile webui up ``
L'ajout de la variable COMPILE=1 active torch.compile et offre une acceleration significative de l'inference.
Le systeme de controle expressif de Fish Speech S2 fonctionne par injection de tags en langage naturel directement dans le texte a synthetiser. Contrairement aux systemes traditionnels qui utilisent des balises SSML rigides ou des styles predefinis, S2 accepte des descriptions libres.
Voici comment cela fonctionne en pratique. Vous ecrivez :
`` [professional broadcast tone] Welcome to today's episode. [whispers] But first, a secret. [laughing nervously] I probably shouldn't tell you this. [angry] This is completely unacceptable! ``
Le modele interprete chaque tag et ajuste le ton, le rythme, l'intonation et les effets vocaux en temps reel.
Les categories de tags disponibles incluent :
Emotions de base : (angry), (sad), (excited), (happy), (fearful)
Emotions avancees : (disdainful), (unhappy), (anxious), (sarcastic)
Tons : (in a hurry tone), (shouting), (whispering), (professional broadcast tone)
Effets speciaux : (laughing), (sobbing), (sighing), (inhale)
Sur le Fish Audio Instruction Benchmark, le modele atteint un taux d'activation des tags de 93,3 % et une note de qualite de 4,51 sur 5,0, evaluees par Gemini 3 Pro. Le taux de victoire sur l'EmergentTTS-Eval pour les paralinguistiques atteint 91,61 %, confirmant que le controle emotionnel est bien la force principale de S2.
Le fait que les tags soient en langage naturel libre signifie que vous pouvez experimenter avec des descriptions creatives. [pitch up slightly while maintaining warmth] est une instruction valide. Le systeme ne se limite pas a une liste fermee.
Deux options s'offrent a vous pour utiliser Fish Speech S2 : le self-hosting (heberger le modele vous-meme) ou passer par l'API hebergee de Fish Audio.
Le self-hosting est "gratuit" en termes de licence, mais le GPU a un cout. Voici une estimation realiste :
Option | Cout mensuel estime | Performance |
|---|---|---|
GPU cloud (RTX 4090, ex : RunPod) | 300 a 500 $/mois | RTF ~1:7, latence correcte |
GPU cloud (A100 40 Go) | 800 a 1 200 $/mois | RTF ~1:5, tres bon |
GPU cloud (H200) | 1 500 a 2 500 $/mois | RTF 0,195, production-ready |
GPU personnel (RTX 4090 achetee) | ~ 1 600 $ une fois + electricite | RTF ~1:7, pas de frais recurrents |
A titre de comparaison, un plan ElevenLabs Pro a 99 $/mois offre 500 000 credits, ce qui equivaut a environ 8 heures de generation audio. Si votre volume est faible a modere, l'API ElevenLabs ou Fish Audio reste plus economique que le self-hosting. Le self-hosting devient rentable a partir d'un volume important, typiquement plusieurs heures de generation par jour.
Fish Audio propose une API hebergee sur fish.audio avec des plans accessibles :
Gratuit : 7 minutes de generation S2, 8 000 credits mensuels
Plus (11 $/mois) : 200 minutes, acces API, usage commercial
Pro (75 $/mois) : 27 heures, priorite, 30 000 caracteres par generation
L'API est simple a integrer :
```python from fishaudio import FishAudio from fishaudio.utils import save
client = FishAudio(api_key="votre_cle_api") audio = client.tts.convert( text="Bonjour, ceci est un test de synthese vocale.", model="s2-pro" ) save(audio, "output.mp3") ```
Pour la majorite des cas d'usage, l'API Fish Audio represente le meilleur rapport cout/performance. Le self-hosting se justifie pour les entreprises avec des volumes eleves ou des exigences de confidentialite.
Fish Speech S2 permet de generer des voix off de qualite studio gratuitement en local. Pour un YouTuber qui produit des videos regulierement, le cout du TTS peut representer plusieurs centaines de dollars par mois chez ElevenLabs. Avec S2 en self-hosting sur un RTX 4090, ce cout disparait apres l'investissement initial. Le controle des emotions permet d'ajouter de la vie aux narrations : un ton enthousiaste pour les introductions, un murmure pour les moments de suspense.
C'est un cas d'usage qui nous concerne directement chez Emelia. Les agents vocaux IA pour la prospection telephonique necessitent un TTS rapide (latence sous 200 ms pour une conversation naturelle), expressif (le ton compte dans la vente) et abordable a grande echelle. Fish Speech S2 coche ces trois cases. Avec une latence sous 150 ms et le controle du ton, il est possible de construire un agent qui adapte sa voix en fonction du contexte de la conversation.
Pour les centres d'appels, le TTS doit etre fiable, multilingue et capable de gerer des milliers de requetes simultanees. Le moteur d'inference SGLang de S2, avec le batching continu et le cache KV page, est concu pour ce type de charge. Sur un seul GPU H200, le debit atteint plus de 3 000 tokens acoustiques par seconde. Pour une entreprise operant dans plusieurs pays, le support de plus de 80 langues est un atout considerable.
L'API unifiee et la nature open source de S2 facilitent l'integration. Vous pouvez deployer le modele sur votre propre infrastructure, le fine-tuner sur vos donnees specifiques, et l'integrer sans dependance a un fournisseur. L'architecture Dual-AR, structurellement isomorphe aux LLM standards, herite de toutes les optimisations de serving existantes (SGLang, vLLM), ce qui simplifie le deployment.
Pour une agence comme Bridgers, Fish Speech S2 ouvre des possibilites de creation de contenu vocal a grande echelle : narrations de videos publicitaires, doublage multilingue, prototypage rapide de voix pour des projets clients. Le plan Pro a 75 $/mois offre 27 heures de generation, ce qui couvre la plupart des besoins mensuels d'une agence.
Fish Speech S2 est impressionnant, mais il n'est pas parfait. Voici les limites a connaitre avant de l'adopter.
Licence non commerciale pour les poids du modele. C'est le point le plus important. Si le code est sous licence Apache, les poids du modele sont sous Fish Audio Research License. L'usage commercial necessite une licence separee aupres de Fish Audio. Ce n'est donc pas entierement "gratuit" pour un usage professionnel, comme l'ont souligne plusieurs commentateurs sur Reddit.
Cout GPU pour le self-hosting. Le minimum de 12 Go de VRAM exclut les GPU grand public d'entree de gamme. Pour une utilisation production, 24 Go de VRAM sont recommandes, ce qui signifie un RTX 4090 ou equivalent. Pour les petites structures, l'investissement materiel peut etre prohibitif.
Qualite vs ElevenLabs sur le discours nuance en anglais. Si S2 surpasse ElevenLabs sur les benchmarks standardises, certains utilisateurs rapportent qu'ElevenLabs conserve un avantage sur la naturalite pure pour certaines voix anglaises tres specifiques. La difference se reduit, mais elle existe encore pour les cas d'usage les plus exigeants.
Couverture linguistique inegale. Les langues de Tier 1 (japonais, anglais, chinois) beneficient de la meilleure qualite. Le francais, l'allemand et l'espagnol sont en Tier 2, avec une qualite legerement inferieure. Pour les langues plus rares, les resultats peuvent etre inconsistants.
Pas de support macOS natif. L'installation necessite Linux ou WSL. Les utilisateurs Mac doivent passer par Docker ou WSL, ce qui ajoute une couche de complexite.
Pas de version quantisee officielle. Certains utilisateurs sur Reddit signalent qu'ils manquent de VRAM et attendent une version quantisee. Fish Audio n'a pas encore publie de version allege pour les GPU avec moins de 16 Go.
Fish Speech S2 est le modele TTS open source le plus avance disponible en mars 2026. Son controle emotionnel par tags en langage naturel, sa generation multi-locuteurs native et ses performances de pointe sur les benchmarks en font un concurrent serieux face aux solutions proprietaires.
Utilisez Fish Speech S2 si vous etes : un developpeur qui integre du TTS dans une application, une startup qui veut minimiser les couts, une agence qui produit du contenu vocal, ou une entreprise avec des besoins multilingues.
Restez sur ElevenLabs si : vous avez besoin de la simplicite d'un service cle en main, votre volume est faible (le plan Starter a 5 $/mois suffit), ou vous ne voulez pas gerer d'infrastructure.
Considerez Azure TTS ou Amazon Polly si : vous etes deja dans l'ecosysteme Microsoft ou AWS et avez besoin d'une integration native.
Le TTS open source vient de franchir un cap. Fish Speech S2 ne se contente pas de rattraper les solutions payantes, il les depasse sur plusieurs criteres mesurables. La seule question qui reste : combien de temps avant que ce niveau de qualite devienne la norme gratuite pour tout le monde ?

Aucun engagement, des prix pour vous aider à augmenter votre prospection.
Vous n'avez pas besoin de crédits si vous voulez simplement envoyer des emails ou faire des actions sur LinkedIn
Peuvent être utilisés pour :
Trouver Emails
Action IA
Trouver des Numéros
Vérifier des Emails