Fish Speech S2 : le TTS open source qui rivalise avec ElevenLabs (et c'est gratuit)

Niels
Niels Co-founder
Publié le 12 mars 2026Mis à jour le 13 mars 2026

Chez Emelia, nous utilisons l'intelligence artificielle pour automatiser la prospection B2B, du cold email a l'enrichissement de donnees. La voix generee par IA represente la prochaine frontiere pour les agents de prospection automatises, et c'est un sujet que Bridgers integre deja dans les solutions d'IA qu'elle developpe pour ses clients. Maylee, notre client email intelligent, pourrait egalement tirer parti du TTS pour les reponses vocales. Quand Fish Audio annonce un modele open source capable de rivaliser avec ElevenLabs, on regarde de tres pres.

Le 10 mars 2026, Fish Audio a publie Fish Speech S2, une nouvelle generation de synthese vocale open source. Avec plus de 26 000 etoiles sur GitHub, un controle des emotions par tags en langage naturel, la generation multi-locuteurs en un seul passage et une latence inferieure a 150 ms, le modele fait parler de lui. La question qui revient partout sur Reddit et X : est-ce vraiment une alternative gratuite a ElevenLabs ?

Fish Speech S2, c'est quoi : le nouveau TTS open source avec controle des emotions

Fish Speech TTS Concept

Fish Speech S2 est un systeme de synthese vocale (text-to-speech) developpe par Fish Audio, publie en open source le 10 mars 2026. Il succede a Fish Speech S1, qui avait deja obtenu la premiere place sur le benchmark TTS-Arena2.

Ce qui distingue S2 de la generation precedente, c'est avant tout le controle fin de la voix generee. Le modele accepte des instructions en langage naturel directement dans le texte, sous forme de tags entre crochets. Vous pouvez ecrire des indications comme [whisper], [angry], [laughing nervously] ou [professional broadcast tone] a l'endroit precis ou vous souhaitez que le ton change. Plus de 15 000 tags uniques sont supportes, et le systeme comprend des descriptions libres, pas uniquement une liste figee.

L'architecture repose sur un modele Dual-AR (Dual Autoregressive) : un Slow AR de 4 milliards de parametres predit les tokens semantiques, tandis qu'un Fast AR de 400 millions de parametres genere les details acoustiques fins. Le tout est entraine sur plus de 10 millions d'heures de donnees audio couvrant plus de 80 langues, avec un alignement par apprentissage par renforcement (GRPO) pour garantir la coherence entre expressivite et robustesse.

Les resultats sur les benchmarks publics sont remarquables. Sur le Seed-TTS Eval, S2 obtient le meilleur Word Error Rate parmi tous les modeles evalues, y compris les systemes proprietaires : 0,54 % en chinois et 0,99 % en anglais. Sur l'Audio Turing Test, il atteint un score de 0,515, soit 24 % de mieux que Seed-TTS (0,417) et 33 % de mieux que MiniMax-Speech (0,387). Sur l'EmergentTTS-Eval, le taux de victoire global est de 81,88 % face a gpt-4o-mini-tts, le score le plus eleve parmi tous les modeles evalues, modeles fermes inclus.

Le modele supporte nativement la generation multi-locuteurs et multi-tours dans un seul passage, ce qui permet de creer des dialogues complets entre plusieurs personnages sans avoir a generer chaque voix separement.

Fish Speech S2 vs ElevenLabs vs Azure TTS : comparatif qualite, prix et latence

Voici le comparatif complet des principales solutions TTS du marche en 2026.

Fish Speech S2 vs ElevenLabs TTS Comparison

Solution TTS

Open Source

Controle emotions

Latence

Multi-locuteurs

Prix

Ideal pour

Fish Speech S2

Oui (poids + code)

Oui, tags en langage naturel (15 000+)

< 150 ms

Oui, natif en un passage

Gratuit (self-host) ou API des 0 $/mois

Developpeurs, startups, agences

ElevenLabs

Non

Limite (styles predefinis)

~ 500 ms

Oui (API separee)

5 $ a 1 320 $/mois

Createurs de contenu, production

Azure TTS

Non

Styles predefinis (SSML)

~ 200 ms

Oui (SSML)

~ 15 $/million car. (neural)

Entreprises, integration Microsoft

Google Cloud TTS

Non

Non (Chirp 3 limite)

~ 300 ms

Non

4 a 30 $/million car.

Applications Google Cloud

OpenAI TTS

Non

Limite

~ 500 ms

Non

15 a 30 $/million car.

Integration GPT

Amazon Polly

Non

Non

~ 200 ms

Non

4 a 30 $/million car.

Ecosysteme AWS

En termes de prix, la difference est frappante. ElevenLabs facture 99 $/mois pour son plan Pro (500 000 credits) et monte a 1 320 $/mois pour le plan Business. Fish Audio propose un plan gratuit avec 7 minutes de generation S2, un plan Plus a 11 $/mois avec 200 minutes, et un plan Pro a 75 $/mois avec 27 heures de generation. L'option self-hosting est entierement gratuite si vous disposez du GPU necessaire.

Selon la page de comparaison officielle de Fish Audio, le cout par minute estime est de 0,05 $ pour Fish Audio contre 0,18 $ pour ElevenLabs, soit environ 70 % moins cher.

Sur la qualite, Fish Speech S2 surpasse les modeles fermes sur les benchmarks standardises. En pratique, ElevenLabs conserve un avantage sur certaines voix tres naturelles en anglais, mais S2 excelle dans le controle expressif et la couverture multilingue, avec des resultats particulierement impressionnants pour les langues non anglaises.

Comment installer Fish Speech S2 en local : GPU requis et setup pas a pas

Configuration materielle requise

Utilisation

GPU recommande

VRAM

Vitesse attendue

Developpement

RTX 3060

12 Go

~ 1:15 (temps reel)

Production

RTX 4090

24 Go

~ 1:7 (temps reel)

Entreprise

A100 / H200

40 Go+

~ 1:5 (temps reel)

Le minimum absolu est de 12 Go de VRAM. Pour de la production, 24 Go sont recommandes. Le modele pese environ 9 Go sur disque et consomme environ 17 Go de VRAM en inference selon les tests de la communaute.

Installation pas a pas

1. Prerequis systeme (Linux ou WSL)

``bash apt install portaudio19-dev libsox-dev ffmpeg ``

2. Creer un environnement Python

``bash conda create -n fish-speech python=3.12 conda activate fish-speech ``

3. Cloner le depot et installer

``bash git clone https://github.com/fishaudio/fish-speech.git cd fish-speech pip install -e .[cu129] # Adapter selon votre version CUDA ``

4. Telecharger le modele S2 Pro

``bash huggingface-cli login huggingface-cli download fishaudio/s2-pro --local-dir checkpoints/s2-pro ``

5. Lancer l'interface web

``bash python tools/run_webui.py ``

L'interface Gradio est ensuite accessible a l'adresse http://localhost:7860.

Pour les utilisateurs Docker, une image pre-construite est disponible :

``bash git clone https://github.com/fishaudio/fish-speech.git cd fish-speech docker compose --profile webui up ``

L'ajout de la variable COMPILE=1 active torch.compile et offre une acceleration significative de l'inference.

Controle des emotions par tags : [whisper], [angry], [laugh], comment ca marche

Le systeme de controle expressif de Fish Speech S2 fonctionne par injection de tags en langage naturel directement dans le texte a synthetiser. Contrairement aux systemes traditionnels qui utilisent des balises SSML rigides ou des styles predefinis, S2 accepte des descriptions libres.

Voici comment cela fonctionne en pratique. Vous ecrivez :

`` [professional broadcast tone] Welcome to today's episode. [whispers] But first, a secret. [laughing nervously] I probably shouldn't tell you this. [angry] This is completely unacceptable! ``

Le modele interprete chaque tag et ajuste le ton, le rythme, l'intonation et les effets vocaux en temps reel.

Les categories de tags disponibles incluent :

Emotions de base : (angry), (sad), (excited), (happy), (fearful)

Emotions avancees : (disdainful), (unhappy), (anxious), (sarcastic)

Tons : (in a hurry tone), (shouting), (whispering), (professional broadcast tone)

Effets speciaux : (laughing), (sobbing), (sighing), (inhale)

Sur le Fish Audio Instruction Benchmark, le modele atteint un taux d'activation des tags de 93,3 % et une note de qualite de 4,51 sur 5,0, evaluees par Gemini 3 Pro. Le taux de victoire sur l'EmergentTTS-Eval pour les paralinguistiques atteint 91,61 %, confirmant que le controle emotionnel est bien la force principale de S2.

Le fait que les tags soient en langage naturel libre signifie que vous pouvez experimenter avec des descriptions creatives. [pitch up slightly while maintaining warmth] est une instruction valide. Le systeme ne se limite pas a une liste fermee.

Self-hosting vs API Fish Audio : couts reels et performances

Deux options s'offrent a vous pour utiliser Fish Speech S2 : le self-hosting (heberger le modele vous-meme) ou passer par l'API hebergee de Fish Audio.

Self-hosting : couts reels

Le self-hosting est "gratuit" en termes de licence, mais le GPU a un cout. Voici une estimation realiste :

Option

Cout mensuel estime

Performance

GPU cloud (RTX 4090, ex : RunPod)

300 a 500 $/mois

RTF ~1:7, latence correcte

GPU cloud (A100 40 Go)

800 a 1 200 $/mois

RTF ~1:5, tres bon

GPU cloud (H200)

1 500 a 2 500 $/mois

RTF 0,195, production-ready

GPU personnel (RTX 4090 achetee)

~ 1 600 $ une fois + electricite

RTF ~1:7, pas de frais recurrents

A titre de comparaison, un plan ElevenLabs Pro a 99 $/mois offre 500 000 credits, ce qui equivaut a environ 8 heures de generation audio. Si votre volume est faible a modere, l'API ElevenLabs ou Fish Audio reste plus economique que le self-hosting. Le self-hosting devient rentable a partir d'un volume important, typiquement plusieurs heures de generation par jour.

API Fish Audio : tarifs et plans

Fish Audio propose une API hebergee sur fish.audio avec des plans accessibles :

  • Gratuit : 7 minutes de generation S2, 8 000 credits mensuels

  • Plus (11 $/mois) : 200 minutes, acces API, usage commercial

  • Pro (75 $/mois) : 27 heures, priorite, 30 000 caracteres par generation

L'API est simple a integrer :

```python from fishaudio import FishAudio from fishaudio.utils import save

client = FishAudio(api_key="votre_cle_api") audio = client.tts.convert( text="Bonjour, ceci est un test de synthese vocale.", model="s2-pro" ) save(audio, "output.mp3") ```

Pour la majorite des cas d'usage, l'API Fish Audio represente le meilleur rapport cout/performance. Le self-hosting se justifie pour les entreprises avec des volumes eleves ou des exigences de confidentialite.

Cas d'usage : voiceover, podcasts, call centers, agents vocaux de prospection

Createurs de contenu et podcasters

Fish Speech S2 permet de generer des voix off de qualite studio gratuitement en local. Pour un YouTuber qui produit des videos regulierement, le cout du TTS peut representer plusieurs centaines de dollars par mois chez ElevenLabs. Avec S2 en self-hosting sur un RTX 4090, ce cout disparait apres l'investissement initial. Le controle des emotions permet d'ajouter de la vie aux narrations : un ton enthousiaste pour les introductions, un murmure pour les moments de suspense.

Equipes commerciales et agents vocaux de prospection

C'est un cas d'usage qui nous concerne directement chez Emelia. Les agents vocaux IA pour la prospection telephonique necessitent un TTS rapide (latence sous 200 ms pour une conversation naturelle), expressif (le ton compte dans la vente) et abordable a grande echelle. Fish Speech S2 coche ces trois cases. Avec une latence sous 150 ms et le controle du ton, il est possible de construire un agent qui adapte sa voix en fonction du contexte de la conversation.

Call centers et service client automatise

Pour les centres d'appels, le TTS doit etre fiable, multilingue et capable de gerer des milliers de requetes simultanees. Le moteur d'inference SGLang de S2, avec le batching continu et le cache KV page, est concu pour ce type de charge. Sur un seul GPU H200, le debit atteint plus de 3 000 tokens acoustiques par seconde. Pour une entreprise operant dans plusieurs pays, le support de plus de 80 langues est un atout considerable.

Developpeurs et integration dans des applications

L'API unifiee et la nature open source de S2 facilitent l'integration. Vous pouvez deployer le modele sur votre propre infrastructure, le fine-tuner sur vos donnees specifiques, et l'integrer sans dependance a un fournisseur. L'architecture Dual-AR, structurellement isomorphe aux LLM standards, herite de toutes les optimisations de serving existantes (SGLang, vLLM), ce qui simplifie le deployment.

Agences et creation de contenu vocal pour les clients

Pour une agence comme Bridgers, Fish Speech S2 ouvre des possibilites de creation de contenu vocal a grande echelle : narrations de videos publicitaires, doublage multilingue, prototypage rapide de voix pour des projets clients. Le plan Pro a 75 $/mois offre 27 heures de generation, ce qui couvre la plupart des besoins mensuels d'une agence.

Les limites de Fish Speech S2 : ce qui ne marche pas encore

Fish Speech S2 est impressionnant, mais il n'est pas parfait. Voici les limites a connaitre avant de l'adopter.

Licence non commerciale pour les poids du modele. C'est le point le plus important. Si le code est sous licence Apache, les poids du modele sont sous Fish Audio Research License. L'usage commercial necessite une licence separee aupres de Fish Audio. Ce n'est donc pas entierement "gratuit" pour un usage professionnel, comme l'ont souligne plusieurs commentateurs sur Reddit.

Cout GPU pour le self-hosting. Le minimum de 12 Go de VRAM exclut les GPU grand public d'entree de gamme. Pour une utilisation production, 24 Go de VRAM sont recommandes, ce qui signifie un RTX 4090 ou equivalent. Pour les petites structures, l'investissement materiel peut etre prohibitif.

Qualite vs ElevenLabs sur le discours nuance en anglais. Si S2 surpasse ElevenLabs sur les benchmarks standardises, certains utilisateurs rapportent qu'ElevenLabs conserve un avantage sur la naturalite pure pour certaines voix anglaises tres specifiques. La difference se reduit, mais elle existe encore pour les cas d'usage les plus exigeants.

Couverture linguistique inegale. Les langues de Tier 1 (japonais, anglais, chinois) beneficient de la meilleure qualite. Le francais, l'allemand et l'espagnol sont en Tier 2, avec une qualite legerement inferieure. Pour les langues plus rares, les resultats peuvent etre inconsistants.

Pas de support macOS natif. L'installation necessite Linux ou WSL. Les utilisateurs Mac doivent passer par Docker ou WSL, ce qui ajoute une couche de complexite.

Pas de version quantisee officielle. Certains utilisateurs sur Reddit signalent qu'ils manquent de VRAM et attendent une version quantisee. Fish Audio n'a pas encore publie de version allege pour les GPU avec moins de 16 Go.

Verdict : qui devrait utiliser Fish Speech S2 ?

Fish Speech S2 est le modele TTS open source le plus avance disponible en mars 2026. Son controle emotionnel par tags en langage naturel, sa generation multi-locuteurs native et ses performances de pointe sur les benchmarks en font un concurrent serieux face aux solutions proprietaires.

Utilisez Fish Speech S2 si vous etes : un developpeur qui integre du TTS dans une application, une startup qui veut minimiser les couts, une agence qui produit du contenu vocal, ou une entreprise avec des besoins multilingues.

Restez sur ElevenLabs si : vous avez besoin de la simplicite d'un service cle en main, votre volume est faible (le plan Starter a 5 $/mois suffit), ou vous ne voulez pas gerer d'infrastructure.

Considerez Azure TTS ou Amazon Polly si : vous etes deja dans l'ecosysteme Microsoft ou AWS et avez besoin d'une integration native.

Le TTS open source vient de franchir un cap. Fish Speech S2 ne se contente pas de rattraper les solutions payantes, il les depasse sur plusieurs criteres mesurables. La seule question qui reste : combien de temps avant que ce niveau de qualite devienne la norme gratuite pour tout le monde ?

logo emelia

Découvrez Emelia, votre outil de prospection tout en un.

logo emelia

Des prix clairs, transparents et sans frais cachés.

Aucun engagement, des prix pour vous aider à augmenter votre prospection.

Start

37€

/mois

Envoi d'emails illimités

Connecter 1 compte LinkedIn

Actions LinkedIn illimitées

Email Warmup inclus

Scraping illimité

Contacts illimités

Grow

Populaire
arrow-right
97€

/mois

Envoi d'emails illimités

Jusqu'à 5 comptes LinkedIn

Actions LinkedIn illimitées

Warmup illimité

Contacts illimités

1 intégration CRM

Scale

297€

/mois

Envoi d'emails illimités

Jusqu'à 20 comptes LinkedIn

Actions LinkedIn illimitées

Warmup illimité

Contacts illimités

Multi CRM Connexion

Unlimited API Calls

Crédits(optionnel)

Vous n'avez pas besoin de crédits si vous voulez simplement envoyer des emails ou faire des actions sur LinkedIn

Peuvent être utilisés pour :

Trouver Emails

Action IA

Trouver des Numéros

Vérifier des Emails

1 000
5 000
10 000
50 000
100 000
1 000 Emails trouvés
1 000 IA Actions
20 Numéros
4 000 Vérifications
19par mois

Découvrez d'autres articles qui pourraient vous intéresser !

Voir tous les articles
NielsNiels Co-founder
Lire la suite
NielsNiels Co-founder
Lire la suite
MathieuMathieu Co-founder
Lire la suite
NielsNiels Co-founder
Lire la suite
NielsNiels Co-founder
Lire la suite
NielsNiels Co-founder
Lire la suite
Made with ❤ for Growth Marketers by Growth Marketers
Copyright © 2026 Emelia All Rights Reserved