Chez Emelia, l'intelligence artificielle est au coeur de notre plateforme de prospection B2B : rédaction automatique de cold emails, enrichissement de données, scoring de leads. Chez Bridgers, nous concevons et déployons des agents IA pour nos clients, du chatbot de support à l'automatisation de workflows complexes. Dans les deux cas, une question revient systématiquement avant chaque mise en production : comment s'assurer que ces systèmes IA ne vont pas halluciner, divulguer des données sensibles ou se faire manipuler par un prompt malveillant ? C'est exactement le problème que Promptfoo résout. Et c'est exactement pour cela qu'OpenAI vient de l'acquérir.
Le 9 mars 2026, OpenAI a annoncé le rachat de Promptfoo, la plateforme open source de test et de red teaming pour applications IA la plus utilisée au monde. Avec plus de 350 000 développeurs, 130 000 utilisateurs actifs mensuels et une présence chez plus de 25% des entreprises du Fortune 500, Promptfoo est devenu en deux ans l'outil de référence pour évaluer, tester et sécuriser les applications basées sur des LLM. Le deal valorise la startup à 86 millions de dollars, et son intégration dans OpenAI Frontier, la plateforme d'agents IA entreprise lancée le 5 février 2026, est déjà prévue.
Mais au-delà de l'actualité du rachat, Promptfoo est avant tout un outil puissant que tout développeur travaillant avec des LLM devrait connaître. Ce guide complet couvre ce que fait Promptfoo, comment l'intégrer dans votre workflow, et ce que ce rachat change concrètement pour les équipes techniques.
Promptfoo est un CLI (command-line interface) et une bibliothèque open source sous licence MIT, conçu pour évaluer et tester systématiquement les applications basées sur des LLM. Fondé en 2026 par Ian Webster (CEO) et Michael D'Angelo (CTO), l'outil est né d'un constat simple : les développeurs qui construisent des applications IA procèdent par essai-erreur. Ils modifient un prompt, testent manuellement, espèrent que ça fonctionne. Promptfoo remplace cette approche artisanale par une démarche de test-driven development appliquée aux LLM.
Concrètement, Promptfoo permet de :
Évaluer des prompts : comparer côte à côte les réponses de différents prompts et de différents modèles (GPT, Claude, Gemini, Llama, Mistral) sur un même jeu de tests
Scorer automatiquement les sorties : définir des métriques de qualité (pertinence, cohérence, absence de toxicité) et laisser Promptfoo noter chaque réponse
Tester la sécurité via le red teaming : simuler des attaques adversariales pour identifier les vulnérabilités avant le déploiement
Comparer des modèles : benchmark côte à côte de GPT-4, Claude 3, Gemini, Llama 3 ou tout autre modèle via une configuration déclarative unique
Automatiser les tests en CI/CD : intégrer les évaluations directement dans GitHub Actions, GitLab CI ou Jenkins
L'outil fonctionne entièrement en local. Vos prompts et vos données ne quittent jamais votre machine, un argument de poids pour les entreprises soucieuses de confidentialité. La configuration se fait via un simple fichier YAML (promptfooconfig.yaml), et les résultats s'affichent dans un viewer web interactif ou en ligne de commande.
Ian Webster résume la philosophie de l'outil : "Nous avons fondé Promptfoo en 2026 pour permettre aux développeurs de tester systématiquement leurs applications IA. Nous avons rapidement réalisé que les tests adversariaux pour la sécurité et la conformité étaient les plus grands freins au déploiement de l'IA en entreprise."
Le coeur de la proposition de valeur de Promptfoo, c'est son moteur de red teaming. L'outil teste plus de 50 types de vulnérabilités spécifiques aux applications IA. Voici ce que cela couvre concrètement.
Promptfoo génère automatiquement des inputs adversariaux qui tentent de contourner les garde-fous de votre système IA. Il simule des attaques qui tentent de faire ignorer les instructions système, d'extraire le prompt original, ou de faire adopter au modèle un comportement non prévu. Cela inclut les injections indirectes via le contexte (par exemple dans un système RAG), les injections SQL via prompt-to-SQL, et les tentatives d'exécution de commandes shell.
L'outil teste si votre application peut être amenée à révéler des informations personnelles identifiables (PII), des données clients confidentielles, ou des informations internes. Les plugins pii:direct, pii:indirect et pii:social couvrent respectivement les divulgations directes, les déductions par recoupement, et l'ingénierie sociale.
Pour les agents IA qui ont accès à des outils externes (APIs, bases de données, systèmes de paiement), Promptfoo vérifie que le modèle respecte les contrôles d'accès basés sur les rôles (RBAC) et n'accède pas à des fonctionnalités non autorisées.
Promptfoo s'aligne avec les frameworks de référence : OWASP Top 10 pour les LLM et NIST AI Risk Management Framework. Les rapports générés quantifient les risques et fournissent des recommandations de remédiation.
Les plugins harmful détectent les sorties problématiques : désinformation, discours haineux, violations de copyright, conseils médicaux ou juridiques non autorisés, et biais discriminatoires.
La configuration est déclarative et modulaire. Un fichier YAML suffit pour définir quels plugins activer et quelles stratégies d'attaque utiliser :
```yaml redteam: plugins:
'harmful'
'pii:direct'
'pii:social'
'rbac'
'competitors'
strategies:
'prompt-injection'
'jailbreak'
```
L'un des atouts majeurs de Promptfoo est son intégration native avec les pipelines CI/CD. Vous pouvez automatiser à la fois les tests de qualité (évaluations de prompts) et les scans de sécurité (red teaming) sur chaque pull request ou selon un calendrier défini.
Voici une configuration GitHub Actions qui lance une évaluation à chaque modification de vos prompts :
```yaml name: LLM Eval on: pull_request: paths:
'prompts/**'
'promptfooconfig.yaml'
jobs: evaluate: runs-on: ubuntu-latest steps:
uses: actions/checkout@v4
uses: actions/setup-node@v4
with: node-version: '22'
name: Run eval
env: OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }} run: | npx promptfoo@latest eval \ -c promptfooconfig.yaml \ --share \ -o results.json
name: Check quality gate
run: | FAILURES=$(jq '.results.stats.failures' results.json) if [ "$FAILURES" -gt 0 ]; then echo "Eval failed with $FAILURES failures" exit 1 fi ```
Pour le red teaming continu, vous pouvez configurer un scan automatique quotidien :
```yaml name: Security Scan on: schedule:
cron: '0 2 *'
jobs: red-team: runs-on: ubuntu-latest steps:
uses: actions/checkout@v4
name: Run red team scan
uses: promptfoo/promptfoo-action@v1 with: type: 'redteam' config: 'promptfooconfig.yaml' openai-api-key: ${{ secrets.OPENAI_API_KEY }} github-token: ${{ secrets.GITHUB_TOKEN }} ```
L'action GitHub officielle (promptfoo/promptfoo-action@v1) publie automatiquement un commentaire sur la PR avec les résultats, incluant une comparaison avant/après lorsque vous modifiez un prompt. Un système de cache permet de réutiliser les résultats d'appels LLM précédents pour réduire les coûts.
Promptfoo permet aussi de tester le même prompt sur plusieurs modèles en parallèle via une matrice GitHub Actions :
```yaml strategy: matrix: model: [gpt-4, claude-3-opus, gemini-pro] steps:
name: Test ${{ matrix.model }}
run: | npx promptfoo@latest eval \ --providers.0.config.model=${{ matrix.model }} \ -o results-${{ matrix.model }}.json ```
L'annonce du 9 mars 2026 ne sort pas de nulle part. Promptfoo avait levé 5 millions de dollars en seed (2026, mené par Andreessen Horowitz), puis 18,4 millions en Série A (juillet 2026, mené par Insight Partners avec la participation d'a16z), pour un total de 23 millions levés et une valorisation post-money de 86 millions de dollars.
La raison stratégique est limpide. OpenAI a lancé Frontier le 5 février 2026, une plateforme entreprise pour construire, déployer et gérer des "AI coworkers", des agents IA autonomes qui interagissent avec les systèmes de production, les CRM, les bases de données et les applications internes. Les premiers clients incluent Uber, State Farm, Intuit et Thermo Fisher Scientific. Les partenaires de déploiement sont Accenture, Capgemini et McKinsey.
Mais des agents autonomes qui accèdent à des systèmes de paiement, des dossiers patients ou des données clients, cela exige des garanties de sécurité drastiques. Promptfoo comble exactement cette lacune en intégrant le red teaming automatisé, la détection de vulnérabilités et le monitoring de conformité directement dans la plateforme.
Srinivas Narayanan, CTO des applications B2B chez OpenAI, confirme : "Promptfoo apporte une expertise technique approfondie en évaluation, sécurisation et test des systèmes IA à l'échelle entreprise. Nous sommes ravis d'intégrer ces capacités directement dans Frontier."
Le marché de la sécurité entreprise devrait atteindre 244 milliards de dollars en 2026. Le segment spécifique de la sécurité des infrastructures IA croît à un rythme de 18,8% par an, passant de 12 milliards en 2026 à 14,3 milliards en 2026. En intégrant Promptfoo dans Frontier comme fonctionnalité premium, OpenAI transforme un coût d'évaluation ponctuel en revenu récurrent lié aux abonnements entreprise.
Promptfoo comptait 23 personnes (certaines sources mentionnent 11 ingénieurs) réparties entre l'ingénierie, le go-to-market et les opérations. L'équipe complète rejoint OpenAI pour continuer le développement, et OpenAI s'engage à maintenir le projet open source.
Le marché de l'évaluation et du test des applications LLM est en pleine effervescence. Voici comment Promptfoo se positionne face à ses principaux concurrents.
Critère | Promptfoo | LangSmith | TruLens | Ragas |
|---|---|---|---|---|
Focus principal | Red teaming + évaluation de sécurité | Tracing + évaluation (écosystème LangChain) | Feedback-driven eval (RAG focus) | Évaluation RAG (métriques académiques) |
Open source | Oui (MIT) | Partiellement (tracing open, plateforme closed) | Oui (MIT) | Oui (Apache 2.0) |
Red teaming intégré | Oui, 50+ plugins de vulnérabilité | Non | Non | Non |
Intégration CI/CD | Native (GitHub Actions, GitLab, Jenkins) | Limitée | Limitée | Non |
Modèles supportés | Tous (OpenAI, Anthropic, Google, Llama, Mistral, custom) | Principalement LangChain/LangGraph | Tous via LLM-as-judge | Tous via LangChain |
Pricing | Gratuit (10k probes/mois), Enterprise sur devis | Gratuit (5k traces), Plus 39$/user/mois, Enterprise sur devis | Gratuit (open source), cloud payant | Gratuit (open source) |
Exécution locale | Oui, 100% local | Cloud (self-host en Enterprise) | Self-host possible | Local |
Spécialité RAG | Plugins dédiés | Oui, natif | RAG Triad (référence du marché) | Métriques de référence du secteur |
Idéal pour | Sécurité, conformité, red teaming | Équipes LangChain, debugging | Évaluation qualité RAG | Recherche, métriques RAG |
Le verdict : si votre priorité est la sécurité et la conformité de vos applications IA, Promptfoo n'a pas d'équivalent direct. LangSmith excelle pour le debugging et le tracing dans l'écosystème LangChain. TruLens et Ragas sont les références pour l'évaluation qualité des systèmes RAG, mais ne couvrent pas le red teaming. Dans la pratique, beaucoup d'équipes combinent Promptfoo (sécurité) avec LangSmith ou TruLens (observabilité et qualité).
C'est la question qui agite Reddit et la communauté développeur depuis l'annonce. Le débat se résume en une phrase : peut-on faire confiance à un outil d'évaluation de modèles IA quand il appartient à l'un des fournisseurs de modèles IA ?
OpenAI s'est engagé publiquement à maintenir Promptfoo open source sous sa licence MIT actuelle. Le code reste consultable, modifiable et redistribuable. L'outil continuera de supporter l'ensemble des fournisseurs (Anthropic, Google, Meta, Mistral, modèles open source). Ian Webster et Michael D'Angelo restent aux commandes du projet.
D'un point de vue technique, les évaluations Promptfoo tournent localement sur votre machine. Les résultats ne sont pas envoyés à OpenAI (sauf si vous choisissez explicitement la fonctionnalité de partage). La transparence du code open source permet à quiconque de vérifier l'absence de biais dans les mécanismes de scoring.
Sur Reddit, le scepticisme est palpable. L'argument principal : même si le code reste ouvert, la feuille de route est désormais pilotée par OpenAI. Les priorités de développement, les optimisations, les nouveaux plugins, tout cela sera naturellement orienté vers l'écosystème OpenAI. Un développeur qui teste un modèle Claude ou Gemini avec un outil appartenant à OpenAI se pose légitimement la question de l'objectivité.
Certains soulignent que l'historique de l'industrie tech donne raison aux sceptiques : les projets open source rachetés par des géants finissent souvent par voir leur version communautaire stagner au profit de la version entreprise.
Aujourd'hui, Promptfoo reste le meilleur outil open source de red teaming pour applications IA. Tant que le code est ouvert et auditable, la communauté peut vérifier son intégrité. Le jour où des biais apparaissent dans les mécanismes d'évaluation, la communauté le verra dans le code. En attendant, il est prudent de suivre l'évolution du projet sur GitHub et de garder un oeil sur les alternatives comme DeepEval, PyRIT (Microsoft), ou les outils de test maison.
Vous lancez un chatbot de support pour votre SaaS. Avant la mise en production, vous devez vérifier qu'il ne divulgue pas d'informations sur votre infrastructure, qu'il ne génère pas de réponses toxiques, et qu'il résiste aux tentatives de manipulation. Promptfoo vous permet de lancer un scan de red teaming complet en une commande, d'identifier les vulnérabilités et de corriger vos prompts avant de passer en prod. Le plan Community (gratuit, 10 000 probes par mois) suffit largement pour ce cas d'usage.
Chez Bridgers, nous livrons des agents IA à des clients de secteurs variés (finance, santé, retail). Chaque client a des exigences de conformité différentes. Promptfoo permet de créer des profils de scan personnalisés par client et par secteur, d'intégrer les tests dans la pipeline CI/CD, et de fournir des rapports de sécurité documentés. Le plan Enterprise devient pertinent quand vous gérez plusieurs clients avec des besoins de collaboration, de SSO et de dashboard centralisé.
Pour une entreprise du Fortune 500 qui déploie des dizaines d'agents IA accédant à des systèmes critiques, Promptfoo offre le monitoring continu, les dashboards de conformité centralisés, le suivi de remédiation, et l'alignement avec OWASP et NIST. L'intégration prochaine dans OpenAI Frontier promet de simplifier encore le workflow pour les équipes qui utilisent déjà la plateforme OpenAI.
Si vous utilisez un LLM uniquement en interne pour de la génération de texte marketing ou du résumé de documents, sans accès à des données sensibles ni exposition à des utilisateurs externes, le red teaming n'est pas votre priorité. Un framework d'évaluation de qualité comme Ragas ou TruLens sera plus pertinent que Promptfoo. De même, si vous êtes exclusivement dans l'écosystème LangChain, LangSmith vous offrira une intégration plus naturelle pour le debugging et le tracing.
Promptfoo n'est pas une solution miracle. Voici ce qu'il faut savoir avant de l'adopter.
Courbe d'apprentissage : la configuration YAML et la logique de plugins demandent un investissement initial. L'outil est conçu pour des développeurs à l'aise avec la ligne de commande. Les équipes non techniques devront prévoir un temps de formation.
Pas de monitoring en production : Promptfoo excelle pour le test pré-déploiement et le scan périodique, mais ce n'est pas un outil d'observabilité en temps réel. Pour le monitoring en production, vous aurez besoin d'un outil complémentaire (LangSmith, Langfuse, Arize Phoenix).
Pas un substitut aux tests de code : comme le soulignent plusieurs développeurs sur Reddit, Promptfoo teste les sorties du modèle, pas la qualité du code de votre agent. Les boucles infinies, les conditions de sortie manquantes, les erreurs de logique dans l'orchestration, cela relève des outils classiques (linters, SAST, SonarQube).
Pricing Enterprise opaque : le plan Community est généreux (gratuit, 10k probes/mois), mais le passage à l'Enterprise se fait sur devis sans grille tarifaire publique.
L'acquisition de Promptfoo par OpenAI envoie un signal clair au marché : la sécurité des applications IA n'est plus un nice-to-have, c'est une brique d'infrastructure fondamentale. Quand le leader du marché des LLM investit 86 millions de dollars pour intégrer du red teaming dans sa plateforme d'agents, cela signifie que les entreprises qui déploient des agents IA sans les tester s'exposent à des risques croissants.
Pour les équipes qui construisent avec l'IA, comme c'est le cas chez Emelia pour la prospection et chez Bridgers pour les solutions clients, la leçon est claire : intégrer les tests de sécurité dans le workflow de développement n'est plus optionnel. Promptfoo, qu'il appartienne à OpenAI ou non, reste aujourd'hui le meilleur point de départ pour y parvenir.
Le projet open source est disponible sur GitHub. L'installation se fait en une ligne : npx promptfoo@latest init. Le reste, c'est de la configuration et de la rigueur.

Aucun engagement, des prix pour vous aider à augmenter votre prospection.
Vous n'avez pas besoin de crédits si vous voulez simplement envoyer des emails ou faire des actions sur LinkedIn
Peuvent être utilisés pour :
Trouver Emails
Action IA
Trouver des Numéros
Vérifier des Emails