Promptfoo : tester et sécuriser vos agents IA (la startup qu'OpenAI vient de racheter)

Niels
Niels Co-founder
Publié le 12 mars 2026

Chez Emelia, l'intelligence artificielle est au coeur de notre plateforme de prospection B2B : rédaction automatique de cold emails, enrichissement de données, scoring de leads. Chez Bridgers, nous concevons et déployons des agents IA pour nos clients, du chatbot de support à l'automatisation de workflows complexes. Dans les deux cas, une question revient systématiquement avant chaque mise en production : comment s'assurer que ces systèmes IA ne vont pas halluciner, divulguer des données sensibles ou se faire manipuler par un prompt malveillant ? C'est exactement le problème que Promptfoo résout. Et c'est exactement pour cela qu'OpenAI vient de l'acquérir.

Le 9 mars 2026, OpenAI a annoncé le rachat de Promptfoo, la plateforme open source de test et de red teaming pour applications IA la plus utilisée au monde. Avec plus de 350 000 développeurs, 130 000 utilisateurs actifs mensuels et une présence chez plus de 25% des entreprises du Fortune 500, Promptfoo est devenu en deux ans l'outil de référence pour évaluer, tester et sécuriser les applications basées sur des LLM. Le deal valorise la startup à 86 millions de dollars, et son intégration dans OpenAI Frontier, la plateforme d'agents IA entreprise lancée le 5 février 2026, est déjà prévue.

Mais au-delà de l'actualité du rachat, Promptfoo est avant tout un outil puissant que tout développeur travaillant avec des LLM devrait connaître. Ce guide complet couvre ce que fait Promptfoo, comment l'intégrer dans votre workflow, et ce que ce rachat change concrètement pour les équipes techniques.

Promptfoo c'est quoi : tester vos prompts et agents IA avant la prod

Promptfoo AI Security Concept

Promptfoo est un CLI (command-line interface) et une bibliothèque open source sous licence MIT, conçu pour évaluer et tester systématiquement les applications basées sur des LLM. Fondé en 2026 par Ian Webster (CEO) et Michael D'Angelo (CTO), l'outil est né d'un constat simple : les développeurs qui construisent des applications IA procèdent par essai-erreur. Ils modifient un prompt, testent manuellement, espèrent que ça fonctionne. Promptfoo remplace cette approche artisanale par une démarche de test-driven development appliquée aux LLM.

Concrètement, Promptfoo permet de :

  • Évaluer des prompts : comparer côte à côte les réponses de différents prompts et de différents modèles (GPT, Claude, Gemini, Llama, Mistral) sur un même jeu de tests

  • Scorer automatiquement les sorties : définir des métriques de qualité (pertinence, cohérence, absence de toxicité) et laisser Promptfoo noter chaque réponse

  • Tester la sécurité via le red teaming : simuler des attaques adversariales pour identifier les vulnérabilités avant le déploiement

  • Comparer des modèles : benchmark côte à côte de GPT-4, Claude 3, Gemini, Llama 3 ou tout autre modèle via une configuration déclarative unique

  • Automatiser les tests en CI/CD : intégrer les évaluations directement dans GitHub Actions, GitLab CI ou Jenkins

L'outil fonctionne entièrement en local. Vos prompts et vos données ne quittent jamais votre machine, un argument de poids pour les entreprises soucieuses de confidentialité. La configuration se fait via un simple fichier YAML (promptfooconfig.yaml), et les résultats s'affichent dans un viewer web interactif ou en ligne de commande.

Ian Webster résume la philosophie de l'outil : "Nous avons fondé Promptfoo en 2026 pour permettre aux développeurs de tester systématiquement leurs applications IA. Nous avons rapidement réalisé que les tests adversariaux pour la sécurité et la conformité étaient les plus grands freins au déploiement de l'IA en entreprise."

Red teaming, prompt injection, data leak : ce que Promptfoo détecte vraiment

Le coeur de la proposition de valeur de Promptfoo, c'est son moteur de red teaming. L'outil teste plus de 50 types de vulnérabilités spécifiques aux applications IA. Voici ce que cela couvre concrètement.

Prompt injection et jailbreaking

Promptfoo génère automatiquement des inputs adversariaux qui tentent de contourner les garde-fous de votre système IA. Il simule des attaques qui tentent de faire ignorer les instructions système, d'extraire le prompt original, ou de faire adopter au modèle un comportement non prévu. Cela inclut les injections indirectes via le contexte (par exemple dans un système RAG), les injections SQL via prompt-to-SQL, et les tentatives d'exécution de commandes shell.

Détection de fuites de données et PII

L'outil teste si votre application peut être amenée à révéler des informations personnelles identifiables (PII), des données clients confidentielles, ou des informations internes. Les plugins pii:direct, pii:indirect et pii:social couvrent respectivement les divulgations directes, les déductions par recoupement, et l'ingénierie sociale.

Détection de mauvais usage d'outils (tool misuse)

Pour les agents IA qui ont accès à des outils externes (APIs, bases de données, systèmes de paiement), Promptfoo vérifie que le modèle respecte les contrôles d'accès basés sur les rôles (RBAC) et n'accède pas à des fonctionnalités non autorisées.

Monitoring de conformité

Promptfoo s'aligne avec les frameworks de référence : OWASP Top 10 pour les LLM et NIST AI Risk Management Framework. Les rapports générés quantifient les risques et fournissent des recommandations de remédiation.

Comportements toxiques et biais

Les plugins harmful détectent les sorties problématiques : désinformation, discours haineux, violations de copyright, conseils médicaux ou juridiques non autorisés, et biais discriminatoires.

La configuration est déclarative et modulaire. Un fichier YAML suffit pour définir quels plugins activer et quelles stratégies d'attaque utiliser :

```yaml redteam: plugins:

  • 'harmful'

  • 'pii:direct'

  • 'pii:social'

  • 'rbac'

  • 'competitors'

strategies:

  • 'prompt-injection'

  • 'jailbreak'

```

Mettre Promptfoo dans votre CI/CD : guide pas à pas avec GitHub Actions

L'un des atouts majeurs de Promptfoo est son intégration native avec les pipelines CI/CD. Vous pouvez automatiser à la fois les tests de qualité (évaluations de prompts) et les scans de sécurité (red teaming) sur chaque pull request ou selon un calendrier défini.

Évaluation automatique sur chaque PR

Voici une configuration GitHub Actions qui lance une évaluation à chaque modification de vos prompts :

```yaml name: LLM Eval on: pull_request: paths:

  • 'prompts/**'

  • 'promptfooconfig.yaml'

jobs: evaluate: runs-on: ubuntu-latest steps:

  • uses: actions/checkout@v4

  • uses: actions/setup-node@v4

with: node-version: '22'

  • name: Run eval

env: OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }} run: | npx promptfoo@latest eval \ -c promptfooconfig.yaml \ --share \ -o results.json

  • name: Check quality gate

run: | FAILURES=$(jq '.results.stats.failures' results.json) if [ "$FAILURES" -gt 0 ]; then echo "Eval failed with $FAILURES failures" exit 1 fi ```

Scan de sécurité quotidien

Pour le red teaming continu, vous pouvez configurer un scan automatique quotidien :

```yaml name: Security Scan on: schedule:

  • cron: '0 2 *'

jobs: red-team: runs-on: ubuntu-latest steps:

  • uses: actions/checkout@v4

  • name: Run red team scan

uses: promptfoo/promptfoo-action@v1 with: type: 'redteam' config: 'promptfooconfig.yaml' openai-api-key: ${{ secrets.OPENAI_API_KEY }} github-token: ${{ secrets.GITHUB_TOKEN }} ```

L'action GitHub officielle (promptfoo/promptfoo-action@v1) publie automatiquement un commentaire sur la PR avec les résultats, incluant une comparaison avant/après lorsque vous modifiez un prompt. Un système de cache permet de réutiliser les résultats d'appels LLM précédents pour réduire les coûts.

Test multi-modèles

Promptfoo permet aussi de tester le même prompt sur plusieurs modèles en parallèle via une matrice GitHub Actions :

```yaml strategy: matrix: model: [gpt-4, claude-3-opus, gemini-pro] steps:

  • name: Test ${{ matrix.model }}

run: | npx promptfoo@latest eval \ --providers.0.config.model=${{ matrix.model }} \ -o results-${{ matrix.model }}.json ```

OpenAI rachète Promptfoo pour 86M$ : pourquoi maintenant ?

L'annonce du 9 mars 2026 ne sort pas de nulle part. Promptfoo avait levé 5 millions de dollars en seed (2026, mené par Andreessen Horowitz), puis 18,4 millions en Série A (juillet 2026, mené par Insight Partners avec la participation d'a16z), pour un total de 23 millions levés et une valorisation post-money de 86 millions de dollars.

L'intégration dans OpenAI Frontier

La raison stratégique est limpide. OpenAI a lancé Frontier le 5 février 2026, une plateforme entreprise pour construire, déployer et gérer des "AI coworkers", des agents IA autonomes qui interagissent avec les systèmes de production, les CRM, les bases de données et les applications internes. Les premiers clients incluent Uber, State Farm, Intuit et Thermo Fisher Scientific. Les partenaires de déploiement sont Accenture, Capgemini et McKinsey.

Mais des agents autonomes qui accèdent à des systèmes de paiement, des dossiers patients ou des données clients, cela exige des garanties de sécurité drastiques. Promptfoo comble exactement cette lacune en intégrant le red teaming automatisé, la détection de vulnérabilités et le monitoring de conformité directement dans la plateforme.

Srinivas Narayanan, CTO des applications B2B chez OpenAI, confirme : "Promptfoo apporte une expertise technique approfondie en évaluation, sécurisation et test des systèmes IA à l'échelle entreprise. Nous sommes ravis d'intégrer ces capacités directement dans Frontier."

Le contexte financier

Le marché de la sécurité entreprise devrait atteindre 244 milliards de dollars en 2026. Le segment spécifique de la sécurité des infrastructures IA croît à un rythme de 18,8% par an, passant de 12 milliards en 2026 à 14,3 milliards en 2026. En intégrant Promptfoo dans Frontier comme fonctionnalité premium, OpenAI transforme un coût d'évaluation ponctuel en revenu récurrent lié aux abonnements entreprise.

L'équipe

Promptfoo comptait 23 personnes (certaines sources mentionnent 11 ingénieurs) réparties entre l'ingénierie, le go-to-market et les opérations. L'équipe complète rejoint OpenAI pour continuer le développement, et OpenAI s'engage à maintenir le projet open source.

Promptfoo vs LangSmith vs TruLens vs Ragas : quel outil d'évaluation IA choisir ?

Le marché de l'évaluation et du test des applications LLM est en pleine effervescence. Voici comment Promptfoo se positionne face à ses principaux concurrents.

Promptfoo vs LangSmith vs TruLens Comparison

Critère

Promptfoo

LangSmith

TruLens

Ragas

Focus principal

Red teaming + évaluation de sécurité

Tracing + évaluation (écosystème LangChain)

Feedback-driven eval (RAG focus)

Évaluation RAG (métriques académiques)

Open source

Oui (MIT)

Partiellement (tracing open, plateforme closed)

Oui (MIT)

Oui (Apache 2.0)

Red teaming intégré

Oui, 50+ plugins de vulnérabilité

Non

Non

Non

Intégration CI/CD

Native (GitHub Actions, GitLab, Jenkins)

Limitée

Limitée

Non

Modèles supportés

Tous (OpenAI, Anthropic, Google, Llama, Mistral, custom)

Principalement LangChain/LangGraph

Tous via LLM-as-judge

Tous via LangChain

Pricing

Gratuit (10k probes/mois), Enterprise sur devis

Gratuit (5k traces), Plus 39$/user/mois, Enterprise sur devis

Gratuit (open source), cloud payant

Gratuit (open source)

Exécution locale

Oui, 100% local

Cloud (self-host en Enterprise)

Self-host possible

Local

Spécialité RAG

Plugins dédiés

Oui, natif

RAG Triad (référence du marché)

Métriques de référence du secteur

Idéal pour

Sécurité, conformité, red teaming

Équipes LangChain, debugging

Évaluation qualité RAG

Recherche, métriques RAG

Le verdict : si votre priorité est la sécurité et la conformité de vos applications IA, Promptfoo n'a pas d'équivalent direct. LangSmith excelle pour le debugging et le tracing dans l'écosystème LangChain. TruLens et Ragas sont les références pour l'évaluation qualité des systèmes RAG, mais ne couvrent pas le red teaming. Dans la pratique, beaucoup d'équipes combinent Promptfoo (sécurité) avec LangSmith ou TruLens (observabilité et qualité).

Promptfoo reste-t-il fiable maintenant qu'il appartient à OpenAI ?

C'est la question qui agite Reddit et la communauté développeur depuis l'annonce. Le débat se résume en une phrase : peut-on faire confiance à un outil d'évaluation de modèles IA quand il appartient à l'un des fournisseurs de modèles IA ?

Les arguments en faveur de la fiabilité

OpenAI s'est engagé publiquement à maintenir Promptfoo open source sous sa licence MIT actuelle. Le code reste consultable, modifiable et redistribuable. L'outil continuera de supporter l'ensemble des fournisseurs (Anthropic, Google, Meta, Mistral, modèles open source). Ian Webster et Michael D'Angelo restent aux commandes du projet.

D'un point de vue technique, les évaluations Promptfoo tournent localement sur votre machine. Les résultats ne sont pas envoyés à OpenAI (sauf si vous choisissez explicitement la fonctionnalité de partage). La transparence du code open source permet à quiconque de vérifier l'absence de biais dans les mécanismes de scoring.

Les arguments qui inquiètent

Sur Reddit, le scepticisme est palpable. L'argument principal : même si le code reste ouvert, la feuille de route est désormais pilotée par OpenAI. Les priorités de développement, les optimisations, les nouveaux plugins, tout cela sera naturellement orienté vers l'écosystème OpenAI. Un développeur qui teste un modèle Claude ou Gemini avec un outil appartenant à OpenAI se pose légitimement la question de l'objectivité.

Certains soulignent que l'historique de l'industrie tech donne raison aux sceptiques : les projets open source rachetés par des géants finissent souvent par voir leur version communautaire stagner au profit de la version entreprise.

La position pragmatique

Aujourd'hui, Promptfoo reste le meilleur outil open source de red teaming pour applications IA. Tant que le code est ouvert et auditable, la communauté peut vérifier son intégrité. Le jour où des biais apparaissent dans les mécanismes d'évaluation, la communauté le verra dans le code. En attendant, il est prudent de suivre l'évolution du projet sur GitHub et de garder un oeil sur les alternatives comme DeepEval, PyRIT (Microsoft), ou les outils de test maison.

Cas d'usage concrets : qui devrait utiliser Promptfoo (et qui peut s'en passer)

Startup qui déploie un chatbot client

Vous lancez un chatbot de support pour votre SaaS. Avant la mise en production, vous devez vérifier qu'il ne divulgue pas d'informations sur votre infrastructure, qu'il ne génère pas de réponses toxiques, et qu'il résiste aux tentatives de manipulation. Promptfoo vous permet de lancer un scan de red teaming complet en une commande, d'identifier les vulnérabilités et de corriger vos prompts avant de passer en prod. Le plan Community (gratuit, 10 000 probes par mois) suffit largement pour ce cas d'usage.

Agence qui construit des solutions IA pour ses clients

Chez Bridgers, nous livrons des agents IA à des clients de secteurs variés (finance, santé, retail). Chaque client a des exigences de conformité différentes. Promptfoo permet de créer des profils de scan personnalisés par client et par secteur, d'intégrer les tests dans la pipeline CI/CD, et de fournir des rapports de sécurité documentés. Le plan Enterprise devient pertinent quand vous gérez plusieurs clients avec des besoins de collaboration, de SSO et de dashboard centralisé.

Grande entreprise sécurisant ses pipelines LLM

Pour une entreprise du Fortune 500 qui déploie des dizaines d'agents IA accédant à des systèmes critiques, Promptfoo offre le monitoring continu, les dashboards de conformité centralisés, le suivi de remédiation, et l'alignement avec OWASP et NIST. L'intégration prochaine dans OpenAI Frontier promet de simplifier encore le workflow pour les équipes qui utilisent déjà la plateforme OpenAI.

Qui peut s'en passer ?

Si vous utilisez un LLM uniquement en interne pour de la génération de texte marketing ou du résumé de documents, sans accès à des données sensibles ni exposition à des utilisateurs externes, le red teaming n'est pas votre priorité. Un framework d'évaluation de qualité comme Ragas ou TruLens sera plus pertinent que Promptfoo. De même, si vous êtes exclusivement dans l'écosystème LangChain, LangSmith vous offrira une intégration plus naturelle pour le debugging et le tracing.

Les limites de Promptfoo : ce qu'il ne fait pas

Promptfoo n'est pas une solution miracle. Voici ce qu'il faut savoir avant de l'adopter.

Courbe d'apprentissage : la configuration YAML et la logique de plugins demandent un investissement initial. L'outil est conçu pour des développeurs à l'aise avec la ligne de commande. Les équipes non techniques devront prévoir un temps de formation.

Pas de monitoring en production : Promptfoo excelle pour le test pré-déploiement et le scan périodique, mais ce n'est pas un outil d'observabilité en temps réel. Pour le monitoring en production, vous aurez besoin d'un outil complémentaire (LangSmith, Langfuse, Arize Phoenix).

Pas un substitut aux tests de code : comme le soulignent plusieurs développeurs sur Reddit, Promptfoo teste les sorties du modèle, pas la qualité du code de votre agent. Les boucles infinies, les conditions de sortie manquantes, les erreurs de logique dans l'orchestration, cela relève des outils classiques (linters, SAST, SonarQube).

Pricing Enterprise opaque : le plan Community est généreux (gratuit, 10k probes/mois), mais le passage à l'Enterprise se fait sur devis sans grille tarifaire publique.

Ce que le rachat change pour les entreprises qui utilisent l'IA

L'acquisition de Promptfoo par OpenAI envoie un signal clair au marché : la sécurité des applications IA n'est plus un nice-to-have, c'est une brique d'infrastructure fondamentale. Quand le leader du marché des LLM investit 86 millions de dollars pour intégrer du red teaming dans sa plateforme d'agents, cela signifie que les entreprises qui déploient des agents IA sans les tester s'exposent à des risques croissants.

Pour les équipes qui construisent avec l'IA, comme c'est le cas chez Emelia pour la prospection et chez Bridgers pour les solutions clients, la leçon est claire : intégrer les tests de sécurité dans le workflow de développement n'est plus optionnel. Promptfoo, qu'il appartienne à OpenAI ou non, reste aujourd'hui le meilleur point de départ pour y parvenir.

Le projet open source est disponible sur GitHub. L'installation se fait en une ligne : npx promptfoo@latest init. Le reste, c'est de la configuration et de la rigueur.

logo emelia

Découvrez Emelia, votre outil de prospection tout en un.

logo emelia

Des prix clairs, transparents et sans frais cachés.

Aucun engagement, des prix pour vous aider à augmenter votre prospection.

Start

37€

/mois

Envoi d'emails illimités

Connecter 1 compte LinkedIn

Actions LinkedIn illimitées

Email Warmup inclus

Scraping illimité

Contacts illimités

Grow

Populaire
arrow-right
97€

/mois

Envoi d'emails illimités

Jusqu'à 5 comptes LinkedIn

Actions LinkedIn illimitées

Warmup illimité

Contacts illimités

1 intégration CRM

Scale

297€

/mois

Envoi d'emails illimités

Jusqu'à 20 comptes LinkedIn

Actions LinkedIn illimitées

Warmup illimité

Contacts illimités

Multi CRM Connexion

Unlimited API Calls

Crédits(optionnel)

Vous n'avez pas besoin de crédits si vous voulez simplement envoyer des emails ou faire des actions sur LinkedIn

Peuvent être utilisés pour :

Trouver Emails

Action IA

Trouver des Numéros

Vérifier des Emails

1 000
5 000
10 000
50 000
100 000
1 000 Emails trouvés
1 000 IA Actions
20 Numéros
4 000 Vérifications
19par mois

Découvrez d'autres articles qui pourraient vous intéresser !

Voir tous les articles
MathieuMathieu Co-founder
Lire la suite
IA
Publié le 11 avr. 2025

Cognism vs Waalaxy vs Emelia

NielsNiels Co-founder
Lire la suite
MathieuMathieu Co-founder
Lire la suite
NielsNiels Co-founder
Lire la suite
MarieMarie Head Of Sales
Lire la suite
NielsNiels Co-founder
Lire la suite
Made with ❤ for Growth Marketers by Growth Marketers
Copyright © 2026 Emelia All Rights Reserved