Graphe de Connaissances pour Codebase : Guide Complet avec Graphify

Niels
Niels Co-founder
Publié le 12 avr. 2026Mis à jour le 15 avr. 2026

Imaginez pouvoir poser une question à votre assistant IA sur l'architecture de votre projet et obtenir une réponse précise en quelques secondes, sans qu'il ait besoin de parcourir chaque fichier un par un. C'est exactement ce que propose Graphify, un outil open source qui transforme n'importe quel dossier de code, documentation, articles de recherche ou même vidéos en un graphe de connaissances interrogeable par une IA. Lancé début avril 2026, le projet a dépassé les 22 000 étoiles sur GitHub en moins de dix jours. Retour sur un phénomène qui redéfinit la façon dont les développeurs interagissent avec leur codebase.

Qu'est-ce que Graphify et Pourquoi Votre Codebase en a Besoin

Graphify est un skill open source (licence MIT) conçu pour les assistants IA de développement. Son principe est simple : vous pointez l'outil vers un dossier contenant du code, de la documentation, des PDF, des images ou des fichiers audio, et il génère automatiquement un graphe de connaissances structuré. Ce graphe cartographie les relations entre les classes, fonctions, imports, concepts et décisions architecturales de votre projet.

Le problème que Graphify résout est fondamental. Lorsqu'un assistant IA comme Claude Code ou Codex travaille sur une codebase, il doit lire les fichiers un par un pour comprendre le projet. Sur un dépôt de 52 fichiers contenant du code, des articles de recherche et des images, cela représente environ 123 000 tokens par requête. Avec Graphify, cette même requête ne coûte que 1 700 tokens en moyenne, soit une réduction de 71,5x. Votre assistant IA navigue directement dans la structure du graphe au lieu de parcourir chaque fichier brut.

Concrètement, Graphify produit trois artefacts principaux. Un fichier graph.html offre une visualisation interactive du graphe avec recherche, filtrage et navigation par communauté. Un fichier GRAPH_REPORT.md résume les noeuds centraux, les connexions surprenantes et les questions suggérées. Enfin, un fichier graph.json persiste le graphe complet pour les requêtes futures, avec un cache basé sur SHA256 pour ne retraiter que les fichiers modifiés.

Graphify - Knowledge Graph Visualization

L'Origine du Projet : Quand Karpathy Lance une Idée et qu'un Développeur la Construit en 48 Heures

Photo de Andrej Karpathy 2016

L'histoire de Graphify est indissociable d'un post d'Andrej Karpathy publié le 1er avril 2026 sur X. L'ancien directeur de l'IA chez Tesla y décrivait un workflow qu'il trouvait particulièrement utile : utiliser des LLM pour construire des bases de connaissances personnelles sur différents sujets de recherche. Plutôt que de manipuler du code, Karpathy expliquait consacrer de plus en plus de tokens à manipuler des connaissances stockées sous forme de fichiers Markdown et d'images.

Son workflow consistait à indexer des documents sources (articles, papers, repos, datasets, images) dans un dossier brut, puis à utiliser un LLM pour compiler un wiki de fichiers .md organisés en concepts, avec des résumés, des backlinks et des catégories. Le LLM maintenait ensuite ce wiki automatiquement, et Karpathy pouvait interroger sa base de connaissances avec des questions complexes.

Quarante-huit heures plus tard, Safi Shamsi, un ingénieur IA basé à Londres avec un master en Data Science de l'Université de Birmingham, publiait Graphify sur GitHub. Son mémoire de master portait précisément sur les systèmes RAG hybrides basés sur les graphes de connaissances pour la recherche académique. Le timing était parfait : Shamsi avait l'expertise technique exacte pour transformer la vision de Karpathy en un outil concret.

La réaction de la communauté a été immédiate. Le tweet de Muhammad Ayan annonçant le projet a dépassé les 12 000 likes, avec un titre évocateur : "Someone just built the exact tool Andrej Karpathy said someone should build."

Comment Fonctionne Graphify : Architecture en Trois Passes

L'architecture technique de Graphify repose sur un pipeline en trois passes qui combine analyse statique déterministe et extraction sémantique par LLM.

Passe 1 : Extraction AST. Tree-sitter parse les fichiers de code de manière déterministe, sans aucun recours à un LLM. Tree-sitter génère un arbre syntaxique abstrait (AST) de chaque fichier, à partir duquel Graphify extrait les classes, fonctions, imports, graphes d'appels, docstrings et commentaires de rationalisation. Cette étape est rapide, reproductible et ne nécessite aucune connexion réseau. Vos fichiers de code ne quittent jamais votre machine.

Passe 2 : Transcription locale. Pour les fichiers audio et vidéo, Graphify utilise faster-whisper, un moteur de transcription qui tourne entièrement en local. Les transcriptions sont enrichies par des prompts contextuels dérivés de l'analyse du corpus, puis mises en cache pour les exécutions suivantes. Le traitement vidéo s'appuie également sur yt-dlp pour l'extraction depuis YouTube.

Passe 3 : Extraction sémantique. Des sous-agents Claude (ou le LLM de la plateforme utilisée) travaillent en parallèle pour extraire les concepts et relations des documents non-code : documentation Markdown, PDF, images (via Claude Vision) et transcriptions. Les résultats sont fusionnés dans un graphe NetworkX, puis clusterisés avec l'algorithme de détection de communautés Leiden (via la bibliothèque graspologic).

Chaque relation du graphe est classifiée selon son niveau de confiance. Les relations marquées EXTRACTED (confiance 1.0) sont directement trouvées dans le code source. Les relations INFERRED portent un score de confiance variable et représentent des inférences raisonnables. Les relations AMBIGUOUS sont signalées pour une revue humaine.

Les 20 Langages de Programmation Supportés par Graphify

L'un des atouts majeurs de Graphify est l'étendue de sa couverture linguistique. Grâce à Tree-sitter, l'outil supporte 20 langages de programmation pour l'analyse AST native. Voici le tableau complet des langages et types de fichiers supportés :

Catégorie

Extensions

Traitement

Code

.py, .ts, .js, .jsx, .tsx, .go, .rs, .java, .c, .cpp, .rb, .cs, .kt, .scala, .php, .swift, .lua, .zig, .ps1, .ex, .jl

AST via Tree-sitter

Documentation

.md, .txt, .rst

Extraction Claude

Office

.docx, .xlsx

Conversion Markdown + Claude

Recherche

.pdf

Extraction de citations et concepts

Images

.png, .jpg, .webp, .gif

Claude Vision

Médias

.mp4, .mov, .mkv, .webm, .avi, .mp3, .wav, .m4a, .ogg

Transcription Whisper locale

Cette couverture multimodale distingue Graphify de la plupart des outils d'analyse de code existants. Vous n'analysez pas seulement le code : vous intégrez la documentation, les spécifications PDF, les schémas d'architecture en image et même les enregistrements de réunions techniques dans un même graphe unifié.

Installation et Premiers Pas avec Graphify

L'installation de Graphify se fait en deux commandes. Le package est distribué via PyPI sous le nom graphifyy (avec deux y, car le nom graphify était déjà pris).

pip install graphifyy && graphify install

Cette commande installe le package Python et configure automatiquement l'intégration avec Claude Code. Pour les autres plateformes, il suffit de préciser l'option --platform :

graphify install --platform codex      # OpenAI Codex
graphify install --platform opencode   # OpenCode
graphify install --platform copilot    # GitHub Copilot CLI
graphify install --platform aider      # Aider
graphify install --platform gemini     # Gemini CLI

Pour Cursor, la commande est légèrement différente :

graphify cursor install

Des dépendances optionnelles sont disponibles pour étendre les capacités de l'outil. L'extension vidéo (pip install graphifyy[video]) ajoute le support de la transcription audio et vidéo via faster-whisper. L'extension office (pip install graphifyy[office]) permet le traitement des fichiers Word et Excel.

Une fois installé, la génération du graphe se lance avec une seule commande :

/graphify .

Les Commandes Essentielles pour Interroger Votre Graphe

Une fois le graphe généré, Graphify offre un ensemble de commandes pour l'exploiter au quotidien.

La commande de requête permet de poser des questions en langage naturel sur votre codebase :

/graphify query "montrer le flux d'authentification"

L'outil effectue un parcours du graphe (BFS) pour extraire le sous-graphe pertinent et le présente à l'assistant IA, qui formule ensuite une réponse structurée. La commande path identifie le chemin le plus court entre deux noeuds du graphe, utile pour comprendre les dépendances entre composants :

/graphify path "AuthService" "DatabaseLayer"

La commande explain fournit une décomposition détaillée d'un concept spécifique du graphe, avec ses relations entrantes et sortantes :

/graphify explain "PaymentProcessor"

Pour les mises à jour incrémentales, la commande --update ne retraite que les fichiers modifiés depuis la dernière exécution, grâce au cache SHA256 :

/graphify . --update

Le mode --watch surveille les modifications en temps réel. Les changements de fichiers code déclenchent une reconstruction instantanée (AST uniquement, sans LLM). Les modifications de documentation ou de médias déclenchent une notification pour relancer l'extraction sémantique.

Graphify peut aussi exporter vers plusieurs formats :

/graphify . --wiki         # Génère un wiki Markdown
/graphify . --obsidian     # Génère un vault Obsidian
/graphify . --graphml      # Export Gephi
/graphify . --neo4j        # Export Neo4j Cypher

Intégration avec Claude Code, Codex et les Autres Assistants IA

L'un des aspects les plus soignés de Graphify est son intégration profonde avec les assistants IA de développement. L'outil ne se contente pas de générer un graphe : il s'intègre directement dans le workflow de votre IDE pour que l'assistant IA consulte automatiquement le graphe avant chaque opération.

Avec Claude Code, l'intégration est la plus poussée. L'installation crée un hook PreToolUse dans le fichier settings.json et ajoute une directive dans le fichier CLAUDE.md du projet. Le résultat : avant chaque appel aux outils Glob ou Grep, Claude consulte d'abord le GRAPH_REPORT.md pour naviguer par structure (noeuds centraux, communautés, connexions surprenantes) plutôt que de parcourir chaque fichier.

Avec Codex d'OpenAI, l'intégration passe par un hook PreToolUse dans .codex/hooks.json et nécessite l'activation du mode multi-agent dans config.toml. Pour OpenCode, un plugin JavaScript dans .opencode/plugins/graphify.js intercepte les appels d'outils. Cursor utilise un fichier de règles .cursor/rules/graphify.mdc avec l'option alwaysApply: true.

Pour les plateformes qui ne supportent pas les hooks d'outils (Aider, OpenClaw, Factory Droid, Trae), Graphify s'appuie sur un fichier AGENTS.md placé à la racine du projet, que l'assistant lit automatiquement.

Graphify propose également un serveur MCP (Model Context Protocol) pour les intégrations personnalisées :

python -m graphify.serve graphify-out/graph.json

Ce serveur expose quatre outils : graph_query, get_node, get_neighbors et shortest_path, utilisables par tout client MCP compatible.

Benchmarks : Pourquoi 71,5x Moins de Tokens Change la Donne

Les performances de Graphify sont documentées sur trois scénarios représentatifs.

Sur un corpus mixte de 52 fichiers comprenant les repos de Karpathy, 5 articles de recherche et 4 images, une requête moyenne coûte environ 1 700 tokens via le graphe contre 123 000 tokens en lecture brute. C'est la fameuse réduction de 71,5x.

Sur un corpus plus petit de 4 fichiers (le repo Graphify lui-même plus le paper Transformer), la réduction tombe à 5,4x. Sur une bibliothèque Python de 6 fichiers, la réduction est quasi nulle (environ 1x), car le corpus tient naturellement dans la fenêtre de contexte.

Scénario

Fichiers

Tokens bruts

Tokens graphe

Ratio

Corpus mixte (code + papers + images)

52

~123 000

~1 700

71,5x

Corpus moyen (code + paper)

4

~9 200

~1 700

5,4x

Petite bibliothèque Python

6

~1 800

~1 800

~1x

La conclusion est claire : plus votre projet est volumineux et diversifié (mélange de code, documentation, médias), plus Graphify apporte de valeur. Pour un petit script Python de quelques fichiers, l'outil n'apporte pas de gain significatif.

Le parsing Tree-sitter et la construction du graphe NetworkX évoluent de manière linéaire avec la taille du code. Sur un corpus d'environ 500 000 mots, les requêtes BFS sur le sous-graphe restent autour de 2 000 tokens contre 670 000 en approche naive, confirmant que la compression se maintient à grande échelle.

Graphify vs Sourcegraph vs CodeGraph : Quelle Solution Choisir

Graphify n'est pas le seul outil à proposer une compréhension structurée du code. Voici comment il se positionne face aux alternatives principales.

Sourcegraph est un moteur de recherche de code spécialisé dans la navigation cross-repository. Il excelle pour trouver chaque site d'appel d'une fonction à travers plusieurs dépôts. Cependant, Sourcegraph n'est pas un graphe de connaissances : il ne modélise pas les raisons derrière les choix architecturaux, n'ingère pas les papers ou les diagrammes, et ne clusterise pas votre repo en communautés. Graphify et Sourcegraph sont en réalité complémentaires : Sourcegraph pour le grep cross-repo, Graphify pour la compréhension structurelle au sein d'un repo.

CodeGraph (par FalkorDB) convertit un repo Git en graphe de connaissances FalkorDB avec des noeuds typés (Module, Class, Function) et des arêtes typées (CALLS, INHERITS_FROM, DEPENDS_ON) interrogeables en Cypher. Il propose une interface en langage naturel via GPT-4o ou Llama 3-70B. CodeGraph est davantage orienté revue de code et analyse de dépendances que skill d'assistant IA.

Critère

Graphify

Sourcegraph

CodeGraph

Type

Graphe de connaissances

Moteur de recherche

Graphe de dépendances

Multimodal

Code, docs, PDF, images, vidéos

Code uniquement

Code uniquement

Intégration IDE

10 plateformes

Extension navigateur

API

Analyse sémantique

Relations + rationale

Recherche textuelle

Dépendances

Prix

Gratuit (MIT)

Freemium/Enterprise

Open source

Auto-sync

--watch + Git hooks

Indexation continue

Manuel

Limites et Points de Vigilance Avant d'Adopter Graphify

Malgré ses qualités, Graphify présente plusieurs limites à connaître avant de l'intégrer dans votre workflow.

La dépendance aux API LLM est la plus significative. Si l'extraction AST des fichiers code se fait entièrement en local, l'extraction sémantique des documents non-code (PDF, images, Markdown) nécessite un appel à l'API du LLM sous-jacent (Claude, GPT-4o, etc.). Cela implique un coût d'API variable selon la taille de votre documentation et des considérations de confidentialité si vos documents contiennent des informations sensibles. Notez cependant que les fichiers de code, eux, ne quittent jamais votre machine.

La jeunesse du projet est un facteur à considérer. Lancé le 3 avril 2026, Graphify n'a qu'une semaine d'existence au moment de la rédaction de cet article. La version actuelle (v0.4.2) évolue rapidement avec environ 130 commits, mais l'API et les formats de sortie peuvent encore changer. Ce n'est pas un outil stabilisé pour la production critique.

Les dépendances optionnelles ajoutent de la complexité. Le support vidéo nécessite faster-whisper (et un GPU pour des performances optimales), le support Office nécessite des bibliothèques supplémentaires. Sur certaines plateformes (Aider, OpenClaw), le traitement est séquentiel, ce qui peut ralentir la génération du graphe sur de gros projets.

Enfin, le nom du package PyPI (graphifyy avec deux y) peut prêter à confusion et compliquer la découverte de l'outil pour les développeurs qui le cherchent pour la première fois.

Penpax : Le Jumeau Numérique Construit sur les Fondations de Graphify

L'équipe derrière Graphify travaille déjà sur un projet plus ambitieux : Penpax. Ce jumeau numérique on-device connecte vos réunions, historique de navigation, fichiers, emails et code dans un graphe de connaissances unique et continuellement mis à jour.

Penpax - Digital Twin Visualization

La promesse de Penpax est de fonctionner entièrement sur votre machine, sans cloud, sans télémétrie et sans entraînement sur vos données. Le projet vise des cas d'usage variés : prise de décision exécutive, travail créatif, relations clients, juridique, santé, ingénierie et recherche.

Si Graphify se concentre sur les codebases, Penpax étend le concept du graphe de connaissances à l'ensemble de votre vie numérique professionnelle. Le projet est encore en développement, mais il illustre la direction que prend l'équipe : transformer les graphes de connaissances en couche mémoire universelle pour l'IA.

Faut-il Adopter Graphify en 2026

Graphify répond à un vrai problème : la difficulté des assistants IA à comprendre la structure globale d'un projet sans consommer des volumes massifs de tokens. En combinant l'analyse statique déterministe de Tree-sitter avec l'extraction sémantique par LLM, l'outil crée un pont entre la compréhension locale du code et la vision d'ensemble du projet.

Le profil idéal pour Graphify est un développeur ou une équipe travaillant sur un projet de taille moyenne à grande, combinant du code dans plusieurs langages avec de la documentation technique, des spécifications en PDF et éventuellement des enregistrements de réunions. Si votre projet fait moins de dix fichiers Python, l'investissement ne se justifie pas.

Avec 22 000 étoiles en moins de dix jours, une licence MIT et une intégration native dans dix plateformes de développement IA, Graphify s'impose comme l'un des projets open source les plus prometteurs de 2026 dans l'écosystème des outils de développement assisté par IA. La question n'est plus de savoir si les graphes de connaissances deviendront essentiels au développement logiciel, mais de savoir à quelle vitesse ils seront adoptés.

logo emelia

Découvrez Emelia, votre outil de prospection tout en un.

logo emelia

Des prix clairs, transparents et sans frais cachés.

Aucun engagement, des prix pour vous aider à augmenter votre prospection.

Start

37€

/mois

Envoi d'emails illimités

Connecter 1 compte LinkedIn

Actions LinkedIn illimitées

Email Warmup inclus

Scraping illimité

Contacts illimités

Grow

Populaire
arrow-right
97€

/mois

Envoi d'emails illimités

Jusqu'à 5 comptes LinkedIn

Actions LinkedIn illimitées

Warmup illimité

Contacts illimités

1 intégration CRM

Scale

297€

/mois

Envoi d'emails illimités

Jusqu'à 20 comptes LinkedIn

Actions LinkedIn illimitées

Warmup illimité

Contacts illimités

Multi CRM Connexion

Unlimited API Calls

Crédits(optionnel)

Vous n'avez pas besoin de crédits si vous voulez simplement envoyer des emails ou faire des actions sur LinkedIn

Peuvent être utilisés pour :

Trouver Emails

Action IA

Trouver des Numéros

Vérifier des Emails

1 000
5 000
10 000
50 000
100 000
1 000 Emails trouvés
1 000 IA Actions
20 Numéros
4 000 Vérifications
19par mois

Découvrez d'autres articles qui pourraient vous intéresser !

Voir tous les articles
MathieuMathieu Co-founder
Lire la suite
MathieuMathieu Co-founder
Lire la suite
MathieuMathieu Co-founder
Lire la suite
NielsNiels Co-founder
Lire la suite
NielsNiels Co-founder
Lire la suite
MathieuMathieu Co-founder
Lire la suite
Made with ❤ for Growth Marketers by Growth Marketers
Copyright © 2026 Emelia All Rights Reserved