Chez Emelia, plateforme de prospection B2B qui intègre l'intelligence artificielle dans ses fonctionnalités d'enrichissement et de cold emailing, nous suivons de près les avancées qui rendent l'IA plus accessible. Avec Bridgers, notre agence digitale spécialisée en IA, nous accompagnons des entreprises qui souhaitent comprendre et exploiter ces technologies. Quand Andrej Karpathy publie un projet permettant de construire son propre ChatGPT pour 100 dollars, c'est le type d'innovation qui concerne directement nos clients et notre communauté. Voici tout ce que vous devez savoir sur nanochat et sur son extension la plus récente, autoresearch.
Andrej Karpathy n'est pas un développeur lambda. Diplômé d'un doctorat en informatique à Stanford sous la direction de Fei-Fei Li, il a cofondé OpenAI en 2015 avant de rejoindre Tesla en tant que directeur de l'intelligence artificielle, où il a piloté le développement d'Autopilot et de la conduite entièrement autonome (FSD). Il a ensuite fait un retour chez OpenAI avant de se consacrer à l'éducation et à des projets open source.
Sa chaîne YouTube et ses cours (notamment le célèbre "Neural Networks: Zero to Hero") sont devenus des références mondiales pour quiconque veut comprendre le deep learning. Karpathy a la particularité rare de combiner une expertise de recherche au plus haut niveau avec un talent pédagogique exceptionnel. C'est dans cette logique que s'inscrit nanochat : rendre la construction d'un grand modèle de langage (LLM) compréhensible et reproductible par tous.
Nanochat est un projet open source publié le 13 octobre 2026 sur GitHub, où il cumule déjà plus de 42 900 étoiles. Son objectif est simple mais ambitieux : fournir le pipeline complet pour entraîner un chatbot de type ChatGPT, du tokenizer jusqu'à l'interface web, le tout exécutable sur un seul noeud de 8 GPU H100 pour environ 100 dollars.
Le projet ne prétend pas rivaliser avec GPT-4 ou Claude. Il s'agit d'un outil pédagogique et expérimental. Karpathy le décrit comme "le meilleur ChatGPT que 100 dollars peuvent acheter". Le code source représente environ 8 000 lignes (réduit à environ 1 000 lignes pour le noyau), écrit principalement en Python (75,8 %), avec du Jupyter Notebook (17,2 %), du HTML (3,9 %) et du Shell (3,1 %).
Le script central, speedrun.sh, lance l'intégralité du cycle d'entraînement et d'inférence en une seule commande. C'est cette simplicité qui fait la force du projet.
La première étape consiste à convertir le texte brut en tokens, ces unités numériques que le modèle peut traiter. Nanochat utilise un tokenizer BPE (Byte Pair Encoding) personnalisé, écrit en Rust pour la performance. Cette étape est souvent négligée dans les tutoriels, mais Karpathy la rend transparente et modifiable.
Le modèle est pré-entraîné sur le dataset FineWeb-EDU, composé de 1 822 shards de données mélangés aléatoirement, chacun pesant environ 100 Mo. Les versions plus récentes du projet ont basculé vers le dataset NVIDIA ClimbMix, qui offre de meilleurs résultats pour un coût similaire. Le pré-entraînement constitue l'essentiel du temps de calcul.
Après le pré-entraînement, le modèle passe par une phase de mid-training sur les données de chat Smoltalk+, qui ne prend qu'une dizaine de minutes. Vient ensuite le fine-tuning supervisé (SFT) qui transforme le modèle de base en un assistant conversationnel capable de répondre à des questions.
Une étape optionnelle de Reinforcement Learning (RL) permet d'affiner les réponses du modèle. Nanochat intègre également des benchmarks d'évaluation comme HumanEval (pour le code) et GSM8K (pour les mathématiques), permettant de mesurer objectivement les progrès du modèle à chaque étape.
Le pipeline se termine par une interface web de style ChatGPT, permettant d'interagir avec le modèle entraîné directement dans un navigateur. Le résultat final est un chatbot fonctionnel, construit de zéro.
Nanochat propose trois niveaux de profondeur, chacun offrant un rapport coût/performance différent :
Niveau | Coût | Durée | Paramètres | Capacité |
|---|---|---|---|---|
Kindergarten (défaut) | ~100 $ | 4 heures | 1,9 milliard | Chatbot basique, réponses simples |
GPT-2 grade | ~300 $ | 12 heures | 1,9 milliard (depth 26) | Surpasse GPT-2 sur le benchmark CORE |
Advanced | ~1 000 $ | À venir | À définir | Plus cohérent et plus capable |
Le premier niveau, baptisé "Kindergarten", produit un chatbot fonctionnel mais limité. Il peut tenir une conversation simple, répondre à des questions de culture générale, mais il hallucine fréquemment et manque de nuance. Le deuxième niveau, à 300 dollars, est nettement plus impressionnant : il dépasse les performances de GPT-2, le modèle qui avait fait sensation lors de sa publication par OpenAI en 2019. Le troisième niveau, à 1 000 dollars, est encore en développement.
C'est la grande nouveauté de mars 2026 et probablement l'aspect le plus révolutionnaire du projet. Les 7, 8 et 9 mars, Karpathy a publié une série de tweets et un dépôt GitHub dédié à "autoresearch" : un système où des agents IA optimisent de manière autonome l'entraînement de nanochat.
Le principe est élégant. Au lieu qu'un chercheur humain teste manuellement des modifications de l'architecture, des hyperparamètres ou du pipeline de données, un agent IA effectue ces itérations automatiquement. Chaque "point" dans les résultats représente un entraînement de 5 minutes. En deux jours, le système a réalisé plus de 700 modifications de manière autonome.
Les résultats publiés le 9 mars sont remarquables. Karpathy a laissé tourner autoresearch pendant deux jours sur un modèle de profondeur 12 (depth=12). Le système a trouvé environ 20 modifications qui ont amélioré la loss de validation. Le résultat le plus frappant : le temps nécessaire pour atteindre le niveau GPT-2 est passé de 2,02 heures à 1,80 heure, soit une amélioration d'environ 11 %. Ces optimisations avaient été manquées par les chercheurs humains.
Le code d'autoresearch tient en 630 lignes et fonctionne sur un seul GPU. C'est une démonstration frappante de ce que les agents IA peuvent accomplir dans le domaine de la recherche en machine learning, même avec des ressources modestes.
Karpathy est allé plus loin en expérimentant avec des organisations multi-agents. Il a configuré 8 agents (4 Claude, 4 Codex), chacun disposant d'un GPU dédié. Il a testé deux configurations : 8 chercheurs indépendants travaillant en parallèle, et une structure hiérarchique avec 1 "chief scientist" coordonnant 8 juniors.
Chaque programme de recherche est géré comme une branche Git, permettant de suivre et fusionner les découvertes. Comme le résume Karpathy : "L'objectif, c'est que vous programmez désormais une organisation." Cette vision de la recherche autonome par agents est peut-être plus significative que nanochat lui-même.
Le PDG de Shopify, Tobi Lutke, a été parmi les premiers à tester autoresearch, témoignant de l'intérêt que suscite cette approche bien au-delà du cercle académique.
Nanochat est un outil pédagogique sans équivalent. Si vous êtes responsable d'une formation en data science ou en ingénierie IA, ce projet permet à vos étudiants ou employés de comprendre chaque étape de la construction d'un LLM. Plutôt que d'utiliser des API en boîte noire, ils peuvent observer et modifier le tokenizer, le pré-entraînement, le fine-tuning et le RLHF. Un programme de formation pourrait intégrer nanochat comme projet pratique sur une semaine, avec un budget matériel de quelques centaines de dollars.
Pour une startup ou une PME qui envisage de créer un assistant conversationnel spécialisé, nanochat offre un terrain d'expérimentation idéal. Avant d'investir des dizaines de milliers de dollars dans l'entraînement d'un modèle sur mesure, vous pouvez tester votre hypothèse pour 100 à 300 dollars. Le pipeline est suffisamment modulaire pour remplacer le dataset par vos propres données et observer les résultats.
Si vous êtes CTO ou VP Engineering dans une entreprise qui envisage de développer son propre modèle, nanochat vous donne une base concrète pour estimer les coûts. En observant le rapport entre la profondeur du modèle, le temps d'entraînement et les performances, vous pouvez extrapoler de manière informée les investissements nécessaires pour un modèle de qualité production.
Autoresearch ouvre une nouvelle dimension. Les équipes de recherche en IA peuvent désormais laisser des agents explorer l'espace des hyperparamètres et des architectures pendant la nuit ou le week-end. Un laboratoire de recherche avec un budget limité peut multiplier sa capacité d'exploration par un facteur considérable. L'exemple de Karpathy (700 itérations en 2 jours) illustre un rythme qu'aucune équipe humaine ne pourrait maintenir.
Pour un dirigeant qui doit prendre des décisions stratégiques sur l'IA, nanochat offre une démystification précieuse. Comprendre que l'entraînement d'un chatbot implique la tokenization, le pré-entraînement, le fine-tuning et le RLHF permet de poser les bonnes questions aux équipes techniques et d'évaluer les propositions de fournisseurs avec un regard éclairé.
Il est essentiel de tempérer les attentes. Le modèle à 100 dollars est baptisé "Kindergarten" pour une bonne raison. Il produit des réponses souvent incohérentes, hallucine régulièrement et ne peut pas être utilisé en production. Même le modèle à 300 dollars, bien qu'il surpasse GPT-2, reste très loin des performances de GPT-4, Claude ou Gemini. Nous parlons ici d'un modèle de 1,9 milliard de paramètres, là où les modèles commerciaux en comptent des centaines de milliards.
Nanochat n'est pas conçu pour être déployé face à des utilisateurs finaux. L'absence de garde-fous de sécurité robustes, la tendance aux hallucinations et les performances limitées en font un outil d'apprentissage et de recherche, pas un produit. Si vous cherchez un chatbot pour votre service client ou votre application, tournez-vous vers les API existantes (OpenAI, Anthropic, Google) ou vers des modèles open source matures comme Llama ou Mistral.
Même si le coût est de "seulement" 100 dollars, il faut accéder à un noeud de 8 GPU H100, ce qui représente environ 24 dollars de l'heure en location cloud. Ce n'est pas du matériel grand public. Les utilisateurs doivent être à l'aise avec la location de GPU dans le cloud (Lambda Labs, AWS, etc.) et avec l'environnement Linux.
L'autoresearch est une avancée impressionnante, mais elle reste expérimentale. Les agents trouvent des optimisations locales, pas nécessairement des percées fondamentales. La reproductibilité de certaines améliorations n'est pas encore garantie, et le système nécessite une supervision humaine pour valider les modifications avant de les intégrer.
Si vous suivez les projets de Karpathy, vous connaissez peut-être nanoGPT, son projet précédent. La différence principale réside dans la complétude. NanoGPT se concentrait sur le pré-entraînement d'un modèle de type GPT. Nanochat couvre l'ensemble du pipeline, du tokenizer BPE à l'interface web, en passant par le fine-tuning et le RLHF. C'est la différence entre construire un moteur et construire une voiture complète.
Par rapport aux LLM commerciaux (ChatGPT, Claude, Gemini), la comparaison n'a pas vraiment de sens. Ces modèles ont été entraînés avec des budgets de dizaines de millions de dollars, sur des milliers de GPU pendant des mois. Nanochat est un microscope pour comprendre comment ces modèles fonctionnent, pas un concurrent.
Vous êtes étudiant ou chercheur en IA et souhaitez comprendre le pipeline complet d'entraînement d'un LLM. Vous êtes développeur et voulez expérimenter avec l'architecture des modèles de langage. Vous êtes CTO et avez besoin d'estimer les coûts et la faisabilité d'un projet LLM interne. Vous êtes formateur et cherchez un support pratique pour enseigner le deep learning. Vous êtes passionné par l'IA et voulez voir de l'intérieur comment fonctionne un ChatGPT.
Vous cherchez un chatbot prêt à l'emploi pour votre entreprise. Vous n'avez aucune expérience en programmation ou en machine learning. Vous avez besoin d'un modèle fiable et sécurisé pour des utilisateurs finaux. Vous n'avez pas de budget pour la location de GPU cloud.
Nanochat seul serait déjà un projet remarquable : la démocratisation de l'entraînement des LLM, rendue accessible pour le prix d'un dîner dans un bon restaurant. Mais c'est autoresearch qui marque un véritable tournant. L'idée que des agents IA puissent itérer de manière autonome sur le processus d'entraînement, découvrir des optimisations que les humains avaient manquées et organiser leurs recherches comme une équipe structurée, cela redéfinit la manière dont nous concevons la recherche en intelligence artificielle.
Avec 42 900 étoiles sur GitHub, une communauté active et l'engagement de figures comme le PDG de Shopify, nanochat est devenu bien plus qu'un projet éducatif. C'est un laboratoire ouvert où s'inventent les méthodes de recherche en IA de demain. Et à 100 dollars l'entrée, le ticket n'a jamais été aussi abordable.

Aucun engagement, des prix pour vous aider à augmenter votre prospection.
Vous n'avez pas besoin de crédits si vous voulez simplement envoyer des emails ou faire des actions sur LinkedIn
Peuvent être utilisés pour :
Trouver Emails
Action IA
Trouver des Numéros
Vérifier des Emails