L'OCR (reconnaissance optique de caractères) existe depuis des décennies, mais quiconque a essayé de numériser un document contenant des tableaux complexes, de l'écriture manuscrite ou des équations mathématiques sait que les résultats sont souvent décevants. Les cellules fusionnées se mélangent, les colonnes se décalent, le manuscrit devient illisible, et les formules sont tout simplement ignorées.
Chandra OCR, développé par Datalab, une startup IA basée à Brooklyn, s'attaque précisément à ce problème. Sa deuxième version, Chandra 2, un modèle de 4 milliards de paramètres, atteint 85,9 % sur le benchmark olmOCR, le positionnant comme le meilleur modèle OCR open source disponible. Il supporte plus de 90 langues, produit des sorties structurées en Markdown, HTML ou JSON avec des métadonnées de layout complètes, et gère les cas complexes (tableaux avec cellules fusionnées, écriture manuscrite, équations LaTeX, formulaires avec cases à cocher) que les solutions classiques échouent à traiter.
Datalab, fondée en juin 2024 par Vik Paruchuri et Sandy Kwon, a levé 3,5 millions de dollars en seed auprès de Pebblebed. Le code est sous licence Apache 2.0, et les poids du modèle sous OpenRAIL-M modifié (gratuit pour les startups avec moins de 2 millions de dollars de revenus).
Le dépôt GitHub cumule déjà 4 700 étoiles, un signe fort d'adoption dans une communauté de développeurs de plus en plus intéressée par les alternatives open source aux API propriétaires pour le traitement de documents. L'arrivée de Chandra 2 en mars 2026, avec ses améliorations de 12 % en multilingue et son score record sur olmOCR, a ravivé l'intérêt pour le projet.
Ce qui distingue Chandra OCR de ses prédécesseurs, y compris des propres outils antérieurs de Datalab (Marker et Surya), c'est son approche de décodage pleine page.
Les systèmes OCR traditionnels fonctionnent en pipeline : d'abord segmenter le document en blocs (texte, tableau, image), puis traiter chaque bloc séparément. Cette approche fonctionne raisonnablement pour des documents simples, mais elle échoue dès que le layout devient complexe. Un tableau dont les cellules fusionnées chevauchent plusieurs colonnes, ou une page avec un mélange de texte imprimé et manuscrit, mettent en difficulté les pipelines de segmentation.
Chandra adopte une approche radicalement différente. Basé sur un modèle vision-language (crédité Qwen3 VL), il traite la page entière en une seule passe. Le modèle "voit" la page comme un humain la verrait : il identifie simultanément les types de contenu, extrait et légende les images, préserve les structures tabulaires (y compris colspan et rowspan), reconstruit les formulaires, et traite l'écriture manuscrite et les équations mathématiques.
Le résultat est une sortie structurée qui conserve la hiérarchie logique du document original. Un tableau HTML produit par Chandra conserve ses cellules fusionnées intactes. Une équation est rendue en LaTeX. Un formulaire préserve la relation entre les labels et les cases à cocher.
L'inférence peut se faire localement via Hugging Face Transformers ou via un serveur vLLM haute performance. En mode vLLM sur GPU H100, Chandra traite jusqu'à 4 pages par seconde, soit potentiellement 345 000 pages par jour. En mode concurrent avec 96 instances parallèles, le débit atteint 1,44 page par seconde par instance.
L'installation est directe : pip install chandra-ocr suivi de chandra input.pdf output/ en ligne de commande. Une API Python via InferenceManager est également disponible pour l'intégration dans des pipelines de traitement.
Le benchmark olmOCR, devenu une référence dans la communauté, mesure la capacité des modèles à extraire correctement du texte structuré à partir de documents complexes. Voici comment Chandra 2 se positionne.
Modèle | Score olmOCR global | Tableaux | Maths | En-têtes/Pieds |
|---|---|---|---|---|
Chandra 2 | 85,9 % (SOTA) | 89,9 % | 89,3 % | 92,5 % |
dots.ocr | 83,9 % | - | - | - |
Chandra 1 | 83,1 % | - | - | - |
olmOCR 2 | 78,5 % | - | - | - |
DeepSeek OCR | 75,4 % | - | - | - |
Gemini 2.5 Flash | - | - | - | - |
Les performances de Chandra 2 sont particulièrement impressionnantes sur les tableaux (89,9 %), les équations mathématiques (89,3 %) et les en-têtes/pieds de page (92,5 %). Ce sont précisément les zones où les autres solutions décrochent.
En multilingue, Chandra 2 atteint une moyenne de 77,8 % sur 43 langues, contre 67,6 % pour Gemini 2.5 Flash. Ce score de 10 points de plus en multilingue est significatif pour les organisations qui traitent des documents dans plusieurs langues.
Les spécifications techniques : 4 milliards de paramètres, support de 90+ langues, un maximum de 8 192 tokens en sortie. Des versions quantifiées (8B et 2B) sont disponibles commercialement pour les déploiements à ressources contraintes.
La capacité de Chandra à traiter des documents complexes ouvre des cas d'usage variés dans différents secteurs.
En finance et comptabilité, l'extraction de données à partir de factures, relevés bancaires et rapports financiers est une tâche répétitive et coûteuse. Chandra peut extraire les tableaux de chiffres en conservant la structure des cellules fusionnées, un point critique pour les bilans financiers où les sous-totaux couvrent plusieurs colonnes. Un utilisateur rapporté dans les discussions communautaires (Purchaser.ai) mentionne des économies à six chiffres grâce à l'automatisation de ce type de traitement.
En juridique, la numérisation de contrats, de décisions de justice et de documents réglementaires bénéficie de la capacité de Chandra à préserver la structure hiérarchique des documents. Les numéros d'articles, les paragraphes et les tableaux de référence restent correctement associés.
Pour les archives et la recherche historique, le support de l'écriture manuscrite et des 90+ langues fait de Chandra un outil précieux pour numériser des documents d'archives, des carnets de notes ou des correspondances historiques.
En éducation et recherche, la capacité à extraire des équations en LaTeX est un différenciateur rare. Les articles scientifiques, les manuels et les examens contenant des formules mathématiques peuvent être numérisés avec une fidélité que les autres OCR ne peuvent pas offrir.
Pour les pipelines RAG et les applications IA, Chandra peut servir de préprocesseur de documents pour alimenter des systèmes de recherche augmentée. Les sorties JSON avec bounding boxes permettent un indexage fin et une recherche par zones dans les documents.
Chandra offre plusieurs options de déploiement selon vos besoins et vos ressources.
Pour un usage local et ponctuel, l'installation via pip est la plus directe. La commande pip install chandra-ocr installe le modèle et ses dépendances. L'utilisation en ligne de commande (chandra input.pdf output/) est suffisante pour traiter des documents individuels. Un GPU est recommandé mais pas strictement nécessaire pour des volumes faibles.
Pour un usage en production avec un débit élevé, le déploiement via vLLM est l'option recommandée. Sur un GPU H100, vLLM peut servir Chandra à 4 pages par seconde. Pour les volumes importants (centaines de milliers de pages), une configuration multi-GPU avec vLLM et 96 instances concurrentes permet d'atteindre un débit industriel.
L'API Python via InferenceManager permet d'intégrer Chandra dans des pipelines existants. Le code est structuré pour s'interfacer naturellement avec les frameworks de traitement de documents (Haystack, LlamaIndex, etc.).
Le modèle est disponible sur Hugging Face sous le nom datalab-to/chandra, et le dépôt GitHub (github.com/datalab-to/chandra) cumule 4 700 étoiles. Un playground gratuit est accessible sur datalab.to pour tester le modèle sans installation.
La licence de Chandra mérite une attention particulière car elle diffère selon les composants.
Le code source est sous licence Apache 2.0, ce qui signifie qu'il peut être utilisé, modifié et redistribué librement, y compris dans des produits commerciaux.
Les poids du modèle sont sous une licence OpenRAIL-M modifiée. La distinction importante est la suivante : les startups et entreprises dont le revenu annuel est inférieur à 2 millions de dollars peuvent utiliser les poids gratuitement. Au-delà de ce seuil, une licence commerciale est nécessaire.
Cette approche de licence à deux vitesses est de plus en plus courante dans l'écosystème IA open source. Elle permet à Datalab de soutenir la communauté open source tout en générant des revenus auprès des grandes entreprises qui bénéficient le plus du modèle.
Datalab propose également une API hébergée sur datalab.to avec un playground gratuit pour les tests et des tiers payants pour la production. Les versions quantifiées (8B et 2B paramètres) sont disponibles exclusivement via des licences commerciales, ciblant les déploiements à ressources limitées où la taille réduite du modèle est un avantage.
Le marché de l'OCR est vaste, et le meilleur choix dépend de votre cas d'usage spécifique.
Face à Tesseract, le standard historique open source, Chandra gagne largement sur les documents complexes (tableaux, manuscrit, multilingue). Tesseract reste pertinent pour l'OCR simple de texte imprimé, où il est plus léger et plus rapide. Si vos documents sont essentiellement du texte imprimé bien structuré, Tesseract suffit. Dès que des tableaux ou du manuscrit entrent en jeu, Chandra prend l'avantage.
Face à DeepSeek OCR (75,4 % olmOCR), Chandra offre un gain de plus de 10 points de pourcentage. La différence est particulièrement marquée sur les tableaux et les documents multilingues.
Face à olmOCR 2 (78,5 %), le modèle associé au benchmark du même nom, Chandra dépasse de 7 points. L'avantage est notable mais moins spectaculaire, et olmOCR 2 peut être préférable dans certains cas d'usage spécifiques où ses optimisations brillent.
Face aux solutions propriétaires comme GPT-4o, Mistral OCR et Gemini 2.5 Flash, Chandra offre l'avantage de fonctionner en local sans dépendance API. Pour les organisations soumises à des contraintes de confidentialité (données financières, médicales, juridiques), le déploiement on-premise de Chandra élimine le risque de fuite de données vers des API tierces.
Face à PaddleOCR, l'alternative open source majeure pour le layout et les tableaux, Chandra se distingue par ses performances supérieures sur les documents les plus complexes, tandis que PaddleOCR offre un écosystème plus mature et une communauté plus large.
Solution | olmOCR | Manuscrit | Tableaux | Multilingue | Déploiement local |
|---|---|---|---|---|---|
Chandra 2 | 85,9 % | Oui | Excellent | 90+ langues | Oui |
dots.ocr | 83,9 % | Partiel | Bon | Variable | Variable |
olmOCR 2 | 78,5 % | Limité | Correct | Variable | Oui |
Tesseract | Faible | Non | Faible | 100+ langues | Oui |
GPT-4o | Variable | Oui | Bon | Multilingue | Non (API) |
Chandra OCR 2 représente une étape importante dans l'évolution de l'OCR. En traitant la page entière comme une image et en utilisant un modèle vision-language pour la comprendre, Datalab a fait un pari architectural qui s'avère payant : les documents ne sont plus décomposés en morceaux indépendants mais compris dans leur globalité.
Pour les développeurs, Chandra simplifie considérablement les pipelines de traitement de documents. Au lieu de chaîner un détecteur de layout, un OCR texte, un extracteur de tableaux et un parseur de formules, un seul modèle gère tout. La sortie structurée (JSON avec bounding boxes) s'intègre naturellement dans les pipelines RAG et les applications d'extraction de données.
Pour les entreprises, l'opportunité est celle de l'automatisation d'un processus encore largement manuel. Des millions de documents papier et PDF sont traités manuellement chaque jour dans les secteurs financier, juridique et administratif. Un OCR capable de traiter correctement les tableaux et le manuscrit peut automatiser une fraction significative de ce travail.
L'enjeu pour Datalab sera de maintenir son avance dans un domaine qui attire de plus en plus d'acteurs. DeepSeek, Google (Gemini), OpenAI et les communautés open source investissent massivement dans l'OCR IA. Le rythme d'itération sera déterminant : entre Chandra 1 (83,1 %) et Chandra 2 (85,9 %), le gain de 2,8 points montre une progression régulière mais qui devra s'accélérer pour rester en tête.
Le dépôt GitHub (4 700 étoiles) et la communauté active sur Discord témoignent d'un engagement réel de la part des développeurs. Pour ceux qui traitent régulièrement des documents complexes et qui sont lassés des approximations des OCR classiques, Chandra mérite d'être testé. Le playground gratuit sur datalab.to permet de le faire sans aucun engagement.

Aucun engagement, des prix pour vous aider à augmenter votre prospection.
Vous n'avez pas besoin de crédits si vous voulez simplement envoyer des emails ou faire des actions sur LinkedIn
Peuvent être utilisés pour :
Trouver Emails
Action IA
Trouver des Numéros
Vérifier des Emails