Chandra OCR : l'IA Open Source Qui Lit Enfin les Tableaux et l'Écriture Manuscrite

Niels
Niels Co-founder
Publié le 27 mars 2026Mis à jour le 1 avr. 2026

Le problème que personne n'a vraiment résolu : lire des documents complexes avec l'IA

L'OCR (reconnaissance optique de caractères) existe depuis des décennies, mais quiconque a essayé de numériser un document contenant des tableaux complexes, de l'écriture manuscrite ou des équations mathématiques sait que les résultats sont souvent décevants. Les cellules fusionnées se mélangent, les colonnes se décalent, le manuscrit devient illisible, et les formules sont tout simplement ignorées.

Chandra OCR, développé par Datalab, une startup IA basée à Brooklyn, s'attaque précisément à ce problème. Sa deuxième version, Chandra 2, un modèle de 4 milliards de paramètres, atteint 85,9 % sur le benchmark olmOCR, le positionnant comme le meilleur modèle OCR open source disponible. Il supporte plus de 90 langues, produit des sorties structurées en Markdown, HTML ou JSON avec des métadonnées de layout complètes, et gère les cas complexes (tableaux avec cellules fusionnées, écriture manuscrite, équations LaTeX, formulaires avec cases à cocher) que les solutions classiques échouent à traiter.

Chandra Banner

Datalab, fondée en juin 2024 par Vik Paruchuri et Sandy Kwon, a levé 3,5 millions de dollars en seed auprès de Pebblebed. Le code est sous licence Apache 2.0, et les poids du modèle sous OpenRAIL-M modifié (gratuit pour les startups avec moins de 2 millions de dollars de revenus).

Le dépôt GitHub cumule déjà 4 700 étoiles, un signe fort d'adoption dans une communauté de développeurs de plus en plus intéressée par les alternatives open source aux API propriétaires pour le traitement de documents. L'arrivée de Chandra 2 en mars 2026, avec ses améliorations de 12 % en multilingue et son score record sur olmOCR, a ravivé l'intérêt pour le projet.

Comment Chandra OCR fonctionne : le décodage pleine page

Ce qui distingue Chandra OCR de ses prédécesseurs, y compris des propres outils antérieurs de Datalab (Marker et Surya), c'est son approche de décodage pleine page.

Les systèmes OCR traditionnels fonctionnent en pipeline : d'abord segmenter le document en blocs (texte, tableau, image), puis traiter chaque bloc séparément. Cette approche fonctionne raisonnablement pour des documents simples, mais elle échoue dès que le layout devient complexe. Un tableau dont les cellules fusionnées chevauchent plusieurs colonnes, ou une page avec un mélange de texte imprimé et manuscrit, mettent en difficulté les pipelines de segmentation.

Chandra adopte une approche radicalement différente. Basé sur un modèle vision-language (crédité Qwen3 VL), il traite la page entière en une seule passe. Le modèle "voit" la page comme un humain la verrait : il identifie simultanément les types de contenu, extrait et légende les images, préserve les structures tabulaires (y compris colspan et rowspan), reconstruit les formulaires, et traite l'écriture manuscrite et les équations mathématiques.

Le résultat est une sortie structurée qui conserve la hiérarchie logique du document original. Un tableau HTML produit par Chandra conserve ses cellules fusionnées intactes. Une équation est rendue en LaTeX. Un formulaire préserve la relation entre les labels et les cases à cocher.

L'inférence peut se faire localement via Hugging Face Transformers ou via un serveur vLLM haute performance. En mode vLLM sur GPU H100, Chandra traite jusqu'à 4 pages par seconde, soit potentiellement 345 000 pages par jour. En mode concurrent avec 96 instances parallèles, le débit atteint 1,44 page par seconde par instance.

L'installation est directe : pip install chandra-ocr suivi de chandra input.pdf output/ en ligne de commande. Une API Python via InferenceManager est également disponible pour l'intégration dans des pipelines de traitement.

Benchmarks : Chandra 2 face à la concurrence

Le benchmark olmOCR, devenu une référence dans la communauté, mesure la capacité des modèles à extraire correctement du texte structuré à partir de documents complexes. Voici comment Chandra 2 se positionne.

Modèle

Score olmOCR global

Tableaux

Maths

En-têtes/Pieds

Chandra 2

85,9 % (SOTA)

89,9 %

89,3 %

92,5 %

dots.ocr

83,9 %

-

-

-

Chandra 1

83,1 %

-

-

-

olmOCR 2

78,5 %

-

-

-

DeepSeek OCR

75,4 %

-

-

-

Gemini 2.5 Flash

-

-

-

-

Les performances de Chandra 2 sont particulièrement impressionnantes sur les tableaux (89,9 %), les équations mathématiques (89,3 %) et les en-têtes/pieds de page (92,5 %). Ce sont précisément les zones où les autres solutions décrochent.

En multilingue, Chandra 2 atteint une moyenne de 77,8 % sur 43 langues, contre 67,6 % pour Gemini 2.5 Flash. Ce score de 10 points de plus en multilingue est significatif pour les organisations qui traitent des documents dans plusieurs langues.

Les spécifications techniques : 4 milliards de paramètres, support de 90+ langues, un maximum de 8 192 tokens en sortie. Des versions quantifiées (8B et 2B) sont disponibles commercialement pour les déploiements à ressources contraintes.

Cas d'usage concrets : des factures aux archives historiques

La capacité de Chandra à traiter des documents complexes ouvre des cas d'usage variés dans différents secteurs.

En finance et comptabilité, l'extraction de données à partir de factures, relevés bancaires et rapports financiers est une tâche répétitive et coûteuse. Chandra peut extraire les tableaux de chiffres en conservant la structure des cellules fusionnées, un point critique pour les bilans financiers où les sous-totaux couvrent plusieurs colonnes. Un utilisateur rapporté dans les discussions communautaires (Purchaser.ai) mentionne des économies à six chiffres grâce à l'automatisation de ce type de traitement.

En juridique, la numérisation de contrats, de décisions de justice et de documents réglementaires bénéficie de la capacité de Chandra à préserver la structure hiérarchique des documents. Les numéros d'articles, les paragraphes et les tableaux de référence restent correctement associés.

Pour les archives et la recherche historique, le support de l'écriture manuscrite et des 90+ langues fait de Chandra un outil précieux pour numériser des documents d'archives, des carnets de notes ou des correspondances historiques.

En éducation et recherche, la capacité à extraire des équations en LaTeX est un différenciateur rare. Les articles scientifiques, les manuels et les examens contenant des formules mathématiques peuvent être numérisés avec une fidélité que les autres OCR ne peuvent pas offrir.

Pour les pipelines RAG et les applications IA, Chandra peut servir de préprocesseur de documents pour alimenter des systèmes de recherche augmentée. Les sorties JSON avec bounding boxes permettent un indexage fin et une recherche par zones dans les documents.

Installation et déploiement : du poste de travail au serveur de production

Chandra offre plusieurs options de déploiement selon vos besoins et vos ressources.

Pour un usage local et ponctuel, l'installation via pip est la plus directe. La commande pip install chandra-ocr installe le modèle et ses dépendances. L'utilisation en ligne de commande (chandra input.pdf output/) est suffisante pour traiter des documents individuels. Un GPU est recommandé mais pas strictement nécessaire pour des volumes faibles.

Pour un usage en production avec un débit élevé, le déploiement via vLLM est l'option recommandée. Sur un GPU H100, vLLM peut servir Chandra à 4 pages par seconde. Pour les volumes importants (centaines de milliers de pages), une configuration multi-GPU avec vLLM et 96 instances concurrentes permet d'atteindre un débit industriel.

L'API Python via InferenceManager permet d'intégrer Chandra dans des pipelines existants. Le code est structuré pour s'interfacer naturellement avec les frameworks de traitement de documents (Haystack, LlamaIndex, etc.).

Le modèle est disponible sur Hugging Face sous le nom datalab-to/chandra, et le dépôt GitHub (github.com/datalab-to/chandra) cumule 4 700 étoiles. Un playground gratuit est accessible sur datalab.to pour tester le modèle sans installation.

Le modèle de licence : gratuit pour les startups, payant pour les grandes entreprises

La licence de Chandra mérite une attention particulière car elle diffère selon les composants.

Le code source est sous licence Apache 2.0, ce qui signifie qu'il peut être utilisé, modifié et redistribué librement, y compris dans des produits commerciaux.

Les poids du modèle sont sous une licence OpenRAIL-M modifiée. La distinction importante est la suivante : les startups et entreprises dont le revenu annuel est inférieur à 2 millions de dollars peuvent utiliser les poids gratuitement. Au-delà de ce seuil, une licence commerciale est nécessaire.

Cette approche de licence à deux vitesses est de plus en plus courante dans l'écosystème IA open source. Elle permet à Datalab de soutenir la communauté open source tout en générant des revenus auprès des grandes entreprises qui bénéficient le plus du modèle.

Datalab propose également une API hébergée sur datalab.to avec un playground gratuit pour les tests et des tiers payants pour la production. Les versions quantifiées (8B et 2B paramètres) sont disponibles exclusivement via des licences commerciales, ciblant les déploiements à ressources limitées où la taille réduite du modèle est un avantage.

Chandra face aux alternatives OCR : quand le choisir et quand ne pas

Le marché de l'OCR est vaste, et le meilleur choix dépend de votre cas d'usage spécifique.

Face à Tesseract, le standard historique open source, Chandra gagne largement sur les documents complexes (tableaux, manuscrit, multilingue). Tesseract reste pertinent pour l'OCR simple de texte imprimé, où il est plus léger et plus rapide. Si vos documents sont essentiellement du texte imprimé bien structuré, Tesseract suffit. Dès que des tableaux ou du manuscrit entrent en jeu, Chandra prend l'avantage.

Face à DeepSeek OCR (75,4 % olmOCR), Chandra offre un gain de plus de 10 points de pourcentage. La différence est particulièrement marquée sur les tableaux et les documents multilingues.

Face à olmOCR 2 (78,5 %), le modèle associé au benchmark du même nom, Chandra dépasse de 7 points. L'avantage est notable mais moins spectaculaire, et olmOCR 2 peut être préférable dans certains cas d'usage spécifiques où ses optimisations brillent.

Face aux solutions propriétaires comme GPT-4o, Mistral OCR et Gemini 2.5 Flash, Chandra offre l'avantage de fonctionner en local sans dépendance API. Pour les organisations soumises à des contraintes de confidentialité (données financières, médicales, juridiques), le déploiement on-premise de Chandra élimine le risque de fuite de données vers des API tierces.

Face à PaddleOCR, l'alternative open source majeure pour le layout et les tableaux, Chandra se distingue par ses performances supérieures sur les documents les plus complexes, tandis que PaddleOCR offre un écosystème plus mature et une communauté plus large.

Solution

olmOCR

Manuscrit

Tableaux

Multilingue

Déploiement local

Chandra 2

85,9 %

Oui

Excellent

90+ langues

Oui

dots.ocr

83,9 %

Partiel

Bon

Variable

Variable

olmOCR 2

78,5 %

Limité

Correct

Variable

Oui

Tesseract

Faible

Non

Faible

100+ langues

Oui

GPT-4o

Variable

Oui

Bon

Multilingue

Non (API)

L'avenir de l'OCR : vers des documents vraiment compréhensibles par les machines

Chandra OCR 2 représente une étape importante dans l'évolution de l'OCR. En traitant la page entière comme une image et en utilisant un modèle vision-language pour la comprendre, Datalab a fait un pari architectural qui s'avère payant : les documents ne sont plus décomposés en morceaux indépendants mais compris dans leur globalité.

Pour les développeurs, Chandra simplifie considérablement les pipelines de traitement de documents. Au lieu de chaîner un détecteur de layout, un OCR texte, un extracteur de tableaux et un parseur de formules, un seul modèle gère tout. La sortie structurée (JSON avec bounding boxes) s'intègre naturellement dans les pipelines RAG et les applications d'extraction de données.

Pour les entreprises, l'opportunité est celle de l'automatisation d'un processus encore largement manuel. Des millions de documents papier et PDF sont traités manuellement chaque jour dans les secteurs financier, juridique et administratif. Un OCR capable de traiter correctement les tableaux et le manuscrit peut automatiser une fraction significative de ce travail.

L'enjeu pour Datalab sera de maintenir son avance dans un domaine qui attire de plus en plus d'acteurs. DeepSeek, Google (Gemini), OpenAI et les communautés open source investissent massivement dans l'OCR IA. Le rythme d'itération sera déterminant : entre Chandra 1 (83,1 %) et Chandra 2 (85,9 %), le gain de 2,8 points montre une progression régulière mais qui devra s'accélérer pour rester en tête.

Le dépôt GitHub (4 700 étoiles) et la communauté active sur Discord témoignent d'un engagement réel de la part des développeurs. Pour ceux qui traitent régulièrement des documents complexes et qui sont lassés des approximations des OCR classiques, Chandra mérite d'être testé. Le playground gratuit sur datalab.to permet de le faire sans aucun engagement.

logo emelia

Découvrez Emelia, votre outil de prospection tout en un.

logo emelia

Des prix clairs, transparents et sans frais cachés.

Aucun engagement, des prix pour vous aider à augmenter votre prospection.

Start

37€

/mois

Envoi d'emails illimités

Connecter 1 compte LinkedIn

Actions LinkedIn illimitées

Email Warmup inclus

Scraping illimité

Contacts illimités

Grow

Populaire
arrow-right
97€

/mois

Envoi d'emails illimités

Jusqu'à 5 comptes LinkedIn

Actions LinkedIn illimitées

Warmup illimité

Contacts illimités

1 intégration CRM

Scale

297€

/mois

Envoi d'emails illimités

Jusqu'à 20 comptes LinkedIn

Actions LinkedIn illimitées

Warmup illimité

Contacts illimités

Multi CRM Connexion

Unlimited API Calls

Crédits(optionnel)

Vous n'avez pas besoin de crédits si vous voulez simplement envoyer des emails ou faire des actions sur LinkedIn

Peuvent être utilisés pour :

Trouver Emails

Action IA

Trouver des Numéros

Vérifier des Emails

1 000
5 000
10 000
50 000
100 000
1 000 Emails trouvés
1 000 IA Actions
20 Numéros
4 000 Vérifications
19par mois

Découvrez d'autres articles qui pourraient vous intéresser !

Voir tous les articles
Logiciels
Publié le 19 juin 2025

Les 7 meilleures alternatives à Zoom en 2026

MathieuMathieu Co-founder
Lire la suite
NielsNiels Co-founder
Lire la suite
NielsNiels Co-founder
Lire la suite
MarieMarie Head Of Sales
Lire la suite
NielsNiels Co-founder
Lire la suite
Made with ❤ for Growth Marketers by Growth Marketers
Copyright © 2026 Emelia All Rights Reserved