2026-06-06 · 5 min read
OCR de relevé bancaire : comment ça marche et quelle fiabilité
L'OCR (reconnaissance optique de caractères) transforme l'image d'un document en texte. Appliqué à un relevé bancaire, l'enjeu n'est pas seulement de lire les caractères, mais de reconstruire un tableau : la bonne date, le bon libellé et le bon montant sur chaque ligne.
Pourquoi un OCR générique se trompe
Un relevé est mis en page pour l'œil, pas pour la machine : colonnes visuelles, libellés qui débordent sur deux lignes, soldes répétés en bas de page. Un OCR générique lit les caractères mais perd la structure — il fusionne deux lignes, en coupe une en deux, ou en saute une, sans prévenir.
Ce qui rend une extraction fiable
- Des adaptateurs par banque : connaître le format de date, la devise, les préfixes de libellé propres à chaque banque.
- Plusieurs lectures combinées : recouper différentes extractions réduit les erreurs de structure.
- Un contrôle de cohérence : solde initial + crédits − débits = solde final. Sinon, une ligne manque.
L'approche de bankpdf
bankpdf combine trois extractions (markdown, table HTML, modèle de vision) puis fusionne en gardant le maximum de transactions distinctes, et rapproche le total avec le solde déclaré du relevé. C'est ce contrôle qui transforme « probablement juste » en « vérifié ». Le détail technique est expliqué dans l'article sur la triple extraction.