L'OCR, c'est la traduction d'un texte qui apparaît sur une image en vrai texte. Genre vous scannez une coupure de presse ou une lettre et vous voulez en récupérer le contenu, le texte, en version légère, modifiable et stockable facilement, bref un fichier texte. C'est aussi ce qui est utilisé par les automates de La Poste pour lire les adresses sur les enveloppes. Ou par les banques, pour lire les chèques.
Je me souviens d'avoir testé ça il y a plus de 10 ans avec le logiciel privateur livré avec mon imprimante-scanner (une Lexmark X83 de 2002 \o/ ). Le résultat était… très décevant et c'est peu dire. Pour vous faire une idée de ce que ça donnait : essayez gocr à l'heure actuelle. No troll. Il faut utiliser des formats de fichiers définis (pnn par exemple), ce qui impose une conversion après scan. On obtient un texte avec énormément d'erreurs de reconnaissance et, pour peu que la page soit un peu inclinée, même très très légèrement et pouf, le texte qui sort de gocr est juste illisible. Ne parlons même pas de reconnaître une écriture manuscrite.
J'avais entendu parler de tesseract dans une conférence : « Scanner de livres DIY » par Benjamin Sonntag au POOP 2014 (https://lepoop.org/2014/downloads.html ). Vinci nous annonce un très bon taux de reconnaissance sur des caractères d'imprimerie même si y'a du travail pré-OCR à effectuer pour optimiser l'OCR : centrage, cadrage de la zone de texte, etc. tesseract est packagé dans Debian GNU/Linux.
En effet, tesseract fonctionne bien sur du texte dactylographié. Plusieurs de mes derniers shaarlis sont des scans d'un journal passé entre les mains de tesseract : http://shaarli.guiguishow.info/?jVWjqg , http://shaarli.guiguishow.info/?prbwWA , http://shaarli.guiguishow.info/?4McGxA et http://shaarli.guiguishow.info/?cTJePw . En gros : tesseract gère tout seul le fait que le texte source soit organisé en colonnes et le nombre de fautes est assez faible : 4/5 fautes par article, en comptant la ponctuation et les accents.
Conseil : scannez en noir et blanc, ça fonctionne mieux. Je pense que, le journal étant gris, le contraste est meilleur avec un scan en noir et blanc (car le gris disparaît, du coup) qu'en couleur.
Je casse le rêve tout de suite : la reconnaissance de texte manuscrit est totalement minable. J'ai essayé plusieurs écritures, sur un fond totalement blanc (pas de carreaux qui ruinent l'OCR) : rien à en tirer.
Anecdote : de ce que j'entends autour de moi, avant que Google contribue à tesseract (pour son projet Google Books), ce soft était lui aussi à la ramasse. Google partout. Tristesse.
Exemple d'utilisation :
tesseract -l fra monimage.png stdout