Retour au menu principal

Pour tout problème de lecture audio et vidéo, installez VLC ici
L'OCR Tesseract et Linux Slackware
Logiciel Pierre Brochard 2019-08-07T13:53:57Z
admin
Commentaire :

CORPS DU DOCUMENT


Installation de Tesseract 42019-08-07T13:53:57Zadmin

Je présente ci-dessous l'installation du logiciel de reconnaissance de caractères ou OCR Tesseract sur une distribution Linux Slackware dans sa version current du 31 juillet 2019.

Tout d'abord il faut ramener les paquets et les scripts perl suivants :

Tesseract version 4 tesseract-4.1.0-x86_64-1cf.txztesseract
Leptonicaleptonica-1.78.0-x86_64-1cf.txzleptonica
Couplage avec Xsane
download xsane2tess.pl 
Couplage Xsane avec sauvegarde des images scannées
downloadxsane2tess-i.pl 
Couplage Xsane avec images et paragraphes
downloadxsane2tess-ip.pl 

On fait ensuite en étant root (administrateur du système Linux) :

En mode utilisateur normal, on lance xsane et on le configure comme suit :

On peut ensuite tester :

J'ai testé avec un manuel de 40 pages et un autre de 127 pages avec images et blocs de texte et le texte est reconnu avec très peu de fautes.

J'ai aussi testé avec un livre que j'ai écrit il y a longtemps et que j'ai toujours eu la flemme de retaper et j'ai peu de choses à corriger malgré l'âge du papier et des caractères d'une très ancienne machine à écrire (celle de ma grand-mère).

La version 4 de Tesseract ajoute un réseau neuronal de type LSTM à la version 3. LSTM veut dire mémoire à court et long terme et les réseaux de ce type peuvent encoder des dépendances lointaines. Ils sont un cas particulier des réseaux neuronaux récurrents (RNN). J'ai testé l'influence de cet ajout en utilisant l'option -oem 0 qui le désactive. Avec cette désactivation, la reconnaissance de caractères de mes essais est nettement moins bonne et plus sensible à la qualité des images issues du scanner. On peut trouver ici quelques explications sur ces réseaux neuronaux très à la mode aujourd'hui.