Comment transformer une image en texte avec l'OCR de Drive ?

Il arrive que certaines images contiennent du texte et qu’on souhaite numériser ce dernier. La fonction de reconnaissance optique des caractères de Google Drive va vous faciliter grandement la tâche.

Découvrez dans ce tutoriel les grandes étapes de la transformation d’un texte contenu sur une image, du moins pour les formats les plus populaires que sont le jpg, png ou gif. Les PDF sont également supportés par l’OCR de Drive.

Pour ce faire, vous allez utilisez 2 services en ligne de Google : Drive pour le stockage de l’image et Docs pour le traitement.

1. Importer votre image pour l’OCR

Pour utiliser Drive, vous devrez être détenteur d’un compte Google gratuit. Si vous utilisez une adresse Gmail, cela sera bien suffisant pour vous connecter à l’interface de Google Drive. Une fois dans votre environnement, procédez à l’importation du fichier image.

Vous disposez pour cela de 2 moyens : soit en ouvrant le menu Nouveau puis Importer un fichier, soit en faisant glisser le fichier directement dans la zone centrale de Drive (du moins si vous utilisez un navigateur moderne).

Importation d'une image dans Drive pour OCR

2. Lancer la reconnaissance des caractères

Pour cela, vous n’aurez rien d’autre à faire que d’ouvrir le fichier fraîchement importé dans votre traitement de texte Google Docs. Le menu contextuel vous offre cette possibilité.

Ouvrir il'mage avec Docs

Il est préférable que votre image affiche un bon contraste entre les caractères et son fond, que le lissage soit correct et que le texte soit bien à peu près horizontal. Si besoin, utilisez un outil de retouche avant le traitement car il pourrait ne pas fonctionner.

Après quelques secondes, Docs nous génère un texte en dur dans notre éditeur, tout en prenant soin de nous afficher l’image originale afin de procéder à d’éventuelles corrections.

Test de la reconnaissance de caractères avec Google Drive

Notons que cette technique peut s’avérer très utile dans le cadre d’une gestion de papiers personnels car les documents ainsi numérisés pourront alors faire l’objet d’une recherche.

Puissance et limites de l’outil de reconnaissance de caractères de Drive

Ce outil gratuit de digitalisation du papier est d’autant plus appréciable qu’il supporte plus de 200 languages. Cela va du français, à l’anglais en passant par l’allemand, l’espagnol, le grec, le coréen, l’estonien, le mongol, le zoulou, le tibétain et au moins 190 autres langues.

Nous l’avons testé avec succès sur différents types d’images (que ce soit en termes de format ou de mise en forme). Un formulaire CERFA de l’administration française n’aura posé aucun problème, à l’inverse d’une vieille coupure de presse datant de la fin de la guerre.

Dans ce dernier cas, l’organisation en colonnes et certaines polices un peu passées n’auront pas facilité la tâche de notre OCR puisque certaines zones du texte sont tout bonnement absentes du document final.

Reconnaissance des caractères limitée sur une vieille coupure de presse

Drive va par exemple rajouter un accent à un caractère surplombé par une tâche d’encre, ou ignorer des textes dont la taille de police est trop petite. Certains titres tout à fait lisibles ici ne sont pas reproduits non plus.

Peut encore mieux faire…

Publié Le 12/05/2015 à 09:37 par



Ajouter un commentaire…

*